Liệu API Voice Realtime mới của OpenAI có là bước đột phá cách mạng?

#ai

Vừa qua, OpenAI mới ra Voice Realtime API, khiến cho giới công nghệ trầm trồ và thích thú. Đây là một bước tiến lớn trong lĩnh vực AI, đặc biệt là trong việc tạo ra những trải nghiệm tương tác bằng giọng nói tự nhiên và mượt mà hơn. Giờ đây, các nhà phát triển có thể sử dụng API này vào việc xây dựng AI voicebot của riêng họ, đảm bảo khả năng tương đương như Voice Chat GPT. Hãy cùng tìm hiểu kỹ hơn về công nghệ mới mẻ này trong bài viết sau đây.

Voice Realtime API là gì?

Realtime API, được ra mắt vào ngày 1 tháng 10, tương tự Chế độ Advanced Voice của Chat GPT. Nó hỗ trợ AI trò chuyện bằng các giọng có sẵn. Đồng thời, OpenAI cũng cung cấp tính năng đầu vào và đầu ra âm thanh trong Chat Completions API để đáp ứng những trường hợp không yêu cầu độ trễ thấp như Realtime API. Nhà phát triển có thể nhập văn bản hoặc âm thanh vào GPT-4o và nhận phản hồi bằng cả văn bản và âm thanh nếu muốn.
z5890938312683-7d0d02cdfefb180871479fd93a6c465c-1024x768.jpg

z5890938312683-7d0d02cdfefb180871479fd93a6c465c-1024x768.jpg

Vậy ở Việt Nam có AI nào đã tích hợp công nghệ Voice Chat như ChatGPT không? Câu trả lời chính là Preny AI. Đây là voicebot/chatbot có khả năng trò chuyện bằng tiếng Việt tự nhiên 100% và tốc độ phản hồi dưới 0,5 giây không hề thua kém Voice Realtime API của OpenAI. Doanh nghiệp Việt có thể tích hợp Preny vào nền tảng bán hàng của mình để tự động hóa quy trình sales, chăm sóc khách hàng lẫn marketing. Trải nghiệm ngay AI chatbot miễn phí Preny để thấy được tốc độ phản hồi bằng tiếng Việt siêu đỉnh của AI này.

Công dụng của Voice Realtime API

Đơn giản hóa quy trình hoạt động của voicebot

Với Realtime API và tính năng âm thanh trong Chat Completions API, các nhà phát triển không cần kết nối nhiều mô hình lại để tạo ra trải nghiệm giọng nói. Chỉ cần một lần gọi API là họ đã có thể tạo ra hội thoại tự nhiên.
Trước đây, để đạt được điều này, nhà phát triển phải sử dụng một loạt mô hình như Whisper cho nhận dạng giọng nói, một mô hình xử lý văn bản và cuối cùng là mô hình chuyển văn bản thành giọng nói. Cách này thường làm mất đi cảm xúc, ngữ điệu và gây ra độ trễ cao.
Giờ đây, với Chat Completions API, toàn bộ quy trình có thể được xử lý chỉ bằng một lần gọi API, dù tốc độ vẫn chưa nhanh như trò chuyện trực tiếp giữa con người. Realtime API cải thiện điều này bằng cách truyền trực tiếp đầu vào và đầu ra âm thanh, mang lại trải nghiệm tự nhiên hơn.

Tăng cường chất lượng, độ bảo mật

Realtime API hỗ trợ kết nối WebSocket liên tục để trao đổi tin nhắn với GPT-4o. Nó cũng tích hợp tính năng gọi chức năng, giúp trợ lý giọng nói phản hồi các yêu cầu của người dùng bằng cách thu thập thêm ngữ cảnh hoặc thực hiện các hành động. OpenAI cũng đã triển khai nhiều lớp bảo mật để giảm thiểu rủi ro lạm dụng, bao gồm giám sát tự động và đánh giá thủ công đối với các nội dung bị gắn cờ.

Chi phí Voice Realtime API là bao nhiêu?

API này sử dụng token để tạo văn bản và âm thanh. Giá cho mỗi 1 triệu token văn bản đầu vào là 5 đô la, trong khi đầu ra văn bản có giá 20 đô la. Với âm thanh, giá là 100 đô la cho đầu vào và 200 đô la cho đầu ra trên mỗi 1 triệu token.
OpenAI cũng tiết lộ kế hoạch nâng cấp Realtime API, bao gồm hỗ trợ hình ảnh và video, tăng giới hạn tốc độ, thêm tính năng lưu trữ bộ đệm, và mở rộng hỗ trợ sang mô hình GPT-4o mini. Công ty cũng sẽ tích hợp API này vào các SDK Python và Node.js của mình.

Việc OpenAI mới ra Voice Realtime API thực sự đã nâng tầm thị trường voicebot toàn cầu. Nhiều công ty giờ đây có thể tối ưu hóa voicebot của mình dựa trên API này. Và ở Việt Nam, công nghệ AI voicebot tiên tiến nhất chắc chắn sẽ là Preny AI. Trước khi quyết định có tích hợp sử dụng AI này không, bạn có thể trải nghiệm nó hoàn toàn miễn phí tại trang chủ của Askany.

Nguồn: OpenAI mới ra Voice Realtime API, liệu có phải là cuộc cách mạng mới?