OpenAI ra mắt gpt-realtime: AI giọng nói giàu cảm xúc, hướng đến doanh nghiệp

OpenAI vừa công bố gpt-realtime, mẫu AI giọng nói mới giúp doanh nghiệp tạo ứng dụng chăm sóc khách hàng, dịch trực tiếp hay trợ lý học tập với giọng nói tự nhiên và khả năng làm theo hướng dẫn phức tạp. Mẫu AI này hiện có trên Realtime API cùng nhiều tính năng nâng cấp.

OpenAI nâng cấp thị trường AI giọng nói cho doanh nghiệp

OpenAI vừa cho ra mắt gpt-realtime, mô hình AI giọng nói mới nhất tập trung vào đối tượng doanh nghiệp. Gpt-realtime hướng đến các ứng dụng như tổng đài hỗ trợ khách hàng hay dịch thuật trực tiếp, nổi bật với khả năng biểu cảm tự nhiên và làm theo hướng dẫn phức tạp.

Những tính năng nổi bật của gpt-realtime

Giọng nói AI tự nhiên, âm sắc cảm xúc hơn các phiên bản trước.
Tuân thủ các chỉ dẫn phức tạp, ví dụ như "nói nhấn mạnh bằng giọng Pháp".
Hỗ trợ chuyển đổi ngôn ngữ ngay trong 1 câu thoại.
Nhận diện và phản hồi tín hiệu không lời như tiếng cười, tiếng thở dài.
Hoạt động theo mô hình speech-to-speech (chuyển đổi thoại trực tiếp), phù hợp hội thoại thời gian thực.

Các ứng dụng thực tế với khách hàng doanh nghiệp lớn

Trong buổi livestream giới thiệu, các khách hàng doanh nghiệp của OpenAI đã trình diễn các ứng dụng thực tế của gpt-realtime:

T-Mobile đưa AI voice agent hỗ trợ lựa chọn điện thoại mới cho khách hàng.
Zillow triển khai trợ lý giọng nói giúp người dùng tìm kiếm bất động sản phù hợp.

OpenAI cũng đã cập nhật các giọng nói mới (Cedar, Marin) cho API và đảm bảo mọi giọng nói sẵn có đều tương thích với gpt-realtime.

Cạnh tranh gay gắt trên thị trường voice AI doanh nghiệp

So với đối thủ ElevenLabs, Soundhound, Hume, Google, Mistral

ElevenLabs phát hành Conversation AI 2.0 hỗ trợ hội thoại tự nhiên.
Soundhound hợp tác ngành thức ăn nhanh triển khai AI qua drive-thru.
Hume trình làng EVI 3 tạo bản sao giọng AI cá nhân.
Mistral công bố Voxtral tối ưu cho dịch thoại.
Google tích hợp tính năng podcast hóa ghi chú trên NotebookLM.

OpenAI cho biết thế mạnh của gpt-realtime là thông minh hơn, hiểu âm thanh bản địa tốt và nhận tín hiệu vật lý trong cuộc đối thoại.

Hiệu suất và các chỉ số đánh giá mô hình

Điểm Big Bench Audio eval: 82,8% (cao hơn mẫu trước là 65,6%)
Điểm MultiChallenge audio benchmark: 30,5%
Chức năng gọi hàm (function calling) nâng cấp, tự truy cập đúng công cụ

Realtime API: Bổ sung tính năng cho tích hợp doanh nghiệp

Tích hợp nhanh các khả năng mới

Hỗ trợ MCP, nhận biết hình ảnh input theo thời gian thực.
Phục vụ nhiều kịch bản hội thoại xác thực như contact center nhờ hỗ trợ Session Initiation Protocol (SIP).
Lưu và tái sử dụng prompt trên API.
Giá giảm còn 32 USD cho 1 triệu input audio token, 64 USD cho output.

OpenAI với gpt-realtime tiếp tục gia tăng sức nóng cho thị trường AI giọng nói doanh nghiệp nhờ khả năng biểu cảm tự nhiên, tuân thủ chỉ đạo phức tạp và bảo mật. Với nhiều cải tiến về API và giá giảm, toàn bộ hệ sinh thái voice AI sẽ có thêm lựa chọn mạnh mẽ.