Rime ra mắt Arcana TTS: Tạo giọng nói AI đa dạng giúp tăng 15% chuyển đổi cho thương hiệu lớn

Mô hình Arcana TTS của Rime giúp doanh nghiệp lớn cá nhân hóa trải nghiệm khách hàng qua cuộc gọi tự động, tăng tỷ lệ chuyển đổi lên đến 15%. Công nghệ tạo giọng nói AI này sử dụng dữ liệu đàm thoại tự nhiên, hỗ trợ đa ngôn ngữ và dễ dàng tùy biến cho nhiều lĩnh vực khác nhau.

Arcana TTS của Rime: Giải pháp tạo giọng nói AI đa dạng, linh hoạt

Việc tạo ra giọng nói AI đa dạng, giàu cảm xúc, giống người thật vẫn là thách thức lớn trong ngành trí tuệ nhân tạo đàm thoại. Rime, một startup tại San Francisco, đã phát triển Arcana text-to-speech (TTS) - mô hình ngôn ngữ nói có thể nhanh chóng tạo ra 'vô hạn' kiểu giọng mới theo độ tuổi, giới tính, vùng miền, sở thích… chỉ qua mô tả văn bản.

Chi tiết tính năng nổi bật

Tạo giọng nói theo cá nhân hóa: Người dùng chỉ cần nhập mô tả dạng text như “nữ, 30 tuổi, sống ở California, thích phần mềm” hoặc “giọng nam Úc” để sinh ra kiểu giọng phù hợp.
Thay đổi tiếng liên tục: Mỗi mô tả khác nhau sẽ cho ra giọng khác nhau, tăng tính đa dạng trong trải nghiệm khách hàng.
Chuyển đổi đa ngôn ngữ, thêm hiệu ứng cảm xúc (ví dụ: cho tiếng cười từ nhẹ nhàng đến lớn).
Hỗ trợ đặc biệt cho doanh nghiệp với 8 giọng flagship cá tính (như Luna, Celeste, Orion…), đáp ứng nhiều đối tượng khách hàng.
Xử lý thời gian thực: Thời gian tạo giọng bắt đầu từ 250ms, độ trễ đám mây khoảng 400ms, phù hợp cho ứng dụng tương tác quy mô lớn.

Công nghệ và dữ liệu đào tạo riêng biệt

Arcana TTS sử dụng phương pháp đào tạo trên hội thoại tự nhiên với người thật để nắm bắt các đặc trưng xã hội học (như giọng vùng miền, lớp xã hội), thói quen nói (idiolect), ngữ điệu, sự ngập ngừng (filler words), chuyển đổi ngôn ngữ (code-switching). Quá trình ba bước gồm: pre-training với tập dữ liệu open-source, fine-tuning với tập dữ liệu độc quyền, và tinh chỉnh với những người tham gia hội thoại xuất sắc nhất.

Rime xây dựng kho dữ liệu hàng đầu ngành bằng cách tự thu thập qua trò chuyện tự nhiên từ cộng đồng, bạn bè, gia đình, không sử dụng lồng tiếng chuyên nghiệp. Nhờ vậy, mô hình nhận diện chi tiết đặc tính người nói (tuổi, giới tính, vùng miền, tâm trạng) với độ chính xác 98-100%.

Giải pháp cho doanh nghiệp và hiệu quả thực tế

Ứng dụng trong các lĩnh vực lớn

Hợp tác với nhiều thương hiệu — Domino’s, Wingstop, Converse Now, Ylopo… — phục vụ callcenter quy mô lớn, hệ thống trả lời tự động (IVR) trong doanh nghiệp và viễn thông.
Khả năng A/B testing lựa chọn giọng tối ưu. API phản hồi số liệu realtime giúp doanh nghiệp lựa chọn voice hiệu suất nhất.
Nâng cao khả năng tương tác: Chuyển từ giọng máy sang AI, tỷ lệ khách hàng chấp nhận nói chuyện với bot tăng gấp 4 lần, 20% kết thúc cuộc gọi với thái độ thân thiện.

Phản hồi thực tế khách hàng

Khách hàng như Domino’s, Wingstop ghi nhận cải thiện doanh số rõ rệt, với mức tăng chuyển đổi bán hàng 15%. Tại Converse Now, tỷ lệ cuộc gọi thành công tăng hai chữ số sau khi áp dụng Arcana TTS. Ylopo xác nhận mô hình của Rime đạt tỷ lệ chuyển đổi khách cao nhất trong quá trình thử nghiệm nhiều model AI khác nhau.

Phát triển tương lai và tối ưu hóa hiệu năng

Hướng mở rộng và các thách thức tiếp theo

Theo đại diện Rime, trong tương lai công nghệ Arcana sẽ tiến tới triển khai on-premises (triển khai tại chỗ) giúp giảm thiểu độ trễ giao tiếp. Dự kiến đến cuối năm 2025, 90% khối lượng dịch vụ sẽ được chạy on-prem. Ngoài ra, Rime tiếp tục huấn luyện mô hình để xử lý các tình huống ngôn ngữ đặc biệt mang yếu tố thương hiệu, như tên sản phẩm đặc thù mà AI có thể chưa gặp trước đó.

Arcana TTS của Rime đang mở ra bước đột phá cho thị trường AI giọng nói qua việc tạo giọng đa dạng, tự nhiên và linh hoạt cá nhân hóa cho từng doanh nghiệp. Tính thực tiễn, khả năng xử lý nhanh và độ chính xác cao đã giúp nhiều thương hiệu hàng đầu tăng mạnh doanh số, cải thiện trải nghiệm khách hàng trong giao tiếp tự động.