Startup AI giọng nói giàu cảm xúc Hume ra mắt mô hình EVI 3 mới với khả năng tạo giọng nói tùy chỉnh nhanh chóng
Bạn đã bao giờ tưởng tượng đến việc trò chuyện với một trợ lý ảo có thể thực sự thấu hiểu cảm xúc của bạn? Startup AI Hume, có trụ sở tại New York, vừa hiện thực hóa một phần giấc mơ đó với việc ra mắt EVI 3, mô hình AI đàm thoại Empathic Voice Interface mới nhất. Mô hình này hứa hẹn mang đến những trải nghiệm tương tác bằng giọng nói tự nhiên, biểu cảm và giàu cảm xúc hơn bao giờ hết.
EVI 3 (đọc là "Evee Three", giống nhân vật Pokémon) được thiết kế cho nhiều ứng dụng, từ hỗ trợ khách hàng đến huấn luyện sức khỏe, kể chuyện tương tác và bạn đồng hành ảo. Điểm đặc biệt của EVI 3 là khả năng cho phép người dùng tạo ra giọng nói riêng bằng cách trò chuyện trực tiếp với mô hình, tạo ra sự cá nhân hóa và gần gũi.
Mô hình này được thiết kế hướng đến các doanh nghiệp, nhà phát triển và nhà sáng tạo, cung cấp khả năng tùy biến phức tạp hơn, phản hồi nhanh hơn và khả năng thấu hiểu cảm xúc tốt hơn so với các thế hệ trước. Người dùng cá nhân có thể trải nghiệm EVI 3 thông qua bản demo trực tiếp trên website và ứng dụng iOS của Hume.
Trong vài tuần tới, Hume dự kiến sẽ cung cấp API (giao diện lập trình ứng dụng) cho các nhà phát triển. Điều này mở ra khả năng tích hợp EVI 3 vào các hệ thống dịch vụ khách hàng, dự án sáng tạo hoặc trợ lý ảo.
Việc tạo ra giọng nói tùy chỉnh trở nên nhanh chóng và dễ dàng. Theo trải nghiệm thực tế, người dùng có thể tạo ra một giọng nói tổng hợp mới trong vài giây dựa trên các phẩm chất được mô tả, ví dụ như "một giọng nam ấm áp, tự tin". Sự tương tác trực tiếp với mô hình mang lại cảm giác tự nhiên hơn so với các mô hình AI khác, thậm chí so với các giọng nói mặc định của Siri (Apple) hay Alexa (Amazon).
EVI 3 được xây dựng để đáp ứng một loạt các nhu cầu sử dụng, từ dịch vụ khách hàng và tương tác trong ứng dụng đến sáng tạo nội dung trong sách nói và trò chơi. Mô hình cho phép người dùng chỉ định các đặc điểm tính cách, chất giọng, tông giọng cảm xúc và chủ đề trò chuyện cụ thể. Điều này có nghĩa là EVI 3 có thể tạo ra "một hướng dẫn viên ấm áp, đồng cảm" hoặc "một người kể chuyện tinh nghịch, kỳ quặc".
Điểm mạnh cốt lõi của EVI 3 nằm ở khả năng tích hợp trí tuệ cảm xúc trực tiếp vào trải nghiệm giọng nói. Không giống như các chatbot hoặc trợ lý giọng nói truyền thống chủ yếu dựa vào các tương tác theo kịch bản hoặc dựa trên văn bản, EVI 3 thích ứng với cách mọi người nói một cách tự nhiên - nhận biết cao độ, âm điệu, tạm dừng và những đoạn ngắt giọng để tạo ra các cuộc trò chuyện hấp dẫn và giống người hơn.
Tuy nhiên, một tính năng quan trọng mà các mô hình của Hume hiện còn thiếu là khả năng sao chép giọng nói (voice cloning), một tính năng đã có ở các đối thủ cạnh tranh như ElevenLabs. Dù vậy, Hume cho biết sẽ sớm bổ sung tính năng này vào mô hình Octave text-to-speech của mình, cho phép người dùng sao chép giọng nói chỉ từ năm giây audio. Công ty nhấn mạnh rằng đang ưu tiên các biện pháp bảo vệ và cân nhắc về đạo đức trước khi cung cấp rộng rãi tính năng này.
Kết quả thử nghiệm nội bộ của Hume cho thấy EVI 3 được người dùng ưa chuộng hơn mô hình giọng nói GPT-4o của OpenAI ở mọi hạng mục đánh giá: tự nhiên, biểu cảm, đồng cảm, khả năng xử lý ngắt quãng, tốc độ phản hồi, chất lượng âm thanh, điều chỉnh cảm xúc/phong cách giọng nói theo yêu cầu và hiểu cảm xúc theo yêu cầu. Mô hình cũng vượt trội hơn so với dòng Gemini của Google và mô hình AI mã nguồn mở Sesame.
"Trí tuệ cảm xúc bao gồm khả năng suy luận ý định và sở thích từ hành vi. Đó là cốt lõi của những gì các giao diện AI đang cố gắng đạt được," Alan Cowen, cựu nhà nghiên cứu tại Google DeepMind và nhà sáng lập Hume, chia sẻ.
Về giá cả, Hume cung cấp mức giá linh hoạt, dựa trên mức sử dụng cho các API EVI, Octave TTS và Expression Measurement. Cụ thể, EVI 2 có giá 0,072 đô la mỗi phút, thấp hơn 30% so với EVI 1 (0,102 đô la/phút).
Với EVI 3, Hume kỳ vọng sẽ cho phép các nhà phát triển và nhà sáng tạo tái định hình những gì có thể thực hiện được với AI giọng nói, mở ra một kỷ nguyên mới của tương tác kỹ thuật số giàu cảm xúc và cá nhân hóa.