Nvidia ra mắt mô hình AI phiên âm mã nguồn mở hoàn toàn Parakeet-TDT-0.6B-V2 trên Hugging Face

Nvidia ra mắt mô hình AI phiên âm mã nguồn mở hoàn toàn Parakeet-TDT-0.6B-V2 trên Hugging Face

Nvidia tung "át chủ bài" AI phiên âm mã nguồn mở, "bắn hạ" kỷ lục tốc độ trên Hugging Face

Gã khổng lồ công nghệ Nvidia vừa tung ra một "quân cờ" chiến lược mới trên thị trường AI, không chỉ củng cố vị thế dẫn đầu về phần cứng mà còn thể hiện tham vọng thống trị trong lĩnh vực phần mềm. Mô hình nhận dạng giọng nói tự động (ASR) mã nguồn mở Parakeet-TDT-0.6B-v2 vừa được ra mắt trên Hugging Face đang làm chao đảo cộng đồng AI bởi khả năng "phiên âm 60 phút âm thanh chỉ trong 1 giây", theo như lời mô tả đầy kinh ngạc của Vaibhav "VB" Srivastav từ Hugging Face.

Parakeet-TDT-0.6B-v2 hiện đang chiếm giữ ngôi vương trên bảng xếp hạng Hugging Face Open ASR Leaderboard, với tỷ lệ lỗi từ (WER) trung bình chỉ 6.05%. Đây là một con số ấn tượng, tiệm cận với các mô hình độc quyền đắt đỏ như GPT-4o-transcribe của OpenAI (WER 2.46% tiếng Anh) và ElevenLabs Scribe (3.3%).

Điểm đặc biệt là mô hình này hoàn toàn miễn phí và được cấp phép theo Creative Commons CC-BY-4.0, mở ra cơ hội tiếp cận cho các nhà nghiên cứu, nhà phát triển độc lập và doanh nghiệp thương mại.

Mô hình Parakeet-TDT-0.6B-v2 sở hữu 600 triệu tham số, kết hợp kiến trúc mã hóa FastConformer và giải mã TDT. Nhờ đó, nó có thể đạt hiệu suất đáng kinh ngạc, đạt hệ số thời gian thực (RTFx) là 3386.02 với kích thước lô 128, khi chạy trên phần cứng được tăng tốc bởi GPU của Nvidia.

Được phát hành vào ngày 1 tháng 5 năm 2025, Parakeet-TDT-0.6B-v2 nhắm đến các nhà phát triển, nhà nghiên cứu và các đội nhóm trong ngành đang xây dựng các ứng dụng như dịch vụ phiên âm, trợ lý giọng nói, trình tạo phụ đề và nền tảng AI đàm thoại. Mô hình hỗ trợ dấu câu, viết hoa và dấu thời gian chi tiết ở cấp độ từ, cung cấp một gói phiên âm đầy đủ cho nhiều nhu cầu chuyển lời nói thành văn bản.

Để triển khai mô hình, các nhà phát triển có thể sử dụng bộ công cụ NeMo của Nvidia, tương thích với Python và PyTorch. Mô hình có thể được sử dụng trực tiếp hoặc tinh chỉnh cho các tác vụ cụ thể theo từng lĩnh vực.

Parakeet-TDT-0.6B-v2 được huấn luyện trên một kho dữ liệu quy mô lớn và đa dạng có tên Granary, bao gồm khoảng 120.000 giờ âm thanh tiếng Anh. Dữ liệu này bao gồm 10.000 giờ dữ liệu phiên âm chất lượng cao do con người thực hiện và 110.000 giờ lời nói được gắn nhãn giả. Các nguồn dữ liệu bao gồm các bộ dữ liệu nổi tiếng như LibriSpeech và Mozilla Common Voice đến YouTube-Commons và Librilight. Nvidia dự kiến sẽ công khai bộ dữ liệu Granary sau khi trình bày tại Interspeech 2025.

Mô hình đã được đánh giá trên nhiều tiêu chuẩn ASR tiếng Anh khác nhau, bao gồm AMI, Earnings22, GigaSpeech và SPGISpeech, và cho thấy hiệu suất tổng quát hóa mạnh mẽ. Nó vẫn mạnh mẽ trong các điều kiện nhiễu khác nhau và hoạt động tốt ngay cả với các định dạng âm thanh kiểu điện thoại, với sự suy giảm khiêm tốn ở tỷ lệ tín hiệu trên nhiễu thấp hơn.

Mô hình này được tối ưu hóa cho môi trường GPU của Nvidia, hỗ trợ các phần cứng như A100, H100, T4 và V100. Mặc dù GPU cao cấp tối đa hóa hiệu suất, mô hình vẫn có thể được tải trên các hệ thống chỉ với 2GB RAM, cho phép các kịch bản triển khai rộng hơn.

Nvidia nhấn mạnh rằng mô hình được phát triển mà không sử dụng dữ liệu cá nhân và tuân thủ khuôn khổ AI có trách nhiệm của họ.

Sự ra mắt của Parakeet-TDT-0.6B-v2 đã thu hút sự chú ý lớn từ cộng đồng máy học và mã nguồn mở.

"Khả năng vượt trội so với các giải pháp ASR thương mại trong khi vẫn hoàn toàn mở và có thể sử dụng được cho mục đích thương mại là một điểm nhấn đáng chú ý,"

một nhà bình luận đã nhận xét.

Các nhà phát triển quan tâm đến việc thử nghiệm mô hình có thể truy cập thông qua Hugging Face hoặc thông qua bộ công cụ NeMo của Nvidia.

Với việc tung ra Parakeet-TDT-0.6B-v2, Nvidia không chỉ khẳng định vị thế dẫn đầu về phần cứng mà còn đang tạo ra một hệ sinh thái AI mở, nơi các nhà nghiên cứu và nhà phát triển có thể tiếp cận những công nghệ tiên tiến nhất để xây dựng các ứng dụng đột phá. Sự kết hợp giữa hiệu suất vượt trội, tính khả dụng miễn phí và giấy phép thương mại hứa hẹn sẽ thúc đẩy sự đổi mới và sáng tạo trong lĩnh vực nhận dạng giọng nói và xử lý ngôn ngữ tự nhiên.