Gemini 2.5 Flash của Google giới thiệu 'ngân sách tư duy', cắt giảm 600% chi phí AI khi giảm tải

Gemini 2.5 Flash của Google giới thiệu 'ngân sách tư duy', cắt giảm 600% chi phí AI khi giảm tải

Google tung "ngân sách tư duy" cho Gemini 2.5 Flash, cắt giảm chi phí AI tới 600%

Google vừa tung ra một "át chủ bài" mới trong cuộc đua AI, hứa hẹn mang đến sự kiểm soát chưa từng có về chi phí và hiệu suất cho doanh nghiệp và nhà phát triển. Gemini 2.5 Flash, phiên bản nâng cấp đáng kể của dòng Gemini, giới thiệu khái niệm "ngân sách tư duy", cho phép người dùng điều chỉnh mức độ "tư duy" mà AI thực hiện, từ đó tối ưu hóa chi phí một cách đáng kể. Mô hình này hiện đang trong giai đoạn xem trước thông qua Google AI Studio và Vertex AI.

Điểm nổi bật của Gemini 2.5 Flash là khả năng giúp các doanh nghiệp giảm thiểu chi phí vận hành AI mà không ảnh hưởng đáng kể đến hiệu suất. Giá đầu vào cho mô hình này là 0,15 đô la trên một triệu token. Tuy nhiên, chi phí đầu ra mới là điểm đáng chú ý: chỉ 0,60 đô la trên một triệu token khi tắt tính năng "tư duy", nhưng tăng lên 3,50 đô la khi bật. Sự chênh lệch này tạo ra một mô hình "lý luận hoàn toàn kết hợp" đầu tiên của Google.

Theo Tulsee Doshi, Giám đốc Sản phẩm cho Gemini Models tại Google DeepMind, việc ra mắt Gemini 2.5 Flash thể hiện một bước tiến quan trọng trong việc đáp ứng nhu cầu đa dạng của thị trường AI:

"Chúng tôi biết chi phí và độ trễ rất quan trọng đối với nhiều trường hợp sử dụng của nhà phát triển, và vì vậy chúng tôi muốn cung cấp cho nhà phát triển sự linh hoạt để điều chỉnh mức độ 'tư duy' mà mô hình thực hiện, tùy thuộc vào nhu cầu của họ."

"Ngân sách tư duy" có thể được điều chỉnh từ 0 đến 24.576 token, hoạt động như một giới hạn tối đa thay vì một phân bổ cố định. Google cho biết mô hình có thể tự động xác định lượng ngân sách cần thiết dựa trên độ phức tạp của tác vụ, giúp tiết kiệm tài nguyên khi không cần thiết phải suy luận quá sâu.

Trên các bài kiểm tra benchmark, Gemini 2.5 Flash cho thấy hiệu suất cạnh tranh so với các mô hình AI hàng đầu khác. Theo Google, nó vượt trội hơn Claude 3.7 Sonnet của Anthropic và DeepSeek R1 trên bài kiểm tra Humanity's Last Exam, một bài kiểm tra nghiêm ngặt về khả năng suy luận và kiến thức. Gemini 2.5 Flash cũng đạt kết quả cao trên các bài kiểm tra kỹ thuật như GPQA diamond và AIME mathematics exams.

"Các công ty nên chọn 2.5 Flash vì nó cung cấp giá trị tốt nhất cho chi phí và tốc độ của nó," Doshi cho biết. "Nó đặc biệt mạnh so với các đối thủ cạnh tranh về toán học, lý luận đa phương thức, ngữ cảnh dài và một số chỉ số quan trọng khác."

Việc ra mắt Gemini 2.5 Flash diễn ra trong bối cảnh Google đang nỗ lực cạnh tranh mạnh mẽ trong lĩnh vực AI. Bên cạnh việc tung ra Veo 2, cho phép người dùng tạo video ngắn từ văn bản, Google cũng tuyên bố cung cấp quyền truy cập miễn phí vào Gemini Advanced cho tất cả sinh viên đại học ở Hoa Kỳ cho đến mùa xuân năm 2026.

Gemini 2.5 Flash, với sự tập trung rõ ràng vào hiệu quả chi phí và khả năng tùy chỉnh hiệu suất, được thiết kế để thu hút các khách hàng doanh nghiệp đang tìm cách quản lý cẩn thận chi phí triển khai AI trong khi vẫn có thể truy cập các khả năng nâng cao. Với "ngân sách tư duy", Google đang mở ra một hướng đi mới trong việc triển khai AI, nơi mà khả năng tối ưu hóa chi phí và hiệu suất trở nên quan trọng hơn bao giờ hết.