Mô hình o3 AI của OpenAI đạt điểm chuẩn thấp hơn so với công ty ngụ ý ban đầu.

Mô hình o3 AI của OpenAI đạt điểm chuẩn thấp hơn so với công ty ngụ ý ban đầu.

Mô hình o3 AI của OpenAI: Hào quang tan vỡ, hay chỉ là phép thử độ tin cậy?

Tham vọng dẫn đầu cuộc đua trí tuệ nhân tạo (AI) của OpenAI đang vấp phải những hoài nghi. Mới đây, kết quả kiểm tra độc lập từ Epoch AI cho thấy hiệu suất thực tế của mô hình o3 lại thấp hơn đáng kể so với những gì OpenAI công bố ban đầu, làm dấy lên những câu hỏi về tính minh bạch trong quá trình thử nghiệm và công bố kết quả của công ty.

Tháng 12 năm ngoái, OpenAI tự hào tuyên bố o3 có thể giải quyết hơn 25% số bài toán thuộc bộ FrontierMath, một tập hợp các câu hỏi toán học phức tạp. Thành tích này vượt trội so với các đối thủ, khi mô hình tốt nhất nhì chỉ đạt khoảng 2%. Tuy nhiên, Epoch AI, đơn vị phát triển bộ FrontierMath, vừa công bố kết quả kiểm tra độc lập cho thấy o3 chỉ đạt khoảng 10%. Sự chênh lệch đáng kể này đã đặt ra nhiều nghi vấn.

Liệu OpenAI có đang "lách luật" bằng cách sử dụng một phiên bản o3 mạnh hơn trong thử nghiệm nội bộ? Hay đơn giản là do sự khác biệt trong phương pháp đánh giá và phiên bản FrontierMath được sử dụng? Epoch AI đã chỉ ra một số khả năng:

"Sự khác biệt giữa kết quả của chúng tôi và OpenAI có thể là do OpenAI đánh giá bằng một scaffold nội bộ mạnh hơn, sử dụng nhiều tính toán hơn trong quá trình thử nghiệm, hoặc vì những kết quả đó được chạy trên một tập hợp con khác của FrontierMath (180 bài toán trong frontiermath-2024-11-26 so với 290 bài toán trong frontiermath-2025-02-28-private)."

Thông tin này được đưa ra sau khi OpenAI cho ra mắt o3, mô hình suy luận được mong đợi từ lâu, cùng với o4-mini, một mô hình nhỏ gọn hơn và có giá thành thấp hơn.

Không chỉ Epoch AI, ARC Prize Foundation, một tổ chức đã thử nghiệm phiên bản o3 trước khi ra mắt, cũng đồng tình rằng phiên bản công khai của o3 "là một mô hình khác, được điều chỉnh cho mục đích sử dụng trong chat/sản phẩm". Điều này cho thấy có thể OpenAI đã ưu tiên tính hiệu quả và tốc độ phản hồi hơn là hiệu suất tuyệt đối trong phiên bản o3 được phát hành. Mike Knoop từ ARC Prize Foundation chia sẻ trên X:

"Tất cả các bậc tính toán o3 được phát hành đều nhỏ hơn phiên bản chúng tôi đánh giá."

Wenda Zhou, một thành viên của đội ngũ kỹ thuật OpenAI, cũng thừa nhận trong một buổi livestream rằng phiên bản o3 đang được sử dụng thực tế "được tối ưu hóa cho các trường hợp sử dụng thực tế" và tốc độ. Điều này có thể dẫn đến "sự khác biệt" so với các kết quả benchmark trước đó.

"[Chúng tôi] đã thực hiện [các tối ưu hóa] để làm cho [mô hình] hiệu quả về chi phí hơn [và] hữu ích hơn nói chung," Zhou nói. "Chúng tôi vẫn hy vọng rằng - chúng tôi vẫn nghĩ rằng - đây là một mô hình tốt hơn nhiều... Bạn sẽ không phải đợi lâu khi yêu cầu một câu trả lời, đó là một điều có thật với những [loại] mô hình này."

Tuy nhiên, đáng chú ý là ngay cả khi hiệu suất của o3 không đạt được như kỳ vọng, OpenAI vẫn có những con át chủ bài khác. o3-mini-high và o4-mini đều vượt trội hơn o3 trên FrontierMath. Hơn nữa, OpenAI đang lên kế hoạch ra mắt o3-pro, một biến thể mạnh mẽ hơn của o3, trong những tuần tới.

Vụ việc này là một lời nhắc nhở đanh thép rằng các kết quả benchmark AI không nên được coi là "chân lý tuyệt đối", đặc biệt khi nguồn tin đến từ các công ty có sản phẩm để bán. Các "tranh cãi" về benchmark đang trở nên phổ biến trong ngành công nghiệp AI, khi các nhà cung cấp chạy đua để thu hút sự chú ý với các mô hình mới.

Bài học rút ra ở đây không chỉ là sự cần thiết của việc kiểm tra độc lập và minh bạch trong đánh giá AI, mà còn là sự phức tạp trong việc đo lường và so sánh hiệu suất của các mô hình khác nhau. Trong một thế giới mà AI ngày càng trở nên quan trọng, việc đánh giá một cách cẩn trọng và khách quan là yếu tố then chốt để đảm bảo sự phát triển lành mạnh của công nghệ này.