GPT-5 Thất Bại Hơn Nửa Số Tác Vụ Điều Phối Thực Tế, Theo Thử Nghiệm MCP-Universe

GPT-5 Thất Bại Hơn Nửa Số Tác Vụ Điều Phối Thực Tế, Theo Thử Nghiệm MCP-Universe

GPT-5 Thất Bại Hơn Nửa Số Tác Vụ Điều Phối Thực Tế, Theo Thử Nghiệm MCP-Universe

Trong kỷ nguyên trí tuệ nhân tạo bùng nổ, liệu các mô hình ngôn ngữ lớn (LLM) có thực sự "thông minh" như chúng ta nghĩ? Một nghiên cứu mới đây vừa hé lộ một thực tế đáng ngạc nhiên: Ngay cả những "gã khổng lồ" như GPT-5 cũng gặp khó khăn trong việc xử lý các tác vụ thực tế.

Salesforce AI Research vừa công bố kết quả thử nghiệm MCP-Universe, một chuẩn đánh giá mã nguồn mở mới được thiết kế để kiểm tra khả năng tương tác của LLM với giao thức MCP (Model Context Protocol) trong môi trường thực tế. Kết quả cho thấy, "các mô hình như GPT-5 vẫn còn hạn chế trong các tình huống thực tế," theo báo cáo của Salesforce. Điều này đặt ra câu hỏi lớn về khả năng ứng dụng của LLM trong các doanh nghiệp và tổ chức.

MCP-Universe được xây dựng dựa trên các máy chủ MCP hiện có, có quyền truy cập vào dữ liệu và môi trường thực tế. Chuẩn đánh giá này tập trung vào bốn yếu tố chính: sử dụng công cụ, tương tác nhiều vòng, xử lý ngữ cảnh dài và không gian công cụ lớn. Salesforce cho rằng MCP-Universe sẽ "cung cấp một đánh giá toàn diện về cách các mô hình tương tác với máy chủ MCP thực tế trong nhiều kịch bản khác nhau," khắc phục những thiếu sót của các chuẩn đánh giá hiện tại.

Vậy, điều gì khiến các LLM "mắc kẹt" trong môi trường thực tế? Theo ông Junnan Li, Giám đốc nghiên cứu AI tại Salesforce, hai thách thức lớn nhất là:

"Long context challenges, models can lose track of information or struggle to reason consistently when handling very long or complex inputs. And, Unknown tool challenges, models often aren’t able to seamlessly use unfamiliar tools or systems in the way humans can adapt on the fly."

Điều này có nghĩa là LLM gặp khó khăn trong việc duy trì sự mạch lạc khi xử lý thông tin dài và phức tạp, cũng như không thể dễ dàng làm quen với các công cụ hoặc hệ thống mới.

Để kiểm tra MCP-Universe, Salesforce đã đánh giá một loạt các mô hình độc quyền và mã nguồn mở, bao gồm Grok-4, Claude-4 Sonnet, GPT-5, Gemini 2.5 Pro và nhiều hơn nữa. Các nhiệm vụ được thiết kế để mô phỏng các tác vụ thực tế mà các doanh nghiệp thường thực hiện, bao gồm định vị địa điểm, quản lý kho lưu trữ, phân tích tài chính, thiết kế 3D, tự động hóa trình duyệt và tìm kiếm trên web. Kết quả cho thấy GPT-5 có tỷ lệ thành công cao nhất, đặc biệt là trong các tác vụ phân tích tài chính. Tuy nhiên, tất cả các mô hình đều gặp khó khăn trong việc xử lý ngữ cảnh dài và nhận diện công cụ mới.

Theo nghiên cứu, các LLM "thể hiện sự khó khăn trong việc hoàn thành hơn một nửa số tác vụ mà các doanh nghiệp thường thực hiện." Điều này cho thấy rằng, mặc dù có nhiều tiến bộ đáng kể, các LLM vẫn còn một chặng đường dài phía trước trước khi có thể thực sự đáp ứng được nhu cầu của doanh nghiệp.

MCP-Universe không chỉ là một chuẩn đánh giá, mà còn là một lời kêu gọi. Salesforce hy vọng rằng các doanh nghiệp sẽ sử dụng MCP-Universe để "hiểu sâu hơn về những điểm yếu của các tác nhân và mô hình," từ đó cải thiện khung làm việc và triển khai các công cụ MCP của họ. Trong bối cảnh AI ngày càng trở nên quan trọng, việc đánh giá và cải thiện hiệu suất của LLM trong môi trường thực tế là vô cùng cần thiết. MCP-Universe có thể là một công cụ quan trọng để đạt được mục tiêu này.