Các tác nhân sử dụng máy tính mã nguồn mở OpenCUA cạnh tranh với các mô hình độc quyền của OpenAI và Anthropic
Giữa cuộc đua AI ngày càng khốc liệt, một làn gió mới đang thổi vào cộng đồng mã nguồn mở với OpenCUA, một khung làm việc đầy hứa hẹn từ Đại học Hồng Kông (HKU). OpenCUA không chỉ là một công cụ, mà là một nền tảng mở, nơi các nhà phát triển có thể xây dựng các tác nhân AI có khả năng vận hành máy tính một cách mạnh mẽ, thách thức trực tiếp các mô hình độc quyền đến từ những gã khổng lồ như OpenAI và Anthropic.
OpenCUA bao gồm các công cụ, dữ liệu và công thức để mở rộng quy mô phát triển các tác nhân sử dụng máy tính (CUAs). Các mô hình được huấn luyện bằng OpenCUA thể hiện hiệu suất ấn tượng trên các chuẩn CUA, vượt trội so với các mô hình mã nguồn mở hiện có và cạnh tranh sát sao với các tác nhân độc quyền. Điều này mở ra một chương mới, nơi sự minh bạch và khả năng tiếp cận không còn là rào cản đối với sự tiến bộ của AI.
Sự thiếu minh bạch trong các hệ thống CUA độc quyền đang hạn chế tiến bộ kỹ thuật. Trong khi đó, các nỗ lực mã nguồn mở gặp khó khăn do thiếu cơ sở hạ tầng để thu thập dữ liệu quy mô lớn cần thiết. OpenCUA ra đời để giải quyết vấn đề này, cung cấp một giải pháp toàn diện từ thu thập dữ liệu đến huấn luyện mô hình.
Một trong những thành phần quan trọng của OpenCUA là AgentNet Tool, một công cụ ghi lại các thao tác của người dùng trên máy tính. Công cụ này chạy ẩn trên máy tính cá nhân của người dùng, ghi lại video màn hình, thao tác chuột và bàn phím, cũng như cấu trúc thông tin về các thành phần trên màn hình. Dữ liệu này sau đó được xử lý thành các "quỹ đạo trạng thái-hành động", ghép nối ảnh chụp màn hình với hành động tương ứng của người dùng.
"Bộ dữ liệu này nắm bắt chân thực sự phức tạp của hành vi con người và động lực môi trường từ môi trường máy tính cá nhân của người dùng," trích lời các nhà nghiên cứu trong bài báo của họ.
Để giải quyết các lo ngại về quyền riêng tư dữ liệu, các nhà nghiên cứu đã thiết kế AgentNet Tool với nhiều lớp bảo vệ. Xinyuan Wang, đồng tác giả của bài báo và nghiên cứu sinh tiến sĩ tại HKU, cho biết:
"Đầu tiên, người chú thích có thể quan sát đầy đủ dữ liệu họ tạo ra… trước khi quyết định gửi nó. Dữ liệu sau đó trải qua xác minh thủ công để tìm các vấn đề về quyền riêng tư và quét tự động bởi một mô hình lớn để phát hiện bất kỳ nội dung nhạy cảm còn sót lại trước khi phát hành. Quy trình nhiều lớp này đảm bảo tính mạnh mẽ ở cấp doanh nghiệp cho các môi trường xử lý dữ liệu khách hàng hoặc tài chính nhạy cảm."
Bên cạnh công cụ thu thập dữ liệu, OpenCUA còn giới thiệu một quy trình đào tạo tác nhân mới lạ. Quy trình này bổ sung suy luận "chuỗi tư duy" (CoT) vào các quỹ đạo hành động. CoT tạo ra một "độc thoại bên trong" chi tiết cho mỗi hành động, bao gồm lập kế hoạch, bộ nhớ và phản ánh.
"Chúng tôi thấy rằng lý luận ngôn ngữ tự nhiên rất quan trọng đối với các mô hình nền tảng sử dụng máy tính có khả năng khái quát hóa, giúp CUA nội hóa các khả năng nhận thức," các nhà nghiên cứu viết.
Các nhà nghiên cứu đã áp dụng OpenCUA để huấn luyện một loạt các VLM mã nguồn mở, bao gồm các biến thể của Qwen và Kimi-VL, với kích thước tham số từ 3 tỷ đến 32 tỷ. Mô hình 32 tỷ tham số, OpenCUA-32B, đã thiết lập tỷ lệ thành công hiện đại mới trong số các mô hình mã nguồn mở trên chuẩn OSWorld-Verified. Nó cũng vượt qua CUA dựa trên GPT-4o của OpenAI và thu hẹp đáng kể khoảng cách hiệu suất với các mô hình độc quyền hàng đầu của Anthropic.
Theo Wang, khung làm việc đặc biệt phù hợp để tự động hóa các quy trình làm việc lặp đi lặp lại, tốn nhiều công sức của doanh nghiệp.
"Ví dụ: trong bộ dữ liệu AgentNet, chúng tôi đã ghi lại một vài minh chứng về việc khởi chạy các phiên bản EC2 trên Amazon AWS và định cấu hình các tham số chú thích trên MTurk. Các tác vụ này liên quan đến nhiều bước tuần tự nhưng tuân theo các mẫu có thể lặp lại."
Với việc mã nguồn, bộ dữ liệu và trọng số của mô hình đã được công bố, OpenCUA hứa hẹn sẽ thúc đẩy sự phát triển của các tác nhân AI mã nguồn mở có khả năng cạnh tranh với các hệ thống độc quyền. Trong tương lai, khả năng vận hành máy tính thành thạo có thể không còn là kỹ năng cần thiết, thay vào đó là khả năng diễn đạt rõ ràng mục tiêu cho một tác nhân AI. Con người sẽ cung cấp chiến lược "cái gì", trong khi các tác nhân AI ngày càng tinh vi sẽ xử lý "cách thức" hoạt động.