Phương pháp RAGEN mới được phát hành bởi cựu nhân viên DeepSeeker và cộng sự để huấn luyện tác nhân AI đáng tin cậy
Năm 2025 được dự đoán là năm bùng nổ của các tác nhân AI (AI agents), những "trợ lý ảo" được trang bị trí tuệ nhân tạo mạnh mẽ để thực hiện các nhiệm vụ cụ thể. Tuy nhiên, phần lớn các AI agents hiện tại vẫn đang trong giai đoạn thử nghiệm, chưa đáp ứng được yêu cầu về độ tin cậy và ổn định để ứng dụng rộng rãi trong thực tế. Tin vui cho giới công nghệ, một nhóm nghiên cứu từ Northwestern University, Microsoft, Stanford và University of Washington vừa giới thiệu RAGEN, một hệ thống huấn luyện và đánh giá AI agents mới, hứa hẹn sẽ giải quyết vấn đề này.
RAGEN tập trung vào việc huấn luyện AI agents trong môi trường tương tác đa chiều, nơi chúng phải liên tục thích ứng, ghi nhớ và suy luận để đưa ra quyết định. Khác với các tác vụ tĩnh như giải toán hay viết code, RAGEN đặt ra thách thức lớn hơn cho các mô hình AI, buộc chúng phải "tư duy" một cách linh hoạt và sáng tạo.
Hệ thống này sử dụng một framework RL (Reinforcement Learning - Học Tăng Cường) tùy chỉnh mang tên StarPO (State-Thinking-Actions-Reward Policy Optimization). StarPO được thiết kế để khám phá cách các LLMs (Large Language Models - Mô hình Ngôn ngữ Lớn) có thể học hỏi thông qua kinh nghiệm, không chỉ đơn thuần là "học thuộc lòng" dữ liệu.
StarPO hoạt động qua hai giai đoạn chính:
- Giai đoạn tạo chuỗi tương tác đầy đủ: LLM tạo ra toàn bộ chuỗi tương tác, được định hướng bởi quá trình suy luận của chính nó.
- Giai đoạn tối ưu hóa mô hình: Mô hình được tối ưu hóa dựa trên phần thưởng tích lũy chuẩn hóa.
Cấu trúc này tạo ra một vòng lặp học tập ổn định và dễ hiểu hơn so với các phương pháp tối ưu hóa chính sách tiêu chuẩn.
Để kiểm chứng hiệu quả của RAGEN, nhóm nghiên cứu đã thử nghiệm framework này với các biến thể tinh chỉnh của mô hình Qwen từ Alibaba, bao gồm Qwen 1.5 và Qwen 2.5. "Những mô hình này được chọn vì mã nguồn mở và khả năng tuân thủ hướng dẫn mạnh mẽ," nhóm nghiên cứu cho biết, "điều này đảm bảo khả năng tái tạo và so sánh nhất quán trên các tác vụ tượng trưng."
Tuy nhiên, nhóm nghiên cứu cũng phát hiện ra một vấn đề, được gọi là "Echo Trap" (Bẫy Tiếng Vọng). Theo đó, các AI agents ban đầu tạo ra các phản hồi mang tính biểu tượng và có lý luận chặt chẽ. Nhưng theo thời gian, các hệ thống RL có xu hướng thưởng cho các lối tắt, dẫn đến các hành vi lặp đi lặp lại và làm giảm hiệu suất tổng thể.
"Hiện tượng này xảy ra do các vòng phản hồi, trong đó một số cụm từ hoặc chiến lược kiếm được phần thưởng cao ngay từ đầu, khuyến khích việc sử dụng quá mức và kìm hãm sự khám phá."
Zihan Wang, cựu nghiên cứu viên DeepSeeker, đồng tác giả nghiên cứu.
Để giải quyết vấn đề này, nhóm nghiên cứu đã giới thiệu StarPO-S, một phiên bản ổn định hơn của framework ban đầu. StarPO-S tích hợp ba biện pháp can thiệp chính, giúp trì hoãn hoặc loại bỏ hiện tượng sụp đổ huấn luyện và cải thiện hiệu suất trên cả ba tác vụ thử nghiệm.
Nhóm nghiên cứu cũng chỉ ra rằng sự thành công của quá trình huấn luyện RL không chỉ phụ thuộc vào kiến trúc mô hình mà còn phụ thuộc vào chất lượng dữ liệu được tạo ra bởi chính các AI agents. Ba yếu tố quan trọng ảnh hưởng đến quá trình huấn luyện bao gồm: chất lượng suy luận, tính nhất quán và sự đa dạng trong các chiến lược.
RAGEN, cùng với các framework StarPO và StarPO-S, hiện đã có sẵn dưới dạng dự án mã nguồn mở tại https://github.com/RAGEN-AI/RAGEN.
RAGEN không chỉ là một đóng góp kỹ thuật, mà còn là một bước tiến quan trọng trong việc phát triển các AI agents tự chủ và có khả năng suy luận. Dù RAGEN có trở thành một phần của "bộ công cụ AI" dành cho doanh nghiệp hay không vẫn còn là một câu hỏi mở, nhưng những hiểu biết sâu sắc về động lực học tập của AI agents mà dự án này mang lại chắc chắn sẽ giúp định hình lại ranh giới của quá trình huấn luyện LLM.