Kiến trúc AI mới cho khả năng suy luận nhanh hơn 100 lần so với LLM chỉ với 1.000 ví dụ huấn luyện.

Kiến trúc AI mới cho khả năng suy luận nhanh hơn 100 lần so với LLM chỉ với 1.000 ví dụ huấn luyện.

Kiến trúc AI mới cho khả năng suy luận nhanh hơn 100 lần so với LLM chỉ với 1.000 ví dụ huấn luyện

Liệu tương lai của trí tuệ nhân tạo có nằm ở những mô hình khổng lồ, ngốn dữ liệu hay một hướng đi thông minh hơn, lấy cảm hứng từ bộ não con người? Một công ty khởi nghiệp AI tại Singapore vừa hé lộ một kiến trúc mới hứa hẹn mang lại bước đột phá về hiệu suất và hiệu quả.

Sapient Intelligence, một công ty khởi nghiệp AI có trụ sở tại Singapore, đã phát triển một kiến trúc AI mang tính cách mạng mang tên Mô hình Suy luận Phân cấp (HRM). Mô hình này vượt trội so với các mô hình ngôn ngữ lớn (LLM) hiện tại trong các tác vụ suy luận phức tạp, đồng thời nhỏ gọn và hiệu quả dữ liệu hơn đáng kể. Điểm đặc biệt, HRM có thể đạt hiệu suất cao hơn tới 100 lần so với LLM chỉ với 1.000 ví dụ huấn luyện.

HRM lấy cảm hứng từ cách bộ não con người xử lý thông tin, sử dụng các hệ thống khác nhau cho lập kế hoạch chậm, có chủ ý và tính toán nhanh, trực quan. Theo các nhà nghiên cứu, phương pháp này cho phép mô hình "suy luận trong không gian tiềm ẩn" thay vì dựa vào "chuỗi suy nghĩ" (CoT) đòi hỏi lượng lớn dữ liệu và sức mạnh tính toán.

Phương pháp tiếp cận "chuỗi suy nghĩ" (CoT) hiện tại, vốn dựa vào việc chia nhỏ vấn đề thành các bước trung gian bằng ngôn ngữ, có những hạn chế cố hữu. Theo nghiên cứu của Sapient Intelligence, "CoT cho suy luận chỉ là một công cụ hỗ trợ tạm thời, không phải là một giải pháp thỏa đáng. Nó phụ thuộc vào các phân tách do con người xác định, dễ bị phá vỡ, nơi một sai sót nhỏ hoặc một sự sắp xếp sai thứ tự các bước có thể làm trật bánh toàn bộ quá trình suy luận."

Thay vì "tạo ra các token suy nghĩ", HRM suy luận trong biểu diễn trừu tượng bên trong của vấn đề. Cách tiếp cận này tương đồng với cách con người tư duy.

"Bộ não duy trì các chuỗi suy luận mạch lạc, kéo dài với hiệu quả đáng kể trong một không gian tiềm ẩn, mà không cần dịch liên tục trở lại ngôn ngữ," các nhà nghiên cứu cho biết.

Để khắc phục những thách thức trong việc tạo ra mức độ suy luận sâu sắc, nội bộ này trong AI, nhóm nghiên cứu Sapient Intelligence đã tìm đến khoa học thần kinh để tìm giải pháp. HRM được thiết kế với hai mô-đun lặp lại, được ghép nối: một mô-đun cấp cao (H) cho lập kế hoạch chậm, trừu tượng và một mô-đun cấp thấp (L) cho tính toán nhanh, chi tiết.

Kiến trúc độc đáo này cho phép "hội tụ phân cấp", trong đó mô-đun L xử lý một phần của vấn đề, thực hiện nhiều bước cho đến khi đạt được một giải pháp cục bộ ổn định. Sau đó, mô-đun H tiếp nhận kết quả này, cập nhật chiến lược tổng thể và cung cấp cho mô-đun L một vấn đề con mới, được tinh chỉnh để giải quyết.

Kết quả thử nghiệm cho thấy HRM có thể giải quyết các vấn đề mà ngay cả các LLM tiên tiến cũng không thể xử lý được. Trên các tiêu chuẩn như "Sudoku-Extreme" và "Maze-Hard", các mô hình CoT hiện đại đều thất bại hoàn toàn, đạt độ chính xác 0%. Ngược lại, HRM đạt độ chính xác gần như hoàn hảo sau khi được đào tạo chỉ với 1.000 ví dụ cho mỗi nhiệm vụ.

Guan Wang, Người sáng lập và Giám đốc điều hành của Sapient Intelligence, nhấn mạnh rằng HRM có thể được giải mã và trực quan hóa, tương tự như cách CoT cung cấp một cái nhìn sâu sắc về tư duy của mô hình.

"CoT không thực sự phản ánh suy luận nội tại của một mô hình," Wang nói. Ông cũng trích dẫn các nghiên cứu cho thấy các mô hình đôi khi có thể đưa ra câu trả lời đúng với các bước suy luận không chính xác, và ngược lại. "Về cơ bản, nó vẫn là một hộp đen."

Đối với doanh nghiệp, hiệu quả của kiến trúc này mang lại lợi ích trực tiếp cho lợi nhuận. Thay vì tạo token nối tiếp, từng token một của CoT, khả năng xử lý song song của HRM cho phép "tăng tốc độ hoàn thành tác vụ lên 100 lần". Điều này có nghĩa là độ trễ suy luận thấp hơn và khả năng chạy suy luận mạnh mẽ trên các thiết bị biên.

Chi phí cũng giảm đáng kể. Wang lưu ý rằng đào tạo mô hình cho Sudoku cấp chuyên nghiệp mất khoảng hai giờ GPU và cho tiêu chuẩn ARC-AGI phức tạp, từ 50 đến 200 giờ GPU - một phần nhỏ so với tài nguyên cần thiết cho các mô hình nền tảng khổng lồ.

Sapient Intelligence hiện đang nỗ lực phát triển HRM từ một công cụ giải quyết vấn đề chuyên dụng thành một mô-đun suy luận đa năng hơn. Wang cho biết các mô hình thế hệ tiếp theo sẽ khác biệt đáng kể so với các hệ thống dựa trên văn bản ngày nay, đáng chú ý là thông qua việc bổ sung các khả năng tự sửa lỗi.

Sự phát triển của HRM cho thấy rằng để giải quyết những vấn đề hóc búa mà các "ông lớn" AI đang gặp phải, con đường phía trước có thể không phải là các mô hình lớn hơn, mà là các kiến trúc thông minh hơn, có cấu trúc hơn, lấy cảm hứng từ bộ não con người.