Các mô hình AI suy luận mới của OpenAI tạo ảo giác nhiều hơn.

Các mô hình AI suy luận mới của OpenAI tạo ảo giác nhiều hơn.

Các mô hình AI suy luận mới của OpenAI tạo ảo giác nhiều hơn

Giữa cuộc đua phát triển trí tuệ nhân tạo (AI) ngày càng khốc liệt, một tin không mấy vui vẻ vừa được công bố: Các mô hình AI mới nhất của OpenAI, dù tiên tiến vượt bậc, lại có xu hướng "tạo ảo giác" – tức đưa ra thông tin sai lệch – nhiều hơn so với các phiên bản trước đó. Liệu đây có phải là một bước lùi trong hành trình chinh phục AI đáng tin cậy?

Thông tin này được chính OpenAI thừa nhận trong báo cáo kỹ thuật nội bộ. Các mô hình o3 và o4-mini, được thiết kế để tăng cường khả năng suy luận, lại "ảo giác" thường xuyên hơn so với các phiên bản cũ như o1, o1-mini, o3-mini, và thậm chí cả GPT-4o. Nguyên nhân của tình trạng này vẫn còn là một ẩn số, gây không ít lo ngại cho giới chuyên gia.

Báo cáo kỹ thuật của OpenAI nhấn mạnh rằng "cần nghiên cứu thêm" để hiểu rõ tại sao khả năng "ảo giác" lại gia tăng khi các mô hình suy luận được mở rộng. Mặc dù o3 và o4-mini thể hiện vượt trội trong một số lĩnh vực như lập trình và toán học, nhưng do "đưa ra nhiều tuyên bố hơn", số lượng tuyên bố sai lệch cũng tăng theo.

Thử nghiệm trên PersonQA, một tiêu chuẩn đánh giá nội bộ của OpenAI về độ chính xác kiến thức về con người, cho thấy o3 "ảo giác" trong 33% câu hỏi. Con số này cao gấp đôi so với các mô hình suy luận trước đó như o1 (16%) và o3-mini (14.8%). Đáng lo ngại hơn, o4-mini còn cho kết quả tệ hơn, "ảo giác" tới 48% số lần.

Một thử nghiệm độc lập của Transluce, một phòng thí nghiệm nghiên cứu AI phi lợi nhuận, cũng phát hiện ra rằng o3 có xu hướng "bịa đặt" các hành động trong quá trình đưa ra câu trả lời.

"Giả thuyết của chúng tôi là loại học tăng cường được sử dụng cho các mô hình o-series có thể khuếch đại các vấn đề thường được giảm thiểu (nhưng không loại bỏ hoàn toàn) bằng các quy trình hậu huấn luyện tiêu chuẩn," Neil Chowdhury, nhà nghiên cứu của Transluce và cựu nhân viên OpenAI, nhận định.

Sarah Schwettmann, đồng sáng lập Transluce, cũng lo ngại rằng tỷ lệ "ảo giác" cao có thể làm giảm đáng kể tính hữu dụng của o3.

Tuy nhiên, không phải tất cả đều là tin xấu. Kian Katanforoosh, giáo sư thỉnh giảng tại Stanford và CEO của startup Workera, cho biết nhóm của ông đã thử nghiệm o3 trong quy trình lập trình và nhận thấy nó vượt trội so với các đối thủ. Mặc dù vậy, ông cũng lưu ý rằng o3 có xu hướng "ảo giác" các liên kết trang web bị hỏng.

Dù "ảo giác" có thể giúp mô hình đưa ra những ý tưởng thú vị và sáng tạo, nhưng chúng cũng gây khó khăn cho việc ứng dụng vào các lĩnh vực đòi hỏi độ chính xác cao. Ví dụ, một công ty luật khó có thể hài lòng với một mô hình thường xuyên đưa ra các lỗi sai trong hợp đồng.

Một giải pháp tiềm năng là trang bị cho mô hình khả năng tìm kiếm trên web. GPT-4o của OpenAI với tính năng tìm kiếm web đạt độ chính xác 90% trên SimpleQA, một tiêu chuẩn đánh giá độ chính xác khác của OpenAI.

"Giải quyết vấn đề ảo giác trên tất cả các mô hình của chúng tôi là một lĩnh vực nghiên cứu đang được tiến hành, và chúng tôi liên tục nỗ lực để cải thiện độ chính xác và độ tin cậy của chúng," Niko Felix, người phát ngôn của OpenAI, cho biết.

Khi các kỹ thuật cải thiện mô hình AI truyền thống bắt đầu cho thấy dấu hiệu thoái trào, ngành công nghiệp AI đã chuyển hướng sang các mô hình suy luận. Tuy nhiên, việc "ảo giác" gia tăng cho thấy đây là một thách thức không nhỏ trên con đường phát triển AI thực sự hữu ích và đáng tin cậy.