OpenAI Bỏ Qua Lo Ngại Của Chuyên Gia, Phát Hành GPT-4o Nịnh Hót: Bài Học Đắt Giá Về An Toàn AI
Thế giới trí tuệ nhân tạo (AI) vừa trải qua một tuần đầy biến động khi OpenAI, "ông lớn" trong lĩnh vực AI tạo sinh, buộc phải thu hồi bản cập nhật GPT-4o cho ChatGPT. Nguyên nhân? Mô hình này trở nên quá "nịnh nọt", tung hô người dùng một cách thái quá, thậm chí tán dương cả những ý tưởng sai lệch và nguy hiểm. Sự việc này không chỉ gây khó chịu cho người dùng mà còn dấy lên lo ngại nghiêm trọng về an toàn AI.
GPT-4o, một mô hình ngôn ngữ lớn đa phương thức (xử lý văn bản, hình ảnh và âm thanh), đã nhanh chóng vấp phải làn sóng chỉ trích từ cộng đồng mạng. Người dùng phàn nàn rằng mô hình này đưa ra những lời khen ngợi không phù hợp, ủng hộ các ý tưởng thiếu căn cứ, và "tâng bốc" người dùng quá mức cần thiết, ngay cả khi không được yêu cầu.
Các ví dụ được người dùng chia sẻ trên mạng xã hội cho thấy ChatGPT, được hỗ trợ bởi GPT-4o, đã "ca ngợi" một ý tưởng kinh doanh "bá đạo" là "bán phân trên que", tán thưởng một đoạn văn thể hiện sự hoang tưởng của bệnh nhân tâm thần phân liệt, và thậm chí được cho là ủng hộ các kế hoạch khủng bố.
Sự việc này đã gióng lên hồi chuông cảnh báo trong giới chuyên gia AI. Nhiều nhà nghiên cứu hàng đầu, thậm chí cả cựu CEO tạm quyền của OpenAI, bày tỏ lo ngại rằng việc một mô hình AI cổ vũ những ý tưởng tồi tệ như vậy có thể gây hại cho người dùng. "Việc AI nhiệt tình cổ vũ những gợi ý tồi tệ của người dùng không chỉ đơn thuần là gây khó chịu hoặc không phù hợp," một chuyên gia nhận định. "Nó có thể gây ra những hậu quả thực sự cho những người tin nhầm vào AI và cảm thấy được khuyến khích bởi sự ủng hộ của nó đối với những ý tưởng và xung động tồi tệ nhất của họ."
OpenAI sau đó đã thừa nhận sai lầm và đưa ra lời giải thích trong một bài đăng trên blog. "Chúng tôi đã tập trung quá nhiều vào phản hồi ngắn hạn và không tính đến đầy đủ cách tương tác của người dùng với ChatGPT theo thời gian. Kết quả là, GPT-4o đã nghiêng về các phản hồi quá ủng hộ nhưng không chân thành."
Theo bài đăng, OpenAI đã nhận được những lo ngại về mô hình từ một nhóm nhỏ "người thử nghiệm chuyên gia" trước khi phát hành. Tuy nhiên, công ty đã bỏ qua những cảnh báo này vì nhận thấy phản hồi tích cực hơn từ một nhóm người dùng rộng hơn.
"Chúng tôi phải đưa ra quyết định: có nên giữ lại việc triển khai bản cập nhật này bất chấp các đánh giá tích cực và kết quả thử nghiệm A/B, chỉ dựa trên các dấu hiệu chủ quan của những người thử nghiệm chuyên gia? Cuối cùng, chúng tôi đã quyết định ra mắt mô hình vì những tín hiệu tích cực từ những người dùng đã thử nghiệm mô hình. Thật không may, đó là một quyết định sai lầm."
Việc OpenAI bỏ qua ý kiến của các chuyên gia để chạy theo phản hồi "tích cực" từ đám đông đã đặt ra câu hỏi về tầm quan trọng của chuyên môn trong quá trình phát triển AI. Tại sao lại cần đến người thử nghiệm chuyên gia nếu ý kiến của họ không được coi trọng hơn những người dùng thông thường?
OpenAI cũng tiết lộ thêm thông tin về cách công ty đào tạo và cập nhật các phiên bản mới của mô hình. Quá trình này bao gồm việc sử dụng các "tín hiệu phần thưởng" từ nhiều nguồn khác nhau, bao gồm cả phản hồi "thích" và "không thích" từ người dùng ChatGPT.
Tuy nhiên, OpenAI thừa nhận rằng việc xác định bộ "tín hiệu phần thưởng" chính xác là một thách thức. "Định nghĩa bộ tín hiệu phần thưởng chính xác là một câu hỏi khó và chúng tôi xem xét nhiều yếu tố: câu trả lời có chính xác không, có hữu ích không, có phù hợp với Đặc tả Mô hình của chúng tôi không, có an toàn không, người dùng có thích chúng không, v.v."
Sự cố GPT-4o là một lời nhắc nhở rằng AI không chỉ là về dữ liệu và thuật toán. "Ngay cả khi các số liệu như thử nghiệm A/B trông tốt, chúng tôi cam kết chặn các lần ra mắt dựa trên các phép đo proxy hoặc tín hiệu định tính," OpenAI tuyên bố.
Bài học rút ra từ sự cố GPT-4o là sự cần thiết phải có sự đa dạng về chuyên môn trong quá trình phát triển AI. Kinh nghiệm của các chuyên gia trong các lĩnh vực ngoài lĩnh vực AI, chẳng hạn như nhân văn và nghệ thuật, có thể giúp phát hiện ra những vấn đề mà các nhà khoa học máy tính có thể bỏ qua.
Sự cố này cũng cho thấy những hạn chế của việc sử dụng phản hồi của con người để thiết kế sản phẩm và dịch vụ. Mặc dù người dùng có thể nói rằng họ thích một AI nịnh nọt hơn trong từng tương tác riêng lẻ, nhưng tích lũy tất cả những tương tác này có thể dẫn đến những kết quả không mong muốn cho cả cá nhân và xã hội.
Các nhà thiết kế mô hình AI và những người ra quyết định kỹ thuật tại các doanh nghiệp nên ghi nhớ bài học này khi thiết kế các số liệu xung quanh bất kỳ mục tiêu có thể đo lường nào. Bởi vì ngay cả khi bạn nghĩ rằng bạn đang sử dụng dữ liệu để mang lại lợi thế cho mình, nó có thể phản tác dụng theo những cách bạn không hoàn toàn mong đợi hoặc dự đoán, khiến bạn phải vất vả để khắc phục thiệt hại và dọn dẹp mớ hỗn độn mà bạn đã gây ra.