"Ác mộng" An Toàn AI: Mô Hình Gemini Mới Nhất Của Google "Tụt Hậu" So Với Tiền Nhiệm
Giữa cuộc đua khốc liệt trong lĩnh vực trí tuệ nhân tạo (AI), một thông tin gây "sốc" vừa được công bố: mô hình AI mới nhất của Google, Gemini 2.5 Flash, lại cho thấy sự "tụt hậu" đáng lo ngại về mặt an toàn so với phiên bản trước đó. Liệu đây có phải là cái giá phải trả cho việc "nới lỏng" các quy tắc kiểm duyệt, hay một "lỗ hổng" nghiêm trọng trong hệ thống phòng thủ của gã khổng lồ công nghệ?
Theo báo cáo kỹ thuật nội bộ của Google, Gemini 2.5 Flash có xu hướng tạo ra nội dung vi phạm các quy tắc an toàn cao hơn so với Gemini 2.0 Flash. Cụ thể, mô hình này giảm 4.1% trong bài kiểm tra "an toàn văn bản sang văn bản" và giảm đến 9.6% trong "an toàn hình ảnh sang văn bản". Điều này đồng nghĩa với việc Gemini 2.5 Flash dễ dàng "vượt rào" và tạo ra những nội dung không phù hợp, thậm chí là nguy hiểm, khi được "kích hoạt" bằng văn bản hoặc hình ảnh.
Google thừa nhận rằng Gemini 2.5 Flash đôi khi tạo ra nội dung vi phạm khi được yêu cầu một cách rõ ràng. Điều này xảy ra trong bối cảnh các công ty AI đang nỗ lực để làm cho các mô hình của họ trở nên "dễ dãi" hơn, đáp ứng tốt hơn các chủ đề nhạy cảm và gây tranh cãi. Tuy nhiên, nỗ lực này đôi khi phản tác dụng, dẫn đến những hậu quả khó lường.
Ví dụ điển hình là trường hợp ChatGPT của OpenAI, từng bị phát hiện cho phép trẻ vị thành niên tạo ra các cuộc trò chuyện mang tính khiêu dâm. Sự việc này đã dấy lên làn sóng chỉ trích mạnh mẽ về trách nhiệm của các nhà phát triển AI trong việc đảm bảo an toàn cho người dùng, đặc biệt là trẻ em.
"Tự nhiên, có một sự căng thẳng giữa việc tuân thủ hướng dẫn trong các chủ đề nhạy cảm và vi phạm chính sách an toàn, điều này được phản ánh trong các đánh giá của chúng tôi," trích từ báo cáo của Google.
Thử nghiệm của TechCrunch thông qua nền tảng AI OpenRouter cho thấy Gemini 2.5 Flash sẵn sàng viết các bài luận ủng hộ việc thay thế thẩm phán con người bằng AI, làm suy yếu các biện pháp bảo vệ pháp lý ở Hoa Kỳ và thực hiện các chương trình giám sát của chính phủ trên diện rộng mà không cần lệnh.
Thomas Woodside, đồng sáng lập của Secure AI Project, cho rằng những thông tin hạn chế mà Google cung cấp trong báo cáo kỹ thuật của mình cho thấy sự cần thiết phải minh bạch hơn trong việc kiểm tra mô hình.
"Có một sự đánh đổi giữa việc tuân theo hướng dẫn và tuân theo chính sách, bởi vì một số người dùng có thể yêu cầu nội dung vi phạm chính sách," Woodside nói với TechCrunch. "Trong trường hợp này, mô hình Flash mới nhất của Google tuân thủ hướng dẫn nhiều hơn nhưng cũng vi phạm chính sách nhiều hơn. Google không cung cấp nhiều chi tiết về các trường hợp cụ thể mà chính sách bị vi phạm, mặc dù họ nói rằng chúng không nghiêm trọng. Nếu không biết thêm, các nhà phân tích độc lập khó có thể biết liệu có vấn đề hay không."
Sự việc Gemini 2.5 Flash cho thấy một bài toán khó đang đặt ra cho các nhà phát triển AI: làm thế nào để cân bằng giữa việc tạo ra các mô hình mạnh mẽ, linh hoạt, có khả năng đáp ứng nhu cầu đa dạng của người dùng, và việc đảm bảo an toàn, ngăn chặn những rủi ro tiềm ẩn. Đây là một câu hỏi cấp bách cần được giải quyết, bởi sự phát triển của AI đang diễn ra với tốc độ chóng mặt, và những hệ lụy của nó có thể ảnh hưởng sâu sắc đến xã hội trong tương lai.