Mô hình AI mới nhất của OpenAI có biện pháp bảo vệ mới để ngăn ngừa rủi ro sinh học.

Mô hình AI mới nhất của OpenAI có biện pháp bảo vệ mới để ngăn ngừa rủi ro sinh học.

OpenAI tăng cường phòng thủ AI: Lá chắn mới chống lại nguy cơ sinh học

OpenAI vừa tung ra một lá chắn mới cho hệ thống trí tuệ nhân tạo (AI) của mình, một bước đi quan trọng trong cuộc đua ngăn chặn AI bị lợi dụng cho các mục đích đen tối. Hệ thống giám sát mới này được thiết kế để bảo vệ các mô hình AI mạnh mẽ nhất của họ, cụ thể là o3 và o4-mini, khỏi việc vô tình cung cấp thông tin có thể hỗ trợ các hành động gây hại liên quan đến các mối đe dọa sinh học và hóa học.

"Chúng tôi đã triển khai một hệ thống mới để giám sát các mô hình AI mới nhất của mình, o3 và o4-mini, để ngăn chặn việc cung cấp thông tin có thể hỗ trợ các hành vi gây hại liên quan đến các mối đe dọa sinh học và hóa học," OpenAI cho biết trong báo cáo an toàn mới nhất của họ.

Theo OpenAI, o3 và o4-mini có khả năng vượt trội so với các mô hình trước đây, đặc biệt là o3, có khả năng trả lời các câu hỏi về việc tạo ra các mối đe dọa sinh học một cách chi tiết hơn. Điều này làm tăng nguy cơ những kẻ xấu có thể lợi dụng AI để tạo ra vũ khí sinh học hoặc hóa học.

Hệ thống giám sát "tập trung vào an toàn" này được huấn luyện đặc biệt để tuân thủ các chính sách nội dung của OpenAI. Nó được thiết kế để xác định các yêu cầu liên quan đến rủi ro sinh học và hóa học, đồng thời hướng dẫn các mô hình từ chối cung cấp lời khuyên về các chủ đề nhạy cảm này.

Trong quá trình thử nghiệm, hệ thống đã chứng minh hiệu quả cao. Theo OpenAI, các mô hình đã từ chối trả lời các yêu cầu rủi ro trong 98,7% trường hợp.

Tuy nhiên, OpenAI thừa nhận rằng hệ thống này không hoàn hảo. "Thử nghiệm của chúng tôi không tính đến những người có thể thử các lời nhắc mới sau khi bị chặn bởi màn hình," công ty cho biết. Do đó, OpenAI tiếp tục dựa vào giám sát của con người để phát hiện các nỗ lực vượt qua hệ thống.

Mặc dù o3 và o4-mini không vượt quá ngưỡng "rủi ro cao" của OpenAI đối với các mối đe dọa sinh học, nhưng công ty vẫn tích cực theo dõi cách các mô hình của mình có thể tạo điều kiện cho những kẻ xấu phát triển các mối đe dọa hóa học và sinh học, theo Khung chuẩn bị được cập nhật gần đây của OpenAI.

OpenAI ngày càng dựa vào các hệ thống tự động để giảm thiểu rủi ro từ các mô hình của mình. Ví dụ: để ngăn trình tạo hình ảnh gốc của GPT-4o tạo ra tài liệu lạm dụng tình dục trẻ em (CSAM), OpenAI cho biết họ sử dụng màn hình lý luận tương tự như màn hình mà công ty đã triển khai cho o3 và o4-mini.

Tuy nhiên, một số nhà nghiên cứu đã bày tỏ lo ngại rằng OpenAI không ưu tiên an toàn nhiều như họ nên làm. Một trong những đối tác thử nghiệm của công ty, Metr, cho biết họ có tương đối ít thời gian để thử nghiệm o3 trên một điểm chuẩn cho hành vi lừa dối. Trong khi đó, OpenAI đã quyết định không phát hành báo cáo an toàn cho mô hình GPT-4.1 của mình, ra mắt vào đầu tuần này.

Sự ra mắt của hệ thống giám sát mới này đánh dấu một bước tiến quan trọng trong việc đảm bảo rằng AI được sử dụng cho mục đích tốt đẹp. Tuy nhiên, vẫn còn nhiều việc phải làm để ngăn chặn những kẻ xấu khai thác AI cho các mục đích độc hại. Cuộc chiến giữa phát triển AI và đảm bảo an toàn cho xã hội vẫn còn tiếp diễn, và OpenAI đang cố gắng đi đầu trong nỗ lực này.