Đội ngũ "red team" của OpenAI đã biến ChatGPT thành pháo đài AI như thế nào
OpenAI vừa tung ra tính năng "ChatGPT Agent" đầy quyền năng cho người dùng trả phí, mở ra một kỷ nguyên mới về tự động hóa. Tuy nhiên, sức mạnh này đi kèm với những lo ngại sâu sắc về bảo mật. Để đảm bảo an toàn, OpenAI đã huy động một "red team" hùng hậu, biến ChatGPT Agent thành một pháo đài vững chắc trước các cuộc tấn công tiềm tàng.
Tính năng mới cho phép ChatGPT truy cập email, tài khoản web, tự động viết và trả lời email, tải xuống, chỉnh sửa, tạo tệp và thực hiện nhiều tác vụ khác một cách tự động. Điều này đồng nghĩa với việc người dùng phải trao cho AI sự tin tưởng tuyệt đối, đặt ra câu hỏi lớn về việc liệu ChatGPT có thể khai thác thông tin nhạy cảm hoặc hành động trái với mong muốn của người dùng hay không.
OpenAI không hề lơ là. Keren Gu, thành viên của nhóm Nghiên cứu An toàn tại OpenAI, chia sẻ trên X rằng:
"Chúng tôi đã kích hoạt các biện pháp bảo vệ mạnh mẽ nhất cho ChatGPT Agent. Đây là mô hình đầu tiên mà chúng tôi phân loại là 'Có khả năng cao' trong sinh học & hóa học theo Khung Chuẩn bị sẵn sàng của chúng tôi."
Để kiểm tra tính năng mới, OpenAI đã giao nhiệm vụ khó khăn này cho một đội ngũ "red team" gồm 16 nhà nghiên cứu bảo mật, đều là tiến sĩ (PhD). Họ có 40 giờ để tìm ra những điểm yếu chết người trong hệ thống.
Qua quá trình thử nghiệm khắc nghiệt, đội ngũ "red team" đã phát hiện ra bảy lỗ hổng khai thác phổ quát có thể xâm nhập hệ thống. Các lỗ hổng này bộc lộ những điểm yếu quan trọng trong cách AI tương tác với thế giới thực.
Tiếp theo là một loạt các thử nghiệm bảo mật chuyên sâu, phần lớn dựa trên phương pháp "red teaming". Mạng lưới Red Teaming đã thực hiện 110 cuộc tấn công, từ tấn công "prompt injection" đến các nỗ lực trích xuất thông tin sinh học. Mười sáu trong số đó vượt quá ngưỡng rủi ro nội bộ của OpenAI. Mỗi phát hiện đều cung cấp cho các kỹ sư OpenAI những thông tin cần thiết để viết và triển khai các bản sửa lỗi trước khi ra mắt.
Kết quả cho thấy những nỗ lực này không hề vô ích. ChatGPT Agent đã trải qua những cải tiến đáng kể về bảo mật, bao gồm hiệu suất 95% trước các cuộc tấn công hướng dẫn không liên quan đến trình duyệt trực quan và các biện pháp bảo vệ sinh học và hóa học mạnh mẽ.
Phân tích của FAR.AI chỉ ra rằng các cơ chế an toàn hiện tại phụ thuộc nhiều vào việc giám sát trong quá trình suy luận và sử dụng công cụ. Các nhà nghiên cứu cho rằng điều này có thể tạo ra một "điểm yếu duy nhất" nếu bị xâm phạm.
Đáp lại, OpenAI đã xây dựng một kiến trúc kiểm tra hai lớp, giám sát 100% lưu lượng sản xuất trong thời gian thực. Bên cạnh đó, OpenAI đã thực hiện các biện pháp đối phó trên toàn bộ mô hình, bao gồm:
- Xóa thông tin cá nhân dễ nhận dạng (PII) khỏi dữ liệu huấn luyện.
- Cải thiện khả năng phát hiện và ngăn chặn các yêu cầu nguy hiểm.
- Tăng cường các biện pháp bảo vệ chống lại việc trích xuất dữ liệu nhạy cảm.
Một trong những phát hiện đáng báo động của "red team" là khả năng ChatGPT Agent có thể bị lợi dụng để tạo ra các rủi ro sinh học. Các nhà nghiên cứu đã chứng minh rằng mô hình có thể tổng hợp các tài liệu được công bố về việc sửa đổi và tạo ra các mối đe dọa sinh học.
Để đối phó với những phát hiện này, OpenAI đã phân loại ChatGPT Agent là "Có khả năng cao" đối với các rủi ro sinh học và hóa học. Quyết định này không dựa trên bằng chứng xác thực về khả năng vũ khí hóa, mà là một biện pháp phòng ngừa dựa trên các phát hiện của "red team". Điều này dẫn đến một loạt các biện pháp phòng ngừa, bao gồm:
- Giám sát chặt chẽ các đầu ra của mô hình để phát hiện các dấu hiệu của hoạt động độc hại.
- Hạn chế quyền truy cập vào các thông tin nhạy cảm liên quan đến sinh học và hóa học.
- Hợp tác với các chuyên gia an toàn sinh học để đánh giá và giảm thiểu rủi ro.
Kinh nghiệm làm việc với "red team" đã thay đổi cơ bản triết lý bảo mật của OpenAI. Họ nhận ra rằng:
- Sức mạnh không phải là tất cả, sự kiên trì mới là chìa khóa: Kẻ tấn công không cần những kỹ năng khai thác tinh vi, tất cả những gì họ cần là thời gian.
- Ranh giới tin cậy chỉ là ảo ảnh: Khi AI có thể truy cập Google Drive, duyệt web và thực thi mã, các biện pháp bảo mật truyền thống sẽ tan biến.
- Giám sát là bắt buộc: Việc giám sát dựa trên lấy mẫu đã bỏ lỡ các cuộc tấn công quan trọng, dẫn đến yêu cầu bao phủ 100%.
- Tốc độ rất quan trọng: Các chu kỳ vá lỗi truyền thống kéo dài hàng tuần là vô nghĩa trước các cuộc tấn công "prompt injection" có thể lan truyền ngay lập tức.
Các bài học từ "red team" đã giúp OpenAI thiết lập một tiêu chuẩn bảo mật mới cho AI doanh nghiệp. Các tổ chức đánh giá việc triển khai AI cần lưu ý rằng:
"Đây là một thời điểm then chốt đối với công tác chuẩn bị sẵn sàng của chúng tôi. Trước khi đạt đến khả năng cao, công tác chuẩn bị sẵn sàng là về phân tích khả năng và lập kế hoạch các biện pháp bảo vệ. Giờ đây, đối với Agent và các mô hình có khả năng cao hơn trong tương lai, các biện pháp bảo vệ chuẩn bị sẵn sàng đã trở thành một yêu cầu hoạt động."
Bằng cách vạch trần chính xác cách AI có thể bị vũ khí hóa, "red team" đã buộc OpenAI tạo ra hệ thống AI đầu tiên mà bảo mật không chỉ là một tính năng, mà là nền tảng. ChatGPT Agent đã chứng minh hiệu quả của phương pháp "red teaming": chặn 95% các cuộc tấn công trình duyệt trực quan, bắt 78% các nỗ lực đánh cắp dữ liệu và giám sát mọi tương tác.
Trong cuộc chạy đua vũ trang AI ngày càng khốc liệt, các công ty tồn tại và phát triển sẽ là những công ty coi "red team" là kiến trúc sư cốt lõi của nền tảng, những người thúc đẩy nó đến giới hạn an toàn và bảo mật.