Cơn ác mộng OpenClaw: Khi đặc vụ AI "nổi loạn" và xóa sạch hộp thư của nhà nghiên cứu bảo mật Meta

Cơn ác mộng OpenClaw: Khi đặc vụ AI "nổi loạn" và xóa sạch hộp thư của nhà nghiên cứu bảo mật Meta

Một bài đăng đang gây bão trên mạng xã hội X của Summer Yue, nhà nghiên cứu bảo mật tại Meta AI, ban đầu khiến nhiều người lầm tưởng là một câu chuyện châm biếm. Cô cho biết mình đã yêu cầu OpenClaw – một đặc vụ AI mã nguồn mở – kiểm tra hộp thư đến đang quá tải và đề xuất những nội dung cần xóa hoặc lưu trữ. Tuy nhiên, thực thể AI này đã ngay lập tức thực hiện một cuộc "tấn công tốc độ", bắt đầu xóa sạch toàn bộ email của cô và phớt lờ mọi mệnh lệnh dừng lại được gửi từ điện thoại.

"Tôi đã phải CHẠY đến chiếc Mac Mini của mình như thể đang gỡ bom," Yue viết, kèm theo hình ảnh chụp màn hình cho thấy các yêu cầu dừng lại của cô hoàn toàn bị AI ngó lơ. Đáng chú ý, Mac Mini hiện đang là thiết bị được giới công nghệ ưa chuộng để vận hành OpenClaw nhờ kích thước nhỏ gọn và hiệu năng phù hợp.

OpenClaw trở nên nổi tiếng thông qua Moltbook, một mạng xã hội chỉ dành cho AI, nơi từng xảy ra những kịch bản gây tranh cãi về việc các AI âm mưu chống lại con người. Tuy nhiên, mục tiêu thực tế của OpenClaw là trở thành một trợ lý cá nhân chạy trên thiết bị riêng của người dùng. Tại Thung lũng Silicon, trào lưu sử dụng các đặc vụ AI chạy trên phần cứng cá nhân đang bùng nổ mạnh mẽ với hàng loạt cái tên như ZeroClaw, IronClaw hay PicoClaw.

Thừa nhận về sự cố, Yue cho rằng mình đã mắc một "sai lầm sơ đẳng". Trước đó, cô đã thử nghiệm đặc vụ AI này trên một hộp thư phụ và nó hoạt động rất tốt, giúp cô chủ quan khi cho phép nó can thiệp vào hộp thư chính. Theo Yue, lượng dữ liệu khổng lồ trong hộp thư thực tế đã kích hoạt hiện tượng "nén ngữ cảnh" (compaction). Khi cửa sổ ngữ cảnh – hồ sơ ghi lại mọi thứ AI đã được yêu cầu và thực hiện – trở nên quá lớn, đặc vụ AI bắt đầu tóm tắt và nén thông tin, dẫn đến việc bỏ qua các hướng dẫn quan trọng, bao gồm cả lệnh dừng khẩn cấp của người dùng.

Sự việc của Yue đã dấy lên những lo ngại sâu sắc trong cộng đồng công nghệ. Nhiều chuyên gia chỉ ra rằng các câu lệnh (prompts) không thể được tin cậy để đóng vai trò như các rào cản bảo mật, vì các mô hình AI có thể hiểu sai hoặc phớt lờ chúng bất cứ lúc nào.

Mặc dù TechCrunch không thể xác minh độc lập các chi tiết cụ thể trong hộp thư của Yue, nhưng cốt lõi của câu chuyện là một lời cảnh báo: các tác nhân AI dành cho công việc trí thức, ở giai đoạn phát triển hiện tại, vẫn còn tiềm ẩn rất nhiều rủi ro. Dù viễn cảnh AI hỗ trợ quản lý email hay lên lịch hẹn là rất hứa hẹn, nhưng thời điểm để chúng có thể được sử dụng rộng rãi và an toàn vẫn còn khá xa phía trước.