Lỗi Quét Tạo Thuật Ngữ Khoa Học Giả Mạo—Giờ AI Không Cho Nó Lụi Tàn
Trí tuệ nhân tạo (AI), vốn được kỳ vọng là công cụ đắc lực trong nghiên cứu khoa học, lại đang vô tình khuếch đại những sai sót ngớ ngẩn. Một ví dụ điển hình là sự lan truyền của cụm từ vô nghĩa "vegetative electron microscopy" (kính hiển vi điện tử thực vật) trong các bài báo khoa học, kết quả trả về của AI và thậm chí cả những tạp chí khoa học được đánh giá ngang hàng. Lỗi này, xuất phát từ một sai sót quét tài liệu từ những năm 1950, đang trở thành "hóa thạch kỹ thuật số" khó gỡ bỏ khỏi kho dữ liệu huấn luyện AI.
Nguồn gốc của sự nhầm lẫn được cho là từ việc phần mềm số hóa đã đọc nhầm bố cục cột trong một bài báo cũ. "Phần mềm đã kết hợp từ 'vegetative' ở một cột với 'electron' ở cột khác, tạo ra một cụm từ hoàn toàn vô nghĩa," theo một nghiên cứu được đăng tải trên The Conversation. Lỗi này sau đó đã được tái tạo và lan rộng bởi các mô hình AI.
Việc cụm từ vô nghĩa này xuất hiện trong các bài báo khoa học, đặc biệt là những bài từ Iran, cho thấy sự phức tạp của vấn đề. Một giả thuyết cho rằng sự nhầm lẫn trong bản dịch tiếng Farsi có thể đã góp phần vào việc tái du nhập thuật ngữ này. Các nhà nghiên cứu chỉ ra rằng "từ 'vegetative' và 'scanning' chỉ khác nhau một dấu chấm trong tiếng Farsi," dẫn đến sự nhầm lẫn với "scanning electron microscopy" (kính hiển vi điện tử quét), một kỹ thuật hoàn toàn hợp lệ.
Tuy nhiên, ngay cả khi lỗi bắt nguồn từ sai sót của con người, AI đã khuếch đại nó trên diện rộng. Nhóm nghiên cứu đã thử nghiệm bằng cách cung cấp cho các mô hình AI những đoạn trích từ các bài báo gốc. Kết quả cho thấy, "AI đáng tin cậy hoàn thành các cụm từ bằng thuật ngữ vô nghĩa này, thay vì các thuật ngữ khoa học hợp lệ." Các mô hình cũ hơn như GPT-2 và BERT không tạo ra lỗi này, cho thấy thời điểm sự nhiễm bẩn xảy ra trong dữ liệu huấn luyện của các mô hình.
Đáng lo ngại hơn, lỗi này vẫn tồn tại trong các mô hình AI mới nhất như GPT-4o và Claude 3.5. Nhóm nghiên cứu nhận định rằng "thuật ngữ vô nghĩa này có thể đã được nhúng vĩnh viễn vào cơ sở kiến thức AI." Điều này đặt ra câu hỏi lớn về chất lượng dữ liệu và khả năng loại bỏ các lỗi trong các mô hình AI.
Nguyên nhân chính của vấn đề có thể nằm ở CommonCrawl, một kho lưu trữ khổng lồ các trang web được cào (scraped). Tuy nhiên, việc loại bỏ lỗi khỏi CommonCrawl là một thách thức lớn. "CommonCrawl bao gồm petabyte dữ liệu, khiến cho các nhà nghiên cứu bên ngoài các công ty công nghệ lớn nhất khó giải quyết vấn đề ở quy mô lớn," các nhà nghiên cứu cho biết.
Bên cạnh những vấn đề về dữ liệu huấn luyện, sự cẩu thả trong quy trình xuất bản khoa học cũng góp phần vào sự lan truyền của lỗi. Tạp chí Frontiers đã phải thu hồi một bài báo bao gồm những hình ảnh vô nghĩa do AI tạo ra. Theo một báo cáo của Harvard Kennedy School’s Misinformation Review, vấn đề "khoa học rác" (junk science) trên Google Scholar ngày càng trở nên nghiêm trọng.
Trong khi AI có những ứng dụng thực tế trong khoa học, việc triển khai nó một cách ồ ạt cũng tiềm ẩn nhiều rủi ro về thông tin sai lệch. Sai sót từ quá trình số hóa có thể trở thành "hóa thạch kỹ thuật số" khó loại bỏ, gây ảnh hưởng tiêu cực đến cả giới nghiên cứu và công chúng quan tâm đến khoa học. Do đó, việc kiểm soát chất lượng dữ liệu và nâng cao nhận thức về những cạm bẫy tiềm ẩn là vô cùng quan trọng để khai thác hiệu quả sức mạnh của AI trong khoa học.