Wikipedia Tạo Dữ Liệu Huấn Luyện AI Vì Quá Tải Bot
Trong bối cảnh làn sóng AI đang càn quét mọi lĩnh vực, Wikipedia, kho tàng tri thức mở khổng lồ của nhân loại, đang phải đối mặt với một thách thức mới: sự bùng nổ lưu lượng truy cập từ bot AI. Để giải quyết vấn đề này, Quỹ Wikimedia đã bắt tay với Kaggle (thuộc Google) nhằm cung cấp một phiên bản Wikipedia được tối ưu hóa cho việc huấn luyện các mô hình AI, bắt đầu với tiếng Anh và tiếng Pháp. Động thái này không chỉ giúp giảm tải cho hệ thống của Wikipedia mà còn đặt ra câu hỏi về vấn đề bản quyền và sử dụng công bằng dữ liệu trong kỷ nguyên AI.
Sự hợp tác này ra đời khi Wikipedia nhận thấy lượng truy cập từ các bot AI tăng đột biến, kéo theo chi phí vận hành tăng vọt. Theo Quỹ Wikimedia, mức tiêu thụ băng thông đã tăng 50% kể từ tháng 1 năm 2024. Để giải quyết vấn đề này, phiên bản Wikipedia mới sẽ được định dạng JSON, loại bỏ các tham khảo và mã markdown không cần thiết, giúp giảm bớt gánh nặng cho máy chủ của Wikipedia.
"As the place the machine learning community comes for tools and tests, Kaggle is extremely excited to be the host for the Wikimedia Foundation’s data. Kaggle is excited to play a role in keeping this data accessible, available, and useful," bà Brenda Flynn, phụ trách đối tác của Kaggle, chia sẻ với The Verge. (Tạm dịch: "Là nơi cộng đồng học máy tìm đến để có các công cụ và thử nghiệm, Kaggle vô cùng hào hứng được trở thành nơi lưu trữ dữ liệu của Quỹ Wikimedia. Kaggle rất vui khi được đóng vai trò trong việc duy trì khả năng truy cập, tính khả dụng và hữu ích của dữ liệu này.")
Wikipedia vốn là một nền tảng phi lợi nhuận, được điều hành bởi các tình nguyện viên, cho phép mọi người sử dụng và chỉnh sửa nội dung một cách tự do. Kiwix, một phiên bản ngoại tuyến của Wikipedia được sử dụng để đưa thông tin vào Bắc Triều Tiên, là một ví dụ điển hình cho việc tận dụng nguồn tri thức khổng lồ này. Tuy nhiên, việc các công ty công nghệ khai thác dữ liệu web để huấn luyện AI đang làm dấy lên những lo ngại về việc tôn trọng quyền tác giả và sử dụng công bằng nội dung.
Một trong những vấn đề được đặt ra là việc các công ty AI có sẵn sàng trả phí cho việc sử dụng dữ liệu của Wikipedia hay không. Hiện tại, Kaggle đang trả tiền cho dữ liệu thông qua Wikimedia Enterprise, một dịch vụ cao cấp cho phép người dùng truy cập nội dung với khối lượng lớn một cách dễ dàng hơn. Tuy nhiên, Quỹ Wikimedia nhấn mạnh rằng những người sử dụng lại nội dung, chẳng hạn như các công ty mô hình AI, vẫn phải tuân thủ các điều khoản về ghi công và cấp phép của Wikipedia.
Trong bối cảnh các mô hình ngôn ngữ đang ngày càng trở nên mạnh mẽ, việc tiếp cận nguồn dữ liệu huấn luyện chất lượng cao trở nên vô cùng quan trọng. Wikipedia, với kho tàng kiến thức đồ sộ và đa dạng, là một nguồn tài nguyên quý giá cho các nhà phát triển AI. Tuy nhiên, việc khai thác dữ liệu này cần được thực hiện một cách có trách nhiệm, đảm bảo sự tôn trọng đối với những người đóng góp nội dung và tuân thủ các quy định về bản quyền. Việc hợp tác giữa Wikimedia và Kaggle không chỉ là một giải pháp kỹ thuật mà còn là một bước tiến quan trọng trong việc định hình mối quan hệ giữa AI và nguồn tri thức mở của nhân loại.