AI Đang Truyền Bá Định Kiến Cũ Sang Các Ngôn Ngữ và Văn Hóa Mới

AI Đang Truyền Bá Định Kiến Cũ Sang Các Ngôn Ngữ và Văn Hóa Mới

AI Đang Truyền Bá Định Kiến Cũ Sang Các Ngôn Ngữ và Văn Hóa Mới

AI, với tiềm năng cách mạng hóa cuộc sống, đang vô tình trở thành "kẻ truyền bá" những định kiến xã hội lỗi thời sang các ngôn ngữ và văn hóa mới. Thay vì xóa nhòa ranh giới, trí tuệ nhân tạo có nguy cơ khuếch đại những bất bình đẳng đã tồn tại từ lâu.

Để giải quyết vấn đề nhức nhối này, các nhà nghiên cứu đang nỗ lực phát triển các công cụ kiểm tra độ thiên vị của AI trong bối cảnh đa ngôn ngữ và đa văn hóa. Margaret Mitchell, người tiên phong trong lĩnh vực này và hiện là lãnh đạo về đạo đức AI tại Hugging Face, đã đóng vai trò quan trọng trong việc tạo ra SHADES, một bộ dữ liệu mới được thiết kế để kiểm tra cách các mô hình AI tiếp tục duy trì các khuôn mẫu.

SHADES, ra đời từ dự án BigScience - nỗ lực quốc tế nhằm đào tạo mô hình ngôn ngữ lớn mở đầu tiên Bloom, là một bộ dữ liệu linh hoạt với các bản dịch do con người thực hiện. Điều này cho phép kiểm tra AI trên nhiều ngôn ngữ và văn hóa hơn, khắc phục hạn chế của các phương pháp kiểm tra thiên vị truyền thống thường tập trung vào tiếng Anh. Hugging Face, công ty khởi nghiệp phần mềm tập trung vào các công cụ mã nguồn mở, đã cung cấp cơ sở hạ tầng tính toán quan trọng cho dự án BigScience.

"SHADES được thiết kế để hỗ trợ đánh giá và phân tích, xuất phát từ dự án BigScience. Chúng tôi có ý tưởng về một bộ dữ liệu đánh giá, nơi bạn có thể có những thứ hoàn toàn có thể so sánh được, ngoại trừ sự thay đổi trong một số đặc điểm nhất định," Margaret Mitchell giải thích.

Điểm khác biệt của SHADES nằm ở việc sử dụng bản dịch do con người thực hiện thay vì dựa vào máy dịch. Các bản dịch này được thực hiện bởi những người bản xứ, am hiểu sâu sắc về văn hóa và có thể nhận biết những định kiến tiềm ẩn.

"Trong khi có một số tài liệu đa ngôn ngữ liên quan đến sự thiên vị, chúng thường dựa trên bản dịch máy thay vì bản dịch thực tế từ những người nói ngôn ngữ đó, những người được nhúng trong nền văn hóa và những người có thể hiểu loại thành kiến đang diễn ra," Mitchell cho biết.

Việc mở rộng phạm vi kiểm tra thiên vị sang nhiều ngôn ngữ và văn hóa là vô cùng quan trọng, bởi vì các mô hình AI đang được triển khai rộng rãi trên toàn cầu. Nếu chỉ tập trung vào việc giảm thiểu thiên vị trong tiếng Anh, chúng ta có thể vô tình bỏ qua những định kiến đặc thù của từng nền văn hóa.

"Những mô hình này đang được triển khai trên nhiều ngôn ngữ và nền văn hóa, vì vậy việc giảm thiểu sự thiên vị trong tiếng Anh - ngay cả khi dịch sang tiếng Anh - không tương ứng với việc giảm thiểu sự thiên vị có liên quan trong các nền văn hóa khác nhau nơi chúng đang được triển khai," Mitchell cảnh báo. "Điều này có nghĩa là bạn có nguy cơ triển khai một mô hình truyền bá những khuôn mẫu thực sự có vấn đề trong một khu vực nhất định, bởi vì chúng được đào tạo trên các ngôn ngữ khác nhau này."

Bộ dữ liệu SHADES đánh dấu một bước tiến quan trọng trong việc xây dựng các hệ thống AI công bằng và toàn diện hơn. Bằng cách kiểm tra và giảm thiểu thiên vị trong bối cảnh đa ngôn ngữ và đa văn hóa, chúng ta có thể đảm bảo rằng AI phục vụ lợi ích của tất cả mọi người, không chỉ một số ít.