CoSyn: Công cụ mã nguồn mở giúp AI thị giác ngang tầm GPT-4V tiếp cận mọi người
Trong cuộc đua phát triển trí tuệ nhân tạo (AI) ngày càng khốc liệt, một công cụ mới mang tên CoSyn vừa được giới thiệu hứa hẹn sẽ làm thay đổi cục diện. Được phát triển bởi Đại học Pennsylvania và Allen Institute for AI, CoSyn giúp các hệ thống AI mã nguồn mở có thể sánh ngang, thậm chí vượt trội các mô hình AI độc quyền như GPT-4V và Gemini 1.5 Flash về khả năng hiểu hình ảnh. Điều này mở ra cơ hội cho việc phổ cập AI thị giác mạnh mẽ đến nhiều người hơn.
CoSyn giải quyết vấn đề nan giải về thiếu dữ liệu huấn luyện chất lượng cao, đặc biệt trong việc dạy máy tính hiểu thông tin trực quan phức tạp như biểu đồ khoa học, sơ đồ y tế và tài liệu tài chính. Thay vì thu thập hàng triệu hình ảnh từ internet, vốn tiềm ẩn nhiều vấn đề về bản quyền và đạo đức, CoSyn tận dụng khả năng lập trình của các mô hình ngôn ngữ hiện có để tạo ra dữ liệu huấn luyện tổng hợp.
"Chúng ta thiếu dữ liệu để huấn luyện mô hình, đặc biệt là các tài liệu, biểu đồ được chú thích kỹ lưỡng để huấn luyện mô hình ngôn ngữ thị giác trả lời câu hỏi dựa trên hình ảnh," Yue Yang, đồng tác giả nghiên cứu, giải thích. "Những hình ảnh này thực sự khó chú thích hơn so với ảnh tự nhiên như ảnh chó, mèo hay nhà cửa."
Công cụ này được kỳ vọng sẽ giúp các doanh nghiệp có thể phát triển hệ thống AI tùy chỉnh, có khả năng hiểu và suy luận về thông tin trực quan phức tạp, mà không cần tốn kém cho việc thu thập dữ liệu khổng lồ.
Giải pháp đột phá: Dữ liệu tổng hợp
Bài toán huấn luyện AI hiểu hình ảnh chứa văn bản đã tồn tại từ lâu. Các hình ảnh khoa học, biểu đồ và tài liệu đòi hỏi nhiều công sức chú thích, tốn thời gian và chi phí. Phương pháp truyền thống là thu thập hình ảnh và mô tả alt-text từ internet, nhưng dữ liệu này thường hời hợt và có vấn đề pháp lý.
CoSyn tiếp cận theo hướng hoàn toàn khác. Nhận thấy rằng hầu hết hình ảnh chứa văn bản được tạo ra từ code (ví dụ, Python tạo biểu đồ, LaTeX tạo phương trình toán học, HTML tạo giao diện web), nhóm nghiên cứu đã đảo ngược quy trình này. Họ sử dụng khả năng lập trình của các mô hình ngôn ngữ để tạo ra code, sau đó chạy code để tạo ra hình ảnh tổng hợp thực tế.
"Một trực giác là những hình ảnh như biểu đồ, tài liệu được tạo ra từ chương trình, từ code. Ví dụ, chúng ta dùng Python để tạo biểu đồ, dùng LaTeX hoặc Word để viết tài liệu," Yang nói. "Vậy tại sao không đi theo hướng ngược lại, tạo code trước, vì mô hình ngôn ngữ đã chứng minh khả năng viết code rất tốt?"
Chris Callison-Burch, giáo sư khoa học máy tính tại Penn, giải thích đơn giản hơn: "Giống như bạn có một học sinh giỏi văn và yêu cầu người đó dạy người khác vẽ bằng cách mô tả bức vẽ nên trông như thế nào. Chúng ta đang chuyển giao sức mạnh của AI mã nguồn mở từ văn bản sang thị giác."
Hiệu suất vượt trội
Kết quả cho thấy hiệu quả đáng kinh ngạc. Sử dụng bộ dữ liệu tổng hợp gồm 400.000 hình ảnh và 2,7 triệu cặp hướng dẫn, các mô hình được huấn luyện bằng CoSyn đạt hiệu suất cao nhất trong số các hệ thống mã nguồn mở và vượt qua các mô hình độc quyền trong bảy bài kiểm tra đánh giá khả năng hiểu hình ảnh chứa văn bản.
Trung bình, mô hình 7 tỷ tham số của họ đạt 80,9% điểm trên toàn bộ các bài kiểm tra, vượt trội so với mô hình mã nguồn mở tốt nhất trước đó (Llama 3.2 11B) 3,9%. Đáng chú ý hơn, ngay cả mô hình "zero-shot" (không được huấn luyện trên bất kỳ dữ liệu đánh giá nào) cũng vượt trội hơn hầu hết các mô hình độc quyền và mã nguồn mở, chứng minh khả năng chuyển giao kiến thức từ dữ liệu tổng hợp.
Trong một thử nghiệm đặc biệt, nhóm nghiên cứu đã tạo ra một bài kiểm tra mới mang tên NutritionQA, gồm 100 câu hỏi về ảnh chụp nhãn dinh dưỡng. Chỉ với 7.000 nhãn dinh dưỡng được tạo tổng hợp, mô hình của họ đã vượt trội hơn các mô hình được huấn luyện trên hàng triệu hình ảnh thật. "Mặc dù được huấn luyện trên hàng triệu hình ảnh, chúng tôi nhận thấy các mô hình ngôn ngữ thị giác mã nguồn mở không hiệu quả về dữ liệu và hoạt động kém trên tác vụ mới này so với GPT-4V," các nhà nghiên cứu viết trong bài báo của họ.
Yang nhấn mạnh tầm quan trọng của việc này: "Các công ty lớn có rất nhiều nguồn lực để thu thập dữ liệu và thực hiện nhiều thử nghiệm. Nhưng tôi nghĩ mô hình mã nguồn mở có thể cung cấp quyền truy cập cho mọi người, các trọng số mô hình, dữ liệu chúng tôi huấn luyện, hoặc thậm chí cả code, script huấn luyện, mọi thứ để các nhà phát triển có thể xây dựng dựa trên đó."
Ứng dụng thực tế và tiềm năng thay đổi cuộc chơi
Công nghệ này đã được ứng dụng trong thực tế, ví dụ như trong kiểm soát chất lượng và tự động hóa. Một công ty sử dụng mô hình ngôn ngữ thị giác để đảm bảo chất lượng lắp đặt cáp: "Họ yêu cầu công nhân chụp ảnh quy trình lắp đặt và sử dụng nó để tự động xác nhận rằng mọi bước đã được thực hiện đúng cách," Callison-Burch cho biết.
Khả năng hiểu hình ảnh chuyên biệt này có thể thay đổi nhiều quy trình làm việc, từ xử lý tài liệu tự động trong dịch vụ tài chính đến kiểm soát chất lượng trong sản xuất. Khả năng huấn luyện mô hình trên các tác vụ thị giác cụ thể bằng dữ liệu tổng hợp giúp các công ty phát triển hệ thống AI phù hợp với nhu cầu của họ mà không cần nỗ lực thu thập dữ liệu khổng lồ như trước đây.
Đối với các nhà quản lý doanh nghiệp, nghiên cứu này cho thấy một sự thay đổi trong cách tiếp cận chiến lược dữ liệu AI. "Tôi nghĩ dữ liệu tổng hợp là một cách rất hứa hẹn để loại bỏ nỗ lực chú thích của con người. Nó tốn ít tiền hơn và sẽ tự động tạo ra dữ liệu quy mô lớn, đồng thời có thể tránh một số vấn đề về bản quyền," Yang nhận định.
CoSyn không chỉ là một thành tựu kỹ thuật, mà còn là một minh chứng cho thấy sự phát triển AI mã nguồn mở có thể cạnh tranh với những nỗ lực được tài trợ mạnh mẽ của các công ty công nghệ lớn thông qua các cách tiếp cận sáng tạo đối với những thách thức cơ bản. Sự cởi mở, minh bạch và khả năng tiếp cận dễ dàng của CoSyn hứa hẹn sẽ thúc đẩy sự đổi mới và dân chủ hóa AI, mang lại lợi ích cho toàn xã hội.