Gặp Gỡ AI Có Đa Nhân Cách: Bước Đột Phá Trong Khả Năng Sử Dụng Máy Tính
Bạn đã bao giờ tưởng tượng đến một trợ lý ảo có thể tự mình đặt vé máy bay, tìm kiếm ưu đãi trên Amazon, hay thậm chí sử dụng thành thạo các phần mềm phức tạp trên máy tính? Giấc mơ đó đang dần trở thành hiện thực với sự ra đời của S2, một "agent" AI tiên tiến được phát triển bởi startup Simular AI. S2 không chỉ đơn thuần là một chatbot thông minh, mà còn là một "đa nhân cách" AI, kết hợp sức mạnh của nhiều mô hình khác nhau để đạt hiệu suất vượt trội trong việc sử dụng máy tính và điện thoại thông minh.
S2 là một bước tiến đáng kể trong lĩnh vực AI, mở ra một hướng đi mới cho việc phát triển các agent có khả năng tự động hóa các tác vụ trên máy tính. Theo Simular AI, S2 kết hợp các mô hình tiên tiến và chuyên dụng, cho phép nó hoạt động hiệu quả hơn trong nhiều tình huống khác nhau. Điều này không chỉ giúp S2 đạt hiệu suất vượt trội trong việc sử dụng ứng dụng và quản lý tệp, mà còn cho thấy tiềm năng to lớn của việc sử dụng các mô hình khác nhau cho các tình huống khác nhau trong việc thúc đẩy sự tiến bộ của agent.
Vậy điều gì làm nên sự khác biệt của S2? Bí mật nằm ở cách tiếp cận "đa nhân cách" của Simular. Thay vì chỉ dựa vào một mô hình AI duy nhất, S2 sử dụng các mô hình AI đa năng mạnh mẽ như GPT-4o hoặc Claude 3.7 để lập kế hoạch và đưa ra quyết định, trong khi các mô hình nguồn mở nhỏ hơn đảm nhận các tác vụ cụ thể như diễn giải trang web. "Computer-using agents are different from large language models and different from coding. It’s a different type of problem," Ang Li, đồng sáng lập và CEO của Simular AI, cho biết.
Ngoài ra, S2 còn được thiết kế để học hỏi từ kinh nghiệm. Nó được trang bị một mô-đun bộ nhớ ngoài, ghi lại các hành động và phản hồi của người dùng, sau đó sử dụng những thông tin này để cải thiện hành động trong tương lai. Điều này cho phép S2 ngày càng trở nên thông minh và hiệu quả hơn trong việc hoàn thành các tác vụ được giao.
Hiệu quả của S2 đã được chứng minh qua các thử nghiệm trên OSWorld và AndroidWorld, hai chuẩn mực đo lường khả năng sử dụng hệ điều hành máy tính và điện thoại thông minh. Trên OSWorld, S2 có thể hoàn thành 34.5% các tác vụ phức tạp (50 bước), vượt trội so với OpenAI’s Operator (32%). Tương tự, trên AndroidWorld, S2 đạt điểm số 50%, cao hơn so với các agent khác (46%).
Victor Zhong, nhà khoa học máy tính tại Đại học Waterloo và là một trong những người tạo ra OSWorld, nhận định:
“This will help agents navigate GUIs with much higher precision. I think in the meantime, before such fundamental breakthroughs, state-of-the-art systems will resemble Simular in that they combine multiple models to patch the limitations of single models.”
Mặc dù S2 đã đạt được những tiến bộ đáng kể, nhưng nó vẫn còn một số hạn chế nhất định. Trong một số trường hợp, S2 có thể gặp khó khăn trong việc xử lý các tình huống đặc biệt và đôi khi có những hành vi kỳ lạ. Tuy nhiên, những hạn chế này không làm giảm đi giá trị của S2 như một bước đột phá trong lĩnh vực AI.
S2 đại diện cho một tương lai nơi các agent AI có thể tự động hóa nhiều tác vụ trên máy tính và điện thoại thông minh, giúp con người tiết kiệm thời gian và công sức. Mặc dù vẫn còn nhiều thách thức phía trước, nhưng sự ra đời của S2 cho thấy rằng giấc mơ về một trợ lý ảo thông minh và hiệu quả đang ngày càng trở nên gần hơn bao giờ hết.