OpenAI ra mắt o3 và o4-mini, các mô hình AI "suy nghĩ bằng hình ảnh" và tự động sử dụng công cụ

OpenAI ra mắt o3 và o4-mini, các mô hình AI "suy nghĩ bằng hình ảnh" và tự động sử dụng công cụ

OpenAI ra mắt o3 và o4-mini: Kỷ nguyên AI "suy nghĩ bằng hình ảnh" chính thức bắt đầu

Thế giới công nghệ vừa chứng kiến một bước tiến mang tính cách mạng trong lĩnh vực trí tuệ nhân tạo (AI) khi OpenAI trình làng hai mô hình mới nhất: o3 và o4-mini. Không chỉ đơn thuần là xử lý hình ảnh, các mô hình này còn có khả năng "suy nghĩ" với hình ảnh, sử dụng công cụ độc lập để giải quyết các vấn đề phức tạp, mở ra một kỷ nguyên mới cho AI trực quan và đa năng.

Điểm đột phá của o3 và o4-mini nằm ở khả năng tích hợp hình ảnh vào quá trình suy luận. Chúng không chỉ "nhìn thấy" hình ảnh, mà còn có thể thao tác, phân tích và sử dụng chúng để đưa ra quyết định, tương tự như cách con người tư duy trực quan.

Theo OpenAI, điều này tạo ra "một loại giải quyết vấn đề mới, kết hợp suy luận trực quan và văn bản," cho phép tạo ra những ý tưởng hữu ích và độc đáo. Các mô hình này có thể tìm kiếm trên web, chạy mã, phân tích tệp và thậm chí tạo ra hình ảnh, tất cả trong một quy trình liền mạch.

Trong một buổi họp báo, Greg Brockman, Chủ tịch OpenAI, đã nhấn mạnh tầm quan trọng của sự kiện này:

"Có một số mô hình mang lại cảm giác như một bước tiến vượt bậc vào tương lai. GPT-4 là một trong số đó. Hôm nay cũng sẽ là một ngày như vậy. Đây là những mô hình đầu tiên mà các nhà khoa học hàng đầu nói với chúng tôi rằng chúng tạo ra những ý tưởng mới mẻ, hữu ích và thực sự tốt."

Khả năng "suy nghĩ bằng hình ảnh" của o3 và o4-mini hứa hẹn sẽ thay đổi cách chúng ta giải quyết vấn đề trong nhiều lĩnh vực. Trong một ví dụ được trình diễn, o3 có thể phân tích một poster vật lý phức tạp, tự tìm hiểu các sơ đồ và xác định thông tin còn thiếu.

Brandon McKenzie, một nhà nghiên cứu tại OpenAI, cho biết nhiệm vụ này có thể mất "nhiều ngày" để một người có thể hoàn thành. Khả năng này mở ra tiềm năng ứng dụng to lớn trong nghiên cứu khoa học, giáo dục và nhiều lĩnh vực khác.

Không chỉ là các mô hình AI đơn thuần, o3 và o4-mini còn được thiết kế như những hệ thống AI hoàn chỉnh, có khả năng sử dụng và kết hợp nhiều công cụ khác nhau để giải quyết vấn đề một cách độc lập.

OpenAI cho biết các mô hình này đã được "đào tạo để sử dụng các công cụ thông qua học tăng cường," cho phép chúng không chỉ biết cách sử dụng công cụ mà còn "lý luận về thời điểm sử dụng chúng."

Greg Brockman tiết lộ rằng o3 có thể thực hiện "600 lệnh gọi công cụ liên tiếp để giải quyết một nhiệm vụ thực sự khó khăn." Điều này cho phép các mô hình thực hiện các quy trình làm việc phức tạp mà không cần sự can thiệp liên tục của con người.

OpenAI tự tin tuyên bố rằng o3 đã thiết lập các tiêu chuẩn mới trong các lĩnh vực quan trọng của AI, bao gồm Codeforces, SWE-bench và MMMU. Các đánh giá từ chuyên gia bên ngoài cho thấy o3 giảm 20% các lỗi lớn so với phiên bản trước đó trong các nhiệm vụ thực tế khó khăn.

o4-mini, phiên bản nhỏ gọn hơn, được tối ưu hóa cho tốc độ và hiệu quả chi phí, đồng thời vẫn duy trì khả năng suy luận mạnh mẽ. Trong cuộc thi toán học AIME 2025, o4-mini đạt 99,5% khi được truy cập vào trình thông dịch Python.

Mark Chen, Giám đốc Nghiên cứu của OpenAI, tin rằng "với bộ mô hình o3 và o4-mini này, chúng ta sẽ thấy nhiều tiến bộ hơn."

Sự ra mắt của o3 và o4-mini diễn ra chỉ hai ngày sau khi OpenAI giới thiệu mô hình GPT-4.1, chuyên về các tác vụ mã hóa. Điều này cho thấy sự cạnh tranh khốc liệt trong lĩnh vực AI, với sự tham gia của các đối thủ như Google, Anthropic và xAI của Elon Musk.

Các mô hình mới này đặc biệt xuất sắc trong lĩnh vực kỹ thuật phần mềm. Brockman cho biết o3 "thực sự giỏi hơn tôi trong việc điều hướng cơ sở mã OpenAI của chúng tôi, điều này thực sự hữu ích."

Để hỗ trợ các nhà phát triển, OpenAI cũng giới thiệu Codex CLI, một công cụ mã hóa nhẹ chạy trực tiếp trong terminal của người dùng. Công cụ này cho phép các nhà phát triển tận dụng khả năng suy luận của các mô hình cho các tác vụ mã hóa, với hỗ trợ cho ảnh chụp màn hình và bản phác thảo.

OpenAI đang khởi động một sáng kiến trị giá 1 triệu đô la để hỗ trợ các dự án sử dụng Codex CLI và các mô hình OpenAI, với các khoản tài trợ có sẵn với giá trị 25.000 đô la tín dụng API.

OpenAI cũng nhấn mạnh các biện pháp an toàn được áp dụng để ngăn chặn việc lạm dụng AI. Công ty đã thực hiện các thử nghiệm an toàn rộng rãi trên các mô hình mới, tập trung vào khả năng từ chối các yêu cầu gây hại.

o3 và o4-mini hiện đã có sẵn cho người dùng ChatGPT Plus, Pro và Team, với khách hàng Enterprise và Education sẽ được truy cập vào tuần tới. Người dùng miễn phí có thể dùng thử o4-mini bằng cách chọn "Think" trước khi gửi truy vấn.

Các nhà phát triển có thể truy cập cả hai mô hình thông qua OpenAI’s Chat Completions API và Responses API.

Ethan Mollick, phó giáo sư tại Trường Wharton, người nghiên cứu về việc áp dụng AI, mô tả o3 là "một mô hình rất mạnh, nhưng vẫn còn một chút gập ghềnh" sau khi công bố.

Với o3 và o4-mini, OpenAI đã vượt qua một ngưỡng quan trọng, nơi máy móc bắt đầu cảm nhận hình ảnh giống như con người - thao tác thông tin trực quan như một phần không thể thiếu trong quá trình tư duy của chúng thay vì chỉ đơn thuần phân tích những gì chúng thấy. Sự thay đổi từ nhận dạng thụ động sang lý luận trực quan chủ động này có thể chứng minh ý nghĩa hơn bất kỳ điểm chuẩn nào, đại diện cho thời điểm AI bắt đầu thực sự nhìn thế giới qua đôi mắt suy nghĩ.