Vào ngày 16 tháng 4 năm 2025, OpenAI đã chính thức giới thiệu hai mô hình suy luận AI mới của mình: o3 và o4-mini. Sự ra mắt này đánh dấu một bước nhảy vọt đáng kể trong năng lực trí tuệ nhân tạo của công ty, điều được thể hiện rõ nhất qua khả năng suy luận hình ảnh tiên tiến của chúng. Với các mô hình AI mới này, ChatGPT không chỉ dừng lại ở việc xử lý văn bản mà còn có thể “nhìn” và “tư duy” cùng hình ảnh, hứa hẹn mở ra nhiều ứng dụng đột phá trong nhiều lĩnh vực.
Các Mô Hình AI Mới Này Có Thể “Tư Duy” Với Hình Ảnh Một Cách Đột Phá
OpenAI cho biết các mô hình o3 và o4-mini có khả năng diễn giải bất kỳ hình ảnh nào mà người dùng tải lên, từ một bản phác thảo trên bảng trắng, sơ đồ trong sách giáo khoa cho đến các tệp PDF chứa đồ họa phức tạp. Theo thông báo phát hành chính thức của OpenAI về o3 và o4-mini, công ty nhấn mạnh:
“Chúng không chỉ nhìn thấy một hình ảnh—chúng tư duy với nó. Điều này mở khóa một loại hình giải quyết vấn đề mới, kết hợp lý luận thị giác và văn bản, được phản ánh qua hiệu suất dẫn đầu trong các thử nghiệm đa phương thức.”
Khả năng phân tích hình ảnh này được tích hợp sâu vào chuỗi suy luận (chain of thought reasoning) mà các mô hình thực hiện. Các mô hình AI có thể tự động phóng to, xoay hoặc cắt ảnh để cải thiện quá trình xử lý, đồng thời chúng cũng cực kỳ thành thạo trong việc xử lý các hình ảnh có chất lượng thấp.
Mô hình AI o4-mini của ChatGPT giải thích và phân tích chi tiết nội dung một hình ảnh biểu đồ.
Ví dụ, khi giải quyết một vấn đề khoa học liên quan đến sơ đồ phức tạp, mô hình o3 hoặc o4-mini có thể phóng to vào một phần cụ thể của hình ảnh, thực hiện các phép tính bằng Python, và sau đó tạo ra một biểu đồ để giải thích những phát hiện của mình.
Trong quá trình suy luận, các mô hình o3 và o4-mini có thể linh hoạt sử dụng tất cả các công cụ ChatGPT có sẵn, bao gồm duyệt web, thực thi mã Python và tạo hình ảnh. Khả năng “agentic” này cho phép chúng tự động lựa chọn công cụ ChatGPT tối ưu nhất cho một tác vụ nhất định. Nhờ đó, người dùng và nhà phát triển có thể thực hiện các quy trình làm việc đa bước và giải quyết các tác vụ phức tạp một cách hiệu quả.
o4-mini-high và Các Kịch Bản Ứng Dụng Tiềm Năng
o4-mini-high là một biến thể của o4-mini được thiết kế để dành nhiều thời gian và tài nguyên tính toán hơn cho mỗi yêu cầu, nhằm mang lại kết quả chất lượng cao hơn. Một số kịch bản ứng dụng hàng ngày mà o4-mini-high có thể thể hiện sức mạnh của mình bao gồm:
- Tạo và đánh giá các nghiên cứu trong sinh học, kỹ thuật và các lĩnh vực STEM khác, cung cấp lý luận chi tiết từng bước và giải thích trực quan.
- Tìm kiếm và tổng hợp thông tin từ nhiều nguồn khác nhau, chẳng hạn như cơ sở dữ liệu trực tuyến, báo cáo tài chính, dữ liệu thị trường và biểu đồ, để tạo ra các phân tích và hiểu biết kinh doanh sâu sắc.
Các mô hình này đã được huấn luyện thông qua học tăng cường (reinforcement learning), một khái niệm then chốt trong AI hiện đại. Giờ đây, chúng có thể xử lý các vấn đề “mờ” tốt hơn vì chúng có khả năng suy luận khi nào nên sử dụng một công cụ cụ thể để đạt được kết quả mong muốn.
Khả Năng Tiếp Cận Các Mô Hình Mới
Các mô hình o3, o4-mini và o4-mini-high hiện đã có sẵn cho tất cả người dùng có tài khoản ChatGPT Plus, Pro và Team. Phiên bản o3-pro dự kiến sẽ ra mắt trong những tuần tới. Bạn có thể tìm thấy chúng trong menu chọn mô hình của ChatGPT.
Đối với người dùng miễn phí, họ vẫn có thể trải nghiệm mô hình o4-mini bằng cách chọn tùy chọn “Think” trong trình soạn thảo trước khi gửi yêu cầu.
Tại Sao Khả Năng Đa Phương Thức Của ChatGPT Lại Ấn Tượng Đến Vậy?
Việc trang bị cho AI khả năng “suy nghĩ với hình ảnh” cho phép các mô hình mới của OpenAI giải quyết các vấn đề thực tế đòi hỏi việc diễn giải cả văn bản và hình ảnh. Điều này bao gồm nhiều tác vụ đa dạng như gỡ lỗi mã từ ảnh chụp màn hình, đọc văn bản viết tay, phân tích sơ đồ khoa học phức tạp hoặc trích xuất thông tin chi tiết từ các biểu đồ phức tạp. Kết quả là, ChatGPT đã trở nên nhận biết ngữ cảnh (context-aware) hơn bao giờ hết.
Các mô hình này giờ đây hoạt động tự chủ hơn. Chúng cũng có thể hiệu quả hơn, tự động điều chỉnh một mô hình cụ thể cho từng tác vụ. Khi các tác nhân AI (AI agents) tự động này có thể xử lý các tác vụ phức tạp, đa bước, khả năng suy luận và trí tuệ thị giác của chúng trở nên cực kỳ quan trọng đối với các lĩnh vực như nghiên cứu, kinh doanh và công việc sáng tạo.
Kết luận: Với sự ra mắt của o3 và o4-mini, OpenAI một lần nữa khẳng định vị thế dẫn đầu trong lĩnh vực AI, đặc biệt là với khả năng suy luận hình ảnh đầy ấn tượng. Những mô hình mới này không chỉ nâng cao đáng kể năng lực của ChatGPT mà còn mở ra vô vàn cơ hội cho việc giải quyết các vấn đề thực tế, biến trí tuệ nhân tạo trở thành một công cụ mạnh mẽ hơn bao giờ hết cho mọi lĩnh vực từ khoa học, kinh doanh đến sáng tạo. Hãy cùng theo dõi để không bỏ lỡ những bản cập nhật và ứng dụng tiềm năng tiếp theo của công nghệ AI đột phá này!