Tại buổi ra mắt mô hình ở San Francisco (Mỹ), bà Mira Murati, Giám đốc công nghệ của OpenAI cho biết, mô hình AI tạo sinh cao cấp mới có tên GPT-4o với "o" viết tắt cho từ "omni" (toàn năng).
Theo mô tả của OpenAI, GPT-4o có khả năng ghi nhớ từ các cuộc trò chuyện trước đó với người dùng và có thể dịch thuật theo thời gian thực. Hơn nữa, mô hình này sẽ biến ChatGPT thành một trợ lý cá nhân kỹ thuật số bằng cách tham gia vào các cuộc trò chuyện bằng giọng nói theo thời gian thực.
Ngoài ra, công cụ tương tác với người dùng thông qua việc sử dụng văn bản và khả năng "nhìn". Điều này có nghĩa là nó có thể diễn giải, phân tích cũng như trợ giúp mã hóa biểu đồ, ảnh chụp màn hình, ảnh, tài liệu do người dùng tải lên và tương tác.
ChatGPT chạy GPT-4o thậm chí còn có thể phân tích video về không gian xung quanh người đối diện, trả lời người đó đang mặc áo hoodie và được bao quanh bởi thiết bị ghi âm và đưa ra dự đoán là người này đang chuẩn bị cho việc quay phim.
"Đây là lần đầu tiên chúng tôi thực sự đạt được một bước tiến lớn về tính dễ sử dụng của trí tuệ nhân tạo. Điều này rất quan trọng trong việc định hướng tương tác giữa con người và máy móc trong tương lai. Tôi nghĩ GPT-4o đang thực sự chuyển mô hình trí tuệ nhân tạo hình thức cộng tác, nơi sự tương tác trở nên tự nhiên và dễ dàng hơn nhiều".
Đại diện OpenAI thông tin thêm, GPT-4o sẽ hỗ trợ đa ngôn ngữ với hiệu suất nâng cao cho khoảng 50 ngôn ngữ. So với API của OpenAI và Azure OpenAI Service của Microsoft, GPT-4o nhanh gấp đôi.
Dự kiến, GPT-4o được triển khai cho người dùng toàn cầu trên các sản phẩm trong hệ sinh thái của OpenAI trong vài tuần tới. Còn đối với người dùng ChatGPT Plus sẽ được tiếp cận mô hình mới này từ ngày 14/5.
Theo chuyên trang công nghệ The Verge, trước khi ra mắt GPT-4o, nhiều dự đoán rằng OpenAI sẽ công bố một công cụ tìm kiếm tích hợp trí tuệ nhân tạo để cạnh tranh với Google và Perplexity. Tuy nhiên, giới chuyên gia cho rằng, với mô hình GPT-4o, OpenAI đang làm được nhiều hơn thế.