Google ra mắt Gemini 2.0 có khả năng tạo nội dung đa phương thức

Google vừa phát hành mô hình Gemini 2.0 có khả năng tạo đầu ra nội dung gốc đa phương thức gồm hình ảnh, âm thanh gốc và đa ngôn ngữ.

TechCrunch đưa tin ngày 12/12, CEO Google Sundar Pichai cho biết, Gemini 2.0 có khả năng tạo đầu ra nội dung gốc đa phương thức. Sản phẩm đầu ra có thể là văn bản, giọng nói, hình ảnh, chuyển văn bản thành giọng nói và cho phép người dùng có thể tùy chỉnh giọng nói theo mong muốn.

Mô hình này có tốc độ phản hồi nhanh gấp đôi bản 1.5 Pro và cũng vượt trội ở nhiều tình huống sử dụng, trong đó khả năng viết code Python, Java, C++ đạt 92,9%, tăng so với mức 79,8 của 1.5 Flash; khả năng giải toán đạt 89,7%, hơn mức 77,9% trước đây. Tuy nhiên, khả năng hiểu bối cảnh dài lại giảm từ mức 71,9% xuống 69,2%.

Điểm nhấn của Gemini 2.0 nằm ở tính năng Gemini Advanced (hay còn gọi là nghiên cứu sâu) có khả năng tìm kiếm và tổng hợp thông tin trên Internet thay cho người dùng, sau đó trình bày các phát hiện dưới dạng báo cáo dễ đọc.

Về cách thức hoạt động, Google mô tả, khi người dùng đặt một câu hỏi, công cụ này sẽ tự động tạo ra một kế hoạch nghiên cứu nhiều bước, cho phép người dùng chấp thuận hoặc điều chỉnh trước khi tiến hành. Sau đó, Gemini Advanced sẽ tìm kiếm thông tin liên quan trên Internet, tinh chỉnh kết quả qua nhiều vòng lặp trong vài phút. Kết quả cuối cùng là một báo cáo chi tiết bao gồm các phát hiện chính và liên kết đến các nguồn tham khảo, có thể được xuất sang Google Docs để sử dụng ngay.

Theo Google, tính năng này giúp người dùng tiết kiệm thời gian đáng kể bằng cách thay thế nhiều giờ nghiên cứu truyền thống chỉ trong vài phút. Đây là công cụ phù hợp với những đối tượng là sinh viên đại học, nhà nghiên cứu, và các chuyên gia.

“Nếu Gemini 1.0 là sắp xếp và hiểu thông tin thì Gemini 2.0 sẽ làm thông tin trở nên hữu ích hơn nhiều,” CEO Sundar Pichai nói.

Gemini 2.0 - Bước đột phá AI mới nhất của Google. Ảnh minh họa: Hà Anh/Mekong ASEAN.

Gemini 2.0 được xem là bước đột phá AI mới nhất của Google. Ảnh minh họa: Hà Anh/Mekong ASEAN.

Trong giai đoạn ban đầu, Gemini 2.0 sẽ được triển khai cho các nhà phát triển và người thử nghiệm đáng tin cậy. Google sau đó có kế hoạch tích hợp rộng rãi mô hình này trên các sản phẩm khác, đặc biệt là trong công cụ tìm kiếm Google Search và nền tảng Gemini.

Google cho biết, chip Trillium được sử dụng riêng cho cả việc đào tạo và vận hành Gemini 2.0. Chip Trillium là do Google thiết kế đặc biệt, được tối ưu hóa để xử lý những cấu trúc dữ liệu đa chiều đóng vai trò trung tâm trong các phép tính AI. Giới chuyên gia nhận định, đây là thông tin quan trọng vì hầu hết hoạt động đào tạo AI đang sử dụng chip của Nvidia - công ty đã trở thành một trong những cái tên giá trị nhất thế giới nhờ cơn sốt AI.

Phiên bản đầu tiên của mô hình Gemini 2.0 có tên là Gemini 2.0 Flash. Google cho biết sẽ mở rộng ứng dụng cũng như mô hình khác của Gemini 2.0 vào tháng 1/2025.

Kết phiên giao dịch ngày 11/12, giá cổ phiếu của Alphabet – công ty mẹ Google tăng tới 5,52% lên 195,40 USD/cổ phiếu.