Google trình làng loạt sản phẩm AI

Tại hội nghị thường niên Google I/O 2024 dành cho nhà phát triển diễn ra tối 14/5 (theo giờ Mỹ), Google giới thiệu loạt sản phẩm trí tuệ nhân tạo, từ các mô hình nhỏ chạy cục bộ cho đến mô hình ngôn ngữ lớn với hàng chục tỷ tham số.

Google trình làng loạt sản phẩm AI tại sự kiện Google I/O 2024.

Theo CNBC, phần lớn các tính năng hay công cụ Google giới thiệu tại sự kiện I/O 2024 mới chỉ ở giai đoạn thử nghiệm hoặc có sẵn cho lập trình viên.

Dưới đây là những sản phẩm nổi bật mà Google đã giới thiệu tại sự kiện I/O 2024:

Gemini được tích hợp trên hầu hết ứng dụng

Google công bố phiên bản AI Gemini 1.5 với hàng loạt tính năng mới gồm khả năng phân tích văn bản, code, video, đoạn ghi âm với thời lượng dài hơn trước. Hiện mô hình ngôn ngữ lớn này có nhiều phiên bản.

Gemini 1.5 Pro sẽ trở thành trợ lý đa năng trong Workspace, có thể lấy thông tin từ bất kỳ và tất cả nội dung từ Drive, viết e-mail kết hợp thông tin từ tài liệu đang xem. Hơn nữa, ở ứng dụng Gmail, Gemini 1.5 Pro sẽ phân tích PDF và video đính kèm để tóm tắt. Trong trường hợp người dùng bỏ lỡ luồng e-mail, Gemini có thể tóm tắt những nội dung chính giúp người dùng. Mô hình sẽ được đưa vào Google Docs, Sheets, Slides, Drive và Gmail tháng tới, nhưng trước mắt chỉ dành cho người dùng trả phí.

Gemini 1.5 Flash là mô hình đa phương thức mới và tối ưu hóa cho các tác vụ hẹp, tần suất cao, độ trễ thấp - yếu tố giúp các mô hình trí tuệ nhân tạo phản hồi nhanh. Mô hình này có thể trò chuyện với người dùng về mọi thứ được chụp bằng camera smartphone của người dùng theo thời gian thực, kết quả tìm kiếm sẽ được phân loại theo tiêu đề do trí tuệ nhân tạo tạo ra. Google chưa tiết lộ những sản phẩm nào sẽ được tích hợp mô hình này.

Gemini Live là tính năng mới giúp người dùng tương tác với smartphone thông qua sử dụng công nghệ giọng nói chuyên biệt, tự nhiên. Tại sự kiện, CEO Google Sundar Pichai hỏi mô hình này một câu đơn giản như "Tôi có một cuộc phỏng vấn xin việc làm pha chế nhưng tôi chưa làm bao giờ. Bạn có thể cho tôi một vài gợi ý không?". Gemini ngay lập tức đưa ra các gợi ý về cách chuẩn bị cho cuộc phỏng vấn này. Các gợi ý bao gồm những việc như xem video về cách pha chế một số đồ uống đơn giản và luyện tập pha chế chúng tại nhà trước. Cuộc trò chuyện diễn ra tự nhiên, giống như người dùng đang tương tác với người thật ở ngoài đời.

Một điểm ấn tượng khác là người dùng có thể ngắt lời Gemini giữa chừng để thêm hoặc thay đổi nội dung. Gemini sẽ điều chỉnh các đề xuất và cuộc trò chuyện cho phù hợp. Dự kiến, Gemini Live khả dụng cho những người đăng ký Gemini Advanced trong thời gian tới.

Gemini Nano là mô hình trí tuệ nhân tạo có kích thước nhỏ nhất, được tích hợp lên trình duyệt Chrome cho máy tính bàn từ phiên bản 126. Mô hình này cung cấp khả năng phiên âm giọng nói, tóm tắt cuộc hội thoại, dịch văn bản...

Gemini Nano được tích hợp trong trình duyệt Chrome, có khả năng tóm tắt cuộc hội thoại, dịch văn bản, phiên âm giọng nói...Ảnh: Theo Google.

Nhà phát triển Jon Dahlke cho biết, việc tích hợp Gemini Nano trực tiếp vào trình duyệt Chrome sẽ giúp ứng dụng truy cập trí tuệ nhân tạo tạo sinh nhanh và dễ dàng hơn mà không cần phải liên hệ với máy chủ.

Google cũng sẽ tích hợp Gemini lên Android, giúp người dùng tránh cuộc gọi lừa đảo bằng cách phát hiện các dấu hiệu nguy hiểm rồi đưa ra cảnh báo theo thời gian thực. Tính năng này sẽ được công bố chi tiết vào cuối năm nay.

Đặc biệt, Google sẽ tích hợp mô hình Gemini trên công cụ tìm kiếm Google Search. Bà Liz Reid, Trưởng bộ phận tìm kiếm của Google cho biết: "Tích hợp trí tuệ nhân tạo vào công cụ tìm kiếm giúp giảm bớt sự khó khăn của việc tìm kiếm. Điều này giúp người dùng tập trung vào những phần họ thực sự muốn hoặc khám phám thêm".

Google sử dụng trí tuệ nhân tạo tổng hợp để tổ chức các kết quả dựa trên chủ đề và những gì người dùng có thể thấy thú vị. Thay vì phải đặt ra nhiều câu hỏi về một chủ đề như tìm một phòng tập yoga ở gần, khả năng suy luận đa bước của Gemini giúp Google thực hiện các nghiên cứu nâng cao hơn thay cho người dùng, kết hợp cùng các yếu tố như vị trí, giờ làm việc và ưu đãi, để mang lại thông tin nhanh hơn.

Trên công cụ tìm kiếm, Google cũng đưa Gemini vào phục vụ khả năng sàng lọc ảnh, gọi là Ask Photos. Tính năng này cho phép nghiên cứu thư viện Google Photos, sau đó trả lời cho người dùng khi được yêu cầu.

CEO Google Sundar Pichai thử tính năng Ask Photo. Ảnh: Theo TechCrunch.

Chẳng hạn, CEO Sundar Pichai đã thử nghiệm tính năng bằng cách hỏi Gemini biển số xe của ông là gì. Câu trả lời là dãy số nhưng kèm một bức ảnh để ông chắc chắn rằng câu trả lời là đúng.

Google cũng đang triển khai một trình tạo chatbot tùy chỉnh có tên là Gems. Giống như mô hình GPT của OpenAI, Gems cho phép người dùng đưa ra hướng dẫn cho Gemini, từ đó tùy chỉnh cách phản hồi và chuyên môn của nó. Hiện tính năng chỉ dành cho tài khoản trả phí Gemini Advanced.

Google Veo, Imagen 3 và Audio Overviews

Google ra mắt mô hình tạo video Veo và Imagen 3. Đây được đánh giá là đối thủ mới của công cụ tạo video dựa trên văn bản Sora của ChatGPT.

Veo được xây dựng dựa trên 5 mô hình tạo video gồm Generative Query Network (GQN), DVD-GAN , Imagen-Video, Phenaki, WALT, VideoPoet và Lumiere, kết hợp với nhiều kỹ thuật khác để cải thiện chất lượng và độ phân giải đầu ra.

Mô hình này cũng hiểu các thuật ngữ điện ảnh như video timelapse, ảnh phong cảnh từ trên không, đồng thời có thể tạo ra cảnh nhất quán và mạch lạc, với các chủ thể con người, động vật và đồ vật chuyển động chân thực trong suốt cảnh quay.

Tại sự kiện, Google trình diễn video dài khoảng 8 giây. Tuy nhiên, công ty cho biết người dùng có thể đưa ra yêu cầu về việc kéo dài thời lượng lên 1 phút 10 giây, cũng như tinh chỉnh bằng lời nhắc bổ sung để thay đổi kết quả. Con số này cao hơn thời lượng tối đa 1 phút mà công cụ Sora của OpenAI công bố trước đó.

Một đoạn video do công cụ tạo video AI Veo tạo ra. Theo Google.

"Với khả năng hiểu ngôn ngữ tự nhiên và ngữ nghĩa hình ảnh tiên tiến, Veo tạo ra video phản ánh chặt chẽ tầm nhìn sáng tạo của người dùng - thể hiện chính xác giọng điệu của lời nhắc và hiển thị chi tiết trong các lời nhắc dài hơn," đại diện Google cho biết.

Ngoài ra, Google còn ra mắt công cụ tạo các đoạn thảo luận âm thanh dựa trên đầu vào văn bản Audio Overviews. Nếu người dùng tải kế hoạch học tập, chatbot có thể đọc tóm tắt nó. Trường hợp người dùng muốn hỏi cách xử lý một vấn đề trong cuộc sống, chatbot sẽ tương tác bằng âm thanh.

Tại sự kiện thường niên I/O 2024, Google cũng giới thiệu mô hình tạo ảnh Imagen 3 với cam kết hình ảnh chân thật, không giả tạo như các mô hình trước đó của hãng. Công cụ sẽ có sẵn với một số nhà sáng tạo được lựa chọn và cập bến Vertex AI, nền tảng máy học cho phép nhà phát triển đào tạo và triển khai ứng dụng trí tuệ nhân tạo.

Project Astra

Tại sự kiện, Google giới thiệu Astra - một AI đa phương thức do bộ phận DeepMind AI phát triển với mục tiêu trở thành trợ lý ảo "làm được mọi việc". Thông qua camera trên smartphone, Astra có thể xem và hiểu những gì nó nhìn thấy, ghi nhớ mọi thứ ở đâu và làm mọi việc cho người dùng.

Astra được xem là trợ lý AI đa phương thức, thời gian thực. Ảnh: Theo Google.

Trong video trình diễn tại I/O, trợ lý Astra giúp người dùng nhớ được họ để kính ở đâu, đánh giá các đoạn mã và trả lời câu hỏi về một phần trong bài thuyết trình của diễn giả. Google cho rằng một chatbot thực sự hữu dụng phải nói chuyện với người dùng một cách tự nhiên, không có độ trễ hay trì hoãn.

"Astra không chỉ nói chuyện với người dùng mà còn thực sự làm mọi việc thay bạn. Tuy nhiên giảm thời gian chờ là một thách thức lớn về mặt kỹ thuật," CEO DeepMind AI Demis Hassabis thông tin.

Google có kế hoạch đưa các tính năng của Project Astra vào ứng dụng Gemini và trên các sản phẩm của mình trong năm nay.

Project Astra nằm trong chuỗi thông báo của Google về tầm nhìn mới "Lấy trí tuệ nhân tạo làm trung tâm", trong bối cảnh các đối thủ lớn là Meta, Microsoft và OpenAI gần đây đã ra mắt nhiều sản phẩm và mô hình AI nâng cấp.

Gemma 2 với 27 tỷ tham số

Gemma 2 với 27 tỷ tham số, là bản nâng cấp lớn của Gemma trước đó. Phiên bản Gemma 2 đã được tối ưu để chạy trên GPU thế hệ tiếp theo của Nvidia, máy chủ Google Cloud TPU và dịch vụ Vertex AI.

Google giới thiệu bản nâng cấp Gemma 2. Ảnh: Theo Google.

Ông Josh Woodward, Phó chủ tịch Google Labs cho biết, Gemma 2 "mạnh gấp đôi" so với các mô hình nguồn mở như Llama của Meta và Mistral của Mistral AI. Gemma 2 sẽ được triển khai vào tháng 6 tới đây.