Họa sĩ AI có thể vẽ mọi bức tranh theo yêu cầu

AI. MỸ
13:47 - 07/04/2022
Hình ảnh được tạo ra bởi AI theo yêu cầu "gấu bông đang thực hiện thí nghiệm hóa học". Ảnh: OpenAI
Hình ảnh được tạo ra bởi AI theo yêu cầu "gấu bông đang thực hiện thí nghiệm hóa học". Ảnh: OpenAI
0:00 / 0:00
0:00
Tại OpenAI, một trong những phòng thí nghiệm trí tuệ nhân tạo lớn nhất thế giới, các nhà nghiên cứu đang xây dựng công nghệ cho phép người dùng tạo hình ảnh kỹ thuật số chỉ đơn giản bằng cách mô tả những gì mình muốn nhìn thấy.

Công nghệ này được đặt tên là DALL-E, phỏng theo tên của chú robot nổi tiếng WALL-E trong bộ phim hoạt hình cùng tên năm 2008 của Pixar cùng ông Salvador Dalí – một họa sĩ Italy theo trường phái siêu thực.

Được hỗ trợ bởi gã khổng lồ công nghệ Microsoft, OpenAI vẫn chưa chia sẻ công nghệ của mình với công chúng. Tuy nhiên trong khoảng thời gian gần đây, ông Alex Nichol, một trong những nhà nghiên cứu đứng sau công nghệ này, đã cho biết thêm về cách nó hoạt động.

Các hình ảnh ghế hình quả bơ được tạo ra theo yêu cầu bởi DALL-E. Ảnh: OpenAI

Các hình ảnh ghế hình quả bơ được tạo ra theo yêu cầu bởi DALL-E. Ảnh: OpenAI

DALL-E có thể tạo ra bất kỳ hình ảnh nào được yêu cầu

Theo các nhà nghiên cứu AI, DALL-E được gọi là mạng neuron, một hệ thống toán học được mô phỏng cơ bản theo mạng lưới các neuron trong não con người. Nó cũng tương tự như như các công nghệ nhận dạng giọng nói trong điện thoại thông minh và công nghệ xác định người đi bộ trong hệ thống ô tô tự hành.

Bằng cách phân tích một lượng lớn dữ liệu, mạng neuron sẽ cải thiện các kĩ năng của mình. Vì vậy bằng cách xác định khuôn mẫu trong hàng nghìn bức ảnh và mô tả về quả bơ, DALL-E có thể tìm ra được cách nhận biết loại trái cây này. Cách này cũng khiến nó nhận biết được mối liên hệ giữa hình ảnh và từ ngữ.

Quy trình hoạt động của DALL-E sẽ được bắt đầu khi người dùng mô tả một hình ảnh và nó sẽ tạo ra một tập hợp các đặc điểm mà hình ảnh này có thể có. Sau đó, mạng neuron thứ 2 gọi là mô hình khuếch tán sẽ tạo ra hình ảnh và các pixel cần thiết để hiện thực hóa các đặc điểm này. Theo phiên bản mới nhất của DALL-E được công bố vào 6/4, hệ thống này có khả năng tạo ra các hình ảnh với độ phân giải cao, khiến nó trông giống như ảnh chụp thật.

Để lấy ví dụ, ông Nichol đã nhập yêu cầu “một ấm trà hình quả bơ” vào trong màn hình máy tính và DALL-E đã tạo ra 10 hình ảnh khác nhau về ấm trà bơ xanh đậm. Trong một ví dụ khác khi ông gõ lệnh “mèo chơi cờ vua”, hệ thống sẽ tạo ra hình ảnh của 2 chú mèo con ở hai bên một bàn cờ với 32 quân cờ được xếp ở giữa. Mặt khác khi ông yêu cầu “một chú gấu bông chơi kèn dưới nước”, DALL-E sẽ tạo ra một hình ảnh cho thấy hình ảnh những bọt khí nhỏ bay lên từ cuối chiếc kèn của chú gấu và hướng lên mặt nước.

Ngoài việc tạo ra hình ảnh, DALL-E cũng có thể chỉnh sửa ảnh. Khi ông Nichol xóa chiếc kèn của gấu bông và yêu cầu một cây đàn guitar thay vào đó, một cây đàn guitar đã xuất hiện trong bức hình.

Để có thể cho ra đời công nghệ này, một nhóm bao gồm 7 nhà nghiên cứu đã phải dành ra 2 năm để phát triển. Mục tiêu cuối cùng của OpenAI chính là cung cấp một công cụ trợ giúp bao gồm các phím tắt cho những người dùng như nghệ sĩ đồ họa trong việc tạo, chỉnh sửa hình ảnh cũng như thúc đẩy hình thành ý tưởng mới. Các lập trình viên máy tính đã sử dụng Copilot, một công cụ dựa trên công nghệ tương tự của OpenAI, để tạo các đoạn mã phần mềm.

Hình ảnh chó Shiba đội mũ beret và mặc áo cổ lọ được tạo ra bởi DALL-E. Ảnh: OpenAI

Hình ảnh chó Shiba đội mũ beret và mặc áo cổ lọ được tạo ra bởi DALL-E. Ảnh: OpenAI

Hạn chế của DALL-E

Trước đây, OpenAI đã từng xây dựng các hệ thống có thể xác định vật thể trong hình ảnh kỹ thuật số và tự tạo ra hình ảnh của riêng mình cũng như tạo ra những hệ thống làm được các tác vụ tương tự với ngôn ngữ. Giờ đây, các công nghệ trên đã được kết hợp để tạo ra các dạng A.I mới như DALL-E, một bước tiến đáng chú ý vì nó kết hợp được cả hai yếu tố ngôn ngữ và hình ảnh.

Tuy nhiên, DALL-E vẫn còn nhiều mặt hạn chế. Khi ông Nichol yêu cầu DALL-E "đặt tháp Eiffel lên mặt trăng", hệ thống này không hoàn toàn hiểu được ý tưởng đó. Thay vào đó, nó sẽ đưa hình ảnh mặt trăng lên trên tháp. Ngoài ra khi ông yêu cầu "một phòng khách đầy cát", nó tạo ra một hình ảnh giống như một công trường xây dựng hơn là một phòng khách.

Nhưng nếu ông Nichol điều chỉnh thêm các yêu cầu của mình bằng cách chỉnh sửa thêm hoặc bớt từ ngữ, hệ thống có thể cung cấp chính xác những gì mà ông mong muốn. Ví dụ như khi ông đưa ra yêu cầu cụ thể “một cây đàn piano trong phòng khách đầy cát”, DALL-E sẽ đưa ra một hình ảnh giống một bãi biển ngay bên trong phòng.

Dù DALL-E thường hiểu sai ý của người mô tả và gây ảnh hưởng tới hình ảnh nó tạo ra, OpenAI vẫn đang cải tiến công nghệ này bằng cách cung cấp cho hệ thống nhiều dữ liệu hơn để tinh chỉnh kỹ năng của mạng neuron.

Ngoài phương pháp này, các chuyên gia cũng có thể xây dựng các hệ thống mạnh mẽ hơn bằng cách áp dụng các khái niệm tương tự cho các loại dữ liệu mới. Viện Allen – một phòng thí nghiệm AI - gần đây đã tạo ra một hệ thống có thể phân tích âm thanh cũng như hình ảnh và văn bản. Sau khi phân tích hàng triệu video trên YouTube bao gồm cả các đoạn âm thanh và phụ đề, hệ thống đã học được cách xác định những khoảnh khắc cụ thể trong các chương trình truyền hình hoặc phim như tiếng chó sủa hoặc cánh cửa đóng sập.

Sự cải thiện lớn trong các hệ thống này sẽ giúp các công ty cải thiện công cụ tìm kiếm, trợ lý số và các công nghệ phổ biến khác. Đồng thời, nó còn có thể tự động hóa các tác vụ mới cho các nghệ sĩ đồ họa, lập trình viên và các chuyên gia thuộc các lĩnh vực khác.

Tuy nhiên để hạn chế tối đa các tác động tiêu cực tiềm năng, OpenAI sẽ quản lý DALL-E chặt chẽ và không cho phép người ngoài sử dụng. Tại mỗi một hình ảnh mà DALL-E tạo ra, sẽ có một hình mờ tại góc để đánh dấu. Hơn nữa, dù phòng thí nghiệm có kế hoạch mở rộng thử nghiệm, quy mô vẫn sẽ được duy trì ở mức nhỏ.

Ngoài các biện pháp này, các chuyên gia cũng lập trình cho bộ lọc chống bắt nạt và bạo lực của AI. Khi người dùng đưa ra yêu cầu như “một con lợn với đầu của cừu”, DALL-E sẽ tự động từ chối yêu cầu do bộ lọc của nó cho rằng hình ảnh này không phù hợp.

Hình ảnh 2 chú mèo con chơi cờ vua được tạo ra bởi DALL-E. Ảnh: OpenAI

Hình ảnh 2 chú mèo con chơi cờ vua được tạo ra bởi DALL-E. Ảnh: OpenAI

Hệ quả tiềm tàng về lan truyền thông tin giả

Tuy là một tiến bộ công nghệ, đối với nhiều chuyên gia thì DALL-E lại là một mối lo ngại. Theo các ý kiến này, nếu công nghệ này được phổ biến và tiếp tục nâng cấp, nó có thể góp phần lan truyền thông tin sai lệch trên Internet. Hơn nữa, nó cũng có thể góp phần làm xáo trộn các sự kiện quan trọng, ví dụ như cuộc bầu cử tổng thống tại Mỹ năm 2016.

Ông Subbarao Kambhampati, một giáo sư khoa học máy tính tại bang Arizona nhận định công nghệ này hoàn toàn có thể được sử dụng cho những mục đích tốt, nhưng chắc chắn cũng có thể sử dụng cho những mục đích xấu khác. Đặc biệt, nó còn có thể trở thành trợ thủ đắc lực của deepfake – công nghệ sử dụng AI để ghép hình ảnh, giọng nói của một người vào một video khác để tạo ra nội dung giả.

Công nghệ này đã gây nên nhiều lo ngại trong những năm gần đây với độ chân thực của các video giả ngày càng cao và khiến người xem khó phân biệt. Hiện tại, đã có nhiều người nổi tiếng là nạn nhân của deepfake, ví dụ như cựu tổng thống Mỹ Barrack Obama, nhà sáng lập Tesla Elon Musk hay nhà sáng lập Meta Platforms Mark Zuckerbergs. Trên hết, vấn nạn ghép mặt người nổi tiếng vào các video khiêu dâm cũng đang gây ra nhiều nguy hiểm bởi sự phát triển thiếu kiểm soát của công nghệ deepfake.

Tuy OpenAI có thể kiểm soát hành vi của hệ thống theo một số cách, những người khác trên toàn cầu có thể sớm tạo ra công nghệ tương tự để hầu hết mọi người đều sở hữu khả năng này. Ông Boris Dayma, một nhà nghiên cứu độc lập ở Houston, đã xây dựng và phát hành một phiên bản đơn giản hơn của DALL-E.

Do cần một lượng lớn dữ liệu để phân tích, các hệ thống mạng neuron cũng hoàn toàn có thể biểu hiện thiên hướng thiên vị phụ nữ và người da màu do những kỹ năng chúng học được thông qua nhiều văn bản, hình ảnh trực tuyến và các dữ liệu khác đều thể hiện sự thiên vị.

Thêm vào đó, chúng cũng có thể được sử dụng để tạo nội dung khiêu dâm, ngôn từ kích động thù địch và các tài liệu mang tính xúc phạm khác. Theo nhiều chuyên gia dự đoán, công nghệ này sẽ dễ dàng tạo ra các thông tin sai lệch và khiến mọi người nghi ngờ về tất cả những gì mình thấy trên Internet.

Theo tiến sĩ Etzioni, công nghệ với DALL-E có thể giả mạo văn bản, đưa nội dung không có thật vào giọng nói của ai đó cũng như giả mạo hình ảnh và video. Thông tin sai lệch trực tuyến vốn xuất hiện tương đối nhiều, tuy nhiên điều đáng lo ngại nhất là nó sẽ được nâng lên một tầm cao hoàn toàn mới với các tiến bộ này.

Hình ảnh bát súp được tạo ra theo yêu cầu"bát súp trông như quái vật được làm từ len". Ảnh: OpenAI

Hình ảnh bát súp được tạo ra theo yêu cầu"bát súp trông như quái vật được làm từ len". Ảnh: OpenAI

Hình ảnh phòng khách với pia và cát theo DALL-E. Ảnh: OpenAI

Hình ảnh phòng khách với pia và cát theo DALL-E. Ảnh: OpenAI

DALL-E tạo ra hình ảnh phòng khách với chim hồng hạc ở góc. Ảnh: OpenAI

DALL-E tạo ra hình ảnh phòng khách với chim hồng hạc ở góc. Ảnh: OpenAI

Đọc tiếp

Giám đốc điều hành TikTok Chew Shou Zi. Ảnh: Getty Images

CEO TikTok: 'Chúng tôi sẽ không đi đâu cả'

Ngày 24/4, Giám đốc điều hành TikTok Chew Shou Zi khẳng định công ty sẽ chiến thắng được thách thức pháp lý và ngăn chặn dự luật cấm ứng dụng video ngắn phổ biến này tại thị trường Mỹ - nơi TikTok đang sở hữu hơn 170 triệu người dùng.
Những người sáng tạo nội dung TikTok tập trung tại Đồi Capitol, ngày 12/3. Ảnh: Yahoo News

Mỹ tiến gần hơn tới lệnh cấm Tiktok

Thượng viện Mỹ ngày 23/4 (giờ địa phương) đã thông qua dự luật yêu cầu ứng dụng truyền thông mạng xã hội Tiktok phải thoái vốn khỏi công ty mẹ ByteDance ở Trung Quốc, hoặc sẽ bị cấm ở thị trường Mỹ.