Ana Ryu/Nhóm Visual China/Hình ảnh Getty
Một tấm biển của Microsoft được nhìn thấy tại trụ sở chính của công ty vào ngày 19 tháng 3 năm 2023 tại Seattle, Washington.
Newyork
CNN
—
Mona Lisa giờ đây có thể làm được nhiều việc hơn là chỉ mỉm cười nhờ công nghệ AI mới của Microsoft.
Tuần trước, các nhà nghiên cứu của Microsoft đã trình bày chi tiết về một mô hình AI mới mà họ đã phát triển có thể chụp ảnh tĩnh khuôn mặt và đoạn âm thanh của ai đó đang nói và tự động tạo video trông giống như thật về người đó đang nói. Các video—có thể được tạo từ các khuôn mặt ngoài đời thực, cũng như các bức tranh biếm họa hoặc tác phẩm nghệ thuật—hoàn chỉnh với các màn hát nhép thuyết phục cũng như chuyển động đầu và khuôn mặt tự nhiên.
Trong một video thử nghiệm, các nhà nghiên cứu đã cho thấy cách họ làm hoạt hình Mona Lisa để đọc một bài hát rap hài hước của nữ diễn viên Anne Hathaway.
Đầu ra từ mô hình AI được gọi là Vasa-1, vừa gây cười vừa có phần mâu thuẫn với thực tế của chúng. Microsoft cho biết công nghệ này có thể được sử dụng cho giáo dục, “cải thiện khả năng tiếp cận cho những cá nhân gặp khó khăn trong giao tiếp” hoặc có thể tạo ra những người bạn đồng hành ảo cho con người. Nhưng cũng dễ dàng nhận thấy công cụ này có thể bị lạm dụng và sử dụng để mạo danh người thật.
Đó là mối lo ngại vượt ra ngoài phạm vi của Microsoft: Khi ngày càng có nhiều công cụ tạo ra các hình ảnh, video và clip âm thanh hấp dẫn do AI tạo ra, Các chuyên gia lo ngại Và việc lạm dụng chúng có thể dẫn đến những dạng thông tin sai lệch mới. Một số người cũng lo lắng rằng công nghệ có thể làm gián đoạn hơn nữa các ngành công nghiệp sáng tạo, từ phim ảnh đến quảng cáo.
Tại thời điểm này, Microsoft cho biết họ chưa có kế hoạch phát hành mẫu VASA-1 ra công chúng ngay lập tức. Động thái này tương tự như cách đối tác OpenAI của Microsoft giải quyết các mối lo ngại xung quanh Công cụ video được tạo ra bởi trí tuệ nhân tạoSora: OpenAI đã giới thiệu Sora vào tháng 2, nhưng cho đến nay nó chỉ được cung cấp cho một số người dùng chuyên nghiệp và các giáo sư an ninh mạng nhằm mục đích thử nghiệm.
Các nhà nghiên cứu của Microsoft cho biết trong một bài đăng trên blog: “Chúng tôi phản đối mọi hành vi tạo ra nội dung gây hiểu lầm hoặc có hại cho người thật”. Nhưng họ nói thêm rằng công ty “không có kế hoạch phát hành” sản phẩm một cách công khai “cho đến khi chúng tôi đảm bảo công nghệ này được sử dụng một cách có trách nhiệm và tuân thủ các quy định phù hợp”.
Các nhà nghiên cứu cho biết mô hình AI mới của Microsoft đã được đào tạo trên một số video về khuôn mặt của mọi người khi nói và được thiết kế để nhận dạng các chuyển động tự nhiên của khuôn mặt và đầu, bao gồm “chuyển động môi, biểu cảm (không phải môi), ánh mắt và chớp mắt, cùng nhiều chuyển động khác. ” những thứ khác”. Kết quả là video sẽ chân thực hơn khi VASA-1 xoay hình ảnh tĩnh.
Ví dụ: trong một video thử nghiệm có cảnh một người nào đó tỏ ra kích động, rõ ràng là khi đang chơi trò chơi điện tử, khuôn mặt đang nói có lông mày nhíu lại và môi mím lại.
Công cụ AI cũng có thể được hướng dẫn để tạo ra một video trong đó đối tượng nhìn theo một hướng nhất định hoặc thể hiện một cảm xúc nhất định.
Khi xem xét kỹ, vẫn có dấu hiệu cho thấy các video được tạo ra bằng máy, chẳng hạn như chớp mắt không thường xuyên và cử động lông mày quá mức. Nhưng Microsoft cho biết họ tin rằng mô hình của họ “vượt trội đáng kể” so với các công cụ tương tự khác và “mở đường cho các tương tác thời gian thực với các hình đại diện sống động như thật bắt chước hành vi trò chuyện của con người”.
“Kẻ đam mê du lịch tồi tệ. Kẻ nghiện internet hèn hạ ghê tởm. Rượu vô cớ.