Lumiere của Google làm cho video AI gần với thực tế hơn là không thực tế

Mô hình AI mới của Google để tạo video Lumiere A được sử dụng Một mô hình khuếch tán mới được gọi là Space-Time-U-Net hoặc STUNet, xác định vị trí của các đối tượng trong video (không gian) cũng như cách chúng di chuyển và thay đổi cùng một lúc (thời gian). Ars Technica Phương pháp này cho phép Lumiere tạo video trong một quy trình duy nhất thay vì ghép các khung hình tĩnh nhỏ hơn lại với nhau, phương pháp này lưu ý.

Lumiere bắt đầu bằng cách tạo khung cơ bản từ vectơ. Sau đó, nó sử dụng khung STUNet để bắt đầu ước tính vị trí các đối tượng sẽ di chuyển trong khung đó nhằm tạo ra nhiều khung hình hòa vào nhau hơn, tạo ra vẻ ngoài chuyển động mượt mà. Lumiere cũng tạo ra 80 khung hình so với 25 khung hình từ Khuếch tán video ổn định.

Phải thừa nhận rằng, tôi là một phóng viên văn bản hơn là một người làm video, nhưng thông cáo báo chí của Google, cùng với một bài báo khoa học in sẵn, cho thấy các công cụ chỉnh sửa và tạo video AI đã đi từ thung lũng kỳ lạ đến gần như thật chỉ sau vài năm . Nó cũng thiết lập công nghệ của Google trong một không gian đã bị chiếm giữ bởi các đối thủ cạnh tranh như Runway, Stable Video Diffusion hoặc Meta's Emu. Runway, một trong những nền tảng chuyển văn bản thành video được sản xuất hàng loạt đầu tiên, đã ra mắt Runway Gen-2 vào tháng 3 năm ngoái và bắt đầu cung cấp các video thực tế hơn. Video trên đường băng cũng gặp khó khăn trong việc ghi lại hành động.

READ  Tất cả thành tích Fallout 4 hiện bị vô hiệu hóa trên Xbox và sẽ không mở khóa

Google thật tốt bụng khi đưa các đoạn clip và lời nhắc lên trang Lumiere, cho phép tôi đưa những lời nhắc tương tự trên Runway để so sánh. Dưới đây là kết quả:

Có, một số clip được trình bày mang hơi hướng công nghiệp, đặc biệt nếu bạn nhìn kỹ vào kết cấu của da hoặc nếu cảnh có không khí hơn. Nhưng Hãy nhìn con rùa đó! Cô ấy di chuyển như một con rùa trong nước! Nó trông giống như một con rùa thật! Tôi đã gửi video giới thiệu Lumiere cho một người bạn là biên tập viên video chuyên nghiệp. Mặc dù cô ấy lưu ý rằng “bạn có thể thấy rõ điều này không hoàn toàn có thật”, nhưng cô ấy nghĩ thật ấn tượng là nếu tôi không nói với cô ấy rằng đó là AI, cô ấy sẽ nghĩ đó là CGI. (Cô ấy cũng nói, “Điều đó sẽ lấy đi công việc của tôi, phải không?”)

Các mô hình khác ghép các đoạn video lại với nhau từ các khung hình chính được tạo ở nơi hành động thực sự xảy ra (hãy nghĩ đến các hình vẽ trong sách giấy), trong khi STUNet cho phép Lumiere tập trung vào chính hành động đó dựa trên vị trí của nội dung được tạo vào thời điểm cụ thể từ video.

Google không phải là ông lớn trong lĩnh vực chuyển văn bản thành video nhưng hãng này đã dần dần tung ra các mô hình AI tiên tiến hơn và chuyển sang tập trung vào đa phương tiện. Mô hình ngôn ngữ lớn Song Tử của anh ấy cuối cùng sẽ mang lại khả năng tạo hình ảnh cho Bard. Lumiere chưa có sẵn để thử nghiệm, nhưng nó cho thấy khả năng của Google trong việc phát triển nền tảng video AI có thể so sánh được – và được cho là tốt hơn một chút – so với các trình tạo video AI hiện có thông thường như Runway và Pika. Và xin nhắc lại, đây là nơi Google đã làm việc với video AI vài năm trước.

READ  Trò chơi PC có giá khởi điểm chỉ 1 USD trong đợt giảm giá mùa xuân của Steam

Clip Google Imagen từ năm 2022
Hình ảnh: Google

Ngoài việc tạo chuyển đổi văn bản thành video, Lumiere cũng sẽ cho phép tạo chuyển đổi từ hình ảnh sang video, tạo kiểu cách điệu, cho phép người dùng tạo video theo một phong cách cụ thể, đồ họa điện ảnh chỉ tạo hoạt ảnh một phần của video và vẽ theo che một vùng của video để thay đổi màu sắc hoặc kiểu dáng.

Tuy nhiên, nghiên cứu của Google Lumiere lưu ý rằng “có nguy cơ lạm dụng để tạo nội dung giả mạo hoặc độc hại bằng công nghệ của chúng tôi và chúng tôi tin rằng cần phải phát triển và triển khai các công cụ để phát hiện những thành kiến ​​và trường hợp sử dụng độc hại nhằm đảm bảo trải nghiệm an toàn và công bằng.” .” được sử dụng.” Các tác giả của bài báo đã không giải thích làm thế nào điều này có thể đạt được.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *