Nvidia đang trên đà phát triển. Sau khi tiết lộ siêu chip Blackwell, được thiết kế để đào tạo các mô hình AI mạnh hơn như GPT, Claude và Gemini, họ đã giới thiệu công cụ AI của riêng mình để chuyển đổi văn bản sang 3D (xem hướng dẫn của chúng tôi về card đồ họa tốt nhất để người tiêu dùng lựa chọn).
Gã khổng lồ card đồ họa đã kết thúc tuần lễ GTC bằng cách giới thiệu LATTE3D, một mô hình AI được tạo ra từ văn bản thành 3D mà hãng mô tả là “máy in 3D ảo”. Nó có thể chuyển đổi lời nhắc văn bản thành hình ảnh 3D của đồ vật và động vật trong vòng một giây.
Nvidia cho biết các hình dạng 3D do LATTE3D tạo ra “có thể dễ dàng hiển thị trong môi trường ảo để phát triển trò chơi điện tử, chiến dịch quảng cáo, dự án thiết kế hoặc không gian đào tạo ảo cho robot.” Trước đây, chúng tôi đã từng thấy các công cụ chuyển đổi văn bản sang 3D và lời khen ngợi trực tuyến cho thấy một số công cụ không quá ấn tượng với chất lượng kết quả của LATTE3Ds. Nhưng mô hình mới thể hiện một bước tiến lớn, đặc biệt là về tốc độ.
Nvidia cho biết họ tạo ra các hình dạng 3D gần như ngay lập tức khi chạy suy luận trên một GPU duy nhất, chẳng hạn như NVIDIA RTX A6000 được sử dụng trong phần trình diễn nghiên cứu. Điều này có nghĩa là người sáng tạo bắt đầu thiết kế từ đầu hoặc tìm kiếm trong thư viện nội dung 3D có thể sử dụng LATTE3D để tạo các đối tượng chi tiết ngay khi họ nảy ra ý tưởng.
Biểu mẫu tạo ra một số tùy chọn hình dạng 3D dựa trên từng dấu nhắc văn bản. Các đối tượng mong muốn có thể được tối ưu hóa để có chất lượng cao hơn và sau đó được xuất sang các ứng dụng hoặc nền tảng phần mềm đồ họa như Đa dạng của Nvidiađiều này cho phép Mô tả bối cảnh toàn cầu (OpenUSD)Quy trình làm việc và ứng dụng dựa trên 3D.
Sanja Fiedler, phó chủ tịch nghiên cứu AI cho biết: “Một năm trước, các mô hình AI sẽ phải mất một giờ để tạo ra hình ảnh 3D có chất lượng như thế này – hiện tại là khoảng 10 đến 12 giây”. Tạo ra kết quả nhanh hơn nhiều, giúp người sáng tạo trong nhiều ngành có thể tạo văn bản 3D gần như theo thời gian thực.
LATTE3D được phát triển bởi nhóm AI Lab của Nvidia có trụ sở tại Toronto và được đào tạo bằng cách sử dụng lời nhắc văn bản được tạo bằng ChatGPT để cải thiện khả năng của mô hình trong việc xử lý các cụm từ khác nhau mà người dùng có thể nghĩ ra để mô tả một đối tượng 3D nhất định. Trong khi các nhà nghiên cứu đào tạo LATTE3D trên hai bộ dữ liệu cụ thể là động vật và đồ vật hàng ngày, kiến trúc tương tự có thể được sử dụng để đào tạo AI trên các loại dữ liệu khác. Nó vẫn chỉ là một dự án nghiên cứu và không có sẵn cho sử dụng công cộng.
nhà sáng tạo AI Bilawal Sidhu đã viết X: “Đây là một bước nhảy vọt. DreamFusion vào khoảng năm 2022 tuy chậm và chất lượng thấp, nhưng nó đã khởi đầu cuộc cách mạng 3D tổng quát này. Những nỗ lực như ATT3D (Autized Object Hoạ tiết thành 3D) đã theo đuổi tốc độ nhưng phải đánh đổi bằng chất lượng. Giờ đây với LATTE3D chất lượng cao và xử lý trong chưa đầy một giây! Điều đó có nghĩa là bạn có thể nhanh chóng sao chép thế giới 3D và lấp đầy nó bằng văn bản hoặc hình ảnh để biến nó thành 3D.
Cùng với video, 3D là biên giới tiếp theo cho việc tạo hình ảnh AI. Tuần này, Adobe cũng đã công bố việc tích hợp các công cụ dựa trên Firefly AI đầu tiên của mình vào Substance 3D.