Sora: Công cụ AI tạo video bằng văn bản đột phá của OpenAI

18/02/2024 06:17 PM 541 Lượt xem

OpenAI vừa công bố một công cụ AI mới mang tên là Sora, có khả năng chuyển đổi văn bản thành một đoạn video dài khoảng 1 phút.

Ngay sau khi Google giới thiệu mẫu Gemini 1.5 Pro mới nhất, OpenAI đã nhanh chóng làm lu mờ nó bằng cách công bố Sora, một mô hình AI chuyển đổi từ văn bản sang video mang tính đột phá. Sora, mô hình tạo video mới này, mang đến một làn gió mới cho ngành công nghiệp AI, với những đặc điểm nổi bật không thể tìm thấy ở bất kỳ mô hình nào khác. So sánh với các mô hình tạo video hiện có như Gen-2 của Runway và Pika, Sora tỏ ra vượt trội hơn hẳn. Dưới đây là mọi thông tin bạn cần biết về mô hình Sora đầy ấn tượng từ OpenAI.

Sora có thể tạo ra đoạn video lên đến 1 phút

Sora của OpenAI có thể tạo ra các video chi tiết cao (lên đến 1080p) chỉ từ các đoạn văn bản. Nó tuân theo các lời nhắc (prompts) của người dùng cực kỳ tốt và mô phỏng thế giới vật lý chuyển động. Phần ấn tượng nhất là Sora có thể tạo video AI lên đến một phút, dài hơn nhiều so với các mô hình chuyển văn bản thành video hiện tại chỉ tạo được video dài 3-4 giây.

OpenAI đã trình diễn nhiều ví dụ trực quan để minh họa khả năng mạnh mẽ của Sora. Cha đẻ của ChatGPT - Sam Antman cho biết Sora có sự hiểu biết sâu sắc về ngôn ngữ và có thể tạo ra "những nhân vật hấp dẫn thể hiện cảm xúc sống động". Nó cũng có thể tạo ra vài cảnh quay khác nhau trong một video với các nhân vật và cảnh vật liên tục xuyên suốt video.

Về kiến trúc mô hình, Sora là một Diffusion model dựa trên kiến trúc transformer. Nó sử dụng kỹ thuật chú thích lại được giới thiệu với Dall-E 3, tạo ra một lời nhắc mô tả chi tiết cao từ một lời nhắc mẫu của người dùng. Ngoài tạo video từ văn bản, Sora cũng có thể tạo video từ hình ảnh tĩnh, hoạt họa chúng và mở rộng khung hình theo định dạng video.

Nhìn vào những video đẹp mắt được tạo ra bằng mô hình Sora, nhiều chuyên gia tin rằng Sora có thể được đào tạo trên dữ liệu tổng hợp được tạo ra từ Unreal Engine 5 do sự tương đồng với các mô phỏng UE5. Video do Sora tạo ra không có sự méo mó thông thường của tay và nhân vật mà chúng ta thường thấy trên các Diffusion model khác. Nó cũng có thể sử dụng Trường Bức Xạ Thần Kinh (NeRF) để tạo cảnh 3D từ hình ảnh 2D.

Hiện tại, người dùng thông thường không thể trải nghiệm Sora. OpenAI đang phối hợp với các chuyên gia để đánh giá mô hình về các tác hại và rủi ro. Công ty cũng đang cung cấp quyền truy cập vào Sora cho một số nhà làm phim, nhà thiết kế và nghệ sĩ để có phản hồi và cải thiện mô hình trước khi phát hành công khai.