Root Nation訊息資訊科技資訊Meta 展示了基於描述創建視頻的 AI

Meta 展示了基於描述創建視頻的 AI

-

近幾個月來,人工智能 (AI) 文本到圖像生成器一直是頭條新聞,但研究人員已經轉向下一個前沿領域:人工智能驅動的文本到視頻生成器。 據 The Verge 報導,元研究人員已經公開展示了這樣一種新的生成器。

Meta的機器學習工程團隊 呈現 一個名為 Make-A-Video 的新系統。 該 AI 模型允許用戶輸入場景的粗略描述,並生成與其文本相匹配的短視頻。 這些視頻顯然是人造的,具有模糊的對象和扭曲的動畫,但仍然是人工智能內容生成領域的一項重大成就。

- 廣告 -

在他的帖子中 Facebook Meta 首席執行官馬克扎克伯格將這項工作描述為“驚人的進步”,並補充說:“視頻比照片更難製作,因為除了正確生成每個像素外,系統還必須預測它們將如何隨時間變化。”

剪輯持續時間不超過五秒鐘,不包含聲音,但涵蓋了大量線索。 雖然很明顯視頻是計算機生成的,但此類 AI 模型的質量將在不久的將來迅速提高。 在短短幾年內,AI 圖像生成器已經從創建幾乎難以理解的圖片轉變為逼真的內容。 儘管鑑於主題領域幾乎無限的複雜性,視頻的進展可能會較慢,但無縫視頻生成獎將激勵許多組織和公司在該項目中投入大量資源。

該公司表示計劃發布該系統的演示版本,但沒有說明何時或如何實施。 在一篇描述該模型的論文中,Meta 研究人員指出,Make-A-Video 是在圖像-字幕對以及未標記的視頻片段上進行訓練的。

培訓內容來自兩個數據集 WebVid-10M 和 HD-VILA-100M,它們共同包含數百萬個視頻,跨越數十萬小時的視頻片段。 順便說一句,這包括股票錄像。

研究人員指出,除了模糊的幀和分散的動畫外,該模型還有許多技術限制。 Make-A-Video 以 16×64 像素的分辨率輸出 64 幀視頻,然後使用單獨的 AI 模型將其大小調整為 768×768 像素。

你可以幫助烏克蘭對抗俄羅斯侵略者。 最好的方法是通過以下方式向烏克蘭武裝部隊捐款 拯救生命 或通過官方頁面 NBU.

- 廣告 -

也很有趣: