Meta創建了一個基於人工智能的新生成器

近幾個月來，人工智能 (AI) 文本到圖像生成器一直是頭條新聞，但研究人員已經轉向下一個前沿領域：人工智能驅動的文本到視頻生成器。據 The Verge 報導，元研究人員已經公開展示了這樣一種新的生成器。

Meta的機器學習工程團隊呈現一個名為 Make-A-Video 的新系統。該 AI 模型允許用戶輸入場景的粗略描述，並生成與其文本相匹配的短視頻。這些視頻顯然是人造的，具有模糊的對象和扭曲的動畫，但仍然是人工智能內容生成領域的一項重大成就。

- 廣告 -

在他的帖子中 Facebook Meta 首席執行官馬克扎克伯格將這項工作描述為“驚人的進步”，並補充說：“視頻比照片更難製作，因為除了正確生成每個像素外，系統還必須預測它們將如何隨時間變化。”

剪輯持續時間不超過五秒鐘，不包含聲音，但涵蓋了大量線索。雖然很明顯視頻是計算機生成的，但此類 AI 模型的質量將在不久的將來迅速提高。在短短幾年內，AI 圖像生成器已經從創建幾乎難以理解的圖片轉變為逼真的內容。儘管鑑於主題領域幾乎無限的複雜性，視頻的進展可能會較慢，但無縫視頻生成獎將激勵許多組織和公司在該項目中投入大量資源。

該公司表示計劃發布該系統的演示版本，但沒有說明何時或如何實施。在一篇描述該模型的論文中，Meta 研究人員指出，Make-A-Video 是在圖像-字幕對以及未標記的視頻片段上進行訓練的。

培訓內容來自兩個數據集 WebVid-10M 和 HD-VILA-100M，它們共同包含數百萬個視頻，跨越數十萬小時的視頻片段。順便說一句，這包括股票錄像。

研究人員指出，除了模糊的幀和分散的動畫外，該模型還有許多技術限制。 Make-A-Video 以 16×64 像素的分辨率輸出 64 幀視頻，然後使用單獨的 AI 模型將其大小調整為 768×768 像素。

你可以幫助烏克蘭對抗俄羅斯侵略者。最好的方法是通過以下方式向烏克蘭武裝部隊捐款拯救生命或通過官方頁面 NBU.

- 廣告 -

也很有趣：

Meta 展示了基於描述創建視頻的 AI