3 月 20 日消息,一家名為 Runway 的人工智能創業公司宣布了一款新的文本生成視頻(Text-to-video)AI 模型,名為 Gen-2,文本生成視頻也就是用戶可以輸入一個描述,然后系統自動生成任何風格的對應視頻。目前的技術還達不到這個夢想,但 Runway 公司的新模型已經展示了一些非常好的效果。
Runway 公司提供了一個基于網絡的視頻編輯器,專注于人工智能工具,如背景移除和姿態檢測。該公司參與開發了開源文本生成圖像模型 Stable Diffusion,并在二月份發布了第一個人工智能視頻編輯模型 Gen-1。
Gen-1 主要是對現有視頻素材進行轉換,讓用戶輸入一個粗糙的 3D 動畫或者抖動的手機拍攝片段,并應用一個人工智能生成的覆蓋層。例如在下面的例子中,紙板包裝的視頻與一個工業廠房的圖片結合起來,產生了一個可以用于故事板或者提案更精美作品的片段。
相比之下,Gen-2 更專注于從零開始生成視頻,但是也有很多需要注意的地方。首先,Runway 公司分享的演示片段都很短、不穩定、并不是很逼真;其次,訪問權限也受限,用戶必須通過 Runway 公司的 Discord 平臺注冊并加入等待名單才能使用 Gen-2 模型;該公司發言人 Kelsey Rondenet 稱,“我們將在未來幾周內提供廣泛訪問。”換句話說:目前我們只能通過一個演示片和少數幾個片段(其中大部分已經作為 Gen-1 模型宣傳過)來評價 Gen-2 模型,不過看起來效果很是很出色的。
文本生成視頻技術令人興奮,帶來了新的創造性機會,但也帶來了新威脅(例如虛假信息等),對于 Runway 公司的新技術,IT之家將保持關注。
關鍵詞: