DoNews2月16日消息,據(jù)鞭牛士援引外電報(bào)道,OpenAI推出一種名為 Sora 的新的視頻生成模型,。
這家人工智能公司表示,Sora 可以根據(jù)文本指令創(chuàng)建現(xiàn)實(shí)且富有想象力的場景。文本到視頻模型允許用戶創(chuàng)建長達(dá)一分鐘的逼真視頻——所有這些都基于他們編寫的提示。
根據(jù) OpenAI 的介紹性博客文章,Sora 能夠創(chuàng)建具有多個(gè)角色、特定運(yùn)動(dòng)類型以及主題和背景的準(zhǔn)確細(xì)節(jié)的復(fù)雜場景。該公司還指出,該模型可以理解物體在物理世界中如何存在,以及準(zhǔn)確地解釋道具并生成引人注目的角色來表達(dá)充滿活力的情感。
該模型還可以基于靜止圖像生成視頻,以及填充現(xiàn)有視頻上缺失的幀或擴(kuò)展它。?
OpenAI 博客文章中包含的 Sora 生成的演示包括淘金熱期間加利福尼亞州的空中場景、一段看起來像是從東京火車內(nèi)部拍攝的視頻等等。許多模型都有一些明顯的人工智能跡象——比如博物館視頻中可疑移動(dòng)的地板。
OpenAI 表示,該模型可能難以準(zhǔn)確模擬復(fù)雜場景的物理原理,但總體結(jié)果令人印象深刻。
幾年前,像 Midjourney 這樣的文本到圖像生成器處于模型將文字轉(zhuǎn)換為圖像的能力的最前沿。但最近,視頻開始以驚人的速度進(jìn)步:Runway和 Pika 等公司展示了自己令人印象深刻的文本到視頻模型,而谷歌的 Lumiere 也被認(rèn)為是 OpenAI 在這一領(lǐng)域的主要競爭對手之一。
與 Sora 類似,Lumiere 為用戶提供文本轉(zhuǎn)視頻工具,還允許他們從靜態(tài)圖像創(chuàng)建視頻。
OpenAI 還允許一些視覺藝術(shù)家、設(shè)計(jì)師和電影制作人獲取反饋。它指出,現(xiàn)有模型可能無法準(zhǔn)確模擬復(fù)雜場景的物理原理,并且可能無法正確解釋某些因果實(shí)例。
本月早些時(shí)候,OpenAI 宣布將在其文本轉(zhuǎn)圖像工具 DALL-E 3 中添加水印,但指出它們可以輕松刪除。與其他人工智能產(chǎn)品一樣,OpenAI 將不得不應(yīng)對虛假的人工智能真實(shí)視頻被誤認(rèn)為真實(shí)的后果。
OpenAI 表示,它還在開發(fā)可以辨別視頻是否由 Sora 生成的工具。