新智元報(bào)道
編輯:LRS
【新智元導(dǎo)讀】王炸Sora發(fā)布后,想要分辨AI視頻和真實(shí)視頻變得更難了,各行各業(yè)都面臨新的挑戰(zhàn)與危機(jī)。
技術(shù)的發(fā)展總是伴隨著被濫用的風(fēng)險(xiǎn),從ChatGPT到最近發(fā)布的文本轉(zhuǎn)視頻工具Sora,AI生成的內(nèi)容越是逼真,被濫用的風(fēng)險(xiǎn)也就越高。
僅僅一年前,大家還在嘲笑AI生成的「威爾史密斯吃意大利面」不自然,手部、嘴部、面條沒(méi)有一個(gè)真實(shí)的;但現(xiàn)在的頂級(jí)AI模型已經(jīng)可以生成「錄像級(jí)」的視頻了,達(dá)到了以假亂真的水平。
無(wú)論是普通用戶還是專業(yè)的研究人員,大多對(duì)AI的發(fā)展速度感到「震驚」,除了興奮外,大家也開(kāi)始擔(dān)心生成的假視頻可能會(huì)危及2024年的全球政治,或是顛覆內(nèi)容創(chuàng)作領(lǐng)域。
最近,Nature上的一篇新聞文章總結(jié)了Sora等文本轉(zhuǎn)視頻工具對(duì)當(dāng)下的「科學(xué)和社會(huì)」可能產(chǎn)生的影響,也是繼deepfake換臉后,大眾又要面臨的「分辨假視頻」考驗(yàn),而且這次的考驗(yàn)更加嚴(yán)峻,連可供參考的原始視頻都沒(méi)有。
英國(guó)萊斯特德蒙福特大學(xué)的數(shù)字文化專家Tracy Harwood認(rèn)為,錯(cuò)誤信息是AI模型要面臨的主要挑戰(zhàn),「我們很快就會(huì)被淹沒(méi)在大量看似真實(shí)的信息中」。
Sora帶來(lái)社會(huì)恐懼
2月16日,OpenAI的Sora模型橫空出世,用戶只需要通過(guò)幾個(gè)簡(jiǎn)短的文本提示就能創(chuàng)建逼真的視頻,比如「一個(gè)女人在東京一條燈光明亮的街道上行走」。
Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
雖然此前也有類似的模型,如Runway發(fā)布的Gen-2,或是谷歌開(kāi)發(fā)的Lumiere,但這些工具并沒(méi)有引起公眾的關(guān)注:模型呈現(xiàn)給出的內(nèi)容非常普通,并且需要非常具體的提示才能讓模型生成令人滿意的作品。
相比之下,Sora提高了作品的質(zhì)量,還拉低了AI作品的制作門檻。
與此同時(shí),Sora也給即將到來(lái)的英國(guó)大選和11月的美國(guó)總統(tǒng)選舉帶來(lái)了新的問(wèn)題,英國(guó)閱讀大學(xué)研究人工智能和電影制作的Dominic Lees表示,屆時(shí)將會(huì)有大量的假視頻和假音頻流傳出來(lái),影響公眾的判斷。
2023年10月,英國(guó)工黨領(lǐng)袖Keir Starmer的假音頻被公開(kāi),今年1月,美國(guó)總統(tǒng)拜登鼓勵(lì)民主黨人不要投票的假音頻也被流傳出來(lái)。
目前可用的一種解決方案是要求文本到視頻的AI使用水印,可以是視頻中可見(jiàn)標(biāo)記的形式,或是添加在視頻元數(shù)據(jù)中的人工簽名,但Dominic Lees對(duì)這種措施的有效性仍然保持懷疑:水印可以被刪掉,元數(shù)據(jù)簽名需要用戶特意查看視頻的真實(shí)性才行,要求世界各地的觀眾在觀看每個(gè)視頻時(shí)都查看元數(shù)據(jù)是不切實(shí)際的。
Sora也同樣影響到了影視創(chuàng)業(yè)行業(yè),好萊塢演員、電影制片人和工作室老板Tyler Perry在目睹了 Sora 的能力之后,迅速中止了12 個(gè)攝影棚的設(shè)計(jì)和建造等一系列的影視工作室擴(kuò)建計(jì)劃。
Perry還表示,包括演員、場(chǎng)務(wù)、電工、交通協(xié)調(diào)、音效師和剪輯師這些行業(yè)人士都將受到影響,Sora 將觸及影視行業(yè)的每一個(gè)角落。
美國(guó)演員湯姆·漢克斯去年也表示,人工智能可以讓他在死后繼續(xù)出現(xiàn)在電影中,但如果你是一個(gè)雄心勃勃的年輕演員,在爭(zhēng)取機(jī)會(huì)的同時(shí),卻被告知「對(duì)不起,湯姆漢克斯總是會(huì)扮演主角」,你會(huì)期待這樣的影視未來(lái)嗎?
文本到視頻的人工智能將會(huì)為社會(huì)帶來(lái)更廣泛的問(wèn)題。
Harwood認(rèn)為,我們必須學(xué)會(huì)重新評(píng)估看到的內(nèi)容,這些文本轉(zhuǎn)視頻工具讓每個(gè)人都有機(jī)會(huì)成為媒體內(nèi)容創(chuàng)作者,我們需要處理由此產(chǎn)生的后果,也代表著作品消費(fèi)方式的根本轉(zhuǎn)變。
AI對(duì)社會(huì)的益處
不過(guò)AI技術(shù)也對(duì)社會(huì)的發(fā)展存在益處,Harwood認(rèn)為文本轉(zhuǎn)視頻技術(shù)可以被用來(lái)「以一種更容易理解的格式」呈現(xiàn)較難理解的文本,比如把學(xué)術(shù)論文可視化等。
Harwood表示,文本轉(zhuǎn)視頻模型可以用來(lái)做的最重要的事情之一就是「向外行觀眾傳達(dá)專業(yè)的研究結(jié)果」,其能夠?qū)⑾喈?dāng)復(fù)雜的概念進(jìn)行可視化。
另一個(gè)潛在的用途可能是在醫(yī)療保健領(lǐng)域,文本轉(zhuǎn)視頻AI能夠代替人類醫(yī)生與患者交談,但英國(guó)科學(xué)傳播顧問(wèn)Claire Malone認(rèn)為:雖然有些人可能會(huì)覺(jué)得這項(xiàng)技術(shù)不夠靠譜,但在用過(guò)之后,他們可能會(huì)發(fā)現(xiàn)如果他們想多次向醫(yī)療專業(yè)人士提問(wèn),就會(huì)非常方便。
Malone也認(rèn)為,文本轉(zhuǎn)視頻的AI模型可以幫助研究人員獲取海量數(shù)據(jù),如由歐洲粒子物理實(shí)驗(yàn)室歐洲核子研究中心在瑞士日內(nèi)瓦附近和其他大型科學(xué)項(xiàng)目產(chǎn)生的數(shù)據(jù)集。
生成式AI可以完成一些普通的研究任務(wù),如對(duì)代碼進(jìn)行篩選等;也可以做更復(fù)雜的工作,例如輸入數(shù)據(jù)并要求模型做出預(yù)測(cè)。
參考資料:
https://www.nature.com/articles/d41586-024-00661-0