日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

<span id="vdkcs"></span>

<span id="vdkcs"><optgroup id="vdkcs"></optgroup></span>

<span id="vdkcs"></span>

公告：魔扣目錄網為廣大站長提供免費收錄網站服務，提交前請做好本站友鏈：【網站目錄：http://www.ylptlb.cn 】，免友鏈快審服務（50元/站），

點擊這里在線咨詢客服

網站：51998
待審：31
小程序：12
文章：1030137
會員：747

首頁 > 新聞資訊 > IT業界 >正文

AI配音版Sora視頻刷屏！絕美逼真音效打破「無聲電影」，或顛覆萬億美元產業

發布時間：2024-03-08 21:21:58 作者：網友整理

【新智元導讀】Sora突破之后的突破又來了！語音初創公司ElevenLabs放大招，直接用AI給Sora經典視頻完成了配音。網友驚呼離AI完全生成電影又近了一步。

雖然一些人不想承認，但AI視頻模型Sora的開年王炸，確實給影視行業帶來了顛覆性的影響！

OpenAI Sora各種逼真視頻的生成足以讓人驚掉下巴，有網友卻表示，現在的Sora視頻更像是‘無聲電影’。

如果再給它們配上音效，現實可就真的就不存在了．．．．．．

就在今天，AI語音克隆初創公司ElevenLabs給經典的Sora演示視頻，完成了絕美的配音。

聽過之后，讓人簡直顱內高潮。

從建筑物到鯊魚無縫切換視頻中，可以聽到小鳥嘰喳，狗在狂吠，不同動物叫聲糅雜在一起，非常空靈。

汽車卯足勁向前行駛的聲音，偶爾還能聽到石子與輪胎的摩擦音。

還有這歡樂喜慶的中國舞龍表演，敲鑼打鼓人聲鼎沸，好不熱鬧。

地鐵在軌道中咔噠咔噠行駛，還伴有空氣被壓縮發出隆~隆~的聲音，讓人有種耳塞的趕腳。

機器人(10.570, 0.03, 0.28%)的專屬配音，直接將賽博風拉滿，聽過后就知道是那種‘熟悉的味道’。

東京街頭上，靚麗的女人提著手提包在路邊行走，高跟鞋噠噠噠與步伐完全吻合。還有那汽車鳴笛，路人說話的聲音體現的淋漓盡致。

驚濤駭浪撞擊著巖石，海鷗在高空中飛翔，叫聲高亢嘹亮。

老奶奶開心地吹滅蠟燭，笑容洋溢在每個人的臉上，片刻美好，只希望時間能夠按下暫停鍵。

三只可愛的金毛在雪地中嬉戲打鬧，興奮地汪汪大叫。

更令人震撼的是，下面這個視頻直接配出了‘紀錄片’的高級感。

在片尾，ElevenLabs表示，以上所有的配音全部由AI生成，沒有一點編輯痕跡。

網友驚呼，‘這簡直離完全由AI生成電影又近了一步’！

堪稱突破后的突破！

需要補充的是，ElevenLabs的配音不是看視頻直接生成的，還是需要prompt之后才能完成。

不過，這種夢幻聯動確實讓人眼前一亮，或許OpenAI的下一步就是進一步擴展多模態能力，將視頻、音頻同時呈現。

到時候，被革命的不僅僅是影視行業，甚至是配音、游戲領域，也要發生翻天覆地的變化！

向量空間中建模，讓LLM理解隱式物理規則

那么，視頻到音頻的精準映射，該如何突破呢？

對此，英偉達高級科學家Jim Fan做了一個比較全面的分析：

為了精確配合視頻內容，配音不僅需要文本信息，視頻像素也至關重要。

若想精確地實現‘視頻-音頻’的無縫匹配，還需要LLM在其潛在空間內理解一些‘隱式的物理原理’。

那么，一個端到端的Transformer需要掌握以下能力，才能正確模擬聲波：

- 確定每個物體的種類、材質和空間位置。

- 識別物體間的復雜互動，比如棍子是敲在木頭、金屬還是鼓面？敲擊的速度如何？

- 辨識場景環境，是餐廳、空間站、黃石國家公園還是日本神社？

- 從模型的內存中提取物體及其環境的典型聲音模式。

- 應用‘軟性’的、已學習的物理規則，組合并調整聲音模式的參數，或者即時創造全新的聲音，類似于游戲引擎中的‘程序化音頻’。

- 對于復雜場景，模型需要根據物體的空間位置，將多條聲音軌道疊加起來。

所有這些能力都不是通過顯式模塊實現的！它們是通過大量時間對齊的視頻和音頻配對，通過梯度下降法學習得來的。

模型的注意力層將利用其權重來實現這些功能，以達到擴散的目標。

目前，我們還沒有創造出如此高質量的‘AI音頻引擎’。

Jim Fan挖出了5年前來自MIT團隊的一項關于‘The Sound of Pixels’的研究，或許從這里可以找到一些靈感。

這個項目中，研究人員提出了像素級聲源定位系統PixelPlayer。

通過結合聲音和圖像信息，AI能夠以無監督的方式從圖像或聲音中識別目標、定位圖像中的目標，甚至分離目標視頻中的聲源。

當你給定一個輸入視頻，PixelPlayer可以聯合地將配音分離為目標組件，以及在圖像幀上定位目標組件。

值得一提的是，它允許在視頻的‘每個像素’上定位聲源。

具體來說，研究人員利用了圖像和聲音的自然同時性，來學習圖像聲源定位模型。

PixelPlayer學習了近60個小時的音樂演奏，包括獨奏和二重奏。它以聲音信號作為輸入，并預測和視頻中空間定位對應的聲源信號。

在具體訓練過程中，作者還利用了自然聲音的可加性來生成視頻，其中構成聲源是已知的。與此同時，還通過混合聲源來訓練模型生成聲源。

這僅是視覺-音頻聯合學習（Audio-Visual Learning）研究中的一瞥，過去在這一方向領域的研究也是數不勝數。

比如，在ECCV 2018被接收的Oral論文‘Learning to Separate Object Sounds by Watching Unlabeled Video’，同樣使用了視覺信息指導聲源分離。

比起MIT的那項研究，這篇論文除了在音樂，還在自然聲上進行了實驗。

以往的研究，都將為未來視頻-音頻完成精準映射進一步鋪路。

正如這幾天被人們炒的火熱的Sora模型，背后架構采用的是Diffusion Transformer一樣，正是基于前輩們的成果。

話又說回來，網友發出疑問，‘那得需要多少年，LLM才能完全遵守物理達則中的所有可能參照系’？

別慌！

有沒有可能OpenAI早已接近，甚至是實現AGI，只不過不想讓我們知道？

估值11億刀，前谷歌大佬創AI語音初創公司

前文提到的ElevenLabs，是由前谷歌機器學習工程師Piotr D?bkowski和前Palantir部署策略師Mateusz Staniszewski，在2022年共同創立的一家利用AI實現語音合成與文本轉語音的公司。

這兩位創始人都來自波蘭，他們在看到美國電影不盡人意的配音后，萌生了創建ElevenLabs的想法。

盡管ElevenLabs沒有固定辦公地點并且僅有15名員工，但它卻在2023年6月以約1億美元估值成功籌集到了1900萬美元的 A 輪融資。

到了2024年1月22日，ElevenLabs又在B輪融資中籌集了額外的8000萬美元，使估值達到了11億美元。同時，公司還宣布推出了一系列新產品，包括聲音市場、AI 配音工作室和移動應用等。

自去年1月發布beta版平臺以來，ElevenLabs便受到了創作者們的熱捧。

2023年3月，喜劇演員Drew Carey通過ElevenLabs的聲音克隆工具，在他的廣播節目《Friday Night Freakout》中復刻了自己的聲音。

2023年3月，流媒體自動化服務Super-Hi-Fi攜手ElevenLabs，利用后者的軟件和ChatGPT生成的提示詞，為其虛擬DJ配音，推出了全自動的‘AI Radio’廣播服務。

6月13日，Storytel宣布與ElevenLabs達成獨家合作，后者將專門為Storytel的核心市場量身定制聲音，制作AI敘述的有聲讀物。

在游戲領域，ElevenLabs正與瑞典的Paradox Interactive和英國的Magicave等開發商進行合作。

ElevenLabs的技術還被用于多語言視頻配音，幫助內容創作者準確復制幾乎任何語言的任何口音。此外，明星粉絲也通過ElevenLabs使用他們偶像的聲音創作鼓舞人心的信息。

OpenAI下一次顛覆，又是萬億美元產業？

還記得ChatGPT誕生之后，OpenAI隨后為其‘聯網’，并發布了全新的插件功能。

那些初創公司們緊跟著，上線了一大波插件應用。

沒想到，從3月發布截止到11月，僅僅半年多的時間，一些初創公司卻遭到‘屠殺’。

在首屆開發者大會上，Sam Altman首次公布定制GPTs，以及即將上線的GPT Store。

可以說，基于OpenAI接口構建創業公司，產品忽然就失去了意義。許多初創公司的產品，已經沒有了護城河。

當時有網友便發問，OpenAI入局智能體后，全球十家頭部Agent初創公司接下來該做什么？

而現在，首個AI視頻模型Sora的橫空出世，已經讓許多影視行業的人，倍感恐慌。

有網友表示，‘Sora雖然有一些不完美之處（可以檢測出來），例如從物理效果可以看出它是人工合成的。但是，它將會革命性地改變許多行業。

想象一下可以生成動態的、個性化的廣告視頻進行精準定位，這將是一個萬億美元的產業’！

對于Sora的應用前景，有望在未來成為視頻制作領域的重要工具。

等OpenAI發布能夠視頻-音頻大模型之后，對于如上專門配音的初創公司ElevenLabs來說，都將是一場‘災難’。

‘我認為大多數人都不能理解，這對不久的將來的生活意味著什么’。

未來，無論是電影、電視劇、廣告，甚至游戲等領域，高質量視頻創作，都將被AI入侵。

在那一天還沒到來之前，想想我們還能做些什么？

分享到：

標簽：Sora

網友整理

注冊時間：

網站：5 個小程序：0 個文章：12 篇

51998
網站
12
小程序
1030137
文章
747
會員

趕快注冊賬號，推廣您的網站吧！

文章分類

熱門網站

各百科-專業百科問答知識名網站 m.geelcn.com
免費軟件,綠色軟件園,手機軟件下載,熱門游戲下載中心-中當網 m.deelcn.com
魔扣科技 www.ylptlb.cn
體育新聞_國際體育資訊_全球體育賽事-中名網 www.feelcn.com/tiyu/tiyuxinwen/
食品安全_健康飲食_舌尖上的安全-中名網 www.feelcn.com/shenghuo/shipinanquan/
中合網 www.heelcn.com
中當網 www.deelcn.com
魔扣網站維護代運營 www.ylptlb.cn/tg
中合網-健康養生知識科普名站 m.heelcn.com
各百科 www.geelcn.com

最新入駐小程序

數獨大挑戰

數獨大挑戰2018-06-03

數獨一種數學游戲，玩家需要根據9

答題星

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試

全階人生考試2018-06-03

各種考試題，題庫，初中，高中，大學四六

運動步數有氧達人

運動步數有氧達人2018-06-03

記錄運動步數，積累氧氣值。還可偷

每日養生app

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定

熱門文章