【ITBEAR】1
我把一段數(shù)字人制作的視頻,發(fā)給了幾百位見過我的朋友,大部分朋友表示無法分辨是真人還是由數(shù)字人技術(shù)合成。
由此引發(fā)了一個問題:現(xiàn)在的人工智能數(shù)字人技術(shù)到底發(fā)展到了哪一步?
這個問題背后還潛藏著一個更為實際的考量——數(shù)字人技術(shù)是否能夠讓普通大眾也消費得起?因為,能以假亂真的所謂數(shù)字人技術(shù)并非近年才出現(xiàn)的新鮮事物。早在十年前,好萊塢的諸多大片,如《鋼鐵俠》《王牌特工》等,就已經(jīng)廣泛運用了這種技術(shù)。然而,當(dāng)時要實現(xiàn)這樣的效果,往往需要投入巨額的資金,需要后期團(tuán)隊精心制作,成本可能高達(dá)數(shù)萬甚至數(shù)十萬美元。
但時至今日,應(yīng)用了AI大模型技術(shù)后,這種產(chǎn)品的門檻已經(jīng)大幅降低。像我這樣的普通個體也能輕松負(fù)擔(dān),這才是真正令人矚目的變化,它可能預(yù)示著我們將開啟一個全新的歷史篇章。
2
那么,大家可能會好奇,打造一個如此逼真的數(shù)字人究竟需要多少成本?
那天,我去大望路那邊的今時兄弟公司,這家公司負(fù)責(zé)人幫我完成了這個數(shù)字人的制作,我起名為“數(shù)字人第一版”。他還給我生成幾個視頻demo,讓我審核是否過關(guān)。
我直接把demo發(fā)到了視頻號,就是文章開頭的視頻,沒想到騙過了大多數(shù)人。
從這家公司離開前,我才知道制作這種級別的數(shù)字人,真的已經(jīng)到白菜價了。不需要9999元,也不需要3999元,只需要幾百元。
是的,僅需幾百塊錢,這一前沿科技就能為普通大眾所享用。
這個價格以及它能獲取到的產(chǎn)品表現(xiàn)力,驚到了我。我想,在這個科技飛速發(fā)展的時代,曾經(jīng)遙不可及的高科技產(chǎn)品正在逐漸走進(jìn)千家萬戶,成為普通人也能輕松享受的日常,這不僅僅是一個技術(shù)的突破,更是一個時代的進(jìn)步。
一個讓每個人都有機(jī)會擁抱科技、展現(xiàn)自我的全新時代,想想都讓人激動。
3
還沒有從科技平權(quán)的震撼中緩過勁來,這兩天科大訊飛又放大招,讓業(yè)界再一次震撼。
2024年10月24日,是一個特殊的節(jié)日,科大訊飛首次發(fā)布了超擬人數(shù)字人技術(shù)。只需上傳一張照片,便能迅速生成一個生動的數(shù)字人形象,而且非常逼真,能夠根據(jù)語義進(jìn)行表情和動作的同步。
我在屏幕前看到訊飛的現(xiàn)場演示,倒抽一口冷氣:現(xiàn)在的技術(shù),已經(jīng)強(qiáng)大到這種地步了?
當(dāng)天,也有好幾位朋友把訊飛的這段演示發(fā)給我,表達(dá)了類似的震驚之感。
我反復(fù)看了現(xiàn)場演示視頻,訊飛的超擬人數(shù)字人與傳統(tǒng)數(shù)字人相比,有兩個最顯著的特征。
第一:門檻大幅度降低,有一張圖片就可以生成。
俗話說巧婦難為無米之炊,傳統(tǒng)數(shù)字人往往基于拍攝的視頻資源進(jìn)行訓(xùn)練&生成,我前幾天制作的“數(shù)字人第一版”也是基于我的真人影像。
訊飛的創(chuàng)新在于,僅需一張照片就可以生產(chǎn)數(shù)字人,其超擬人數(shù)字人就可以與用戶進(jìn)行面對面的實時對話,口唇、表情、動作均由大模型自動生成,并能夠充分匹配文本的意圖。
第二:更擬人、更自然。
其實,讓一張圖片動起來,早在10年前的GIF時代就可以實現(xiàn)了,只不過當(dāng)年的這種“圖片轉(zhuǎn)視頻”的技術(shù),一看就很假,只能娛樂之用。
訊飛的不同之處在于,依托于多模擴(kuò)散生成大模型,不需要先驗信息,不再受限于預(yù)先錄制的模板動作。通過深入解析語音中的情感以及文本中的語義信息,數(shù)字人的動作能夠自然匹配儀態(tài),展現(xiàn)出更加協(xié)調(diào)自然的動作,從而大幅提升了與人對話時的交互體驗。也就是,這項服務(wù)未來隨著算法、技術(shù)的迭代,完全可以做到以假亂真。
4
特別科大訊飛這個產(chǎn)品的出現(xiàn),意味著我們不僅僅解決了廉價數(shù)字人“從無到有”的剛需,還有望解決“從有到好”的難題。
PS:當(dāng)然,咱們這里的假設(shè)前提是科大訊飛的演示視頻沒有進(jìn)行人為美化,是100%真實演示。
“從有到好”的意思是說,以前視頻生成模型的效率很低,生成時需要一定的等待時間,也就意味著數(shù)字人和觀眾無法實現(xiàn)實時互動。訊飛這次為了攻克高計算成本與交互時延的瓶頸,采用了中間表征壓縮技術(shù),大大降低了延時,實現(xiàn)了實時互動、一問一答的流暢體驗。
這種互動能力的提升,將來如果用于直播帶貨領(lǐng)域,價值可就太大了。舉個例子,辛巴和李佳琦這個級別的主播,一個小時的帶貨金額在千萬以上,每天帶貨幾個小時就得休息。如果應(yīng)用了這種數(shù)字人技術(shù),理論上可以實現(xiàn)7*24小時不間斷直播,帶貨金額將會提升到哪一步?這將給我們的經(jīng)濟(jì)增長帶來多大貢獻(xiàn)?讓人無限期待。
稍微遺憾的是,在當(dāng)天的活動上,科大訊飛沒有公布這個數(shù)字人的價格。不過,按照科大訊飛過往的定價策略來看,這種服務(wù)有可能是按照訂閱付費的模式收費,最終價格也會是一個白菜價。
5
未來,隨著技術(shù)的發(fā)展和迭代,AI數(shù)字人技術(shù)已經(jīng)不是說像不像人的問題了,而是在很多個方面已經(jīng)超越人了。
那么,數(shù)字人帶給我們的到底是什么?硅基介質(zhì)承載的數(shù)字人和碳基物理人該如何相處?
到底什么是真實?什么是存在?在這個數(shù)字與現(xiàn)實交織的時代,我們還能不能像以前那樣,清晰地分辨出真實與虛擬的界限?數(shù)字人的加速普及,不僅讓我們看到了技術(shù)的力量,更讓我們開始反思,人類之所以為人類的本質(zhì)到底是什么?
同時,隨著數(shù)字人技術(shù)的不斷發(fā)展,我們也不得不重新審視自己的價值和追求。在這個技術(shù)日新月異的時代,我們該如何定位自己?如何在保持人性獨特的同時,與技術(shù)和諧共生?我們?nèi)绾卧谙硎芗夹g(shù)帶來的便利時,不失去對自由與尊嚴(yán)的堅守?
當(dāng)然,不管從哪個方面看,每一次技術(shù)的躍進(jìn),都伴隨著倫理的考量和抉擇,汽車發(fā)明時也引發(fā)馬車夫是否失業(yè)的討論呢。數(shù)字人技術(shù)的崛起,既是技術(shù)的勝利,也是對人類智慧的挑戰(zhàn)。我們該如何確保技術(shù)的發(fā)展不會成為束縛我們的枷鎖,而是成為推動人類進(jìn)步的強(qiáng)大力量?這需要我們不斷地思考、探索和實踐。