國慶假期,國內歡度佳節的同時,海外大廠在忙著“搞一波大的”。日前,谷歌正式發布新一代安卓旗艦手機Pixel 8/Pro系列,并宣布面向安卓與iOS設備,推出“Bard助理(Assistant with Bard)”,用戶可通過文本、語音或圖像與Bard助理互動——換言之,此次谷歌推出的Bard助理將具備多模態功能。
無獨有偶,9月底,OpenAI宣布ChatGPT將推出新的語音和圖像功能。用戶不僅可以在文本框中輸入提示,還可以通過語音或圖像與ChatGPT交流。據OpenAI稱,新功能將在未來兩周內向ChatGPT付費用戶推出,不久之后會推廣到其他用戶。
海外兩家當之無愧的AI龍頭已紛紛進入多模態時代,而國內大廠的步伐也并未見緩慢。目前,華為的AI大模型架構里已包括盤古多模態大模型,科大訊飛推出的訊飛星火認知大模型也已提供多模態交互體驗。此外,一直在AI應用層面頗為市場關注的AIGC軟件A股上市公司萬興科技(300624.SZ)也宣布,即將發布國內首個專注于以視頻創意應用為核心的百億級參數多媒體大模型“天幕”。根據資料顯示,該“天幕”大模型也具備多模態能力。
隨著科技巨頭和明星科技企業逐步強化各大模型對多模態能力的支持,“多模態”無疑已成為繼AIGC、大模型之后的又一“年度熱詞”。這并非是大廠們心有靈犀,事實上,多模態已成為眾多業界人士公認的,通向通用人工智能(AGI)的重要途徑。
在早期對于AI和深度學習算法的探索中,科研人員大多專注于研究單模態模型,并利用單一模態數據來訓練模型。然而,在現實世界中,文本、圖像、語音、視頻等形式很多情況下都不是獨立存在的,而是以更復雜的方式融合呈現,如同人類的“五感”互相連通密不可分。因此,在人工智能的探索中,跨模態、多模態也成了近幾年業界研究的重點。
業內人士分析稱,多模態預訓練模型集成語音、文本、圖像、視頻等各個模態信息的處理模式,降低了AI任務的門檻,更加貼近人類感知,也具有更高的社會價值和商業前景,使AI有望成為萬千大眾都能使用的生產工具。
從年初的NLP到現在的多模態,剝去瞬息萬變的技術“外殼”,AI行業的核心,依舊在于“應用”二字。目前國內廠家在C端的布局不可謂不多。從層出不窮的ChatGPT“平替”、火出圈的妙鴨相機,再到數字人短視頻創作神器萬興播爆,國內廠家們從文字、圖片到視頻“全面開花”,各出奇招探索AI內容生成技術的創新玩法,力圖攻占國內用戶的心智。
以萬興科技為例,作為AIGC出海龍頭、國內最大的數字創意軟件出海企業,萬興科技早已開始AIGC應用布局,并已涉獵目前市場上大部分主流C端AIGC應用種類。
不久前,萬興科技宣布多媒體大模型“天幕”時,即一次性展示了旗下數款融合大模型能力的創意軟件應用。其中,包括AI數字人直播神器萬興播爆直播版、AI文字視頻剪輯產品Wondershare Kwicut、在線圖像音視頻輕編輯AI創意平臺Wondershare Media.io、卡點音樂視頻模板產品Beat.ly等音視頻AI技術應用產品,AI電商圖片生成工具Wondershare VirtuLook等圖片AI技術應用產品,以及AI講演神器萬興智演、AI虛擬伴侶產品Trumate等文本AI技術應用產品。
此外,公開資料顯示,萬興科技旗下萬興喵影、Wondershare Filmora、Wondershare PDFelement、億圖圖示、億圖腦圖、Mockitt等創意軟件產品也已集成AI能力,應用場景覆蓋AI生成電商短視頻、AI生成原型、AI生成流程圖/思維導圖等圖示、AI生成文本等。
通過分析萬興科技的AI產品分布可以發現,目前對于國內廠家,具有實用性功能,例如提升工作效率、提升作品吸引力的產品,可能能夠帶來更好的收益。至于未來還有哪些新玩家入局、又會以怎樣的方式在什么領域切入市場?一切值得期待。