【ITBEAR】
作者|商業(yè)消費主筆 黃青春
題圖|視覺中國
“孤獨的人是可恥的”,歌手張楚在 1994 年推出的同名專輯如是唱道。然而 30 年后的互聯(lián)網(wǎng),人們反復(fù)甄別,相遇到相知依然是件困難的事情。
相比 80 后、90 后,00 后會更多地為個性化和能夠彰顯自己獨特的數(shù)字產(chǎn)品和服務(wù)買單,這使得做年輕社交越來越像一門玄學(xué)——從QQ、探探、Soul、積目再到小眾化的輕語、Dots、Falo,交互體驗往往決定著產(chǎn)品的上限。
“年輕人的社交需求在不斷演化,關(guān)系鏈發(fā)現(xiàn)、建立、活躍等維度會影響用戶數(shù)據(jù),但 UI 設(shè)計、AI 能力、運營策略則會直接關(guān)系用戶體驗。”一位資深產(chǎn)品經(jīng)理向虎嗅表示。
上周,Soul 剛剛在 GITEX GLOBAL 上(全球三大 IT 展之一)亮出了 AIGC+ 社交融合的新進展:用戶不僅能利用 AI 創(chuàng)建 3D 數(shù)字人,還可以實時進行沉浸式語言、肢體互動。
“以前多模態(tài)交互是一個連續(xù)生成過程,會有延時,Soul 現(xiàn)在語音對話延遲不到 200 毫秒,因為我們已經(jīng)推出了端到端大模型能力——過去先生成文本/圖像再轉(zhuǎn)換為語音,現(xiàn)在能將語音與 NLP 統(tǒng)一到一個集成流程中,從而消除了滯后問題。”Soul CTO 陶明解釋稱,這背后是一個數(shù)百人的技術(shù)團隊在支撐,而 AI 人員配置占了一半。
事實上,2022 年底 ChatGPT 橫空出世讓整個互聯(lián)網(wǎng)都為之躁動,心有猛虎的公司都在尋找向上攀爬的入口——豆包之于字節(jié)、元寶之于騰訊、文小言之于百度、通義千問之于阿里,互聯(lián)網(wǎng)企業(yè)接連躬身入局。
形勢不等人,Soul 也縱身一躍跳入了這股時代浪潮——一方面,中國移動互聯(lián)網(wǎng)走到用戶、流量趨于見頂?shù)某墒炱冢O(jiān)管會更側(cè)重產(chǎn)業(yè)互聯(lián)網(wǎng)的推進與建設(shè);另一方面,在大模型浪潮的推動之下,AI 正為企業(yè)打開新的增長空間,這意味著技術(shù)走到平臺重構(gòu)生態(tài)的關(guān)鍵時期,互聯(lián)網(wǎng)公司必須敢于縱身跳入 AI 浪潮(包括技術(shù)生態(tài)迭代、研發(fā)投入等)博一張未來的船票。
于是,越來越多開發(fā)者試圖為用戶構(gòu)筑出一個豐饒的精神樂園、賽博分身,默默打磨著產(chǎn)品和團隊,日拱一卒推動著產(chǎn)業(yè)齒輪緩慢前行。
而當(dāng) AIGC 的子彈射中社交時,往往要具備兩個條件,一是持續(xù)推進產(chǎn)品快速迭代;二是持續(xù)探索新業(yè)務(wù)與場景融合方式。“Soul擁有‘人機對話’的基礎(chǔ)原子能力,但用戶與業(yè)務(wù)之間存在鴻溝,不能直接把原子能力推向用戶,而要構(gòu)建一個AI being 和 Human being 共存的社區(qū)。包括大模型六小強做的一些 AI 聊天產(chǎn)品都支持單點聊天能力,但社區(qū)無法僅靠單點聊天維持。”
陶明介紹, Soul 正從技術(shù)層面利用規(guī)則和策略,讓人與 AI 交互變得更沉浸、真實。“人與 AI 在同一時空下不僅是單純聊天,還要一起參與、創(chuàng)造場景,才能不斷豐富用戶體驗。”
順著這個邏輯,AI 不能只具備認知能力,還應(yīng)當(dāng)具備超強的感知能力——純認知能力給用戶帶來的價值有限,用戶更希望表達被感知和理解。
“社交產(chǎn)品要善于創(chuàng)造場景,在人與 AI 的交互過程中打造更多場景,前陣子我們發(fā)布了一個 demo,智能體在跟我們用戶打電話的過程當(dāng)中,如果你咳了幾聲,AI 會思考你是否感冒,這個互動過程用戶獲得 AI 的關(guān)心,是一種情緒價值。”陶明說到。
他認為,要加快 AI 的感知效率,必須要在語音和 NLP 的融合上下功夫,但很多大模型公司更多在打造基座能力,Soul 是為數(shù)不多去趟這個方向的企業(yè),就是為了讓用戶能實時與具備形象、表情、記憶的 AI 多模態(tài)交互。
如此發(fā)展下去,年輕人好友列表會擴列越來越多 AI ——與 80 后、90 后社交基于某些物理連接(現(xiàn)實身份信息)不同,00 后社交更傾向構(gòu)建一個賽博分身——他們對于互聯(lián)網(wǎng)懷著一種熱烈的期待,渴望被看見,卻又固執(zhí)地選擇畫地為牢、圈地自萌(圈層化)成為這個世代賽博社交最顯性社交共性。
為什么賽博社交更容易擄獲年輕人的心?
多位社交賽道從業(yè)者向虎嗅表示,市面上大多數(shù)傳統(tǒng)社交產(chǎn)品與現(xiàn)實關(guān)系綁定、強調(diào)顏值、中心化分發(fā)內(nèi)容,反而使自在表達、注重個性化的產(chǎn)品凸顯出差異化優(yōu)勢:
首先,以探探為代表的滑動匹配,通過產(chǎn)品設(shè)計放大顏值、真人照片帶來的視覺刺激。優(yōu)勢在于,極高的匹配效率;劣勢在于,用戶關(guān)系維護、沉淀環(huán)節(jié)缺失,容易轉(zhuǎn)移到其他主流社交平臺,長期留存不理想。
其次,與傳統(tǒng)社交產(chǎn)品唯顏值論、強調(diào)荷爾蒙源動力不同,賽博社交以審美、興趣為出發(fā)點,重塑形象進行社交溝通;賽博社交倡導(dǎo)“注意力普惠”,鼓勵每一個用戶參與到內(nèi)容創(chuàng)造與社交互動中,并通過機制保證每個用戶的發(fā)聲被“同好”看到。
與此同時,主張個性表達是 00 后身上的顯著標(biāo)簽,因為沒有權(quán)威崇拜,反而可以更坦然面對自我——他們并不 care 你現(xiàn)實中的身份,對交友質(zhì)量特別在意,更注重深度自我表達、平等溝通、包容性,有更強的群體認同感——漢服、語 C、Pia 戲等亞文化圈子莫不如是。
對此,Soul 產(chǎn)品負責(zé)人車斌曾向虎嗅表示,“從產(chǎn)品功能角度來看,賽博社交核心服務(wù)是無壓力社交互動,并以多樣的產(chǎn)品功能滿足各個圈層個性化的社交需求。尤其 00 后,更依賴‘賽博好友’,彼此不需要成為線下好友。”
以下為虎嗅與 Soul CTO 陶明在迪拜溝通對談實錄,部分內(nèi)容為方便閱讀有所刪減和調(diào)整:
賽博社交被 AI 拿捏了
Q:從用戶需求來說,開發(fā)虛擬數(shù)字人大模型的前景如何?
陶明:人機對話是產(chǎn)品基礎(chǔ)的原子能力,但不能直接把原子能力推向用戶,而要構(gòu)建一個 AI being 和 Human being 共存的社區(qū),大模型六小強現(xiàn)在的一些 AI 聊天產(chǎn)品都支持單點聊天能力,但一個社區(qū)無法僅靠單點聊天維持住,需要更多 AI 與人共處的場景,比如語聊房場景讓 AI 融合人的模擬情境去交流,類似現(xiàn)實世界的仿真。
所以,產(chǎn)品要善于創(chuàng)造場景,在人與AI 的交互過程打造更多場景。我們前陣子發(fā)布的 demo 中智能體就有感知能力,聊天中用戶咳幾聲,AI 會圍繞是否生病這個 topic 展開話題,再比如用戶跟 AI 語音對話,AI 聽到周邊是咖啡館或音樂派對,便會主動切入話題。
當(dāng)然,AI 只具備認知能力并不夠人格化,還必須要有感知能力,所以很多公司會認為加大 o1 認知能力,才能給用戶帶來更多的體驗。
Q:你們產(chǎn)品多模態(tài)與 o1 呈現(xiàn)效果差距如何?
陶明:對于 AI 的進化來講,感知能力不僅是聽得到聲音,還要聽到環(huán)境。所以,加快 AI 的感知效率必須要在語音與 NLP 的融合上下功夫。但這并非多數(shù)大模型公司的方向,他們更多是要打造基座能力,我們是為數(shù)不多去趟這個方向的公司,目前效果反饋不錯,馬上就可以發(fā)布視頻能力,屆時 AI 不僅聽得見還能實時與用戶視頻聊天,它有形象、表情和語言邏輯。
而且,端到端延遲在 200 毫秒以內(nèi),它不是原來模型的串行,而是把語音和 NLP 的 talking 統(tǒng)一化了,延時得到極大改善,用戶才能真正“實時”得到交互反饋——這對業(yè)務(wù)會是一個極大拓展,未來類似直播或露臉的功能就可以做了,可探索空間被極大延展。
Q:這個感知包括 AI 場景搭建,有哪些關(guān)鍵的指標(biāo)?
陶明:今年上半年整個戰(zhàn)略方向做了調(diào)整,重點聚焦在 AI 手段得提效上,讓 AI 增強現(xiàn)有的社交網(wǎng)絡(luò),站內(nèi)數(shù)據(jù)反饋很不錯。滲透來講的話,AI 相關(guān)場景/功能應(yīng)該大幾百萬日活,原來很多場景是產(chǎn)品策略去承接,然后打造一些產(chǎn)品功能,現(xiàn)在都慢慢有AI自主去承接。
不過,目前并沒有全量去鋪 AI 功能,而是一點點去滲透,因為每個人接受程度、適應(yīng)能力不同,有些人愿意嘗試新事物,有些人則不一定,所以只能循序漸進。
Q:交互需要對用戶建立很多標(biāo)簽,如何實現(xiàn) AI 的長記憶能力?
陶明:最開始是搜索思路,回答之前搜機庫把答案存下來;后來做了個 AI 小模型,在進入對話大模型之前,小模型會幫用戶提煉記憶點,可能有數(shù)百個記憶點,時間越長記憶點所涉及范圍會越廣。
現(xiàn)在設(shè)想的是對長記憶數(shù)據(jù)直接輸入進去,但這是一個大的技術(shù)方向,里面還有很多細節(jié),比如記憶不能說完全是持續(xù)的,比如整個記憶里面某個點重復(fù)多次,不同時間點感冒應(yīng)該取哪一次?不同場景是不一樣的,這需要人工去做一些標(biāo)注輔助,不是一個模型就能解決的。所以,端到端去解決用戶體驗還有改進空間,拋開產(chǎn)品、運營,很難純技術(shù)解決端到端。
Q:這一輪 AI 技術(shù)浪潮,你們是產(chǎn)品推著技術(shù)往前走還是技術(shù)研發(fā)推著產(chǎn)品發(fā)展?
陶明:原來邏輯是產(chǎn)品出需求,然后技術(shù)實現(xiàn);現(xiàn)在情況會有一些不同,在內(nèi)部需求群里 AI 算法工程師與產(chǎn)品都可以提需求。現(xiàn)階段來看,技術(shù)工程師知道 AI 現(xiàn)在能做什么、需求能實現(xiàn)的確定性高,但產(chǎn)品是創(chuàng)意驅(qū)動,提的需求可能現(xiàn)在做不了。不過,這種錯位是階段性的,最終產(chǎn)品與技術(shù)的認知會逐漸拉平。
當(dāng) AI 的子彈擊中社交
Q:關(guān)于社交出海,是否有具體的推進計劃?
陶明:海外一直在探索,Soul 不僅是社交,也要在 AIGC 有獨特生態(tài)位,但考慮到體驗層面及用戶端粘性,現(xiàn)在沒有正式把海外產(chǎn)品放出來,依舊是主平臺傳遞 AIGC + 社交的概念,即面向不同市場,有不同產(chǎn)品表現(xiàn)形式,不同功能及場景,但底層已經(jīng)徹底打通。
當(dāng) AIGC 的子彈射中社交時,往往要具備兩個條件,一是持續(xù)推進產(chǎn)品快速迭代;二是持續(xù)探索新業(yè)務(wù)與場景融合方式,后者現(xiàn)在還不是很明朗,所以面對這樣一個不確定性的探索,我們還沒設(shè)計具體的時間表。
Q:你們訓(xùn)練了兩個 AI 模型,在降本增效上有所體現(xiàn)嗎?
陶明:降本增效這個話題是繞不開的。我們有兩個模型,一個是基于形象層面的3D大模型,從2020年開始探索,希望用戶在產(chǎn)品中打造另外一個人設(shè),同時能一鍵生成形象;另一個是多模態(tài)大模型,希望用戶不僅在 Soul 里面能跟真人進行對話,還能跟 AI 進行對話。這兩條線一直努力往前走,AI 大模型感知層面已經(jīng)蠻成熟。
具體而言,組織層面正將各個職能架構(gòu)進行重組,分 NLP、3D、CV、語音等,團隊把面向單模態(tài)模型的所有工作全部 close 掉,打造一個融合團隊來構(gòu)建多模態(tài)模型。
至于技術(shù)層面,組織一定會帶來技術(shù)方向的改變,所以現(xiàn)在整個技術(shù)上只有兩條線:一條線是圍繞類似 GPU 融合去打造 3D、CV、語音的多模態(tài)模型;另外一條線是圍繞最近 OpenAI 發(fā)布的 o1 模型這個思路去嘗試,因為語言模型是驅(qū)動底層模型更通用、更智能的方向,所以業(yè)內(nèi)會保留 NLP 類似 與 o1 在推理端進行強化學(xué)習(xí)的技術(shù)方向走,只是快和慢的問題。
Q:大模型開閉源之爭,您怎么看待這個問題?
陶明:大模型從發(fā)展之初就存在開源與閉源兩條路線,背后是兩個不同的商業(yè)模式。有企業(yè)一直說閉源最好,因為它要打造閉源生態(tài),這是最佳路徑,所以必須要強調(diào)這個方向,讓潛在客戶伙伴不要去自研模型;選擇將大模型閉源的有 OpenAI 的 ChatGPT、百度的文心一言、華為的盤古、商湯的日日新等;而選擇開源的 meta、谷歌、百川、360、阿里等企業(yè),希望借助“ Linux 模式”,聚合生態(tài)力量,讓自己在 AI 市場占據(jù)一席之地,肯定會不遺余力讓潛在客戶用他的模型訓(xùn)練垂類模型。
從技術(shù)鄙視鏈條來看,企業(yè)產(chǎn)品訓(xùn)練用的開源,但內(nèi)心其實也很想去打造一個閉源,這是工程師的一個執(zhí)念,去打造一個完全閉源從 0~1 訓(xùn)練的大模型,而不是站在開源的基礎(chǔ)上展示技術(shù)能力。
Q:中國互聯(lián)網(wǎng)公司訓(xùn)練現(xiàn)在租卡和買卡投入上如何平衡?
陶明:很多公司沒錢建專門的 GPU 機房,會去各個云平臺買獨占的卡,也會儲備一些彈性的卡,這主要是從成本角度去考量。
但是囤卡風(fēng)險太大,比如去年囤幾千張卡到現(xiàn)在,整個卡的價值今年可能只剩下百分之三四十,價格波動太大。所以,大模型訓(xùn)練不要頭腦發(fā)熱去囤卡,現(xiàn)在跟供應(yīng)商去聊,不管軟件還是硬件,技術(shù)層面的商務(wù)交付方案必須可變,如果含固定就沒有空間了。
Q:今年大模型行業(yè)似乎在降溫,主要源于什么?套用開源模型與自研哪個好?
陶明:技術(shù)方向其實已經(jīng)逐漸明朗,面對確定性的東西大家心態(tài)就會不那么焦慮,大概知道每家最后的底牌是什么。最近行業(yè)又有點焦躁,因為 AI 的推理能力的提升,大家又看到一個新的不確定東西,或許行業(yè)瓶頸是在英偉達,但現(xiàn)在還是 OpenAI 在引領(lǐng)。
至于是否自研,國內(nèi)資源現(xiàn)在沒有那么缺,去年開源的模型越來越多,在開源的基礎(chǔ)上打造自己的基座并不是壞事——因為給業(yè)務(wù)賦能其實比自己埋頭去做 Api 更重要。其實從產(chǎn)品角度來說,要的是快速交付,可能一天就要進行微調(diào),但對 B 端公司很難交付,所以自研也會同步進行。
正在改變與想要改變世界的人,都在