來源|未來科技力
作者|王兆洋
Connect the dots
2014年,Yoshua Bengio和他在蒙特利爾大學(xué)的同事們正在研究如何把編碼器-解碼器用在機(jī)器翻譯領(lǐng)域。這篇即將成為機(jī)器學(xué)習(xí)研究里程碑之一的論文,在當(dāng)時(shí)有些卡殼。論文的一作,Yoshua Bengio的博士后KyungHyun Cho發(fā)現(xiàn),他的模型在長句翻譯上依然有很多問題。這些問題不解決,模型總顯得不夠強(qiáng)大。
當(dāng)時(shí)的蒙特利爾大學(xué)正在和IBM公司談合作,后者負(fù)責(zé)對接的科學(xué)家從紐約來到蒙特利爾時(shí),Yoshua和KyungHyun向他展示了這個(gè)進(jìn)展中的研究,而后者很快指出了這個(gè)模型的一個(gè)缺失:
它缺少一個(gè)對齊(alignment)的機(jī)制,也就是判斷目標(biāo)輸出語言里的哪些詞與輸入語言是對齊的。
在后來發(fā)表的論文中,這種對齊的思想加入了進(jìn)去,長句翻譯的效果得到提升,而這篇論文以及由后來聯(lián)合創(chuàng)辦AI target=_blank class=infotextkey>OpenAI的Ilya Sutskever發(fā)表的另一篇論文一起奠定了Seq2Seq模型的基本思想,其中使用的對齊思路里,也出現(xiàn)了后來影響人工智能走向的注意力機(jī)制的影子,它們被認(rèn)為是后來各類模型走向底層統(tǒng)一的源頭之一。
這名給Bengio提出建議的科學(xué)家是周伯文。
當(dāng)時(shí)周伯文已經(jīng)在IBM工作10多年,在IBM著名的T. J. Watson研究中心領(lǐng)導(dǎo)自然語言理解與語音翻譯團(tuán)隊(duì)。在2012年Geoffrey Hinton證明了神經(jīng)網(wǎng)絡(luò)的可行性后,周伯文帶領(lǐng)他的團(tuán)隊(duì)成為最早一批撲到神經(jīng)網(wǎng)絡(luò)與自然語言表征相關(guān)研究的科學(xué)家。
Yoshua Bengio在蒙特利爾忙著寫論文的同時(shí),周伯文在紐約也開始了基于seq2seq加上注意力機(jī)制架構(gòu)做的研究,而與大多數(shù)研究方向不同,他選擇了生成式寫作的領(lǐng)域。看一看他過往的研究主題,會發(fā)現(xiàn)里面有一條長長的線,終端指向通用人工智能。他相信通用人工智能會實(shí)現(xiàn),而且必經(jīng)之路就是生成式人工智能。
“凡是我不能創(chuàng)造的,我都沒有真正理解”。周伯文在當(dāng)年的一場學(xué)術(shù)會議上引用了著名科學(xué)家費(fèi)曼的話,他認(rèn)為,人工智能也必須會創(chuàng)造。
很快,周伯文團(tuán)隊(duì)發(fā)表的生成式摘要論文引起了不少注意,但他依然覺得它和人類的行為特別是泛化方面還是差了一些。他認(rèn)為當(dāng)時(shí)的注意力機(jī)制存在缺陷——它們都是根據(jù)輸出來判斷輸入中需要更加注意(pay more attention)的地方。
周伯文給團(tuán)隊(duì)做了個(gè)比喻,就好像大學(xué)里的期末考試,如果學(xué)生通過老師在考前畫重點(diǎn)來針對性準(zhǔn)備復(fù)習(xí),考試的效果當(dāng)然會好,但學(xué)生通常考完就忘了。他認(rèn)為,如果要做通用人工智能,要考慮的就應(yīng)該是長期效果和對AI模型更充分的訓(xùn)練,所以不應(yīng)該看輸出,而只能看輸入,就像人不能用未來的信息決定現(xiàn)在的判斷。這就要設(shè)計(jì)一個(gè)更好的編碼器,和更好的自然語言表征機(jī)制。
最終他和團(tuán)隊(duì)提出了多跳自注意力(multi-hop self-attention)機(jī)制來改善編碼器——若繼續(xù)拿考試做比喻,就是完全不考慮會考什么,只看書,來理解哪里需要更多地賦予注意力,也就是學(xué)習(xí)自注意力,并且不能限制在單獨(dú)某一科目或任務(wù)的學(xué)習(xí)上,所以要反復(fù)的看,通過多跳來理解內(nèi)在的依賴關(guān)系。2016年底這篇論文完成,2017年初發(fā)表,成為第一個(gè)完全不考慮下游任務(wù)的自然語言表征模式。
在那兩年,有關(guān)神經(jīng)網(wǎng)絡(luò)的一切都在蓬勃的發(fā)展著。同年年底,后來被稱為一切繁榮的開端的那篇論文出現(xiàn)了,來自谷歌的幾個(gè)研究員寫下《Attention is All you need》的題目,給世界帶來了Transformer模型。
在這篇論文中,周伯文的論文被引用,在引用角標(biāo)對應(yīng)的地方,多跳自注意力的名字演變成了“多頭自注意力”。
“這是一個(gè)很好的研究,他們在多頭自注意力基礎(chǔ)上拓展了兩件事。第一就是利用強(qiáng)大的算力,對注意力機(jī)制疊了很多層。第二很聰明也很簡單,就是把RNN拋棄了,只用位置編碼,輕裝上陣因此可以用更多的數(shù)據(jù)。最終證明效果很好。”周伯文對我回憶道。RNN/LSTM之前一直和Seq2Seq模型一起出現(xiàn),它可以捕捉上下文的關(guān)系,但因?yàn)樾枰谛蛄许樞騺碜觯杂?jì)算資源消耗巨大。尤其會出現(xiàn)梯度爆炸的問題。
Attention is all you need,這個(gè)后來很大程度改變了學(xué)術(shù)論文起標(biāo)題風(fēng)格的短句,今天的關(guān)注點(diǎn)都在“Attention”上,但在當(dāng)時(shí)的研究背景里,它更像是在有針對性的喊話:
多頭重要,自注意力重要,但RNN不再重要,這打破了當(dāng)時(shí)所有人搭建模型時(shí)的慣例,也是和周伯文等之前研究者的論文最大的區(qū)別。
這篇論文和Transformer架構(gòu)徹底改變了一切,它解決了模型長距離記憶的問題。Ilya Sutskever在近期一次采訪中回憶,OpenAI在論文出現(xiàn)第二天就立刻徹底轉(zhuǎn)向了Transformer架構(gòu)。
而后,2020年5月OpenAI基于Transformer架構(gòu)的GPT-3論文發(fā)表,2年后ChatGPT出現(xiàn)。之后的一切都是歷史。
“從注意力到自注意力,從BERT到GPT-3,核心的思想都是當(dāng)不再依賴輸出或待預(yù)測詞的下文等未來的信息時(shí)、當(dāng)可以用更多的數(shù)據(jù)來更充分訓(xùn)練AI模型時(shí),我們看到了AGI的影子“。
弄潮的人會更早意識到新浪潮到來,在看到GPT3后,當(dāng)時(shí)已經(jīng)在京東擔(dān)任高級副總裁的周伯文給自己的職業(yè)生涯做了一個(gè)重要的決定:
創(chuàng)業(yè)。
2021年下半年,他向工作了4年的京東提出離職。他曾在這里一手搭建起京東的整個(gè)AI團(tuán)隊(duì),領(lǐng)導(dǎo)了云與AI的整合和戰(zhàn)略刷新,把生成式人工智能用到千人千面的個(gè)性化商品營銷和爆款產(chǎn)品創(chuàng)新中,并收獲了亮眼的提升數(shù)據(jù)。2020-2021年生成式人工智能還是早期探索,很少有人愿意為此而重新出發(fā),但他看到的未來讓他無法等待。
人生就是“connect the dots”。周伯文喜歡喬布斯這個(gè)提法,而對他來說,把這些點(diǎn)連接起來的一刻到了。
銜遠(yuǎn)科技的誕生
一個(gè)無限的符號。左邊是產(chǎn)品,右邊是消費(fèi)者。
周伯文在2021年底的一天在一張A4紙上畫下了這個(gè)圖案,之后銜遠(yuǎn)科技誕生。
Dots connected。
這種基于生成式的交互智能就是ChatGPT成功背后的重要機(jī)制,但在ChatGPT還沒出現(xiàn)的當(dāng)時(shí)很少有人懂。
離開大船,帶來的是巨大的沉沒風(fēng)險(xiǎn),但他自己想的很清楚。
“終局思考加上對技術(shù)階段和成熟期的判斷,讓我在2021年決定干這件事情。”在銜遠(yuǎn)科技位于中關(guān)村(5.800, -0.03, -0.51%)的辦公室,周伯文對我說。他的聲音有些沙啞,今年以來他每一天的行程以小時(shí)劃分,但精力依然充沛,提到技術(shù)的演進(jìn)節(jié)點(diǎn),不自覺會興奮地提高音量。
周伯文
“展開來說,首先是技術(shù)驗(yàn)證,一方面是GPT3這些模型明顯看出生成式的能力越來越強(qiáng)。另一方面是我自己早期的一系列技術(shù)和效果驗(yàn)證。用生成式AI來做的內(nèi)容和產(chǎn)品創(chuàng)新等比人類專家的轉(zhuǎn)化率提高30%。”
兩相結(jié)合,周伯文創(chuàng)辦銜遠(yuǎn)科技要做的,就是用生成式人工智能去重構(gòu)用戶和產(chǎn)品的關(guān)系。
“過去的模式雖然已有很多新AI技術(shù)的實(shí)踐,但數(shù)智化產(chǎn)業(yè)在追求單點(diǎn),成千上萬個(gè)小的模型,解決一個(gè)個(gè)具體環(huán)節(jié)。我希望做一個(gè)基礎(chǔ)大模型,學(xué)習(xí)商品供應(yīng)鏈各個(gè)環(huán)節(jié),并以消費(fèi)者為中心提升關(guān)鍵環(huán)節(jié)效率。”
但果不其然的,這個(gè)模式在一開始并沒太多人理解。周伯文又再次需要做一個(gè)判斷:這些技術(shù)思考和現(xiàn)實(shí)的商業(yè)模式之間的空隙,他是否又一次太超前了。
“超前是我的常態(tài),但我當(dāng)時(shí)判斷是,沒有太超前。”他對我說。“我總是說,技術(shù)的突破,核心是你的愿景是什么。”
周伯文的技術(shù)愿景顯然指向通用人工智能,而這一次生成式人工智能的進(jìn)展,讓他更清晰看到通用人工智能的可能性,其中最關(guān)鍵的改變,就是人與人工智能的交互關(guān)系的變化。
“過往大家都把人機(jī)對話認(rèn)為是一種應(yīng)用。我為什么要去做交互呢?我不認(rèn)為它是個(gè)應(yīng)用,從人類歷史早期開始,從孔子與72門徒到雅典學(xué)派,人類知識的積累、沉淀、傳播,其實(shí)都是通過人和人的對話、交互實(shí)現(xiàn)的。AI時(shí)代類似,我認(rèn)為人機(jī)對話是一個(gè)學(xué)習(xí)與對齊的手段,通過交互,人可以不斷地教AI,完成人和AI在復(fù)雜任務(wù)上的分工協(xié)同,并同時(shí)確保AI的目標(biāo)和子目標(biāo)都與人類對齊。”周伯文說。
在ChatGPT出現(xiàn)后,這種判斷成了一種共識。但在2022年初當(dāng)他去清華大學(xué)提出想要做這個(gè)課題時(shí),大家也感到新奇。周伯文離開京東后,受聘為清華大學(xué)電子工程系長聘教授、清華大學(xué)惠妍講席教授,并設(shè)立“協(xié)同交互智能研究中心” 。他同時(shí)擁有學(xué)界和創(chuàng)業(yè)者的雙重身份,希望通過這兩種身份圍繞學(xué)術(shù)與產(chǎn)業(yè)的協(xié)同更好的助推AI創(chuàng)新發(fā)展。
什么才是中國的OpenAI
在中關(guān)村不大的會議室里,周伯文給我展示他2021年底最早設(shè)計(jì)銜遠(yuǎn)科技的技術(shù)底座與商業(yè)模式時(shí)的幻燈片,網(wǎng)絡(luò)投屏延遲有些高,“我們的網(wǎng)絡(luò)資源都在訓(xùn)練模型,”他半開玩笑地說。
這家公司正在按照他的愿景,穩(wěn)步推進(jìn)每一個(gè)技術(shù)細(xì)節(jié),打造著模型和產(chǎn)品。
用生成式人工智能去重構(gòu)用戶和產(chǎn)品的關(guān)系,周伯文最終將它們指向5D:發(fā)現(xiàn),定義,設(shè)計(jì),開發(fā),轉(zhuǎn)化(Discover,Define,Design,Develop,Distribute)。周伯文在和客戶的溝通中發(fā)現(xiàn),這5D基本涵蓋了品牌和制造商的所有需求。
這5D的任何地方不能只考慮用戶或者產(chǎn)品,而是需要把它們鏈接起來看,也就是需要彼此交互。這也是與以往的不同——5D并不新鮮,它們早已存在,過往周伯文也用技術(shù)走通過每一個(gè)D,但問題是在大模型之前,模型訓(xùn)練和部署成本都很高。更重要的是,它們是彼此分割的,哪怕是曾經(jīng)火熱一時(shí),試圖解決這一問題的數(shù)據(jù)中臺概念也沒能改變這個(gè)事實(shí)。
“當(dāng)我做了數(shù)據(jù)中臺后,發(fā)現(xiàn)這是一個(gè)偽命題,因?yàn)樗且粋€(gè)ad hoc(臨時(shí)安排)的東西,是事后定義的。所有人用不同軟件看到的數(shù)據(jù)還是不同,因?yàn)樽罱K的入口不同。但銜遠(yuǎn)科技的大模型做成后,所有企業(yè)使將使用5D大模型來實(shí)現(xiàn)數(shù)智化轉(zhuǎn)型,將其成為統(tǒng)一的入口。”他說。
“生成式人工智能讓5D第一次有可能用同一個(gè)AI基礎(chǔ)模型跑起來。而且能夠?qū)?D的數(shù)據(jù)集中到一起并實(shí)現(xiàn)全部穿透,這類場景以前是不存在的。”
“在應(yīng)用落地層面, 我們研發(fā)的領(lǐng)銜Collaborative Innovation Platform SaaS基于大模型的多模態(tài)理解、推理與生成能力,通過深刻洞察消費(fèi)者、場景、商品、品參、研發(fā),協(xié)助企業(yè)發(fā)現(xiàn)商業(yè)機(jī)會與產(chǎn)品創(chuàng)新。同時(shí),銜遠(yuǎn)科技的ProductGPT多輪對話平臺為企業(yè)每個(gè)員工提供根據(jù)不同職業(yè)角色深度定制的個(gè)人助手,通過提供角色特定的技能與知識滿足其特定的工作需求, 例如,銜遠(yuǎn)科技的消費(fèi)者研究個(gè)人助手會提供研究市場趨勢、理解消費(fèi)者需求、市場調(diào)研等專業(yè)技能與相關(guān)知識。”
銜遠(yuǎn)科技在今年3月1日已完成數(shù)億元天使輪融資,由啟明創(chuàng)投領(lǐng)投,經(jīng)緯創(chuàng)投跟投。不過,在今天已經(jīng)被一定程度上塑造的中國大模型商業(yè)語境里,這樣的模型思路似乎會被立刻歸類為“垂直模型”,人們認(rèn)為它需要被建立在一個(gè)更強(qiáng)大的,全能的通用大模型之上,而后者才是“百模大戰(zhàn)”的焦點(diǎn)。
但周伯文并不這么認(rèn)為。
“我以前沒用大模型這個(gè)詞,現(xiàn)在大家這樣理解,沒辦法(也要用起來),這樣有好處,就是簡潔。但它也會把很多東西混淆在一起。”
第一是技術(shù)上,他認(rèn)為,一方面只強(qiáng)調(diào)大就會讓人們把GPT這種dense model和其他一些MOE(拼接模型,可以大很多)放一起比較,這樣并沒有意義。另一方面,目前模型的確需要足夠大才能涌現(xiàn)一些能力,但未來一定會有新的辦法,比如,未來訓(xùn)練一定要提供現(xiàn)在還多的高質(zhì)量、高智慧密度數(shù)據(jù),但模型的表征架構(gòu)不一定就必須要數(shù)量級的增長,如果是可能是我們的表征學(xué)習(xí)還不夠好;推理就更明顯,一定是越小越好。
“我一直認(rèn)為,模型不是越大越好。我們說大模型其實(shí)關(guān)鍵是模型提供了預(yù)訓(xùn)練能力,具備了基礎(chǔ)能力,后面怎么去用是另一個(gè)問題。”
第二在商業(yè)模式上,“大”其實(shí)對應(yīng)的是ROI里I的部分,但事實(shí)上沒人要去比I,要比的是R,I是分母越小越好,R是分子越大越好。
以及大模型本身更適合做的是長尾場景,這些往往也是低價(jià)值場景。而一些數(shù)據(jù)上的變化也開始印證這個(gè)判斷。
“從上個(gè)月起,ChatGPT的API 調(diào)用量明顯下降,日活下降5%,而它之前突增之后也才到谷歌日活的2%。”他說。“人們不知道用它干什么,只當(dāng)做是一個(gè)玩具或一個(gè)簡易工具。我的判斷是必須進(jìn)入生產(chǎn)力環(huán)節(jié),成為人們在生產(chǎn)生活中的剛需。”
所以在銜遠(yuǎn)科技,大模型在技術(shù)底層框架上必須具備通用大模型技術(shù)的基礎(chǔ)能力,并用科學(xué)的方法評估,但同時(shí)也需要專業(yè)的訓(xùn)練。
“人們都在用LLM來簡述OpenAI做的事情,但實(shí)際OpenAI自己的定義是——基于多頭注意力機(jī)制預(yù)測下一個(gè)詞訓(xùn)練出來的最佳的世界知識壓縮器。”周伯文找到OpenAI科學(xué)家的分享對我說。
也就是,一件產(chǎn)品誕生全過程的知識第一次可以用最佳方式壓縮進(jìn)一個(gè)模型。把人和消費(fèi)者所有交互的數(shù)據(jù)壓縮之后來預(yù)測下一個(gè)“詞”,并可以學(xué)會人的場景,情感,來預(yù)測產(chǎn)品的參數(shù)。
周伯文喜歡引用諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主丹尼爾·卡尼曼提出的一個(gè)理論來解釋人工智能與人的關(guān)系:人們的思考方式有兩類,“系統(tǒng)1”基于直覺和經(jīng)驗(yàn)判斷,快速、不需要大量計(jì)算,“系統(tǒng)2”需要語言、算法、計(jì)算、邏輯。最初人們以為商業(yè)化的AI更適合做“系統(tǒng)1”的工作,比如人臉識別等。ChatGPT則證明了AI做非給定任務(wù)系統(tǒng)2的可行性。
而具體到銜遠(yuǎn)科技,可以拿亞馬遜的貝索斯來比喻,他有天生的思維,有亞馬遜強(qiáng)大的團(tuán)隊(duì)和數(shù)據(jù)分析能力,也就是強(qiáng)大的系統(tǒng)2,但不是所有商家都有這么強(qiáng)大的能力。但今天一個(gè)吃透了互動(dòng)數(shù)據(jù)的模型可以讓這些能力平民化。
銜遠(yuǎn)科技科技就是要幫助更多的企業(yè)家成為貝索斯。
據(jù)品玩了解,銜遠(yuǎn)科技正在訓(xùn)練的基礎(chǔ)模型會在具備通用能力的基礎(chǔ)上,更擅長理解人與商品,通過多輪對話方式為企業(yè)與消費(fèi)者以生成式人工智能幫助從商品洞察、定位、設(shè)計(jì)、研發(fā)到營銷的創(chuàng)新。
周伯文設(shè)計(jì)的訓(xùn)練方法,是用約三分之二的通用人工智能的問題,比如數(shù)學(xué)推理等,再加上三分之一完全圍繞著5D的知識來一起訓(xùn)練。
周伯文認(rèn)為,這是一個(gè)用全新技術(shù)驅(qū)動(dòng)的全新挑戰(zhàn),而并不是簡單地去追隨做“下一個(gè)OpenAI”。
“因?yàn)樵贠penAI成功的一瞬間,就意味著任何在該領(lǐng)域跟隨的其他公司都不再有是OpenAI的可能。”他說。
“OpenAI是什么,是在沒有前人成功的例子上,靠自己對終局的判斷,一步步往前走,認(rèn)為未來應(yīng)該是這樣,而不是那樣。如果今天只是做跟隨,那就不是中國的OpenAI。”