Meta參展2022年在上海舉行的進博會(來源:鈦媒體App編輯拍攝)
過去半年,為了追趕AI target=_blank class=infotextkey>OpenAI的研發(fā)腳步,科技巨頭Meta公司(前Facebook)接連發(fā)布免費開源大語言模型LLaMA、Llama 2以及編程模型Code Llama等,引發(fā)了一場關于開源與閉源模型優(yōu)劣的廣泛熱議。
但對于一些參與Llama大語言模型研發(fā)的Meta 科學家們來說卻不這樣想,普遍認為這款大模型來的太晚了,團隊精英 AI 人才流失太高了。
據(jù)The information近日報道,今年2月發(fā)表的Llama原始研究論文的14位作者中,包括FAIR巴黎團隊負責人Antoine Bordes在內(nèi)的超過一半(7人)AI科學家離開了Meta,其中幾位跳槽或創(chuàng)辦了 AI 初創(chuàng)公司,或是到大公司,原因與內(nèi)部算力資源斗爭有關。
同時,OPT、ESMFold等多個項目也同時解散,員工合并重組,影響超過數(shù)十人,其中OPT研究論文的19位作者中,已經(jīng)約有一半已不在Meta工作,近10位AI領域核心研發(fā)人員。
實際上,過去10多年來,馬克·扎克伯格(Mark Zuckerberg)一直將 AI 當作Meta新發(fā)展的重要起點,而且挖來了 AI 學術領域重要的科學家,如圖靈獎得主、Meta首席 AI 科學家楊立昆(Yann LeCun)等,但持續(xù)性團隊內(nèi)斗影響了Meta AI對于研究資源的分配。
而隨著全球經(jīng)濟衰退加劇、緊急追趕ChatGPT,經(jīng)歷一段時期的人員波動和內(nèi)部整合、超過1萬名員工被裁掉。最終,Meta選擇商業(yè)化的 AI,放棄純科學性AI技術。
超半數(shù)Llama團隊憤然出走,因與OPT團隊內(nèi)部算力爭奪有關
Meta在人工智能(AI)領域的核心研究,主要來源2013年成立的FAIR(Facebook AI Research)。
團隊組建之初,Meta聘請了圖靈獎獲得者、法國科學家楊立昆擔任 AI 研究負責人,整個FAIR的研究任務是將 AI 用于翻譯語言,推進AI醫(yī)療等場景。同時,F(xiàn)AIR團隊大手筆在美國加州門洛帕克、紐約、蒙特利爾、巴黎、倫敦和西雅圖六地設立實驗室。
據(jù)報道,F(xiàn)AIR在巴黎的團隊主要研發(fā)了Llama大模型,而FAIR美國團隊則研發(fā)OPT模型,兩個團隊主要向Meta基礎Al研究負責人Joelle Pineau匯報。據(jù)悉,Pineau不僅是Meta AI研究副總裁,而且還是麥吉爾大學教授,主要研究新的模型和算法。
Meta基礎Al研究負責人Joelle Pineau(來源:Meta AI官網(wǎng))
早在2022年5月,ChatGPT發(fā)布之前,Meta美國團隊就公開發(fā)布了OPT-175B。當時Meta聲稱該模型比OpenAI的GPT-3訓練所需能源更少,而這兩個模型用于訓練的參數(shù)規(guī)模相同。據(jù)兩位知情人士稱,幾個月后,該團隊已經(jīng)開始研究媲美谷歌PaLM的一款大模型。
與此同時,巴黎FAIR團隊已經(jīng)開始研究另一種獨立的大模型,最終被稱為Llama,該模型參數(shù)比OPT小,團隊認為較小模型在推理(即對問題生成響應的過程)方面會更有效,尤其Llama需要的算力資源低于OPT模型。
不過,由于Meta的算力資源有限,內(nèi)部分配一直不合理。而這種算力爭奪加劇了團隊之間的緊張關系。
據(jù)報道,Meta內(nèi)部每月做出一次算力分配決定,與不同業(yè)務部門、不同優(yōu)先事項,以及項目發(fā)布時間等因素有關。而如果FAIR的員工提出爭議,這些爭議就會升級,交由Pineau做出決定。
Pineau回應稱,Llama和OPT團隊在算力分配的問題上“有些緊張”,稱“盡管我們不保證每個人都會得到想要的,但我們一直試圖在平衡各方需求”。
2023年開始,隨著ChatGPT對話 AI 模型風靡全球,兩個團隊內(nèi)斗緊張局勢達到了頂峰。
今年2月,Meta FAIR發(fā)布了Llama開源模型,并獲得研究使用許可,而且多個團隊使用Llama開發(fā)了Vina等其他開源大模型,廣受好評。
但在發(fā)布會前一周,F(xiàn)AIR團隊聯(lián)合創(chuàng)辦人兼巴黎團隊負責人Antoine Bordes卻離開了Meta公司,報道稱,其主要與美國團隊的內(nèi)斗讓Bordes精疲力盡。Bordes拒絕置評。
同時,自去年11月起,扎克伯格開始了Meta全公司范圍的裁員,涉及超過1萬名員工,F(xiàn)AIR團隊也未能幸免。今年2月,Meta成立了一個新團隊,專注于開發(fā)生成式 AI 技術,團隊負責人是蘋果前高管Ahmad Al-Dahle。隨后很多FAIR、Llama 2開發(fā)團隊都加入其中,又一次進行了團隊洗牌。
而Meta這種人員變動、整合,讓FAIR團隊只能研究Code Llama。因此,更多Llama、OPT等項目的研究人員感受到了更大的內(nèi)部斗爭氛圍,憤然離職。
據(jù)報道,目前,Llama原始研究論文的14位作者中,超過7人已從Meta離職。而2022年5月公布的OPT原始研究論文的19位作者中,約有10名 AI 大牛已經(jīng)從Meta離開。The information提到了其中四位的去向:
- FAIR巴黎分部負責人Antoine Bordes已離職,加入了軍工 AI 公司Helsing
- Llama論文作者、FAIR研究總監(jiān)Armand Joulin,今年5月離職,隨后加入了蘋果公司。
- Llama論文作者Timothee Lacroix和Guillaume Lample已離職,共同創(chuàng)立了 AI 初創(chuàng)公司MistralAI
- Llama論文作者Marie-Anne Lachaux已離職,加入了MistralAl
另外,今年8月有報道稱,Meta為了降本增效,裁掉了對標谷歌DeepMind AlphaFold、利用 AI 大模型實現(xiàn)蛋白質(zhì)預測的生物科學ESMFold項目團隊。此前,該團隊研發(fā)出了150億參數(shù)、預測超6億個宏基因組蛋白質(zhì)序列大模型ESMFold,AI 的速度比 AlphaFold 快 60 倍。不過如今,該團隊已解散,負責人已辭職創(chuàng)業(yè)。
英國《金融時報》認為,F(xiàn)air實驗室內(nèi)部的學術文化是Meta遲遲在 AI 大模型競爭中獲得領先的原因,而隨著ChatGPT的爆發(fā),如今Meta試圖調(diào)整目標“GenAI”,并重新配置其Fair團隊的研究方向,轉(zhuǎn)向 AI 模型的商業(yè)化。
扎克伯格表示,隨著開發(fā)者不斷改進模型,Meta可以將這些改進融入其廣告和消費產(chǎn)品中。看起來,扎克伯格從Llama看到了以開源在AI競爭中打開局面的可能性。
Joelle Pineau坦言,留住和吸引優(yōu)秀人才是公司花費大部分時間的原因。如果沒有優(yōu)秀的研究人員,她什么也做不了。
“由于 AI 領域發(fā)展如此之快,我們正在共同思考,F(xiàn)AIR應該擁有哪個項目?Gen AI 應該擁有哪個項目?我們應該持續(xù)關注兩個團隊的工作成果。”Pineau表示。
算力不足下,Meta仍計劃明年發(fā)布對標GPT-4的大模型
Meta AI 研究團隊這一內(nèi)斗、核心人員離職案例,可以從兩個角度解讀。
一是大公司創(chuàng)新能力隨著內(nèi)部問題不斷下降,資本和大科技公司創(chuàng)新鴻溝加深。(詳見鈦媒體App前文:《全球經(jīng)濟巨變下,資本和科技創(chuàng)新之間的沖突與平衡》)
此前,谷歌也做了類似的事情,DeepMind研發(fā) AI 技術多年,誕生出了AlphaFold、AlphaGo等行業(yè)頂級技術,但難以盈利,2018年-2020年總虧損額超過17億美元。因此在今年4月,谷歌母公司Alphabet CEO Sundar Pichai (皮猜)宣布,將谷歌大腦和DeepMind 兩大團隊合并,組成“google DeepMind”部門,研發(fā)任務之一是多模態(tài) AI 模型,而此前谷歌大腦、DeepMind內(nèi)部競爭頗多。
另外在阿里內(nèi)部也產(chǎn)生一定的競爭。近日,阿里達摩院M6大模型帶頭人楊紅霞、阿里云AI大牛賈揚清、機器學習科學家金榕等 AI 大牛也紛紛離職,有消息稱,阿里大模型研發(fā)時經(jīng)過內(nèi)部的競賽流程,金榕和楊紅霞團隊技術產(chǎn)生競爭,最終諸多因素下才最終選擇楊紅霞的模型技術,從而誕生通義千問,不過最終兩位技術負責人均從阿里辭職。
搜狗創(chuàng)始人、百川智能創(chuàng)始人兼CEO王小川告訴鈦媒體App,“資本是逐利的,所以不是投自動駕駛就是安防。對大廠來說,當時投錢創(chuàng)新是有巨大風險的。對企業(yè)的一號位來說,想的更多還是業(yè)務上的東西,花錢最后沒出成果,算誰的?”
另外一方面是Meta的算力資源不足。
隨著OpenAI用微軟云的算力、谷歌則自行購買GPU(圖形處理器)芯片,多家科技巨頭加大算力基礎設施布局。而Meta沒有自己的龐大云算力儲備,因此在生成式AI的賽道上明顯“掉隊”。
2022年的一場5個小時會議上,Meta的基礎設施負責人當時表示:“我們在開發(fā)AI的工具、工作流程和程序上存在顯著差距,我們必須得投入大筆投資。”而隨著ChatGPT的發(fā)布,全球 AI 訓練、推理算力需求加劇,Meta似乎只能追趕。
據(jù)報道,GPT-3使用10000張GPU A100顯卡、花了30天才訓練完了1750 億參數(shù),單 GPU 計算性能為12TFlops,消耗的總算力為每天每秒3640PetaFlop,GPU-4數(shù)據(jù)更高。即便是利用3584 個英偉達最新 H100 芯片,GPT-3大模型訓練任務也需要11分鐘。而OpenAI尚未透露GPT-4的大小,但估計參數(shù)為1.5萬億。
龐大的數(shù)據(jù)量需要大量的算力支持。因此,Meta依然需要購買大量英偉達產(chǎn)品,補足算力缺口,例如Meta Llama模型已經(jīng)在微軟云平臺Azure上提供。
Meta CFO Susan Li在今年2月坦承,Meta投入給生成式AI的算力相當有限,基本上所有的AI算力都投向了廣告、信息流和短視頻項目。
即便是算力不足,扎克伯格仍希望盡力追趕,并且打造更多的大模型產(chǎn)品落地應用。
據(jù)外媒9月11日報道,Meta正在開發(fā)一種新的 AI 大語言模型(LLM),超越Llama 2,性能比肩GPT-4。報道稱,預計Meta將在2024年初開始訓練這一大模型。
(本文首發(fā)鈦媒體App,作者|林志佳)