文 | 新浪科技 彥殊
百度創(chuàng)始人、董事長兼CEO李彥宏近期的言論,遭到了多名企業(yè)家反駁,并得罪了一大批開源軟件的擁護者。
李彥宏近期兩次談及開源時,都提出了“開源模型會越來越落后”的結(jié)論。
除了360集團創(chuàng)始人周鴻祎的公開言論外,近期,獵豹移動董事長兼CEO傅盛、昆侖萬維(38.600, -0.58, -1.48%)董事長兼CEO方漢,以及全球最大開源基金會 Apache成員、linux 基金會人工智能子基金會董事會主席等人,分別向新浪科技表達了“更認可開源”的觀點。
眾人紛紛表達更認可開源的觀點。
傅盛更是直言,“李彥宏之所以認為閉源模型更好,一個更重要的原因是——搜索的生意模式是構(gòu)建在算法優(yōu)秀度之上的,所以搜索肯定不能開源,如果開源了,別人基于百度的能力去做更多新的創(chuàng)新,百度的競爭優(yōu)勢將因此削弱。”
其實,口水戰(zhàn)的背后,是一場關(guān)系企業(yè)的利益之爭。
閉源好? Meta等用數(shù)據(jù)“打臉”
近日,李彥宏兩次對“大模型開源與閉源”進行了分析。第一次出現(xiàn)在百度內(nèi)部講話上,他直言“閉源模型在能力上會持續(xù)地領(lǐng)先,而不是一時地領(lǐng)先。”
依據(jù)是,他認為模型開源的意義不是很大,這些開源模型都是在外頭零零散散小規(guī)模地去做各種各樣的驗證應(yīng)用,它沒有經(jīng)過大算力的驗證。而且,模型開源也不是一個眾人拾柴火焰高的情況,這跟傳統(tǒng)的軟件開源——比如Linux、Android/ target=_blank class=infotextkey>安卓等很不一樣。
第二次出現(xiàn)在百度自家舉辦的Create 2024百度AI開發(fā)者大會上,李彥宏再次強調(diào),“通過降維剪裁出來的模型,比直接用開源模型調(diào)出來的模型,同等尺寸下,效果明顯更好;同等效果下,成本明顯更低,所以開源模型會越來越落后。”
這一觀點,遭到了周鴻祎的反駁。
在李彥宏內(nèi)部信流出后,周鴻祎便在公開場合發(fā)表觀點稱,“我是一直相信開源的,至于說網(wǎng)上有些名人胡說八道,你們別被忽悠了,他說開源不如閉源好?連說這話的公司自己都是借助了開源的力量才成長到今天。”
后來周鴻祎又解釋稱,“自己說開源好,不是針對李廠長,只是從產(chǎn)業(yè)發(fā)展的角度來看開源和閉源。”隨即話鋒一轉(zhuǎn),再次批判稱,“聽到說大模型閉源一定超過開源的言論很詫異,我一直以為每個互聯(lián)網(wǎng)人對開源的理解都很深刻,因為沒有開源就沒有 Linux,沒有php,沒有MySQL,甚至沒有互聯(lián)網(wǎng),包括在人工智能在內(nèi),如果沒有當初谷歌開源Transformer,就不會有 OpenAl和 GPT。”
就在兩人“隔空”爭論不休時,海外知名開源大模型平臺Stability.ai在官網(wǎng)宣布,最新文生圖模型Stable Diffusion 3 (簡稱“SD3”)和 SD3 Turbo可以在API中使用。在Stability.ai官網(wǎng)上,公司也直接申明,“目前開源的文生圖能力已經(jīng)比Midjourney v6版本收費軟件還要好。”
與此同時,Meta公司同樣發(fā)布了號稱“最強大開源大語言模型”的新一代Llama 3開源模型,共有80億和700億參數(shù)兩種版本,宣布超越了閉源的谷歌等模型。
海外知名開源大模型平臺,用自己的行動,回敬了李彥宏的言論。
傅盛也感慨道:“SD3參數(shù)量只有80億,一個游戲本就可以把它下載下來免費使用,而Midjourney 每個月還要花你幾十美元,而且還有限制,這再次說明了開源社區(qū)的能力,是完全能夠追得上閉源的。”
在與新浪科技溝通中,傅盛直言,“在特別大的參數(shù)量的模型上,閉源確實是有優(yōu)勢的,但在真正實用方面,開源是有優(yōu)勢的,我還認為低成本這條路兩者的距離會越走越近,而不是越來越遠。”
此外,昆侖萬維董事長兼CEO方漢也在采訪中表示,“開源大模型跟閉源大模型的差別其實是在縮小。”他援引業(yè)內(nèi)評測機構(gòu)數(shù)據(jù)稱,“2023年到2024年這一年間,開源大模型與閉源大模型之間的差距,已經(jīng)從落后2年以上進化到落后4至6個月以內(nèi)。”開源大模型的發(fā)展,并不會“越來越落后”。
“李總,別鬧了!”
企業(yè)家外,包括全球最大開源基金會 Apache、Linux等在內(nèi)的一些國際頂尖開源機構(gòu)成員,也對李彥宏的觀點給予了“回敬”。
在與新浪科技溝通中,Zilliz 公司創(chuàng)始人、Linux 基金會人工智能子基金會前董事會主席星爵表示,“我并不贊同他的觀點。我認為,對于 AI 大型模型而言,開源的重要性超越了歷史上的任何時期。”
在他看來,這主要由三方面的原因:
第一,通過開源能夠讓更多的人參與進來,這樣才能有更多的算法、算力、數(shù)據(jù)以及場景參與進來,這對AI的訓(xùn)練、模型的進步有更加重要的意義。
第二,其實AI模型要得到更大范圍的部署,成本一定要繼續(xù)降低,如果模型只掌握在幾個閉源公司手上,其實不利于模型迭代,也不利于降低成本,因此也不利于AI模型在更多的場景的應(yīng)用。
第三,對于AI模型來說,最重要的一點是,我們需要保證它是安全可控、符合人類價值觀的,因此模型的可觀測性、數(shù)據(jù)的透明性,一直是AI安全上的一個重大研究話題。對于一個完完全全閉源的模型來說,它的訓(xùn)練數(shù)據(jù)集、訓(xùn)練方法、權(quán)重等,各方面都沒有開放,其實對整個人類未來的發(fā)展,對模型和AI的安全性是有巨大隱患的。
在星爵看來,只有通過開源,才可以把AI從一個黑盒子慢慢變成一個灰色的盒子,最后可能變成個白盒子。“我們是希望有一個可控的可信的AI模型,而不是少數(shù)幾個AI模型來統(tǒng)治世界,來代替我們做任何的一個決定,尤其在一個不透明的環(huán)境下。”
“李彥宏認為閉源大模型能通過蒸餾等方式降低成本的觀點是很偏頗的,不管是開源模型還是閉源模型,都可以通過模型蒸餾、降維裁剪等方法,降低模型的規(guī)模,從而使這個模型有更高的運行效率。這不是閉源模型獨有的,更不是閉源模型和開源模型的重大差異點。”星爵表示。
在與新浪科技溝通中,全球最大開源基金會 Apache成員我思故我同樣表示:“李總,別鬧了!”他援引google在開源領(lǐng)域的不懈努力表示,“看看你的老大哥Google如何用開源Android征服手機,用開源K8s制霸云原生,用開源TensorFlow影響機器學習領(lǐng)域的生態(tài),用開源Transformer開啟了AIGC新時代,隨后也推出了開源LLM Gemma。”
在他看來,Google之所以不斷地開源,是因為他們知道,“面對開源自己沒有護城河”。對于百度而言,面對開源,“同樣也不會有機會”。“如果硬將谷歌這樣全球龍頭企業(yè)‘創(chuàng)新、生態(tài)、人才’大戰(zhàn)略中的主要發(fā)動機——開源,與舊時代的量販和閉鎖的商業(yè)模式混為一談,則是倒果為因。”
口水戰(zhàn),背后是利益之爭
在程序員群體間,開源、閉源路線的爭端,始終是開發(fā)群體關(guān)注的焦點。
對于開源路線擁簇者而言,開源降低了新人獲取相關(guān)能力的門檻,快速拉齊了他們進入開源項目相關(guān)領(lǐng)域的能力,讓他們站在巨人的肩膀上,能夠快速地迭代并反哺開源項目,最終推動整個開源項目滾動發(fā)展的飛輪,快速迭代進步,最終也能夠取得一定的商業(yè)回報。
但開源背后的問題是,“由于缺乏成熟商業(yè)模式的支撐,大多數(shù)開源項目往往容易半途而廢,早期發(fā)展不確定性高,缺乏可持續(xù)性。”
對于支持閉源路線的開發(fā)者而言,閉源的方式雖然少了開源那樣呼朋引伴、快速提升影響力的途徑,但好處是因為不那么開放所以保留了一定的技術(shù)壁壘,其他企業(yè)想要獲得閉源項目支撐的能力就得付費,而這種商業(yè)能力的建立,使得閉源項目天然能夠更好地盈利,進而獲得可持續(xù)發(fā)展的資本。
此前,百川智能CEO王小川在談及開源與閉源之爭時也曾表示,“開源確實容易建立人品,朋友多多的,能讓大家迅速了解和評測。”“開源和閉源并不像手機中IOS或者安卓操作系統(tǒng)只能二選一,從To B角度,開源閉源其實都需要的,預(yù)計未來80%的企業(yè)會用到開源的大模型。”
金沙江創(chuàng)投主管合伙人朱嘯虎在談及大模型開源時也表示,“現(xiàn)在開源比非開源落后一代,但長遠來看,開源肯定會趕上來。 ”這背后的判斷邏輯是,“OpenAI就一兩百個工程師,開源的全世界幾百萬、幾千萬工程師在用,怎么可能一直比非開源的落后?就像安卓,今天比iOS差嗎?肯定不會。”
而在更早之前,Meta開源LLaMA系列大模型,Google開源Gemma系列大模型,國內(nèi)通義千問開源320億參數(shù)模型Qwen1.5-32B等7款大模型……一系列舉動背后,占據(jù)全球AI大模型領(lǐng)域半壁江山的企業(yè)或者相關(guān)領(lǐng)導(dǎo)人們,均已經(jīng)通過自己的實際行動,宣稱成為開源擁簇者。
另有知名開源項目負責人王某對新浪科技表示,“目前李彥宏認為開源模型會越來越落后,最主要的理由還是訓(xùn)練和推理成本高。”但事實上,“office、數(shù)據(jù)庫等人力成本很高的項目也有許多不錯的開源項目,為何大模型就不行了呢?”
“如果百度市占率高,那你的對手可能就會考慮推開源版本,哪怕是不如閉源版本好,但是客觀上也是一個選擇,有些客戶的需求也未必很高,那開源版本就足夠了。”在他看來,“開源閉源都是一種選擇,很難一刀切地評價開源好壞。畢竟,開源賺的是名氣和社區(qū),閉源做的是收入。”