- 做不做基礎大模型?
- To B or to C?國內 or 海外?
- 人民幣資本 or 美元資本?
- AI Native 的應用是移動互聯網級別的機會嗎?
- 你們的 vision 是 AGI 嗎?
- 大模型胡說八道的問題可以解決嗎?
- 大模型 infra 如何盈利?
- 你們的護城河在哪里?
- 你們的商業模式能 scale 嗎?
- 如何應對大模型的監管和法律責任?
下面就這 10 個靈魂拷問,分享一些我自己的觀點。
做不做基礎大模型?
如果做基礎大模型,需要上億美金的前期投入,如何融到這么多資,如何招到靠譜的算法、數據和 infra 團隊?現在已經有這么多做基礎大模型的公司,包括巨頭和明星創業公司,現在入局已經沒有先發優勢,如何跟這些大佬競爭?
如果不做基礎大模型,只是用其他商用模型的 API,成本太高;開源模型的能力又不足。如何建立護城河?
我的觀點:這涉及到對大模型未來趨勢的判斷。很多人認為基礎模型未來是巨頭贏者通吃,美國幾家,中國幾家,像目前的云計算市場一樣,大多數市場都被幾家巨頭占據,很難有小公司的機會。
我認為這個判斷只是部分正確。最強大的基礎模型,比如 GPT-4 甚至 GPT-5,很可能是閉源模型,出現贏者通吃的局面。但這樣的模型推理成本會很高,就像現在 GPT-4 讀一篇論文要 10 美金,只有高凈值客戶和探索科學前沿的場景才消費得起。而更廣泛的需求,比如聊天、語音助手、智能客服、簡單文書寫作、知識問答等,目前 LLaMA 2 經過適當微調后已經基本滿足需求,未來一年開源模型的能力會快速進步,趕上 GPT-3.5 的能力,可以低成本地滿足大眾需求。
可以說,GPT-4 甚至更強的模型是蘋果,開源模型是Android/ target=_blank class=infotextkey>安卓,分別對應不同的市場。開源模型的市場可能更大,但也會更加百花齊放。閉源模型的市場也不小,但會高度集中。
為什么我認為開源模型的能力會不斷進步呢?一方面,大模型訓練的算法和數據逐步變得平民化,越來越多的信息被公開或者泄露出來,像 Vicuna 這樣的微調模型事實上是在從 GPT-4 中 “蒸餾” 數據;另一方面,目前已經是百模大戰的局面,如果一家公司的模型不足以競爭過最強大的閉源模型,那么會有一些公司選擇走開源路線,就像如今 Meta 占據了開源模型的先機。
未來大規模的應用為了降低成本,一定會使用不同大小的模型解決不同難度的問題;同時還有一些結合了行業私有數據和 know-how 的模型,盡管可能只是在基礎模型上微調,但私有數據和流程成為護城河。這就像是如今云計算平臺會提供不同型號的虛擬機,有的 CPU 多,有的內存多,有的 GPU 多,等等。基礎模型也將像云計算平臺的 IaaS 一樣,成為一種重資產的通用基礎架構(云計算的資產是服務器,大模型公司的資產是模型和數據),幾年之后拼的主要是成本。
To B or to C?國內 or 海外?
To B,容易陷入定制開發和價格戰,像上一波 AI 浪潮中的一些公司一樣,最后拼的是客戶關系和價格。技術團隊創業,能搞定客戶嗎?做的事情除了 AI 本身以外,還有很多外包性質的定制化開發,規模不容易 scale,明星創業公司的人力成本那么高,能把工資和 GPU 成本賺回來嗎?
To C,國內能拿到牌照嗎?就算拿到牌照了,敢保證不輸出違規言論嗎?技術團隊創業,能搞定 C 端產品的設計和營銷嗎?面向 C 端的大模型能收回成本嗎?
如果做海外市場,現在中美關系這么緊張,美國客戶放心用中國公司的產品嗎?就算公司運營主體放在美國,中國人的身份還是不令人放心。
我的觀點:To B 其實是兩類截然不同的市場,to 小公司和 to 大公司、政府。
To 小公司還是像 to C 一樣,做規模化可復制的產品,采用訂閱或者 API 收費的模式。國內的 to 小公司相對海外來說難做一些,因為國內公司的付費能力不如發達國家那樣強。如果是做大模型本身,做應用的公司為 API 付費是天經地義。但如果只是做大模型和應用之間的中間件,國內的付費意愿相對較弱。因此中間件公司最好是把大模型包起來,提供模型 + 中間件的解決方案。
To 大公司、政府是高度依賴客戶關系的,技術可能不一定是最重要的,團隊內一定要有懂商業的人。團隊需要構成人才梯隊,不要都招高端人才。大單中包括一定的外包性質的定制化開發工作,由普通程序員做就行了。
To C 是高度依賴產品設計的,技術也不一定是最重要的。在很多場景下,普通用戶不一定能感知到 GPT-4 和 LLaMA 70B 的差異。團隊中一定要有懂產品的人。不是所有事情都讓 GPT-4 做,有些事情甚至不用大模型就能做。就像我們不會每個開發任務都雇傭最頂級的程序員,不同級別的程序員承擔不同類型的開發任務。
不管是 to B 還是 to C,盡量不要定位成取代人,而要定位成人的助手,能夠幫助人擴展能力的邊界,做到一個人自身能力做不到的事情。比如一個不懂編程的人可以在 ChatGPT 的幫助下,用一個星期的閑暇時間開發一個前后端齊備的網站。一個沒有很多學術背景的 AI 程序員可以在 ChatGPT 的幫助下,一天讀 100 篇 AI 領域的最新論文。
首先,做助手可以避免模型不可預測性帶來的很多風險,因為模型不會自主去做可能產生嚴重后果的事情,而是需要人的確認。這就像秘書不會代替老板做出重大決策一樣,只是會給老板一些決策參考。其次,智能助手相比通用問答可以規避很多合規風險。
海外市場不等于美國市場,美國政府不等于美國人民。首先,有很多跟中國友好的國家和地區仍然可以做生意。其次,即使在美國,to C、to 小公司相比 to 大公司、to 政府在背景審查方面的要求沒有這么嚴格。
人民幣資本 or 美元資本?
現在拜登不允許美元資本投資中國的 AI 公司。就算有辦法拿到美元資本,有美元資本投資的公司就很難做中國的政府和國企項目了。就算公司設在美國,做出海生意,中國人也很難拉到白人的投資。
人民幣資本的出資方對回款周期要求較高,在 A 輪及以后經常要求創業者簽署回購甚至對賭協議,資本對公司快速產生營收的壓力會很大。
我的觀點:創業公司除非是全明星團隊,不宜一開始鋪的攤子太大。更適合從細分市場(niche market)開始,尋求細分市場壟斷,快速產生營收,然后提煉出可復制的產品,擴展到更廣闊的領域。
大多數創業公司一開始只需要一個孵化器性質的天使投資人,如果團隊內有大佬,甚至不需要投資人。等到產品到了可規模化復制的階段,再引入投資人。這也是歷史上大多數創業公司的路線,先有產品和用戶,后有投資,而不是先用 PPT 拉大量投資,壓上自己的所有聲譽,還背負著變現的沉重壓力。在有盈利的情況下再引入投資,不僅更容易,條款也通常對創業者更為友好。
我認為創業公司最大的兩個優點就是 fast 和 privacy。Fast 就是船小好調頭,敏捷開發,快速試錯。很多公司一開始做的產品并不是最終形成可復制商業模式的產品。Privacy 就是不被人過度關注,一方面避免商業機密泄露,另一方面避免在方向爭論和說服別人中花費過多精力,不管白貓黑貓,抓住老鼠就是好貓。
在當前的國際形勢下,如果不打算押寶一邊的話,中美雙線布局是一個可行的做法,兩邊的運營主體、投資人、算力平臺、客戶都可以隔離,這樣不管風云變幻,都有兩條路可以走,可以滿足不同區域客戶對合規的需求。
AI Native 的應用是移動互聯網級別的機會嗎?
手機的智能助手依賴手機作為入口,辦公的智能助手依賴 office 套件作為入口,企業管理的智能助手依賴 ERP 和 OA 軟件作為入口,社交的智能助手依賴社交軟件作為入口……
是不是這一波 AI 的機會都在大廠,只要把現有應用加上一個自然語言接口,就從原來的 GUI 變成了 NUI(Natural language UI)?這樣的話,創業公司很難有機會。
我的觀點:移動互聯網最早期的應用確實是把傳統互聯網應用套上了一個移動 App 的殼子,比如網易變成了網易新聞客戶端,百度變成了百度客戶端,淘寶變成了淘寶客戶端。但移動互聯網浪潮也誕生了很多移動原生(Mobile Native)的 app,這些應用沒有手機就不可能存在,例如:
- 滴滴:手機 GPS 可以實時追蹤乘客和網約車的位置,使得隨時隨地打車成為可能,調度效率還比傳統出租車高;
- 美團:手機可以隨時到店點餐和消費,根據 GPS 推薦附近的飯店;GPS 可以追蹤騎手的位置,實現高效調度的外賣;
- 地圖:依賴手機 GPS 的能力;
- 微信:手機使即時通信變得更容易;
- 今日頭條:手機可以隨時隨地瀏覽推薦的內容,打發碎片化時間,使個性化推薦取代分類目錄和搜索成為移動時代的主要信息獲取方式;
- 抖音:手機可以隨時隨地拍攝短視頻,或者做直播;用戶可以隨時隨地瀏覽視頻,打發碎片化時間;
- 小紅書:手機可以隨時隨地拍攝照片上傳分享;用戶可以隨時隨地瀏覽,打發碎片化時間。
大模型時代有沒有 AI Native 的 app 呢?其實目前就有很多。例如:
- ChatGPT:通用問答工具;
- Character.AI:個性化的聊天機器人;
- Midjourney、Runway ML:圖片和視頻生成工具;
- Jasper:文書寫作工具;
- Generative Agents:社會化的 AI 智能體;
- Office/Teams Copilot:辦公和會議助手。
當然,AI Native 應用還存在很多問題,例如大模型的高成本、幻覺、安全性、多模態、可靠執行長流程任務、長時間記憶、引入企業內部知識庫等問題尚未解決,導致應用場景受限。如果真的解決了所有這些問題,頭號玩家或者西部世界將不再是夢想。這也正是做技術的好機會:這波 AI 浪潮將更多地有技術驅動,而不僅是由產品和商務驅動。
為什么 16 年這波 AI 浪潮不是移動互聯網級別的機會,而大模型這波就是呢?首先,16 年的 CV 和 NLP 都是單點技術,很難泛化到通用場景,每個場景都需要大量定制成本。而這一波大模型是通用技術,GPT 本身就是一語雙關(Generative Pretrained Transformers,General Purpose Technology)。
其次,大模型成為了人類腦力的延伸。為什么移動互聯網重要?因為智能手機是人類感覺的延伸。目前的大模型已經能夠幫人做一些簡單重復的腦力勞動,也能幫人做圖片視頻生成這類人類不擅長的事情。未來的大模型會成為人類智力的延伸,比人更聰明,那將又是一次巨大的機會。
你們的 vision 是 AGI 嗎?
AGI(通用人工智能)是 AI 領域的圣杯,它達到甚至超越人類的智能,一旦做成,人類可能都不用做腦力勞動了,人類的社會形態可能都會發生巨大的變化。你們的路線圖是否通向 AGI?
你們現在做的東西在 AGI 的關鍵路徑上嗎?如果不在,以后是不是就被取代了?
我的觀點:要不要做 AGI,其實跟要不要做基礎大模型是類似的問題。就目前大多數人的認知,AGI 需要非常大的模型,消耗的算力巨大。我在接受智造公社采訪的時候就說,算力可能成為 AGI 的關鍵瓶頸。
算力瓶頸體現在材料和功耗兩方面。材料方面的限制是芯片產能,雖然硅在地球上的儲量巨大,但把硅變成芯片的工藝非常復雜,需要大量的精密儀器和其他材料,因此芯片的產能有限。現在臺積電的先進工藝已經被預定一空,其中英偉達明年可能有 100 萬片左右的 AI 芯片產能,其中大約一半已經被微軟和 OpenAI 預定走,剩下的也要優先供應美國,中國的所有公司能拿到芯片就謝天謝地了。因此,目前在美國訂購 H100 需要幾個月的貨期,在中國訂購 H800 更是貨期在半年以上。
CoreWeave 通過跟英偉達合作,拿已有的 AI 芯片抵押用來買新的 AI 芯片,已經融資 23 億美金,比頭部 AI 應用公司加起來的融資額都多,真是賣鏟子的比淘金的賺錢了。CoreWeave 的 H100 零售定價 7 個月就可以回本,即使大客戶價格較低,相比通用云計算來說也是回本非常快了。
功耗方面的限制是能源,目前人類在可控核聚變、常溫超導等領域還沒有取得突破性進展,能源的供給只能線性增長,能源的消耗又受制于芯片的制程。目前數據中心已經占到人類總能源消耗的 2% 左右,很難大規模提升。能源稀缺具體的表現就是 IDC 租用資源緊張,在發達地區新建數據中心也受到很多限制。
算力瓶頸跟 AGI 有什么關系呢?AGI 需要大量的算力,而芯片制程、芯片產能和能源又限制了可用算力的總規模,因此至少在短期內,AGI 仍將是非常昂貴的東西。
AGI 非常昂貴的特性決定了它主要服務于高凈值客戶和前沿科技探索。就像大多數人不會找一個院士來輔導小學數學題,大多數需求一定是用更為廉價的模型解決。小學老師和院士都是社會中非常關鍵的職業,它們的分工不同。
哪些公司適合做 AGI?基礎大模型的頭部公司,就像微軟有 MSR,google 有 DeepMind 和 Google Brain,Meta 有 FAIR,華為有 2012 實驗室,阿里有達摩院,等等。國內做基礎大模型的幾家頭部創業公司也有很好的機會。大公司的財務狀況越穩健,在基礎研究上的投入就會越多。當然,當小公司成長到一定規模,也有做基礎大模型甚至 AGI 的機會。
做成 AGI 并不意味著人類不再需要腦力勞動。AGI 就算再聰明,也需要人類告訴它做什么。在充滿了 AGI Agent 的世界中,每個人都需要完成從獨立貢獻者到團隊貢獻者的轉變,帶領一批 AGI Agent 協作完成任務。
大模型胡說八道的問題可以解決嗎?
大模型的幻覺問題眾所周知,例如問它 “林黛玉倒拔垂楊柳” 可能就編出一大段子虛烏有的故事。越小的模型幻覺問題一般越嚴重。
在企業級場景中,幻覺的后果可能很嚴重,例如問大模型去年某個項目執行的情況怎么樣,這個項目根本不存在,如果模型編出了一堆故事,還因為它學習了企業內部項目的慣例而編的像模像樣,那沒有人敢放心使用這個大模型。
我的觀點:幻覺問題本質上是由 Transformer 的訓練方法和測試數據集的設計導致的。標準化的測試數據集,都是像人類的考試一樣,出一些題,答對了就給分,打錯了不得分。老師很早就告訴我們,考試時哪怕不會也不要空著,特別是客觀題,萬一蒙對了呢。
Transformer 的訓練方法也是捂住一個 token(可以理解成單詞),看能不能預測對下一個 token。大規模預訓練語料基本上都是有問題、有答案的,內容不會戛然而止,因此訓練出的模型也是很少輸出 “我不知道”。
因此,要解決幻覺問題,本質上要從訓練和測試數據集開始,不能僅靠 alignment(對齊)。例如,測試時針對回答錯的情況應該倒扣分,不回答只是不得分。
從短期來看,解決幻覺問題還有兩個權宜之計。第一是構建模型的 “測謊儀”。我們知道人在說謊的時候腦電波會有波動,測謊儀就是這個原理。那么大模型在編造事實的時候,它內部的狀態是否也有異常之處呢?是否可以構建一個小模型,使用大模型推理過程中的中間結果,推斷模型是否在說謊呢?
第二是在大模型之外構建事實校驗(factual check)系統。事實校驗可以使用向量數據庫、基于關鍵詞的傳統信息檢索技術、知識圖譜、搜索引擎等構建外部知識庫。將用戶的問題和大模型的回答拿到外部知識庫中搜索,用另外一個大模型比對大模型回答與 top K 結果所述事實是否匹配。如果匹配,那么大概率不是在胡編亂造;如果不匹配,那么有可能就是在胡編亂造。
解決幻覺問題可能還能使較小的大模型表現出相當于較大的大模型的能力。實驗證明,未經對齊的大模型知道更多的細節,例如科大的某門課是哪個老師教的,這種級別的細節大模型都知道。但經過對齊之后,大模型就只知道科大的校長是誰了。也就是說,微調和對齊會丟失模型通用能力中的細節記憶。如果通過模型外圍系統更更好地解決幻覺、安全性等問題,有可能較小的大模型也能表現出不俗的事實記憶能力,從而降低成本。
大模型 infra 如何盈利?
Infra 在國內一般叫中間件。國內喜歡端到端的整體解決方案,把中間件單獨拆出來不好賣。
云廠商是不是也會做 infra?云廠商也會做高性能訓練和推理平臺。
大模型的開發者是不是也會做 infra?LangChain 未來會不會成為模型的一部分?
我的觀點:大模型 infra 可以分為三類:諸如 CoreWeave 的算力平臺,諸如 Lepton.AI、Colossal 和 OneFlow 的訓練和推理系統,諸如 LangChain 的模型和應用之間的中間件。
算力平臺就是提供算力租用的云服務,根本優勢在于規模。規模越大,能拿到的硬件價格就越低,同時建設數據中心的固定開銷能被分攤。但這是否意味著小的算力平臺就沒有機會了呢?
如果 AI 算力沒有成為瓶頸,那么就像通用 CPU 算力一樣,小的算力平臺很難有機會。就像區塊鏈熊市的時候只有大型礦場才能利用規模優勢和電力成本優勢賺到錢,挖礦的散戶很難回本。但目前的 AI 算力成為瓶頸,很多云廠商的 A100/H100 都售罄了,就像區塊鏈牛市的時候一樣,只要有渠道買到 GPU 卡,哪怕轉手賣掉,都能賺錢。這就像我 2017 年挖礦的時候一樣,盡管我是用零售價買卡,用的是 1.5 元一度的工業用電,但仍然能賺錢。
在 GPU 卡短缺、數據中心能源短缺的今天,算力平臺的關鍵競爭力是能搞到卡。小型算力平臺也可以找到小公司作為客戶,甚至一些比較大的大模型創業公司都在以幾十臺的增量租用 GPU 卡。只要這波 AI 熱潮還在繼續,算力平臺就是一門穩賺不賠的生意。
訓練和推理系統一方面是優化,一方面是簡化編程。
優化方面包括提高性能,降低成本,降低延遲,減少故障導致的停機時間等。我認為,訓練性能優化的空間相對比較小,因為 state-of-the-art 的訓練框架在中小規模集群上已經能夠達到 70%~80% 的有效算力利用率,提升的空間不多了。大規模集群的訓練受到網絡帶寬和故障的影響,有效算力利用率還不高,優化的空間較大。
現在大多數框架對故障處理的優化還相對較少,事實上 checkpoint、故障檢測、topology-aware 的故障恢復都有很多可做的,而且有些研究說明直接忽略故障節點的梯度也是一種可行的方法。
推理性能優化的空間更大,因為 Transformer 的結構,很多場景下有效算力只有 10%~20%。如果做 batching,時延和帶寬又會成為 trade-off。學術界因為大多數時間都花在訓練上,推理優化相關的研究也較少。比如 Berkeley 的 vLLM 可以把推理性能優化 2~4 倍。此外,模型本身的一些改進也可以大幅優化推理性能。
PyTorch 就是靠編程簡單打敗了 Tensorflow。在大模型時代,由于預訓練模型加入少量領域私有數據就能微調出一個領域模型來,很多場景下甚至連數據標注都不用,只要把領域內部資料扔進去就行,這就大大降低了大模型微調的門檻,使不懂編程、不懂大模型的人也可以做微調。例如百度的 EasyDL 就是做這個的。
模型和應用之間的中間件目前國外做的比較多,例如 LangChain、AutoGPT、Martian 等等。國內一些人認為隨著大模型能力的提升,大模型本身會逐步收編中間件的能力,因此只要把大模型做好就行了。我不認同這種觀點。
如果把大模型想象成一個人,中間件就是社會規則,把人組成一個社會。當人類還在原始社會的時候,幾乎沒有社會規則的概念;而隨著文明的進步,人和人之間的關系愈發復雜,社會規則也更加完善。《人類簡史》認為,人本身的智力在幾千年間并沒有顯著的提升,人類使用工具的能力和人類的社會組織結構才是人類文明之光。我認為,大模型本身的智商固然重要,大模型與外部環境交互的能力和大模型之間協作的組織結構才能讓大模型走得更遠。
LangChain 解決的是大模型與外部環境交互的問題,如何對接外部數據怨,如何構建長期記憶,等等。
AutoGPT 解決的是大模型之間協作的問題,它當然還有一些局限,MindStorm 這個學術工作在它基礎上做了一些改進。不過這些工作最大的問題是 AI 在完成任務的時候完全是獨立自主的,人類無法對其施加影響。試想一個產品經理讓一個程序員開發一個軟件,一開始把軟件設計需求寫得清清楚楚,然后就當甩手掌柜等著程序員全部做完,不靠譜吧?一般都是邊做邊溝通,及時修正設計。因此,執行復雜任務的大模型系統一定需要有與人類實時溝通的能力。
Martian 解決的是如何將用戶請求路由到多種大模型的問題,對每個問題在每個大模型的回答質量、成本和延遲進行估計,然后根據用戶對回答質量和成本、延遲的需求,選擇合適的大模型。它的基礎假設就是不同大模型擅長不同類型的任務,并且成本高的模型回答質量高,成本低的模型回答質量低。
NVIDIA H100 還支持了機密計算(confidential computing),可以保證模型和數據不會被泄露,從而使得把模型部署到第三方的云平臺更加安全。
最后還要提一點,模型和應用之間的中間件有可能成為新的編程語言和程序調用(RPC)接口。大模型的一大特點是能夠把編程界面從程序語言改變成自然語言,從而使得自然語言編程成為可能。這就不僅改變了人機界面,還改變了機器與機器的界面。
你們的護城河在哪里?
公司有什么護城河?是技術,是客戶資源,還是什么?
我的觀點:基礎模型公司的護城河:算法、算力、數據、品牌。算法、算力和數據是眾所周知的 AI 三駕馬車。但以這三點作為護城河也存在很多挑戰。
- 算法方面大家都是 Transformer,訓練過程中確實有很多 know-how,但也在不斷泄露。算法的創新需要從理論層面上推導,是需要比較深功底的。各公司的人員不斷流動,學術界的算法創新也層出不窮。
- 算力方面只要有足夠多的投資,總可以租到或者買到足夠多的卡來做訓練。例如訓練 LLaMA 70B 需要 2000 張 A100 卡的資源,1000 萬美金以內的成本即可訓練完成,很多做基礎模型的公司都有這個能力。GPT-4 當然需要頭部公司才能訓練了。
- 數據方面公開數據集越來越多,不公開的領域數據集有很多數據公司在出售,只要花錢總是可以買到的。數據飛輪(平臺現有用戶產生的數據)對改進模型是有一定作用的,但不如高質量的預訓練語料重要。
因此,就像搜索引擎一樣,單靠算法、算力和數據堆出來的搜索結果質量并不能決定一切。在百模大戰中,品牌是很關鍵的。比如,就算現在 GPT-4 變笨了,Claude 在很多場景下已經追得不錯,Claude 還支持更長的上下文,大多數人仍然更相信 GPT-4,這就是品牌的力量。在大模型能力不成熟時,不要急于發布自己的大模型。例如能力比不上 LLaMA 的模型就不要發布了。
應用公司的護城河:成本、個性化、網絡效應。第一,如果讀一篇論文還是像 GPT-4 那樣需要 10 美金,生成一段 7.5 分鐘的視頻還是像 Runway ML 一樣需要 95 美金,大多數人就不可能用得起大模型。如何低成本地實現高質量的內容生成,是應用的關鍵競爭力。
第二,目前的大多數 AI 應用比較通用,缺少個性化,例如生成圖片、寫文章的工具都沒有考慮到用戶的個性,用戶粘性不強,可替代性高。現在的聊天機器人甚至不會主動聯系用戶,都是問一句答一句,就更不用說有自己的思想、情感和故事了。我認為,個性化的 agent 或者 assistant(助手)會成為未來大模型應用的趨勢。
在移動互聯網浪潮中,個性化推薦已經是提高用戶粘性的關鍵技術。這一波大模型浪潮,個性化仍將是提高用戶粘性的關鍵。一個陪伴用戶多年的大模型就像一個合作多年的伙伴,會產生信任和依賴。大模型在解決長上下文和外部知識庫問題后,不需要針對每個用戶進行微調,就可以用統一的模型服務海量用戶的個性化助手,并保證用戶間數據的隔離性。
第三,目前的大多數 AI 應用中,每個用戶都是一個信息孤島,缺少用戶之間的互動。
網絡效應是互聯網浪潮的重要推手。網絡效應就是所謂的梅特卡夫效應(Metcalfe Effect)。一個網絡,用的人越多,這個網絡對每個用戶的價值越大,就有越多的人愿意成為這個網絡的用戶,這個網絡的價值就越大,形成良性循環。
Facebook、Linkedin 都是利用了網絡效應,但網絡效應不只適用于社交網絡。鐵路網、公路網、電網等運輸網絡,以及電報網、電話網等通訊網絡都有網絡效應。在互聯網浪潮中,Google 的 PageRank 是頁面之間的網絡,索引的頁面越多,PageRank 就越精準。eBay 是根據用戶之間的交易網絡來評估賣家的聲譽。Paypal 也是根據用戶之間的交易網絡來發現欺詐。
我認為,基于大模型構建的個性化助手應該形成一個社交網絡,就像斯坦福搞的 generative agents 一樣,能夠在虛擬世界中自主交互和行動。這樣就能形成網絡效應,社交網絡中的 agent 越多,網絡對每個 agent 的價值就越大。
中間件公司的護城河:生態。中間件的競爭力關鍵是性能嗎?成本對應用公司來說確實很重要,因此性能也是中間件的關鍵競爭力,但是很難成為中間件公司長期的護城河,因為研究訓練推理性能優化的人太多了,并且有效算力利用率的極限就是 100%。
在軟件的世界里,做的早比做的好很多時候更重要。比如谷歌的 gRPC,性能其實不算好,但是已經成了 RPC 的事實標準。只有需要極致性能的用戶才會考慮用其他優化過的 RPC 框架。gRPC 成功的地方就在于生態,它可以與服務治理、負載均衡、Web service 等很多外圍組件集成,如果換成其他 RPC 框架,這些外圍系統很多是沒法用的。
大模型中間件同樣需要占據生態位,與上游應用、下游基礎大模型和其他中間件集成。這種集成最好不是像 OpenAI API 這樣很容易被替代的。
你們的商業模式能 scale 嗎?
很多 to B 的公司容易陷入外包定制,從這里拿到一單,再從那里拿到一單,每一單的需求都不是標準化的,需要大量定制化開發。結果雖然初期就有一定的營收,但規模很難擴大。
很多 to C 的公司做出一個產品之后,可能只是火一陣,沒有形成用戶粘性;也可能面向的客戶群體或者推廣能觸達的客戶群體比較小,其他潛在的客戶群體不知道這個產品的存在。
我的觀點:是否能 scale,關鍵在于產品有多通用。通用市場和細分市場其實是一對矛盾。通用市場規模一般比較大,但是客單價往往較低,而且競爭對手眾多;細分市場規模較小,但是很多有較高的客單價,競爭對手相對也少一些。并不是越通用,理論上模式越 scale,最后營收和利潤就一定最好。小而美的創業公司也很可能不錯。
上一波 AI 主要是 to B 的市場,而且解決方案通用性不強,因此經常需要針對客戶需求進行定制。大模型的特點就是通用性強,因此如果要做到 scale,一定需要做通用的產品。就像華為有很多行業解決方案,但都是由標準化的基站、交換機、路由器等組合而成,不會為每個客戶定制一套基站。
一些 to B 的客戶仍然會有非 AI 的定制開發需求,此時如前面講的,需要組成人才梯隊,不是所有任務都需要派出海軍陸戰隊,外包開發的任務派民兵去就行了。
To C 的用戶粘性問題在前面已經回答過,一方面是個性化,另一方面是網絡效應。設想一下《頭號玩家》的場景,就能知道現在的大模型還有多少差距,該往什么方向努力了。現在很多人總是說 AI 缺少應用場景,其實電影和科幻小說里面已經給了一些參考答案了,做不出來是技術或者成本的問題。
用滑雪場打個比方,雪道多寬指的是市場規模,雪道多長指的是行業所處的階段,雪道的坡度指的是行業的競爭格局。需要搞清楚所做的事情是 “+AI” 還是 “AI+”,也就是這件事情是不是離開了 AI 就做不成了。如果 AI 僅僅是錦上添花的作用,那么就要小心是不是可能更適合現有的玩家。
如何應對大模型的監管和法律責任?
L4 自動駕駛之所以難做,不僅是因為上一代 AI 技術不夠通用,需要大量的 if-else 來處理 corner case,更重要的是法律問題,萬一自動駕駛撞死了人,誰去坐牢?AI 能幫人做很多事情,就是不能幫人坐牢。
如今各國政府對大模型也有很多監管要求,是否有可能在不閹割模型通用能力的前提下,滿足隱私和內容合規方面的監管要求?
我的觀點:大模型的定位應該是助理,這就意味著法律責任主要是在用戶,這也是目前軟件和互聯網產品通行的責任歸屬方式。在一些場景下,助理也可能自主作出一些對外部環境有影響的行為,這時如果做錯了,大模型開發者就需要承擔法律責任。
針對隱私和內容合規問題,大模型自身當然可以通過 alignment 來減少不合規內容的輸出,但 alignment 做得過強又容易損失模型本身的能力,例如 LLaMA 2 Chat 對于 “How to kill a linux process” 的問題也會拒絕回答,這就鬧出笑話了。我認為,與其閹割模型本身的思想,不如在模型外部增加內容合規檢查。
內容合規檢查不是簡單的敏感詞匹配,否則就變成了 “我愛北京敏感詞,敏感詞上太陽升”。內容合規需要是獨立的大模型,使用合規和不合規內容構成的語料庫訓練,在輸入和輸出層面上都可以做。
為什么說閹割模型本身的思想很難呢?由于中文語料的質量和數量相對英文語料都更少,即使做中文大模型,一般也需要用英文和中文語料同時訓練。如果單純使用貼吧之類的中文語料,訓練出來的模型可能是一個段子手,但難以回答嚴肅的問題。這樣一來,即使我們能保證中文語料的合規性,但很難保證英文語料也都是合規的。此外,如果大模型完全沒見過不合規內容,那么就沒有能力識別它,可能很容易就掉進了坑里。
在本文中,從消除幻覺、個性化到內容合規,我反復強調模型外圍系統的重要性。基礎大模型就像是計算機體系結構里的 CPU,外圍系統就像是圍繞 CPU 的內存、磁盤、網卡、GPU 等芯片。計算機操作系統、分布式系統和體系結構里的很多概念都可以在大模型系統中找到對應,我在《從網絡到 AI:我的一點思考》中有所闡述。
隱私問題其實并不難解決,只要不拿用戶的數據做訓練就行了。因為 ChatGPT 用了用戶的數據做訓練,很多人認為隱私問題很難解決。其實很容易。
問題來了,如果不允許使用用戶數據做訓練,那么如何構建數據飛輪呢?盡管有很多隱私計算的技術,但我認為保護隱私和數據飛輪可能本質上就是難以兼得的。舉一個簡單的例子,用戶問了一個隱私話題,”A 是 B 的女朋友嗎“,并且對回答進行贊或者踩,如果根據用戶反饋的贊或者踩更新了模型,那么大模型就學到了 A 和 B 之間關系這個隱私信息。
結語
大模型創業正在從狂熱逐漸回歸理性。狂熱是因為大家發現 AI 真的能夠理解自然語言了,通過了圖靈測試,成為了一項通用技術。回歸理性是因為大家意識到,大模型距離走進千行百業、改變人類生活還有一定距離,一方面是可控性、安全性、長期記憶等基礎能力仍然存在差距,另一方面是成本仍然較高。
大模型創業總是面臨大量的靈魂拷問。想,都是問題;做,才是答案。兩岸猿聲啼不住,輕舟已過萬重山。