每經特約評論員 盤和林
3月15日,OpenAI發布了GPT-4,并迅速成為熱點,引發大量關注。GPT-4核心提升可總結為兩點:一點是基本智能水平提升。舉例說,GPT3.0在全球多項考試中排名在倒數10%,而如今GPT-4在這些考試中能夠戰勝90%的人類,這種進步源自于數據訓練和參數的積累。另一點是多模態模型,ChatGPT過去只能文本交流,現在用戶可以發張圖片給ChatGPT,而ChatGPT將以文字回應。另外,GPT-4的參數量是GPT3.0的10倍,參數達到百萬億級別,這為GPT-4的用戶體驗優化提供了保障。
識圖能力應用前景廣闊
之前上市的ChatGPT實質上等同于GPT3.5,未來,GPT-4的功能將以plus訂閱的方式開展。新版本激發了用戶熱情,付款訂閱渠道一度被擠爆。但實際上OpenAI在技術上仍有保留,外界不禁感慨:OpenAI到底領先對手幾個身位?
之所以說OpenAI保守,主要是兩個原因:
其一是ChatGPT在去年底推出的時候本身是舊版本,很多人發現ChatGPT無法回答2021年以后的問題,原因是ChatGPT2021年就發布了GPT3.0,而ChatGPT只是在GPT3.0的基礎上略作優化的GPT3.5版本,而2021年以后新數據都去訓練GPT-4,當然就無法覆蓋這部分新知識。而GPT-4其實在2022年年中就基本完成,足見ChatGPT的發布是一個保守做法。
其二是GPT-4也是有保留的。原因是OpenAI有另一個熱點AI產品,也就是DELL-E2。DELL-E2的功能是你輸入一段文字,它生成一張圖片。而GPT-4的功能是,你輸入一張圖片,它生成一段文字答案。如果兩項AI功能結合,GPT將同時獲得圖片理解能力和圖片表達能力??梢哉fNLP自然語言處理只是OpenAI在人工智能領域的一塊業務,未來整合旗下的多個AI,功能內容還將進一步豐富。
當前GPT-4的識圖能力應用前景也非常廣闊。比方說醫學影像資料本身是圖片,未來普通人可以通過ChatGPT來實現醫學影像自檢,自己發現疾病。當然,這只是其中一項可能性。在很多行業領域,看懂圖片是需要專業能力的,而GPT-4降低了這種識圖門檻,比如醫學影像、設計圖紙、數學模型等,讓普通人能夠通過AI輔助介入到專業領域當中,所以GPT-4未來很可能成長為生產力工具。
國內企業要“結硬寨”
中國大模型生成式AI企業怎么辦?
首先,國內生成式AI企業要走積累的路子。生成式AI需要持續大規模算力投入,微軟為GPT提供超過3萬張A100芯片的算力支持,一張A100價格要20多萬元人民幣,而算力訓練每次都要消耗大量能源。GPT-4百萬億的參數也需要投入大量人力財力來完成積累。而在數據方面投入的價值也很高,GPT從一 開始就重視“小數據”,也就是高質量數據,而高質量數據是GPT領先于其他生成式AI的核心競爭力。與之相對應的,數據質量提升是需要錢的。綜上可以看出,算力、數據、算法調參這三個方面,OpenAI前期燒錢的規模是海量的,而GPT-4也是一步步技術積累的最終結果。所謂臺上一分鐘,臺下十年功,一點也不夸張。
其次,國內生成式AI企業要在基礎科學上做積累。大模型算法的道理并不復雜,復雜的是算法細節,自從微軟收購OpenAI后,OpenAI的算法不可能開源,所以“等、靠、要”的做法已經行不通,國內AI企業要在算法技術上投入研發,構建中國AI企業自身的算法能力,然而算法的精益也要依靠基礎科學的進步,比如基礎數學研究。所以要積極在學術上加強投入,而不應該僅僅聚焦在應用科學層面。
再者,國內生成式AI企業不要盲目地推出對標產品。前車之鑒就是谷歌,在OpenAI推出產品后,谷歌匆忙應戰,結果發布會的若干個小瑕疵導致谷歌股價暴跌。國內生成式AI企業要清楚認識到,這一次ChatGPT的成功和過去其他概念有所不同,其成功基礎在于用戶的認可,用戶是會拿著ChatGPT和其他競品比較的,這就讓后來者實際上更難做,要求也更高。如果生成式AI方面沒有達到ChatGPT的效果,則往往會暴露自己能力上的短板。反過來說,國內生成式AI企業也可以另辟蹊徑,GPT-4并不是萬能的,在其短板領域完全可有一番作為。
綜上,國內AI企業還是要重視積累,包括參數積累、數據訓練積累以及算力積累??萍嫉牡缆?,彎道超車的機會有,但不多,諸如新能源車我國就實現了彎道超車,但大多數科技領域開展的是陣地戰,要嘗試“結硬寨,打呆仗”的做法,夯實中國生成式AI發展的基礎,推出成熟度較高的產品。
(作者系浙江大學國際聯合商學院數字經濟與金融創新研究中心聯席主任、研究員,工信部信息通信經濟專家委員會委員)