本文由微信公眾號蘇寧金融研究院(ID:SIF-2015)原創,作者為蘇寧金融研究院金融科技研究中心主任助理王元。
2020年是不尋常的一年,全球的健康、貿易、經濟、文化、政治和科技領域,無不發生著深刻的變化。筆者所在的科技領域,也恰逢現代人工智能(簡稱AI)發展10周年。前10年,人工智能技術得到了長足的發展,但也留下許多問題有待解決。那么,未來AI技術將會如何發展呢?本文將結合學術界、工業界的研究成果,以及筆者個人研究見解,從算力、數據、算法、工程化4個維度,與讀者一起探索和展望AI發展的未來。
一
數據
我們首先分析數據的發展趨勢。數據對人工智能,猶如食材對美味菜肴,過去10年,數據的獲取無論是數量,還是質量,又或者是數據的種類,均增長顯著,支撐著AI技術的發展。未來,數據層面的發展會有哪些趨勢呢,我們來看一組分析數據。
首先,世界互聯網用戶的基數已達到十億量級,隨著物聯網、5G技術的進一步發展,會帶來更多數據源和傳輸層面的能力提升,因此可以預見的是,數據的總量將繼續快速發展,且增速加快。參考IDC的數據報告(圖1),數據總量預計將從2018年的33ZB(1ZB=106GB),增長到2025年的175ZB。
其次,數據的存儲位置,業界預測仍將以集中存儲為主,且數據利用公有云存儲的比例將逐年提高,如圖2、圖3所示。
以上對于未來數據的趨勢,可以總結為:數量持續增長;云端集中存儲為主;公有云滲透率持續增長。站在AI技術的角度,可以預期數據量的持續供給是有保證的。
另一個方面,AI技術需要的不僅僅是原始數據,很多還需要標注數據。標注數據可分為自動標注、半自動標注、人工標注3個類別。
那么,標注數據未來的趨勢會是怎樣的?
我們可從標注數據工具市場的趨勢窺探一二,如圖4所示。可以看到,人工標注數據在未來的5-10年內,大概率依然是標注數據的主要來源,占比超過75%。
通過以上數據維度的分析與預測,我們可以得到的判斷是,數據量本身不會限制AI技術,但是人工標注的成本與規模很可能成為限制AI技術發展的因素,這將倒逼AI技術從算法和技術本身有所突破,有效解決對數據特別是人工標注數據的依賴。
二
算力
我們再來看看算力。算力對于AI技術,如同廚房灶臺對于美味佳肴一樣,本質是一種基礎設施的支撐。
算力指的是實現AI系統所需要的硬件計算能力。半導體計算類芯片的發展是AI算力的根本源動力,好消息是,雖然半導體行業發展有起有落,并一直伴隨著是否可持續性的懷疑,但是半導體行業著名的“摩爾定律”已經經受住了120年考驗(圖5),相信未來5-10年依然能夠平穩發展。
不過,值得注意的是,摩爾定律在計算芯片領域依然維持,很大原因是因為圖形處理器(GPU)的迅速發展,彌補了通用處理器(CPU)發展的趨緩,如圖6所示,從圖中可以看出GPU的晶體管數量增長已超過CPU,CPU晶體管開始落后于摩爾定律。
當然,半導體晶體管數量反映整體趨勢可以,但還不夠準確地反映算力發展情況。對于AI系統來說,浮點運算和內存是更直接的算力指標,下面具體對比一下GPU和CPU這2方面的性能,如圖7所示。可以看出,GPU無論是在計算能力還是在內存訪問速度上,近10年發展遠超CPU,很好的填補了CPU的性能發展瓶頸問題。
另一方面,依照前瞻產業研究院梳理的數據,就2019年的AI芯片收入規模來看,GPU芯片擁有27%左右的份額,CPU芯片僅占17%的份額。可以看到,GPU已成為由深度學習技術為代表的人工智能領域的硬件計算標準配置,形成的原因也十分簡單,現有的AI算法,尤其在模型訓練階段,對算力的需求持續增加,而GPU算力恰好比CPU要強很多,同時是一種與AI算法模型本身耦合度很低的一種通用計算設備。
除了GPU與CPU,其他計算設備如ASIC、FGPA等新興AI芯片也在發展,值得行業關注。鑒于未來數據大概率仍在云端存儲的情況下,這些芯片能否在提高性能效率的同時,保證通用性,且可以被云廠商規模性部署,獲得軟件生態的支持,有待進一步觀察。
三
算法
現在我們來分析算法。AI算法對于人工智能,就是廚師與美味佳肴的關系。過去10年AI的發展,數據和算力都起到了很好的輔助作用,但是不可否認的是,基于深度學習的算法結合其應用取得的性能突破,是AI技術在2020年取得里程碑式發展階段的重要原因。
那么,AI算法在未來的發展趨勢是什么呢?這個問題是學術界、工業界集中討論的核心問題之一,一個普遍的共識是,延續過去10年AI技術的發展,得益于深度學習,但是此路徑發展帶來的算力問題,較難持續。下面我們看一張圖,以及一組數據:
1. 根據OpenAI最新的測算,訓練一個大型AI模型的算力,從2012年開始計算已經翻了30萬倍,即年平均增長11.5倍,而算力的硬件增長速率,即摩爾定律,只達到年平均增速1.4倍;另一方面,算法效率的進步,年平均節省約1.7倍的算力。這意味著,隨著我們繼續追求算法性能的不斷提升,每年平均有約8.5倍的算力赤字,令人擔憂。一個實際的例子為今年最新發布的自然語義預訓練模型GPT-3,僅訓練成本已達到約1300萬美元,這種方式是否可持續,值得我們思考。
2. MIT最新研究表明,對于一個過參數化(即參數數量比訓練數據樣本多)的AI模型,滿足一個理論上限公式:
上述公式表明,其算力需求在理想情況下,大于等于性能需求的4次方,從2012年至今的模型表現在ImageNet數據集上分析,現實情況是在9次方的水平上下浮動,意味著現有的算法研究和實現方法,在效率上有很大的優化空間。
3. 按以上數據測算,人工智能算法在圖像分類任務(ImageNet)達到1%的錯誤率預計要花費1億萬億(10的20次方)美元,成本不可承受。
結合前文所述的數據和算力2個維度的分析,相信讀者可以發現,未來標注數據成本、算力成本的代價之高,意味著數據紅利與算力紅利正在逐漸消退,人工智能技術發展的核心驅動力未來將主要依靠算法層面的突破與創新。就目前最新的學術與工業界研究成果來看,筆者認為AI算法在未來的發展,可能具有以下特點:
(1)先驗知識表示與深度學習的結合
縱觀70多年的人工智能發展史,符號主義、連接主義、行為主義是人工智能發展初期形成的3個學術流派。如今,以深度學習為典型代表的連接主義事實成為過去10年的發展主流,行為主義則在強化學習領域獲得重大突破,圍棋大腦AlphaGo的成就已家喻戶曉。
值得注意的是,原本獨立發展的3個學派,正在開始以深度學習為主線的技術融合,比如在2013年,強化學習領域發明了DQN網絡,其中采用了神經網絡,開啟了一個新的研究領域稱作深度強化學習(Deep Reinforcement Learning)。
那么,符號主義類算法是否也會和深度學習進行融合呢?一個熱門候選是圖網絡(Graph Network)技術,這項技術正在與深度學習技術相融合,形成深度圖網絡研究領域。圖網絡的數據結構易于表達人類的先驗知識,且是一種更加通用、推理能力更強(又稱歸納偏置)的信息表達方法,這或許是可同時解決深度學習模型數據饑渴、推理能力不足以及輸出結果可解釋性不足的一把鑰匙。
(2)模型結構借鑒生物科學
深度學習模型的模型結構由前反饋和反向傳播構成,與生物神經網絡相比,模型的結構過于簡單。深度學習模型結構是否可以從生物科學、生物神經科學的進步和發現中吸取靈感,從而發現更加優秀的模型是一個值得關注的領域。另一個方面,如何給深度學習模型加入不確定性的參數建模,使其更好的處理隨機不確定性,也是一個可能產生突破的領域。
(3)數據生成
AI模型訓練依賴數據,這一點目前來看不是問題,但是AI模型訓練依賴人工標注數據,是一個頭痛的問題。利用算法有效解決或者大幅降低模型訓練對于人工標注數據的依賴,是一個熱點研究領域。實際上,在人工智能技術發展過程中一直若隱若現的美國國防部高級研究計劃局(DARPA),已經將此領域定為其AI3.0發展計劃目標之一,可見其重要程度。
(4)模型自評估
現有的AI算法,無論是機器學習算法,還是深度學習算法,其研發模式本質上是通過訓練閉環(closed loop)、推理開環(open loop)的方式進行的。是否可以通過設計模型自評估,在推理環節將開環系統進化成閉環系統也是一個值得研究的領域。在通信領域,控制領域等其他行業領域的大量算法實踐表明,采用閉環算法的系統在性能和輸出可預測性上,通常均比開環系統優秀,且閉環系統可大幅降低性能斷崖式衰減的可能性。閉環系統的這些特性,提供了對AI系統提高魯棒性和可對抗性的一種思路和方法。
四
工程化
上文已經對人工智能數據、算力、算法層面進行了梳理和分析,最后我們看看工程化。工程化對于人工智能,如同廚具對于美味佳肴一樣,是將數據、算力、算法結合到一起的媒介。
工程化的本質作用是提升效率,即最大化利用資源,最小化減少信息之間的轉換損失。打一個簡單的比喻,要做出美味佳肴,食材、廚房灶臺、廚師都有,但是唯獨沒有合適的廚具,那么廚師既無法發揮廚藝(算法),又無法處理食材(數據),也無法使用廚房灶臺的水電氣(算力)。因此,可以預見,工程化未來的發展,是將上文提到的算力與算法性能關系,從現在的9次方,逼近到理論上限4次方的重要手段之一。
過去10年,AI工程化發展,已形成一個明晰的工具鏈體系,近期也伴隨著一些值得關注的變化,筆者將一些較為明顯的趨勢,匯總如下:
總結來說,AI工程化正在形成從用戶端到云端的,以Python為編程語言的一整套工具鏈,其3個重要的特點為:遠程編程與調試,深度學習與機器學習的GPU加速支持,以及模型訓練與推理工具鏈的解耦。與此同時,產業鏈上游廠商對開源社區的大量投入,將為中下游企業和個人帶來工具鏈的技術紅利,降低其研發門檻和成本,筆者認為微軟、臉書、英偉達3家上游廠商主推的開源工具鏈尤其值得關注。
五
結語
對于人工智能技術過去10年發展取得的成就,有人歸因于數據,也有人歸因于算力。未來人工智能技術發展,筆者大膽預測,算法將是核心驅動力。同時,算法研發的實際效率,除了算法結構本身,還取決于設計者對先進工具鏈的掌握程度。
未來10年,科技界是否能用更少的數據,更經濟的算力,獲得真正意義上的通用智能呢?我們拭目以待。