金融市場的量化密碼系列文章(10)
人工智能的必要條件:深度學習模型,大數據,算力
作者:Michael Zhang 麥教授
2016年,AlphaGo下圍棋戰勝李世乭,大家都認為人工智能的時代到來了。人工智能也是同樣的在一定的歷史契機下,幾個獨立發展的領域碰巧合并在一起就產生了巨大的推動力。這一波人工智能發展的三個必要條件是:深度學習模型,大數據,算力(并行計算)。
深度學習模型
AlphaGo用的機器學習模型是深度學習教父杰佛瑞·辛頓(Geoffrey Hinton)在1986年開始倡導,并在2010年取得重大突破的。
「辛頓的推特頭像」
2012年的夏天,64歲的辛頓離開了他在多倫多附近的家,成為了谷歌的一名實習生。他領到了一頂縫有“Noogler”(意思是:谷歌新員工,New googler的縮寫)字樣的螺旋槳小帽,并參加了主要由80后、90后組成的迎新會。年輕的Nooglers不會認出他來,因為辛頓幾十年來一直在默默研究神經網絡的算法。用他的話說,這些年輕人似乎把他當成了“老年低能兒”(有沒有想起羅伯特·德尼羅的電影《實習生》?)。
谷歌之所以要請他,是因為他的深度學習算法模型打破了機器學習幾乎所有領域的天花板。人工智能最近幾年的突破得益于辛頓過去幾十年的研究,他最初在1986年發表的論文提出讓機器像人類的大腦一樣通過神經網絡來做學習的模型。但是這個模型在取得初步的成功后,就停滯不前了(缺乏另外兩個要素:數據和算力)。大多數的學者都背棄了它,而辛頓沒有。
歷史快進20年,到了2006年,辛頓的團隊取得了突破性進展。被重新命名為“深度學習(deep learning)”的神經網絡開始在每一項關鍵任務中擊敗傳統的人工智能,如語音識別、描述圖像和生成自然可讀的句子等等。這些算法支撐著從自動駕駛汽車、虛擬助手到搜索引擎推薦的后端技術。
近幾年,谷歌、Facebook、微軟、BAT、抖音等所有科技巨頭都開始了深度學習的淘金熱,爭奪世界上極少數的專家,由數億風險投資支持的深度學習創業公司也如雨后春筍般涌現。這些都是因為辛頓的模型改變了人們做人工智能研究和應用的范式。
值得一提的是:辛頓這個家族出了太多的神一樣的人物。
辛頓的曾祖父是喬治·布爾(George Boole),就是就是布爾代數那個布爾。布爾32歲出版了《邏輯的數學分析》(The Mathematical Analysis of Logic),把邏輯和代數之間的關系建立起來。他39歲時出版了《思維的規則》 ( The Laws of Thought ),創立了布爾邏輯和布爾代數。數理邏輯這個數學分支奠定了現代計算機的數學基礎。
布爾的妻子叫瑪麗·艾佛斯特(Mary Everest),珠穆朗瑪峰(Mount Everest)英文名字就是以瑪麗的叔叔,曾任印度大地測量局總測量師的喬治·艾佛斯特(George Everest)而命名的。布爾最小的女兒艾捷爾·麗蓮·伏尼契 (EthelLilian Voynich)寫出了偉大的作品《牛虻》(The Gadfly)。
布爾長女瑪麗·愛倫(Mary Ellen) 這一支更是名人輩出,愛倫和數學家Charles Howard Hinton結婚。愛倫的孫女(辛頓的姑姑)Joan Hinton中文名寒春(名字就是Hinton的音譯),是芝加哥大學核物理研究所研究生,是費米(Enrico Fermi)的學生,楊振寧、李政道的同學,也是參與了曼哈頓計劃的極少數的女科學家之一。
「“一個逃掉的原子間諜”」
1953年,美國的《真相》雜志報道稱曾參與過美國曼哈頓計劃的女物理學家寒春(Joan Hinton)突然失蹤而后在北京露面。作者(是個后海軍上將)懷疑寒春向中國透露了美國的原子彈秘密,甚至可能協助中國政府發展了原子彈計劃。寒春其實是厭惡了原子彈對人類的傷害而選擇逃離到中國,她認為中國最缺的是牛奶,于是選擇幫中國推進科學養牛和農業機械化。她是第一位獲得中國綠卡的外國人,2010年在北京去世。
和寒春一樣,辛頓也厭倦了美國軍方開發大規模殺傷武器,1980年代就離開了卡耐基梅隆大學(CMU)到加拿大的多倫多大學專心做人工智能研究。2010年,63歲的他發表的深度神經網絡AlexNet對機器學習各個領域都起到巨大的推動作用。2018年,他和自己的學生和合作者一起獲得了計算機科學的最高獎“圖靈獎”。
人工智能的大數據
辛頓的深度學習算法摧枯拉朽般地推進了機器學習的各個子領域。大眾意識到這個算法的威力是在2012年。
2012年,語音識別還遠未達到完美。這些系統通常使用隱藏馬爾可夫模型(HMM)或高斯混合模型(GMM)來識別語音中的模式。辛頓等人在2012年發表的一篇開創性論文表明,深度神經網絡的表現明顯優于之前的這些模型。
2012年ImageNet大規模視覺識別挑戰賽(ILSVRC),是將深度神經網絡用于圖像識別的一個決定性時刻。辛頓和他的學生亞歷克斯·克里澤夫斯基(Alex Krizhevsky),還有伊爾亞?蘇茨克維(Ilya Sutskever)共同發表了一個被稱為“AlexNet”的卷積神經網絡(CNN),將ImageNet視覺識別上現有的錯誤率降低了一半,達到15.3%,比第二名低了10.8個百分點。
為什么之前看不出來這個算法的威力呢?原因很簡單,之前研究者們沒有大規模的訓練人工智能的數據。在小規模數據上,深度學習的算法并沒有很強的優勢。
「數據規模和算法性能」
圖中可以看到,傳統的算法會遇到一個瓶頸,數據規模再大也沒有辦法提高了。但是深度學習可以隨著數據規模提升而持續提高算法的表現。
這個計算機視覺比賽用的大規模數據ImageNet來自于斯坦福大學教授李飛飛的研究。她有很強的連接不同領域之間關系的洞察力。她的計算機視覺同行們那時在研究計算機感知和解碼圖像的模型,但這些模型的范圍都很有限,他們可能會寫一個算法來識別狗,另一個算法來識別貓。
李飛飛懷疑問題不是出在模型上而是出在數據上。如果一個孩子可以通過觀察無數的物體和場景來學會識別物體,那么計算機也許也可以用類似的方式,通過分析大規模的各種各樣的圖像和它們之間的關系來學習。但是這樣就要求訓練模型時,有大量的打好標簽的圖片,告訴計算機圖片里的物體都是什么。在一個有百萬甚至千萬張圖片的數據庫中標記每張圖片上所有的物體是一個巨大的體力活。
2007年在普林斯頓大學擔任助理教授的李飛飛提出了她對ImageNet的想法時,很難得到同事們的幫助,因為那時大家只是習慣于用幾百到幾千張圖片的數據庫。有人評論說:“如果連一個物體都識別不好,為什么還要識別幾千個、幾萬個物體?”
李飛飛嘗試給普林斯頓的學生支付每小時10美元的工資來打標簽,但進展緩慢。后來有學生跟她提到了亞馬遜人力外包Amazon Mechanical Turk,突然間,她可以用極低的成本雇傭許多人來打標。2009年,李飛飛的團隊集齊了320萬張(后來增加到1500萬張)打過標的圖片,他們發表了一篇論文,同時還建立了開放的數據庫。
起初,這個項目幾乎沒有受到關注。后來團隊聯系了次年在歐洲舉行的計算機視覺競賽的組織者,并要求他們允許參賽者使用ImageNet數據庫來訓練他們的算法。這就成了ImageNet大規模視覺識別挑戰賽。
歷年來ImageNet挑戰賽的參賽者在科技界的每個角落都能找到。2010年大賽的第一批獲獎者后來在谷歌、百度和華為擔任了高級職務。基于2013年ImageNet獲獎算法創建的Clarifai公司后來獲得了4000萬美元的風險投資支持。2014年,牛津大學的兩位研究人員獲得冠軍,他們很快被谷歌搶走,并加入了其收購的DeepMind實驗室。
「ImageNet錯誤率逐年下降」
這個數據庫突然激發了深度學習的潛能,讓人們意識到數據的規模有時比模型的效率更重要,之前人們總是糾結在小規模數據上一點一點的推進算法準確性,而ImageNet和AlexNet讓大家看到了數據規模能給人工智能帶來的變革。到了2017年,也就是比賽的最后一年,計算機識別物體的錯誤率已經從2012年的15%降到了3%以下。2020年,很多算法都可以把錯誤率降低到2%以下了。
算力(并行計算)
所謂深度神經網絡,說的是神經網絡有好多層,每一層又有好多節點,為了計算最優的模型,要做非常大量的計算。這個方法以前不流行的原因就是它計算量太大了。在處理小規模數據時,深度學習的正確率并不比別的簡單模型高,但是計算量大很多,于是并不討喜。在2010年前后,隨著并行計算越來越容易做了,這個計算量的瓶頸突然就變得不那么重要了,于是人工智能的三個必要條件就湊齊了。
「CPU對比GPU」
并行計算可以大幅加快計算的速度。傳統的有十幾個內核的CPU(中央處理單元)可以同時處理十幾個互相獨立的運算工作。而GPU(圖形處理單元)本來是用來給圖形顯示加速的,當需要計算復雜的圖形的光影時,可以通過GPU上千的內核來做并行處理,從而大幅加快計算速度。
GPU并不適合所有的加速場景,我們遇到的很多問題是串行的,就是一個計算結束之后得到了結果才可以進入下一個計算,這樣的場景還是CPU比較高效率。但是有些場景,各個計算之間相互獨立,并不需要等待,而深度學習的算法恰恰就符合了這個特性。有人做過一個簡單的對比,CPU就和古代軍隊里的將軍一樣,適合遇到串行問題時單打獨斗;但是GPU就像士兵一樣,適合在遇到并行問題時一擁而上。深度學習算法是個并行計算可以解決的問題,于是一拍即合,GPU并行計算的算力被大量應用于人工智能需要加速的場景。
「英偉達(Nvidia)股價」
制作GPU芯片的英偉達公司的股價也一飛沖天,從2016年到現在股價已經翻了20倍。之后人們為人工智能計算又專門研制了更好的協處理器,如TPU 或 NPU,處理AI算法的效率更高。
GPU的重要性當然也和區塊鏈、比特幣的發展有關。區塊鏈里面的Proof of Work就需要很多相互獨立的計算,也是GPU可以大展身手的領域。