今天上午,英特爾在北京舉辦了釋放IA,原力擁抱AI時代的年度論壇,英特爾全球副總裁兼中國區總裁楊旭;英特爾數據中心事業部副總裁、數據中心解決方案部總經理Jason Waxman;英特爾數據中心事業部副總裁,人工智能解決方案部總經理Naveen Rao;英特爾公司軟件與服務事業部副總裁、開發者及產品部總經理William(Bill) Savage;英特爾中國研究院院長宋繼強分別做了《AI在中國》;《英特爾,讓人工智能加速未來變革》;《人工智能的“芯“突破》;《加速人工智能普及和應用》;《技術深究-英特爾架構和人工智能》的主題演講。
雷鋒網(公眾號:雷鋒網)率先摘取了人工智能解決方案部總經理Naveen Rao先生主題演講的精華(其它主題演講精華將在后續專訪文中詳細呈現),來和廣大開發者一起探討人工智能面對的技術挑戰和應對之道,并希望攜手大家一起一起抓住人工智能時代的巨大機遇。
----------------------------------------------------------------------------------------------------------
大家早上好,非常高興大家能夠出席今天的AI Day,很抱歉我并不懂中文,但是希望大家能夠仔細的聽。我的名字叫做Naveen Rao,我是英特爾公司數據中心事業部副總裁,同時也是Nervana系統的前CEO,也就是由英特爾所并購的這家公司,剛才我的同事Jason Waxman也提到。我們所做的事情可以增加英特爾半導體的技術能力,也正處在開發這個市場的前沿,這是非常關鍵的,我們希望通過技術改變全世界。
在整個行業當中這是非常激動人心的時代,因為現在技術的發展日新月異,我們看到大量新的創新和新的改革。我認為有一些技術已經存在有幾年了,現在已經開始開拓新的市場機遇,有新的產品和解決方案的出現。
回顧機器學習
首先讓大家了解一下什么是機器學習。機器學習有不同的理念和觀點,也就是指從數據當中學習的方法,它能夠構建這些數據,通過數據改進自己的性能,這是非常寬泛的一個定義,當然這個概念存在已經有很久了,在學術界當中,包括如何從數據當中進行系統化和架構的學習等。
直到最近,我們知道更多的數據被生活和工作當中產生,因此就推動了機器學習的需要。這里先跟大家分享一下機器學習的三種不同類型,我不能說只有這三種類型,但是讓大家稍微了解一下機器學習的世界。
我們最近經常聽到一個的詞語叫做監督學習,比如說我有一些圖片、標識,這個標識是貼在我的數據上的,比如說一個人的面部識別,這個數據的標識就代表他的名字,這個名字可以聯到計算機當中,計算機就可以學習,或者將這種輸入的數據,將他的名字和圖片連在一起。
另一個詞語是非監督學習。通常我們需要用到它的場景,是在很難真正找到具有潛在的、可使用的數據架構,而且前提是你一開始還不了解這個架構的詳情。如果說你想學一個語言,你先要聽它,被動的學習它這樣的語言,了解它的發音,了解它的語音語調,至少要形成一個語言的框架之后才能開始真正學習這個語言。雖然目前這還是機器學習的一個難點,但我們正在不斷推動這方面的研究。
非監督學習講完了之后,開始給大家講一下強化學習。比如說就像培訓你自己家的寵物一樣,你是希望它有一個正面的反映,你想要的反映,負面的反映,如果你不想要的反映你就懲罰它,就像你訓練你家的狗或者貓一樣,這是強化學習的概念。
當然真正的AI不僅僅是這三種類型,不過當下,我們花了大量時間在不斷靠近這三個領域。現在讓我們的生活、我們的世界更加好也就是機器學習和人工智能的最終目標。
下面給大家舉一個例子——非常傳統經典的機器學習,我們在過去所學習到的,我們有一定的圖片。大家可以看到這是我們其中的一個創始人,我們如何教會機器能夠識別人的面孔,也就是說將名字和面孔連接在一起。按照傳統方法來說,我要看一下他面部的特點,眼睛和眉毛的寬度和鼻子的長度,這些都是非常關鍵的辨識特點,通過軟件辨識,作為圖像的關鍵點,作為面部特點的函數。最后我們通過不同的分類器,不同的隨機森林和集成方法,最終能夠辨別出他的名字。我想人類或者是動物能夠更好的辨別這個面孔,但是機器需要很多的學習過程,因為它們沒有辦法直接提取出這些特點。傳統的機器學習就是以這種方式進行面部識別的。
我們看一下深度學習,在過去幾年當中有非常多的研究方面的突破,也就是說在數據層面提取出特征來進行學習。我們首先要了解特征是什么,這是我們數據的輸出,這是數據的輸入,告訴我在這個過程當中你提取出來的特征是什么。通過大量的計算能力,這也是為什么在過去花的時間,通過大量數據的學習可能要花幾個月、幾年的時間,因為之前這個計算的能力是非常受限的。
現在系統的發展更加先進,我們把它叫做端對端的深度學習,它有超過6000萬個參數,這6000萬個參數就代表著有6000萬個不同的培訓點,同時這個數據,可以看到它有自己的一些范式,我們可以將這個問題變得簡單化。但是在這邊我們需要注意的一點,這一點非常重要,我們應該有非常好的數據,非常好的標記,與此同時能夠對我們輸入的信息作出正確的定義。
所以在過去幾年間,信息界發生的一個很大的變化是機器學習正在處理之前人工處理的一些內容,比如說之前有一些自然的圖像,我們有1000多個類別,當時的想法是,把這些圖像按類別進行分類,看起來非常簡單,不知道在座各位有沒有做過這樣一些工作,這些工作正確率在80%左右,正確率不是特別差,如果看計算機進行分類的話,錯誤率也沒有低很多,如果我們對所有機器進行培訓的話,這些受過訓練的機器可以達到更高的分類精度。
之后我們為了解決錯誤率的問題,去應用了神經網絡,你會看到在應用神經網絡之后語音錯誤率以及ImageNet錯誤率得到了進一步下降。我們在這邊看到了人類的表現,人類的錯誤率,其實我們所做的是研究這些錯誤,我們大概有5%左右的錯誤率,過去幾年間,真正讓機器能夠打敗人類或者打敗其他智能的動物還需要幾年的時間,但是我們確實已經見證多了一些重大的進步,大家已經有了智能手機,我們說到這些智能系統的時候,我們知道這些智能手機的智能系統是非常好的,可以在大部分情況下幫我們作出正確的選擇,因為我們在它上面加入了神經網絡,因此我們可以幫他們的正確率得到提高。在Nervana我們也在整個平臺上應用了各種各樣不同的數據,我們用了自然語言加工,我們用了很多時間序列、金融數據等等,這些都是朝著同樣一個方向發展的。
展望機器學習的未來
從我們的大腦中尋求答案
很有趣的一點,英特爾其中一個創始人之一曾經說過,“我們通過計算機建模的方式來研究人類大腦是如何工作。”,其實我們或許應該用另外一種方法反其道而行之。我們已經發展到了這樣一個階段,就是為了探索計算機新的發展方向,也就是數據的發展方向,我們可以向我們的大腦尋求答案。
用我們的芯片打造一個神經元
這也是Nervana所使用的方向之一,我自己本身是學計算機出身的,我自己也對神經系統非常感興趣,我希望我們能夠從大腦中獲取一些概念,能夠從大腦中獲取一些新的想法,把它應用到我們的計算機工程中去。我們不知道如何去真正打造一個生物上的神經元,但是我們可以用我們的芯片打造一個神經元。我們可以把我們大腦中的模式,一種數學模型的方式提取出來,然后應用到計算機模型當中去。我們可以在其中加入一些生物的元素,然后建立起這樣一個模型,當然這個部分是非常復雜的,然后我們把它轉化為模型描述語言,轉化為原語或者編譯器,之后轉化為針對工作負載的優化硬件,這就是我們的工作方向。
重視計算力的價值
前面Jason Waxman之前也提到了,到2020年,AI計算量就會增長到12倍,我們對硬件也作出了投資,這是從行業來說更加重要的投資原因,到2020年的時候,我們數據中大部分都是由AI驅動的,我們說到很多數據的價值,現在全世界有海量的數據,全世界每天都會產生巨大的數據,每一個星球上生活的孩子,不管是成人,他們如果用自己的人腦進行計算的話,要用30多年的時候才會產生這樣的數據。但是在未來,我們AI的計算量將增加到12倍,我們不再需要人工幫我們進行這樣數據的計算,我們都會變成自動的計算。
關于英特爾人工智能咨詢委員會
我非常開心的宣布,我們成立了非常了不起的英特爾人工智能咨詢委員會,這些都是業界的領袖,可以幫助我們進一步制定AI的戰略,并且幫助我們進一步研究神經網絡。
Bruno Olshausen來自加州伯克利的,他是第一位咨詢員,從我們公司建立的開始就跟他建立了很好的合作關系。
之后是Ron Dror,他來自于斯坦福大學,他致力于研究超級計算機,他所研究的超級計算機模型可以用作藥物計算的發展。
還有一位是Jan Rabaey,加州大學伯克利分校的,他也是專注于研究我們整個神經網絡架構的,并且和我們整個行業有很好的練習。
Yoshua BenGio是我們深度學習的三大創始人之一,他們也是我們最后20幾年間所作出創新的先鋒者。幫助我們能夠把深度神經元打造得更加有用,在一開始的時候深度神經系統被人們認為并沒有那么有用,但是現在讓人們相信這是非常有效的技術。
所以我們說AI可以從各種方向來被我們進行應用,現在AI是一個非常熱門的話題,但我們有不同的使用AI的方式,有一些是可以把它用到機器學習中去,有一些用到推理系統中,比如我們的Saffron系統。另外我們兩邊,也就是機器學習和推理系統可以進行互動,另外我們可以有四種不同的實施方法,可以為用戶提供滿足他需求的方法。不管是深度學習、經典機器的學習,還是基于記憶或者是基于邏輯的學習,我們為用戶提供的是最適合他們的最好的解決方案。
關于英特爾Nervana
XEON
在這邊我列出了英特爾Nervana一部分產品組合,首先是我們的XEON,這是我們比較通用的解決方案和處理器。另外,我們的軟件解決方案也可以在所有這些處理器上進行工作,之后就是至強融核,它非常適合高性能和通用機器學習。
Skylake
另外,我們還有FPGA,來自Nervana的一個技術。我們剛剛也發布了Skylake,是我們最新版本的至強,這一個版本也已經進行了進一步的優化,它可以幫我們將性能提高到的8倍,并且也是針對能效進行的優化。
至強融核
至強融核也是令大家非常興奮的一個部分,它也和我們深度學習有著非常深的融匯,它的主要目的就是能夠處理多重的工作負荷,所以在軟件部分我們也發現了有各種各樣不同的創新,通過應用至強融核,可以將深度學習性能提高到四倍,與此同時性能也非常卓越。
KNIGHTS MILL
我們還有KNIGHTS MILL,另外再這樣的一個已有的平臺中,有了它我們就不再收到其它的限制,我們可以自由進行AI或者是機器學習?,F在在我們的平臺上有非常多的用戶案例,但是這些用戶案例確實有受到了很多限制,有的時候是被內存所限制,有的時候是被容量所限制,但是現在我們有了至強融核之后,就可以在我們平臺上采用更多的實例。
關于AI的應用落地
我認為醫療是AI可以去進行應用的一個非常重要的行業,目前為止我們還并沒有非常完善的一些算法,我們也沒有一個完整的平臺提供給這些醫療服務系統,但是我們也致力于將AI投入到醫療行業中去。比如說MICHAEL.j-FOX,基金會是一個專注于治療帕金森綜合癥的一個基金會,我們還共同建立了協作式的癌癥云,AI也被應用于新藥的發行中去,我們也希望能夠宣布我們與Broad Institute共同合作,成立了可拓展的基金中心,我們這個中心需要技術,需要更強的計算能力,更強的技術能力,我們可以為他們提供這樣的能力。
通過AI為世界做更好的貢獻。這就是我們所說的如何加速人工智能的“芯”變革。
我也非常為我們未來的幾年感到興奮,去看一下AI到底如何被應用,如何發展。非常感謝各位。