文/傅盛
這幾天,有很多關于AlphaGO Zero的文章,更多從技術角度闡述。我決定從思想實踐角度,簡單說幾點看法。開放討論,歡迎大家拍磚:
AlphaGO Zero是一個新的重要里程碑
有人可能會問,有那么嚴重嗎?AlphaGO不是已經贏了嗎?這個無非就是贏得更厲害些。
關鍵不是贏了多少,而是AlphaGO Zero沒有使用人類經驗,而AlphaGO是學著人類經驗成長起來的。
這就意味著:在某些領域,人工智能可以不需要所謂大量數據(人的經驗)就能實現智能化。這一點意義非凡,甚至會影響人工智能產業的發展方向。
盡管很多人可能會說,別說的這么玄乎,這不就是增強學習理論,無非就是實現了一個例子而已。但問題恰恰在這:有了理論是一回事,做出第一個案例,又是另一回事。理論到實踐隔著無數條彎。
你看到了并不意味離得近。我們所看到的理論,或者認知,是需要不斷“實踐—再認知—再實踐”的過程。
今天,人工智能熱潮風起云涌。我們回頭來看,是什么具體事件點燃了呢?應該是AlphaGO。一場圍棋比賽打開了全人類的認知,才讓我們知道,原來Al已經能在圍棋這種領域戰勝人類,而之前大家認為至少還要十年。
這一下,大量的人力資源和資金都涌入了人工智能,比如無人駕駛,人臉識別。為什么呢?因為大家在想,既然復雜的圍棋智能都能提前十年,那些神奇科技還會遠嗎?
AlphaGO Zero會改變行業發展方向?
人類就是這么神奇的動物。盡管很多事情知道會發生,但沒發生之前往往將信將疑,更多時候是看客。下決心是一件成本很高的事情。
大家都知道增強學習是方向,但短期內能不能做到,效果如何,其實大家心里是沒底的。所以,未必真舍得去探索。但這次AlphaGO Zero,一下子讓大家認識到:既然圍棋都可不需要人參與,且效果更好,那別的呢?
我立刻想到了iphone x的人臉解鎖,其實大家是否想過它可能就是個AlphaGO Zero?以前,我們認為所有人臉的結果是需要通過人的訓練才能完成的,但iphone x有攝像頭,結構光,密碼三者互相驗證的解鎖模式。即使攝像頭沒認出你,但前置結構光也許認出了你,這時候,攝像頭就可基于該結果自己再學習一次。如此往復,你還擔心卸妝后認不出你嗎?按這個模式,不斷自學習,毀容以后都能認出來。
這樣一種虛擬的自學習,多傳感器相互之間的增強學習(類似AlphaGO Zero),這條路肯定會大量實踐。各種傳感器也都將被關注并應用其中。
比如,此前我們認為實地道路操作才是無人駕駛的核心,但試想一下,我們是否可能在一個虛擬的城市道路上去做優化無人駕駛的算法,讓計算機自己去碰撞,是不是也能做到很好的效果呢?如果我們有能力讓計算機感知到世界相關的數據、環境和規則,它就有可能再去模擬出一個虛擬的環境,完成整個任務實踐。
機器人也是同樣。此前機器人的一個巨大的障礙就是數據。今天看來,如果傳感器足夠,我們再有一套方法去完成對信息數據的加工,比如GAN,那么機器人的優化本身也可做到如同AlphaGO Zero的效率和效果。
AlphaGO Zero的一個假想藍圖
前幾天,看完AlphaGO Zero的文章后,我久久不能寐,還做了一個夢。什么夢呢?我想象有一條生產線,這條生產線上的每一個環節都可被數據模擬。此時,機器人自己就可生成一個虛擬空間(類似AlphaGO Zero),并以此訓練和優化生產線的智能化。比如,利用該生產線去生產一個產品,而產品本身會有一些指標,且指標是規則可定義的。
就拿生產一瓶礦泉水來說吧。目標是通過一些工藝,能把礦泉水成本降到一塊錢以下。于是,它開始設計這條生產線,并進行虛擬生產,生產完以后,通過一個評估軟件,發現成本沒能做到一塊錢以下。計算機就會重新設計不同的生產線,自己再去訓練,再去博弈,直到有可能生產出一個世界上最廉價又最優質的礦泉水……
當我醒來時,發現其實這個夢是有可能成真的。當然這只是個夢,有些條件未必滿足,但它代表著一個未來可能的方向。
我想表達的是,機器人的夢想正在離我們越來越近。