究竟是什么催生了人類的重大進步?
AI target=_blank class=infotextkey>OpenAI公司研發的ChatGPT已經成為一舉一動都備受全球矚目的重大創新事件,甚至被稱為工業革命以來最了不起的發明之一。
但這個偉大的發明是怎么產生的?
在很漫長的時間里,OpenAI都是不太被科技界關注的小透明——核心領導團隊由兩位沒有學位的美國人和兩位外國移民組成;研發團隊采用的也是連谷歌都不看好的非常激進的技術路線。
圖1. OpenAI的4位領導者
OpenAI的4位領導者都是三四十歲的小年輕:
首席執行官,山姆·阿爾特(17.820, -0.65, -3.52%)曼(Sam Altman),斯坦福大學學過計算機專業,中途退學;
首席技術官,米拉·穆拉蒂(Mira Murati),阿爾巴尼亞移民的女兒;
總裁,格雷格·布羅克曼(Greg Brockman),上過哈佛大學和麻省理工,但最終都退學了;
首席科學家,伊利亞·蘇茨科弗(Ilya Sutskever),原本是俄羅斯人,小時候跟隨父母先移民到以色列,后又移民到加拿大,最后來到美國。
但最終,這群人帶著幾十人的核心團隊,搞出了最震撼的科技。
圖2. OpenAI的核心團隊成員肯尼斯·斯坦利
OpenAI的核心團隊成員肯尼斯·斯坦利和喬爾·雷曼在復盤ChatGPT的成功路徑時,將其歸因于他們在研究時發現的一個重要算法——新奇性搜索(Novel Search)。為此,他們合著了《為什么偉大不能被計劃》一書,分享了他們在研發人工智能算法的過程中,圍繞新奇性搜索這一算法展開的幾個重要實驗。
“為了實現我們的最高目標,我們必須先愿意放棄這些目標。”(To achieve our highest goals we must be willing to abandon them.)
肯尼斯和喬爾用上面這句帶有箴言味道的總結來定義新奇性搜索的底層邏輯,這種算法完全不考慮是否有利于接近目標,而只評估某一路徑的新奇性,“只問新不新,不問好不好”。哪怕這個方案是機器人(14.010, -0.60, -4.11%)往墻上撞,或者一站起來就跌倒。產出的方案再怪異、再不靠譜也沒關系,只要是新奇的就留下。
圖3.OpenAI的核心團隊成員喬爾·雷曼
他們進一步解釋,“新的算法不是要去特定的地方,而是最大化去任何地方的能力……人工智能算法通常有著明確的目標。但后來我意識到,即使我們沒有給這些算法設定明確的目標,它們也能夠取得令人驚嘆的結果,甚至比那些設定了目標的算法更優越。”
但正是在這個算法的驅動下,在迷宮中探索的機器人,在沒有嘗試走出迷宮的時候,反而更快走出了迷宮;雙足機器人認為“摔倒是好事”,并因此學會了踢腿,反而走得更遠……
本期【泉果探照燈】將分享OpenAI核心專家在研發AI過程中的幾項重要實驗,以及引申的一些投資理念,更好地解釋新奇性搜索算法對我們常規認知的顛覆性和啟發性。
迷宮實驗
當機器人忘記目標 學會摔跤
一個被告知尋求新奇行為的機器人,自行學會了如何避開墻壁、如何穿行走廊、如何脫離迷宮,而這些動作都沒有被當做指令或獎勵的目標。
傳統的人工智能的編程領域,是有很強的目標導向的。但正是這種強目標導向的研究思路將他們帶入了痛苦的瓶頸期,在瓶頸期中,他們忽然意識到,其實所謂的目標,具有潛在的“欺騙性”。
最典型的實驗是機器人迷宮實驗。以下為其中的一個迷宮示意圖。大圓圈是機器人的初始位置,小圓圈是迷宮的出口——目標點位。
圖4. 機器人迷宮實驗示意圖
· 傳統算法
傳統的目標算法將機器人的目標設定為走出迷宮。此時機器人進展遲緩。原因在于,在這一目標的驅動下,機器人認為所有更靠近終點的行為都是更好的;因此,為了靠近目標,機器人經常會走進具有欺騙性的死胡同,從距離上看,它確實離目標點更近了,但從解決路徑的維度來看,它其實離走出迷宮的正確路徑更遠了。
因此,真正要走出迷宮,反而要先在直線距離上遠離目標點,去找其他出路。
· 新奇性搜索
迭代算法“新奇性搜索”完全沒有設定目標,機器人并不知道它要走出迷宮,機器人只有一個原則——“尋找更新的路徑”。
在這樣的理念驅動下,這套算法會隨機生成一組解決方案,通過評估方案的新奇性并保留新奇性比較高的方案,讓機器人的解決方案,如同生物演化一樣發生一定的變異,如此往復循環,直到達到預定的迭代次數或者將問題徹底解決。
綜上所述,它“只問新不新,不問好不好”,獎勵所有更新奇的測試舉動,并在此基礎上繼續創新。
圖5. 目標在什么情況是有用的?
在初始階段,新奇性搜索和傳統算法差別不大,機器人也是先走進離目標點很近的死胡同,但在算法運行一段時間之后,發現機器人走出迷宮的時間在不斷加速。因為,這樣的算法讓機器人不怕任何試錯,他們會“撞墻”,但通過撞墻,他們很快學會了如何避免撞墻。當機器人繞過了一堵從未繞過的墻,對該行為的繼續優化可能會讓他走的更遠。這跟很多創造性思維相同,一個有趣的想法,往往會啟發其他更有趣的想法。
測試數據顯示,在40次目標導向的實驗中,機器人只成功了3次。而在40次“新奇性搜索”的重復實驗中,卻有39次都成功走出了迷宮。
一個被告知尋求新奇行為的機器人,學會了如何避開墻壁、如何穿行走廊、如何脫離迷宮。
同樣的結果也出現在雙足機器人(biped robot)的實驗中。當把目標設定為用雙腿行走時,機器人的進步很慢,因為目標的欺騙性,機器人認為一切導致摔倒的行為都被認為是“不好”的,從而盡量避免可能導致摔倒的行為。而采用了“新奇性搜索”后,機器人則是去嘗試五花八門的新姿勢,哪怕摔倒,只要以一種從未有過的方式摔倒,也是“好的行為”。
事實證明,機器人從“不會摔倒”到“愿意摔倒”,是個飛躍式進步。
圖6. 通過新奇性搜索發現的雙足機器人行走步態的一個周期,Frame=畫面(1、2、3、4……12)
“新奇性搜索”中的機器人再次碾壓了目標驅動型的實驗表現。它通過不斷嘗試,很快就學會了踢腿以及擺動身體,而這些都是維持平衡的基礎,它也因此更快地實現了行走。
視頻來源:Ke.NETh Stanley: Why Greatness Cannot Be Planned: The Myth of theObjective
值得注意的是,“新奇性搜索”和設定目標情況下的“暴力破解”是不一樣的。暴力破解是“窮盡一切可能”;“新奇性搜索”則傾向于以某種特定順序來產生行為,而順序是探索和發現的關鍵因素。
在目標驅動下,我們期望搜索行為的質量是從壞到好不斷提升的,但是這個好壞判定中隱藏著“欺騙性”,就像那個離目標點很近的死胡同一樣,它看上去更好了,實際上更壞了。然而,“新奇性搜索”因為放棄了目標,就沒有了好壞的判定,它提供了更有趣的順序:從簡單到復雜。
當所有最容易得到的結果耗盡之后,剩下的新行為就會變得復雜。這跟符合認知的順序,就好像不先學會走路,就很難去跳HipHop一樣。同時,信息量和復雜性相輔相成,更復雜的行為包含更多信息,因此越復雜的嘗試中,也越可能包含解決問題的方法。
當嘗試有價值觀指引:新奇和有趣,且搜索范圍足夠廣,好東西就會隨之而來。
偉大的路徑是
一塊塊踏腳石形成的創新鏈
通往偉大的路徑從來都不是直線,而是一塊塊踏腳石形成的創新鏈。
通常我們會認為,目標是清晰可見時,才有希望去實現。然而,面對復雜問題,比如前沿科技的突破,很多時候更像在迷霧重重的沼澤地里尋寶,此時設定目標反而會局限一個人的探索范圍。我們要做的是,尋找一個個踏腳石(Stepping Stones),走向沼澤深處,探索盡可能大的區域。
而這里的“踏腳石”往往是跟“新奇性”掛鉤的。就像前面的例子,一個以雙足行走為目標的機器人,學習的速度遠遠慢于嘗試新奇動作的機器人。因為通往行走的踏腳石,并不是平穩邁步,反而是在不斷嘗新中的摔倒、踢腿和擺動身體。
圖7. 風險投資人保羅·格雷厄姆
被譽為“硅谷之父”的天才程序員,風險投資人保羅·格雷厄姆就說:“在高科技領域的杰出研究,不一定有多完善,但一定是新的!只有使用全新的創意和理論,才會涌現革命性的產品,解決那些前人無法解決的難題。”
回望人類歷史,很多偉大的成就都不是被精心計劃出來。之所以不能設定目標,因為踏腳石無從預測。
比如,微波爐的發明其實源于雷達探測裝置的啟發。電磁波早在20世紀二三十年代就投入使用了,直到1946年,美國軍工企業的一位工程師,在測試雷達時,無意中發現兜里的巧克力融化了,才意識到原來電磁波可以加熱食物。
如果這位工程師的目標只是發明微波爐,那么他肯定不會想到去研究雷達。
與此相似,萊特兄弟發明飛機最早用的是自行車技術。YouTube最早就是個視頻約會網站,后來發現大家喜歡在上面分享五花八門的所有類型的視頻。
這些說明,偉大的路徑源于“妙手偶得”,這可能并不是特例,而是常理。
通往偉大珍寶的路徑從來都不是直線,而是一塊塊踏腳石形成的創新鏈。這種情況下,求新就是求好,出奇就是出色,有趣就是有戲。
好投資不是“優等生”
而是“尋寶者”
在一個“好東西”分布不均勻的世界,即使你有一半時間都在犯錯,最后依然可以贏。
科學作家萬維鋼曾經提到過這種尋寶者心態,他對比了工作生活中常遇到的兩種思維模式:
一是“優等生心態”,就是希望所有功課全優。這樣的人怕犯錯,認為所有失敗都應該被指責,所有浪費都應該反省。
第二種就類似上文提到的“尋寶者心態”,即不斷嘗試各種事情,其中有“對”的事兒,也有“當初看起來不那么對”的事兒。
在確定性的環境中,優等生心態是值得提倡的。比如,如果你是一位老師,你得把每堂課都講好,善待每一個學生。如果你是個廚師,你也得盡量讓每道菜都體現高水平。
但在不確定的環境中,如果你是個企業家、投資人、領導者、科研人員,你就更需要換成尋寶者思維。你不能怕犯錯,而且要不斷嘗試。因為在一個“好東西”分布不均勻的世界,用一句扎心的話講,失敗是普遍的,成功是罕見的。因此,即使你有一半時間都在犯錯,最后依然可以贏。
圖8. 著名收藏家海因茨·貝格魯恩
海因茨·貝格魯恩(Heinz Berggruen)是世界公認的20世紀現代藝術最具影響力的收藏家之一。2000年,貝格魯恩將他收藏的畢加索、布拉克、克利和馬蒂斯的眾多作品中的一部分以1億多歐元的價格賣給了德國政府。這筆交易因為過于劃算,實際上被德國政府看作一筆捐贈——這些藏品的私人市場價超過了10億美元。
一個人能收集數量如此龐大的杰作,實在令人感到震撼。在藝術是一個標準非常主觀的領域。為什么有人能早早預見到未來什么樣的作品會炙手可熱?
是靠眼光?還是靠運氣?
一家投資公司地平線研究集團(Horizon Research)對此提供了第三種解釋。
“偉大的投資者會買入大量的藝術品。”這家公司在報告中寫道,“這些藏品中的一小部分最終會成為價值連城的作品。當投資者持有這些藏品的時間足夠長,這系列投資組合的整體收益就會趨近其中表現最好的部分的收益。發生的一切就是這么簡單。”
總結一句就是,在價格合適的時候以組合形式買入,然后靜靜等待其中的優質標的脫穎而出。即使海因茨·貝格魯恩藏品中的99%都沒有升值,只要剩下的1%是畢加索這種大師,其他都無關緊要。
圖9. 位于柏林的貝格魯恩博物館
巴菲特也在2013年的股東大會上說過,他一生中大概擁有過400-500只股票,而他大部分錢是靠其中的10只股票賺的。芒格馬上補充了一句,說如果把伯克希爾最成功的幾筆投資拿掉,他們的投資成績是非常平庸的。
尋寶要靠搜索,靠試錯。就像芒格一天到晚看報表,因為看得很多才能選出一個好公司。
真正的寶物是搜索出來的,不能只看著遙遠的未來,而是要找到最可達的一塊塊踏腳石,持續探索。
正如美國演員布拉德·皮特(Brad Pitt)接受演員工會獎時的感言所說:“我拍了30年電影,從中發現了一個簡單的道理:有些作品會成功,有些不會。沒必要去深究哪些會成功,繼續拍下去就行。”
尋寶者思維要求你從世間的紛繁復雜中找到那些真正有價值的東西,而真正有價值的東西必定你是有可能錯過的,所以你得盡可能多的去接觸那些可能有價值的東西。
正如肯尼斯·斯坦利和喬爾·雷曼給出的答案:“不拘泥于目標,不要死板地設定具體方案,以興趣為持久動力,以漫游尋寶為心態,才是抵達偉大與成功彼岸的底層邏輯。”
參考資料:
《為什么偉大不能被計劃》 作者:肯尼斯·斯坦利和喬爾·雷曼
《尋寶者思維》 萬維鋼 《讀者》2022年第19期
Novelty Wins, “Straight Toward ObjectiveLoses!”, Reuben Hersh, July 2015, University of New Mexico
Kenneth Stanley: Why Greatness Cannot Be Planned: The Myth of the Objective, Oct 6, 2015, TTI/Vanguard‘s Collaboration and the Workplace of the Future
How Overfocusing on Goals Can Hold Us Back, Andrew J. Smart, Mar 17, 2016, Harvard Business Review
泉果博物館
肯尼斯和喬爾在《為什么偉大不能被計劃》一書中,還講述了貓王和搖滾樂的故事,用來說明他們的觀點——沒有目標,反而有可能通往最偉大的發現。
沒有人試圖去發現搖滾樂,因為無人知道其有沒有存在的可能。搖滾樂的靈感源于爵士樂、布魯斯藍調、福音和鄉村音樂。在某種程度上,上述音樂流派都充當了搖滾樂的踏腳石。
備受尊敬的爵士樂手貝西伯爵(Count Basie)在搖滾樂的誕生過程中起到了思想引領者的作用,他曾說:“如果你想琢磨出一個新的方向,或一種真正的新方法來做某件事,你只需要演奏自己的音樂,然后自由發揮即可。真正的發明家在創作上無非就是‘隨心而動,隨意而行’。”
“貓王”埃爾維斯·普雷斯利在搖滾樂的普及中居功至偉。有趣的是,他極富辨識度的嗓音,也并非刻意的安排。吉他手斯科特·摩爾(Scotty Moore)回憶道:“貓王突然就開始唱一首歌,蹦蹦跳跳得像個傻瓜,然后比爾拿起他的貝斯,也開始裝瘋賣傻,隨后我也被傳染了。錄音師探頭問:‘你們干嘛呢?’我們說:‘我們也不知道。’”
所以誰能想到,正是貓王不經意間的“失心瘋”,而非某種苦心孤詣、旨在改革流行音樂的強烈欲望,改變了搖滾樂的世界。
貓王和搖滾樂的故事說明,目標可能會阻礙新發現,而沒有目標,反而有可能通往最偉大的發現。