AGI是Artificial General Intelligence的縮寫,即通用人工智能。
AGI的目標是實現人類般的通用智能,這意味著AI可以像人類一樣理解任意通用任務, 并以人類的智力水平執行完成。
基本上, 除了"自我意識"的生成,AGI就是人類對人工智能的終極夢想了。
無論是近一年來火爆的AI繪畫,還是當紅炸子雞ChatGPT,AI研究應用的終極目標, 都是向著AGI通用人工智能的大一統目標在邁進。
讀者是否有同感, 這幾年各種AI大模型的發展和突破, 著實有讓人眼花繚亂之感?
本文主要把現代到當下一些AI的重要節點做了時間線梳理和簡單分析,或有助于大家來理清楚這些年AI發展的關鍵脈絡。
1942年
時間回到80年前, 科幻泰斗阿西莫夫提出了著名的"機器人三定律”:
機器人不得傷害人類,或坐視人類受到傷害;
除非違背第一定律,否則機器人必須服從人類命令;
除非違背第一或第二定律,否則機器人必須保護自己。
這三個定律是人工智能和機器人技術的哲學基礎,是對如何設計人工智能系統的基本原則的闡述,至今都有著重要的參考意義。
1950年
計算機科學之父艾倫·圖靈(Alan Turing)發表了具有里程碑意義的論文《Computing machinery and Intelligence(計算機器與智能)》。論文預言了創造出具有真正智能的機器的可能性,第一次提出圖靈測試(The Turing test)的概念:
如果一臺機器能夠與人類展開對話(通過電傳設備)而不能被辨別出其機器身份,那么稱這臺機器具有智能。
1956年
AI概念誕生。
美國的達特茅斯學院舉行了一次具有傳奇色彩的學術會議(Dartmouth Conference), 探討用機器模擬人類智能的問題。計算機專家約翰·麥卡錫提出了AI"人工智能”一詞。這被廣泛認為是人工智能正式誕生的日子。參與會議的學者們是最早的AI研究先驅。
從1956年到現代,這幾十年來AI研究的起伏,有興趣的讀者可以參考本號另一篇文章從爆火的chatGPT講起: 自然語言生成式AI的前世今生, 你想了解的一切>
當今大眾關于AI的記憶,或許是從1997年開始的:
1997年
5月11日, IBM公司的電腦"深藍”戰勝了國際象棋世界冠軍卡斯帕羅夫,成為首個擊敗國際象棋世界冠軍的AI系統。
1998年
現代卷積神經網絡CNN誕生。
1980年,日本學者福島邦彥(Kunihiko Fukushima)模仿生物的視覺皮層(visual cortex),設計了人工神經網絡"neocognitron”,這是現代卷積神經網絡的雛形。
經過多年前赴后繼的研究,1998年楊立昆(Yann LeCun,現任Meta首席人工智能科學家)基于前人基礎,構建了更加完備的卷積神經網絡L.NET-5,在手寫數字的識別問題中取得了成功。LeNet-5被認為是現代卷積神經網絡的基本結構。
卷積神經網絡CNN是當今"深度學習"AI模型的計算基礎架構。一直到2017年Transformer架構橫空出世后,CNN才被取代。
2003年
Yoshua Bengio在2003年發表了《A Neural Probabilistic Language Model》,這是第一篇基于人工神經網絡打造自然語言模型的論文,提出了具有奠基意義的NNLM"神經網絡語言模型"。它在得到語言模型的同時也產生了副產品"詞向量"。
2006年
杰弗里·辛頓(Geoffrey Hinton)在science期刊上發表了重要的論文《Reducing the dimensionality of data with neural networks》,提出深度信念網絡(Deep Belief Networks,DBNs),"深度學習"正式誕生。
2009年
李飛飛主導的Image Net正式發布,有超過1000萬數據,兩萬多個類別。為全世界的AI學者提供了開放的標注圖像大數據集。
2010年開始,Image Net大規模視覺識別挑戰賽(ILSVCR)開始舉辦,全世界圖像領域深度學習的專家們同臺競技和交流,從此拉開了計算機視覺的新篇章。
2012年
google的吳恩達和Jef Dean使用1.6萬個CPU(那時的GPU生態還在嬰幼兒階段)訓練了一個當時世界上最大的人工神經網絡,用來教AI繪制貓臉圖片。訓練數據是來自YouTube的1000萬個貓臉圖片,1.6萬個CPU整整訓練了3天。
對于計算機AI領域,這是一次具有突破性意義的嘗試。AI第一次"生成"了一個圖像內容:一張模糊的貓臉
2013年
Google的托馬斯·米科洛夫(Tomas Mikolov)帶領研究團隊發表了論文《Efficient Estimation of word Representations inVector Space》,提出了Word2Vec。
Word2Vec可以根據給定的語料庫,通過優化后的訓練模型可以快速有效地將一個詞語表達成高維空間里的詞向量形式,為自然語言處理領域的應用研究提供了新的工具。
2014年1月
谷歌斥資400億美元收購了位于倫敦的明星人工智能企業DeepMind。
2014年12月
GAN(對抗式生成網絡)誕生。
2014 年,Lan Goodfellow從博弈論中的"二人零和博弈"得到啟發 ,創造性的提出了生成對抗網絡(GAN,Generative Adversarial Networks),他在2014年的NIPS會議上首次發表了相關論文,用兩個神經網絡即生成器(Generator)和判別器(Discriminator)進行對抗。在兩個神經網絡的對抗和自我迭代中,GAN會逐漸演化出強大的能力。
作者在最早的文章里形象的把GAN比喻為偽造者和警察:偽造者總想造出以假亂真的鈔票,而警察則努力用更先進的技術去鑒別真偽。在博弈過程中,雙方都不斷提升了自己的技術水平。
GAN號稱21世紀最強大的算法模型之一,"Gan之父"Ian Goodfellow也一躍成為AI領域的頂級專家。
2015年12月
OpenAI公司于美國舊金山成立。
OpenAI誕生的原因是很有趣的:DeepMind被Google收購的消息震動了硅谷,如果發展下去,DeepMind很有可能成為最早實現AGI通用人工智能的公司。為了打破GoogleAI技術的壟斷,在一次私人聚會后,大佬們一拍即合成立了OpenAI。
其中包括,鋼鐵俠Elon Musk,當時已是著名創業孵化器 Y Combinator 的負責人現在成為OpenAI CEO的Sam Altman,以及著名天使投資人 Peter Thiel等硅谷大佬。
OpenAI作為一個非營利性組織運營,并立志要做DeepMind和Google無法做到的事情:開放和共享AI技術。
從今天的眼光看,盡管OpenAI后來的商業模式有所變化,但絕對實現了它誕生的最大愿景之一:狙擊Google和DeepMind。
ChatGPT的推出加上微軟Bing的推波助瀾搞得Google實在是狼狽不堪。
2015年
11月, Google開源了重要的深度學習框架Tensor Flow;
同年,還是Google,開源了用來分類和整理圖像的 AI 程序 Inceptionism,并命名為 DeepDream。盡管還很初級,但DeepDream被認為是第一個現代的AI繪畫應用。
2016年
3月,Google的AlphaGo戰勝圍棋世界冠軍李世石;
4月,Google深度學習框架TensorFlow發布分布式版本;
9月,Google上線基于深度學習的機器翻譯;
2015到2016年,Google的AI能力可謂是風頭一時無兩。
2017年1月
Facebook人工智能研究院(FAIR)開源了PyTorch。PyTorch和tensorFlow從此成為了當今兩大主流深度學習框架。
2017年7月
Facebook聯合羅格斯大學和查爾斯頓學院藝術史系三方合作得到新AI繪畫模型,號稱創造性對抗網絡(CAN,Creative Adversarial Networks),
CAN在測試中,有53%的觀眾認為AI作品出自人類之手,這是類似的圖靈測試歷史上首次突破半數,這是AI繪畫模型小小而扎實的一步。
Facebook在AI領域其實耕耘了很久,做過很多貢獻,可惜后面搞Metaverse連公司名字都改成Meta了, 差點錯過了當下這波AI的浪潮。
不過最近小札醒悟過來,終于官宣要All in AI。Meta還是很有實力的,奮起直追應為時未晚。
2017年12月
顛覆性的Tranformer架構出世了!
Googl機器翻譯團隊在年底的頂級會議NIPS上發表了里程碑式的論文《Attention is all you need》,提出只使用自注意力(Self Attention)機制來訓練自然語言模型,并給這種架構起了個霸氣的名字:Transformer。
所謂"自我注意力"機制,簡單說就是只關心輸入信息之間的關系,而不再關注輸入和對應輸出的關系。和之前大模型訓練需要匹配的輸入輸出標注數據相比,這是一個革命性的變化。
Transformer徹底拋棄了傳統的CNN和RNN等神經網絡結構。在這篇論文發布之前,主流AI模型都基于CNN卷積神經網絡和RNN循環神經網絡(recurrent neural network); 而之后,便是Transformer一統天下。
Transformer架構的詳細描述不在本文范圍,讀者只需要知道它具有兩點無敵的優勢:
自我注意力機制,讓模型訓練只需使用未經標注的原始數據,而無需再進行昂貴的的人工標注(標注輸入和對應輸出)。
并行效率是之前的AI模型結構被一直詬病的地方。拋棄了傳統CNN/RNN架構后,基于Transformer架構的大模型訓練可以實現高度并行化,這大大提高了模型訓練的效率;
從此,大模型大數據大算力,大力出奇跡,成為了AI領域的標配。
感慨一下,Google首先發明了劃時代的Transformer架構,但在5年后的今天,卻被OpenAI打得喘不過氣。這是命運的偶然嗎?
2018年6月
OpenAI發布了第一版的GPT(Generative Pre-training Transformers)系列模型 GPT-1。
同時,OpenAI發表了論文《Improving Language Understanding by Generative Pre-training》
從論文里可以了解到,GPT-1具有1.17個參數,采用了12層的Transformer 解碼器結構,使用5GB的無標注文本數據,在8個GPU上訓練了一個月,然后再進行人工監督的微調。
不過,GPT-1并不是當年的明星,因為同年,Google的BERT大模型也發布了(當時的Google就是強?。?。
2018年10月
谷歌發布3億參數的BERT(Bidirectional Encoder Representation from Transformers),意思即"來自Transformers的雙向編碼表示”模型。
GPT和BERT的誕生意味著預訓練大模型(Pre-trained Models)成為了自然語言處理領域的主流。
和GPT相比,BERT最大的區別就是使用文本的上下文來訓練模型,而專注于"文本生成"的GPT-1,使用的是上文。
基于"雙向編碼"的能力讓BERT的性能在當時明顯優異于第一代的GPT-1。
幸好,Open AI 并沒有那么容易放棄,一直堅持只用上文訓練的"單向編碼"純生成模式。直到GPT-3,神功初成。
2018年底
在共同創立公司三年后,鋼鐵俠馬斯克辭去了Open AI董事會職務,原因是"為了消除潛在的未來沖突"。
實際情況是,2017年6月,馬斯克挖走了OpenAI的核心人員Andrej Karpathy,擔任Tesla的AI部門主管并直接向自己匯報,負責構建特斯拉的自動駕駛系統。
所以,確實是存在人才競爭"潛在沖突"的。
有趣的是,根據前不久的最新消息,ChatGPT大火之后,Andrej Karpathy同學又離開了Tesla回到了OpenAI。這是所謂"鳥擇良木而棲":)
而馬斯克放出了聲音,要打造OpenAI的競爭者。不知首富同學是否遺憾當年不得不放走了OpenAI。
2019年2月
OpenAI發布了GPT-2。
GPT-2有48層Transformer結構,使用40GB文本數據訓練,參數量突破到了15億。
在同時發布的論文 《Language Models are Unsupervised Multitask Learners》 中,OpenAI描述了GPT2在經過大量無標注數據生成式訓練后,展示出來的零樣本(zero-shot)多任務能力。
所謂零樣本學習就是用很大的通用語料去訓練模型,然后不再需要做特定任務的訓練,大模型就可以直接完成一些具體任務。
一個典型例子是翻譯。GPT-2具備了良好的語言翻譯能力; 而有趣的是,專門做翻譯的模型通常使用標注好的語料(即兩個不同語言的匹配數據)來訓練。但GPT-2并沒有使用這類數據,翻譯效果還超過了很多專職翻譯的小模型。
GPT-2揭示了一個有趣的現象,僅作為生成式任務來訓練打造的大模型,開始具備了多種通用任務能力,比如GPT-2所具備的閱讀理解和翻譯等等。
2019年3-7月
3月份,OpenAI正式宣布重組,成為一家"利潤上限(caped-profit)"的公司,規定了投資收益的上限。這是一個很特別的架構。
而近期披露的OpenAI最新投資架構也再次揭示了這個公司股權結構的與眾不同。簡單的說,OpenAI把自己租借給了微軟,賺到1500億美金后,將重新變為非營利性組織 -- 至少說是這么說的。
5月,Sam Altman辭去了 YC總裁的工作,開始擔任新 OpenAI 的CEO。
7月,重組后的OpenAI拿到了微軟包括Azure云計算資源在內的10億美金投資, 微軟將作為"首選合作伙伴”,今后可獲得OpenAI 技術成果的獨家授權。
自此,OpenAI后續技術成果不再承諾開源。
2020年5月
OpenAI發布了GPT-3。
GPT-3的初始版本在內部代號為"davinci",使用45TB文本數據訓練,有1750億參數。根據公開信息,模型的訓練費用是1200萬美金。因為太貴,只訓練了一次。
隨后,OpenAI發表了近70頁的論文《Language Models are Few-Shot Learner》。這篇論文闡述了大模型的各種新能力,而最重要的就是標題所指出的小樣本(few-shot)學習能力。
"few-shot"是一個專業術語,理解起來也簡單,就是通過少量的幾個例子就能學習一個新的任務。人們發現,GPT-3開始具有類似人類的能力,只要在提示里展示特定任務的幾個示例,GPT-3就能完成新示例的輸出。而無需進行針對性的額外微調訓練。這也被稱之為"上下文學習"(in context learning)
2020年6月
對AI繪畫有重要意義的論文 《Denoising Diffusion Probabilistic Models》發表, 引入了DDPM模型。 作為領域的奠基之作,這篇論文第一次把2015年誕生的Diffusion"擴散模型"用在了圖像生成上。
用擴散模型生成圖像的過程,簡單理解,就是我們熟知的圖片"降噪":把一幅全部是噪點的隨機圖像通過AI算法反復"降噪"到最清晰,一個圖像便生成了。
DDPM的出現把Diffusion擴散模型帶到了一個新的高度。在不久之后,DDPM以及后續的Diffusion擴散模型就全面取代了GAN(生成式對抗網絡),成為了AI繪畫大模型當仁不讓的主流技術。
2020年12月
由于不再認同轉型后的公司文化和戰略,OpenAI的部分核心團隊出走。
12月31日,OpenAI發布新聞稿,宣布其研究副總裁Dario Amodei在OpenAI工作了近五年后離開了OpenAI。
OpenAI正是5年前成立的,這位研究副總看來是妥妥的創始核心。
Dario Amodei帶著一些OpenAI的早期核心員工隨后創辦了Anthropic,推出了ChatGPT的直接競品Claude。
被ChatGPT逼急了的Google最近剛給Anthropic緊急投資了3億美金,以獲得其10%的股份,并綁定了其云計算提供商的身份。
這里說個小知識,加州沒有競業協議,真的是創業者的天堂!
2021年1月
1月11日,Google發表論文《Switch Transformers:Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》,提出了最新語言模型—Switch Transformer。
這個 Switch Transformer 模型以高達 1.6 萬億的參數量打破了 GPT-3 作為最大 AI 模型的統治地位,成為史上首個萬億級語言模型。
然而,時間會證明一切。2年后的今天,這個萬億參數的Switch大模型在當下似乎沒產生任何水花,而千億參數級別的GPT-3.5系列依然風生水起。這是不是說明一個問題:突破千億閾值后,參數多少并不代表一切。
2021年2月
Open AI開源了新的深度學習模型 CLIP(Contrastive Language-Image Pre-Training)。
CLIP是一個多模態模型,用來判斷文字和圖像兩個不同"模態"信息的關聯匹配程度。
在CLIP之前,也有人嘗試過這個方向,但OpenAI最大的創意是直接使用全互聯網上已經標記過的圖像數據,巧妙的避免了海量數據標注的昂貴費用。最后以接近40億的互聯網"文本-圖像"訓練數據打造了CLIP。
這次重要的開源直接推動了各大AI繪畫模型的迅猛發展。CLIP的多模態能力正是各AI繪畫大模型從文字到畫面想象力的核心基礎。
同時,OpenAI還發布了自己基于CLIP的 AI繪畫DALL-E 模型。這或許是大眾聽說的第一個"文本生成圖像"的AI繪畫模型了。
從CLIP到DALL-E,顯然OpenAI走在了AI繪畫大模型潮流的最前端。
只是,OpenAI在AI繪畫模型的商業決策上出現了失誤:因為沒有開放使用DALL-E以及后續DALL-E2,而又開源了關鍵的CLIP模型,導致目前AI繪畫模型的光芒完全被其開源繼承者Stable Diffusion,還有付費的Midjourney服務掩蓋了。
正是在AI繪畫模型上有苦說不出的經歷,直接影響了后來OpenAI管理層的決策:決定在第一時間面向公眾搶先推出 ChatGPT聊天機器人。
2021年4月
華為的盤古NLP大模型發布,號稱是中國第一個千億參數語言大模型。
2021年6月
6 月 30 日,OpenAI 和 GitHub 聯合發布了 AI 代碼補全工具 GitHub Copilot,這個工具可以在 VS Code 編輯器中自動完成代碼片段,也是 OpenAI 拿了微軟 10 億美元之后的第一個重大成果。
而Copilot 的AI技術核心正是OpenAI的新模型CodeX。這個模型在隨后的8月份也對外發布了。
根據相關論文 《Evaluating Large Language Models Trained on Code》,OpenAI基于GPT-3,使用大量公開代碼數據訓練出了Codex模型。
Codex擁有120億參數,使用了159G代碼數據進行訓練,模型可以將自然語言描述轉換為代碼。而效果嗎,看看碼農們對Copilot的贊不絕口就知道了。
AI生成代碼的時代終于到來了。
據稱,Codex的訓練數據來自于公共數據源的數十億行源代碼,而其中最重要的來源,無疑正是微軟所買下的GitHub 這個世界上最大的開源代碼平臺。
使用GitHub代碼訓練模型這個事情還引起了一些程序員關于代碼版權的熱烈討論。
不過,正如畫師們對砸了自己飯碗的AI繪畫大模型怨聲載道而然并卵。。。能力突破的AI對人類初級技能的全面覆蓋,恐怕是一個不得不接受的事實。
從商業角度上看,CodeX的誕生和Copilot的成功證明了OpenAI和微軟的商業合作確實是一個雙贏。
2021年10月
第一個開源的AI繪畫大模型Disco-Diffusion誕生!
發布在Github上的Disco-Diffusion是整個2022年AI繪畫旋風的起點。從Disco-Diffusion開始,AI繪畫大模型突飛猛進的發展讓所有人目不暇接,揭開了AI的新時代。
2021年12月
百度第三代文心語言大模型,2600億參數的ERNIE3.0 Titan發布。
百度文心和華為盤古都是GPT-3量級的模型,關于國產大模型的具體判斷,讀者有興趣可以參考本號國產ChatGPT們的真相>一文
2022 年 3 月
OpenAI發布InstructGPT, 同時發表論文《Training language models to follow instructions with human feedback》。
根據論文,InstructGPT基于GPT-3模型做了進一步微調,并且在模型訓練中加入了人類的反饋評價數據。
這里出現的RLHF "從人類反饋中強化學習",正是后面ChatGPT所依賴的一個關鍵技術。
2022年4月
OpenAI發布了AI繪畫大模型DALL-E 2。
同一時間,面向公眾的付費AI繪畫服務Midjourney也發布了。
和開局王炸,第一年就賺取了大把真金白銀的MidJourney相比,使用受限的DALL-E 2并沒有在大眾人群里產生多少影響力。
如之前所說,OpenAI在繪畫大模型的開放上過于保守了,也許還有優先和微軟技術合作的考量在內...
總之,非常遺憾,繪畫模型的風頭完全被付費的Midjourney和隨后的Stable diffusion搶走。
2022年5月
OpenAI發布代號為text-davinci-002的新版大模型,GPT系列正式邁入3.5時代。
有趣的是,按照OpenAI官方文檔說法:
is a base model,so good for pure code-completion tasks
is an InstructGPT model based on
就是說,代號為code的002號模型是3.5系列的基礎模型,而代號為text的002號模型是基于code 002模型用指令微調技術得到的 (insturctGPT)
如果,OpenAI沒有在模型名字上混淆視聽,一個有趣而合理的推斷是:GPT-3.5系列的基礎核心模型首先是依賴于代碼(Code)大數據訓練,而不是普通文本(Text)訓練的
如果這個推斷差不太多,那么眾多ChatGPT的追隨者們,如希望自家能力真正比肩基于GPT-3.5的ChatGPT, 那必須要補的一課,就是代碼數據的訓練了。
2022年6月
6月15日,谷歌研究院聯合DeepMind和斯坦福大學等在arxiv上發表了一篇論文:《Emergent Abilities of Large Language Models(大語言模型的突現能力)》。
這篇綜述性的文章對過往文獻結論做了整理,研究了5 個語言模型系列(谷歌 LaMDA,PaLM 和 OpenAI 的 GPT-3,以及 DeepMind 的 Gopher,Chinchilla )的 8 種突現能力。如下所示:
其核心要點是:
大模型擁有復雜推理和思維鏈能力。所謂思維鏈,是指在輸入里寫出示例的具體推斷步驟,大模型就可以實時學習這個推理(并不需要重新訓練)并給出相仿示例的正確答案; 并且,大模型可以拆解復雜推理步驟一步步得到最終結果。
思維鏈能力是突然"涌現"的,如上圖,當參數規模超過千億時,思維鏈能力就指數級爆發了。
根據目前觀察,參數達到千億以上的大模型才可能擁有強大的思維鏈能力,而這只是必要條件:有些千億參數大模型沒能展現出思維鏈能力。
事實上,根據OpenAI的內部研究,初始版本的GPT-3 思維鏈能力也很弱,而以為基礎的GPT-3.5版本系列則體現了很強的思維鏈能力。因此,一個有趣的假設是,GPT-3.5系列思維鏈能力的"涌現",除了達到千億參數的基礎條件外,使用代碼進行訓練也是一個必不可少的前提。
這個假設對于碼農來說很容易接受:程序代碼語言本身就特別強調邏輯嚴密性,而且上下文清晰沒有混淆之處(這里特指那些"好"的代碼...)。
所以,如果說學習"好的代碼"能提高人類或者AI的邏輯思維和推理能力,程序員們一定不會反對這種看法。
2022年7月
DeepMind破解了幾乎所有已知的蛋白質結構,其AlphaFold算法數據庫里包含了2億種已知蛋白質結構,這將是人類生命科學的重量級彈藥庫。
被Google收購之后,DeepMind的活力已經大不如前,至少在聚光燈下是如此。這一次,在另一條重要的賽道上,這家老牌團隊還是努力刷出了存在感。
2022年8月
stability.ai開源了Stable Diffusion繪畫大模型的源代碼!
開放模型數據使用的AI模型不少,但開放全部源碼的頂級AI大模型可以說寥寥無幾,Stable Diffusion就是其中最耀眼的開源明星。
Stable Diffusion是當今技術最頂尖的AI繪畫大模型; 基于Stable Diffusion開放的源碼,大游戲公司的自建AI美術資源生產流程,創業小團隊的AI繪畫相關產品,已經如同雨后春筍般涌現出來。
2022年9月
紅杉資本發布了傳播甚廣的文章《生成式AI:一個創造性的新世界》,文中預測,生成式AI有可能創造數百萬億美元的經濟價值。
不得不說,紅杉的嗅覺絕對是這個星球第一的:
僅僅兩個月后,注定載入科技史冊的ChatGPT就發布了。
2022年10月
Meta推出Make-A-Video,Google推出Imagen video,兩巨頭幾乎在同一時間推出了文字生成視頻的模型。
盡管當前"文字生成視頻"的大模型還純屬玩具階段,和已經進入工業生產狀態的AI繪畫模型無法相提并論。但這仍然是個好的開始:人類動動嘴皮子,已經可以生成高質量的音樂和圖畫了; 沒有理由不相信,不久的將來,AI可以直接從文字描述生成高質量的長視頻。
大膽再往前走一步:加上ChatGPT這類AI的文字生成能力,人類很快連編故事都不需要,就可以得到一部電影視頻了。
只是,這一天的到來,人類自己是否已經準備好了呢?
2022年11月
ChatGPT發布。隨后的事情,大家都知道了。
有意思的是,ChatGPT并不在OpenAI原本的產品路線圖上,完全是無心插柳的結果。
我們知道,為了進一步改進GPT-3系列模型,OpenAI走上了"從人類反饋中強化學習"(RLHF)的路子。為了讓AI能持續和人類溝通來不斷反饋完善模型,搞出一個聊天機器人就是最好的用戶測試接口。
基于這么一個簡單的理工男思路,從2022年初開始,團隊開始打造ChatGPT。
然后,打造出了一個驚世駭俗的AI產品。
已有眾多文章360度無死角點評了ChatGPT,這里僅簡單列舉一些有趣的點。
ChatGPT的特點:
ChatGPT具有很強的邏輯推理能力,能拆解復雜的內容,分成多個步驟進行推理,得到最終答案。這也就是"思維鏈"級別的推理能力。
ChatGPT可以主動承認錯誤,聽取用戶意見,并優化答案。
ChatGPT可以質疑不正確的問題,可以承認自身對專業技術的不了解。
ChatGPT的局限性:
一本正經胡說八道:ChatGPT有很強的"創造可信答案"的傾向,會給出有誤導性的回答。而且錯誤隱蔽在正確的信息之中,難以發現。這和生成式AI的本性有關:AI傾向于生成一個看起來正確的內容。
然而,和AI繪畫輸出有點小問題無傷大雅的性質完全不同,這也許是文字生成式AI在應用上的致命問題:
如無法確保輸出的100%正確性,那么其實際應用價值將大打折扣。
輸出對問題措辭敏感:同一個問題,調整提問的方式,可能會得到不同的回答。這意味著輸出結果還不夠穩定。
缺少垂直領域知識:這倒是創業者們的好機會?;贑hatGPT系統打造專屬的垂直領域大模型吧。
算力昂貴:千億參數級別的模型,即使是跑模型應用(不是模型訓練),也需要大量算力。當然了,這是大廠商們云計算的好機會。
2023年2月
OpenAI的CEOSam Altman這幾天剛發了新文章,宣布OpenAI的使命是確保AGI造福全人類:
"長期來看,過渡到一個擁有超級智能的世界可能是人類歷史上最重要,最有希望,最可怕的項目"
列舉一下Sam Altman在文中闡明的OpenAI三原則:
希望 AGI 能夠賦予人類在宇宙中最大程度地繁榮發展的能力
希望 AGI 的好處、訪問權和治理得到廣泛和公平的分享。
希望成功應對巨大風險。在面對這些風險時,理論上似乎正確的事情在實踐中往往比預期的更奇怪。
作為前文的呼應,也列出時間線第一條的"阿西莫夫機器人三定律",相互參考。
機器人不得傷害人類,或坐視人類受到傷害;
除非違背第一定律,否則機器人必須服從人類命令;
除非違背第一或第二定律,否則機器人必須保護自己。
從80年前阿西莫夫的天才想象,到今天,AI能力已真切影響著每一個普通人的生活 (甚至砸掉人的飯碗)。
AGI的愿景仍在不遠的前方,但一個AI的時代已經到來。