生成式人工智能由來已久。一些資料顯示,它早在 20 世紀 50 年代就已出現。其他資料則指出,最早的初級聊天機器人出現在 20 世紀 60 年代。無論真正的起源點是什么,我們都認為,與過去一年中出現的大量研究論文、應用、新聞報道、博客文章和對話相比,這些都只是歷史時間軸上的小石子,尤其是隨著生成式人工智能在計算機視覺模型(圖像和視頻的深度學習,包括穩定擴散、Midjourney 和 DALL-E)和大型語言模型(文本和語言的深度學習,包括 GPT-3、GPT-4 和本文標題中提到的杰出范例)的出現。
生成式人工智能(Generative AI)是人工智能(AI)的一個領域,其重點是訓練和部署能夠生成新的原創內容的系統,例如從某類內容的歷史訓練實例中創建新穎的文本、圖像、音樂或視頻。雖然這可以應用于結構化數據(如數據表、時間序列和數據庫),但當它應用于非結構化數據(圖像和文本)時,更具有開創性和全球新聞價值。與依賴于預定義規則和模式的傳統人工智能模型不同,生成式人工智能模型能夠通過學習大量先前的數據產生新穎的輸出結果。生成式人工智能的核心是機器學習(ML)和統計學的概念。(當然,統計學習和機器學習已經密切相關)。
關于生成式人工智能中出現的 ML 的具體方面,ML 的一個子集被稱為無監督學習,用于學習給定數據集中重復出現的模式和結構。然后,這些模式就會成為 "具有統計超能力的積木"(請原諒我的夸張),然后可以將其組合成邏輯上有意義、統計上可行的分組,生成與訓練數據(文本或圖像)非常相似的新內容(通常是令人印象深刻的新內容)。這一過程屬于無監督學習,因為它的目的不是對已知模式進行分類、標記或復制(監督學習),而是在非結構化數據中發現復雜模式(有點像獨立分量分析 ICA 的一般形式,與主分量分析 PCA 相似,但并不相同)。ICA 用于信號處理(如盲源分離或 "雞尾酒會問題"),它是一種計算方法,用于識別復雜信號并將其分離為一組獨立的加法子分量。
關于在生成式人工智能中出現的統計學方面,我們會遇到許多作為馬爾可夫模型和貝葉斯學習基礎的關鍵統計學概念(因此,生成式人工智能起源于 20 世紀 50 年代)。為這些方法提供支持的條件概率的歷史可以追溯到更久遠的年代,其中最著名的當然是托馬斯-貝葉斯(Thomas Bayes)牧師(貝葉斯定理發表于 1763 年)。生成式人工智能利用條件概率對極其復雜和龐大的多元數據進行處理,計算出這些構件(無監督 ML 學習到的模式和結構)最有可能的組合,以響應用戶的查詢(即用戶提示)。
因此,生成式人工智能構建新穎輸出能力的 "秘訣 "由三個基本結構組成:(1) 儲存所有可能成分的倉庫(即訓練數據中的 ML 學習模式和結構);(2) 用戶的意圖(即用戶查詢中提供的大量個性化請求的菜單選項,用戶查詢是指明用戶需要的提示類別);(3) 配方(即計算成分組合和順序的統計模型,將生成在統計上最有可能滿足用戶查詢的輸出)。
為了在這里增加一點色彩,查詢的“上下文” 從根本上說也很重要,但我希望生成式人工智能的“個性化” 部分已經體現在指明用戶意圖的提示中了。要獲得最佳(信息量最大、最令人滿意、最個性化)的響應,很大程度上取決于在良好的提示工程中提供良好的上下文,而這正在成為“未來工作” 的一項新工作技能。
在寫這篇文章時,我決定用 ChatGPT 來實例化我的食物隱喻。于是,我向 ChatGPT 提出了一個問題:“給我一個使用夏威夷當地水果和香料的派的食譜”。下面是回復:“Kirk Borne 向 ChatGPT 詢問夏威夷派的食譜”(具體食譜此文略)。我要結束這篇博客,現在就去做一個派。
雖然這一切如此誘人,令人興奮、令人振奮,而且具有爆炸性的變革意義,但我們也必須接受教育。更準確的說,在企業高管和其他領導者因為害怕落后于競爭對手和其他市場而出現“FOMO”現象,說 “馬上給我一些生成式人工智能”之前,需要為任何此類部署在企業內取得成功和富有成效奠定基礎。配方中有哪些關鍵成分?這里有三個:
- 數據素養:人們需要了解數據以及數據如何提供業務洞察力和價值;企業中存在哪些類型的數據;這些數據存放在哪里;誰在使用這些數據;數據用于哪些業務目的;訪問和使用這些數據有哪些道德(管理或法律)要求;以及這些數據最終是否足以用于訓練生成式人工智能(大型語言或視覺模型)?
- 數據質量:還用說嗎?好吧,我來說:GIGO “垃圾進,垃圾出!”在黑盒子 ML 模型中,尤其是那些消耗大量數據的模型(如深度學習、人工智能和生成式人工智能),臟數據的危害更大。如果數據不干凈,模型的可解釋性就毫無意義,模型的可信度也會喪失。
- 數據/ML 工程基礎架構:在數據科學家的筆記本電腦上運行的探索性 ML 模型與在整個業務中運行的已部署、已驗證、已管理和全企業范圍的模型之間存在著巨大的差異,企業對后者下了很大的賭注并產生了極大的依賴。基礎設施必須為人工智能做好準備,其中包括網絡、存儲和計算基礎設施。如果沒有這種彈性基礎,在董事會上運行首席執行官筆記本電腦上的 ML 模型可能比在最糟糕的時候出現的生成式人工智能“演示惡魔”更好。
原文標題:I bet you think this article is about ChatGPT
原文作者:Kirk Borne