李子 技術社會學博士,哥倫比亞大學醫學人文和倫理系博士后研究員
上半年ChatGPT橫空出世,人工智能的潛能展現,給許多職業帶來了一場生存危機的探討。GPT能夠通過律師和工程師資格考試,寫的大學論文能不掛科,甚至能夠“理解”笑話。它能回答人們的疑問,組織生動的語言結構,模仿各式各樣的語言風格;而大語言模型和圖像生成 AI 結合的技術,例如Midjourney,能夠讓絲毫沒有受過藝術訓練的人,用只言片語“創造”出驚人的藝術圖像。
ChatGPT 的本質,實際上是大語言模型(Large Language Model,LLM)疊加生成式人工智能。大語言模型,顧名思義,就是大,用海量的語素,用機器學習的方法訓練一個計算機模型。生成式,則是用預測的方式,在對話時把最有可能出現的語素聯系展示出來。
對于知識“加工”和“消費”者而言,大語言模型加上生成式人工智能的能力是巨大的。海量語素數據、深度神經網絡和極大的計算力,相當于把整個來自互聯網的知識“壓平“,再通過人機互動進行“整裝”。
從計算邏輯上來講,ChatGPT 相當于一個更加強大的搜索引擎。普通的搜索引擎例如谷歌和百度通過爬蟲的模式“扒”整個互聯網的信息,并通過復雜的算法進行排序。而人工智能使用機器學習的方法,相當于把這些扒出來的信息,用預測的方式進行了符合語言邏輯的整理。知識加工變得更加便捷迅速,消費變得更加簡明清晰——有的時候甚至過于簡便,給了考試論文作弊以可乘之機。
針對這一點,技術樂觀主義者認為,既然從今以后機器能夠生成的內容,或許也不需要大多數的人類去動腦實現,就如同搜索引擎取代了圖書館的館藏卡片、計算器取代珠算一般。的確,那些需要大量重復的文字類工作,或者機械的列舉、整理工作,即使 AI 不介入最終決策,確實也能夠提供相當程度的生產力,輔助人類進行知識的加工和消費。
那么,讀書還有用嗎?各大高校、研究機構的人員,是否也可以下班了?
機器能“學到”什么
大語言模型和生成式人工智能,為將來的知識“生產者”帶來了一個繞不過的課題:何為知識?如何生產多樣、公正、真實的知識?
人工智能的“學習”能力是驚人的。現有的大語言模型和人工智能的應用,都脫不開機器學習作為其底色。“學習”二字,實質上是用大量的數據訓練預測模型,并在預測的準確度,以及普適性上找到平衡。這種預測實際上是基于現有知識的,語言模型的預測,也是基于現有語言之間的聯系。例如輸入“紅燒”,機器預測“肉”;然后根據更多的輸入,例如地點,人,習慣等等,給出更加精確的預測,比如“外婆做的紅燒牛肉”等等。
這種預測是怎么實現的呢?我們熟悉的坐標系是二維的。比如整個人群中,身高和體重有一個大致的對應關系,給出身高,機器預測一個平均體重,就是基于現有數據的預測。再加入另一個維度,比如性別,那么就成為了一個三維坐標,男女的預測會有所不同。如此下去,數據的維度可以是無限的,而機器學習的模型,就是在人腦所不能想象的多維空間中尋找此類聯系,并不斷調整各個維度之間的權重。比如,身高對體重的預測“有多重要”,可以在大量的數據輸入之后進行調整。
因此,基于機器學習的人工智能,會把各種維度的數據,在更高維度的空間里聯系起來,有發現數據之間潛在聯系的能力,也會“學到”一些現實中不存在的、但很可能發生的聯系。用在語言模型中,人工智能也能學習到不同的語言風格,挖掘現有文字中的“精髓”和“問題”。
數據越大,模型越成熟,其計算和挖掘能力也越高。類似于 BERT、GPT 這樣誕生于大機構的 AI,被許多人認為走到了技術的“拐點”,量變產生質變也不無道理——這對于知識生產者來講是好事。不過,大模型也有其內在的問題,模型越大,問題也越尖銳,特別是涉及到知識的多樣、公正和真實方面。
怎樣才能生產真實
且公正的知識?
新的知識能從現有知識的連結和新模式中產生,這一點不管是從人還是機器的層面都是成立的。然而,現有的知識是否足夠?是否充分?是否公平?如果現有知識的基礎是不足的、甚至是有偏見的,那么在此基礎上建立的新知識也會產生偏差。
自從機器學習的AI投入大規模應用以來,學者們就在不斷地揭示出這些模型內在的偏見:性別歧視、種族歧視、有違倫理的輸出等等。開發者們用各種補丁和糾偏的方式去彌補,但大部分問題都潛藏于數據生產和訓練過程中,而AI的偏見,亦是對社會偏見的反映和放大。
另外一個問題則是數據的質量。機器學習不僅牽涉到訓練模型的能力,還有數據的數量和質量。現有的開發過程,對模型的性能有著更多的強調甚至是迷信,反而會忽視更底層的數據來源問題。現在的大部分數據都要依賴人工來清洗和格式,為數據分類、打標簽等等。很多時候,這個制作數據的過程是不透明的,甚至是潦草的。比如,大公司的AI開發背后,是大量“臟亂差”的人工被外包到欠發達地區的“AI工廠”。這種過程一方面存在著勞工倫理問題,另一方面也對數據質量提出了挑戰。
到了大模型時代,這個問題可能會被隱藏得更深一些:不是每個研究者或者團隊都有能力從0開始開發AI模型,尤其是大語言、大圖像模型,大多都是在現有模型的基礎上進行微調。而大模型本身的問題和偏差,會被遷移到更多的應用模型上。而越是底層的偏差,越是難以通過微調糾偏的方式進行處理。
現有語言模型的預測生成模式,甚至還會將數據現有的偏差放大,產生“過擬合“的效果:例如,某種疾病在某個族群中統計數據占比偏高,約有60%;但若讓語言模型去生成一個病人的畫像,那么有超過90%的可能,生成的病人描述會屬于該族群。
現在一些AI的模型訓練,采用的是一種“互搏”模式——所謂“生成對抗網絡”(generative adversarial.NETwork),讓兩個模型不斷互相生成、彼此糾正。這種方式的確是提高了模型訓練的效率,然而任何小的偏差,都會在這種“互搏”中被放大。同樣的原理,如果一個與機器緊密合作的知識生產者,其生產依賴于這類“生成”,那么一些來自于模型的偏見,就會被嵌入更多的新知識中,新知識再被吸收為數據,又進一步加強了模型的偏差。知識生產者在這個過程中必須保持警惕。
什么是新知識?
AI 的“生成”能代表新知識嗎?
所謂的新知識,究竟是什么?如果要充分使用AI來生產知識,那么知識生產者就必須要從人機的結合點去思考這個問題。任何信息,以及人類從真實世界中獲取的知識,都需要被“清洗”和“格式”成數據。除了上面提到的數據質量以外,數據生成的過程也很重要。簡而言之,人們要研究的問題是什么?這個問題被翻譯成為了怎樣的數據?這些數據是怎么被生產出來的,又是否全面、公正地代表了知識生產者們想要研究的問題?
這個問題,對于“傳統”的知識生產者而言也是成立的。以歷史學為例,雖然歷史研究的是過去的事情,但過去的事情沒有百分百能夠蓋棺定論的。學者們通常會不斷地尋找新的史料,去補充對于歷史問題的理解,去不斷地挖掘過去被忽略的視角和聲音。有趣的是,當下的史學,也常常會求助于大量的數據,特別是過去的經濟、人口、氣候數據,甚至依靠機器學習,為歷史帶來的新認識、新觀點。
同樣的,依靠機器生成的認識和觀點,也有可能放大了某一些數據來源的重要性。現在的知識生產者,過于依賴那些主流的、存在于互聯網的、電子的信息,去在那些已經被別人“翻譯”為數據的東西上進行創造。在AI時代,AI 提供的便捷和可延展性,也會潛在地讓人們更容易忽視沒有被數據化、電子化的,非主流的,經驗性的知識,從而錯過形成新觀點、新視角的可能性。
往更深層次講,新知識往往產生于對于新材料的挖掘,不同觀點、不同視角之間的碰撞,對于現有知識的重新解構。大語言模型為知識的展現提供了許多可能性,然而其內在的邏輯和架構可能是和這種生產方式相悖的。
基于大語言模型的訓練方式,和模型生成輸出的特征,排序靠前的、概率更高的輸出內容,權重會變得更大,特征會變得更單一。“AI生成的”幾乎已經變成了一個形容詞,去描述那些沒有特征的、不斷重復、說了像是沒說的片湯話。誠然,對于知識消費者而言,那些“最有可能”出現的答案大大降低了理解門檻;但對于知識生產者而言,這些東西反而有可能成為阻礙。
新時代的知識生產者
該往哪里走?
可能很多和我一樣的社科研究者,都在使用ChatGPT的時候遇到過這個問題:問它解釋一個概念,說得頭頭是道;然而問起來源,就是“一本正經地胡說八道”了,比如列舉出一個作者從來沒寫過的書、從來沒發表過的論文。領域越是狹窄、專業,“胡說”的可能性越大。
退回到 AI 的原理,這種“創造”其實也是在海量的數據中,挖掘詞句“有可能”的聯系,但這些聯系在現實中是不存在的,說白了只是“聽起來很像”。這種新現象,在當下被稱為“幻視”(hallucination)。對于知識生產者而言,如何活用人工智能去挖掘現有知識庫中的模式和聯系,但又對機器的“幻視”保持警惕,什么存在,什么存疑,是非常重要的技能。
與AI“對話”,也會變成一個新的技能。當下的AI對于大部分非技術人員而言(甚至技術人員),依然是一個神秘的“黑箱”。如何從技術的底層或者中層入手,去更有效地與機器對話,理解和對抗“幻視”,需要知識生產者和技術從業人員的合作。
而對于新知識、新視角、新材料的研究,各個領域獨有的結構和詮釋,在當下依然是十分關鍵的。大語言模型和生成式AI的預測模式,依然是傾向單一、重復的,越是訓練材料少的領域,能力就越是有限。想要機器和人能力的結合,就必須從數據的生產根源上著手,去用準確的、多樣的、公正的、新穎的數據訓練AI模型,建立良性的人機互動模式。
大語言模型和生成式AI的問世對研究人員帶來的挑戰,僅僅是一個開始。與其探討“取代”,不如在更加審慎的目光下,尋求磨合與發展的可能。