日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

李子 技術(shù)社會(huì)學(xué)博士,哥倫比亞大學(xué)醫(yī)學(xué)人文和倫理系博士后研究員

上半年ChatGPT橫空出世,人工智能的潛能展現(xiàn),給許多職業(yè)帶來(lái)了一場(chǎng)生存危機(jī)的探討。GPT能夠通過(guò)律師和工程師資格考試,寫的大學(xué)論文能不掛科,甚至能夠“理解”笑話。它能回答人們的疑問(wèn),組織生動(dòng)的語(yǔ)言結(jié)構(gòu),模仿各式各樣的語(yǔ)言風(fēng)格;而大語(yǔ)言模型和圖像生成 AI 結(jié)合的技術(shù),例如Midjourney,能夠讓絲毫沒(méi)有受過(guò)藝術(shù)訓(xùn)練的人,用只言片語(yǔ)“創(chuàng)造”出驚人的藝術(shù)圖像。

ChatGPT 的本質(zhì),實(shí)際上是大語(yǔ)言模型(Large Language Model,LLM)疊加生成式人工智能。大語(yǔ)言模型,顧名思義,就是大,用海量的語(yǔ)素,用機(jī)器學(xué)習(xí)的方法訓(xùn)練一個(gè)計(jì)算機(jī)模型。生成式,則是用預(yù)測(cè)的方式,在對(duì)話時(shí)把最有可能出現(xiàn)的語(yǔ)素聯(lián)系展示出來(lái)。

對(duì)于知識(shí)“加工”和“消費(fèi)”者而言,大語(yǔ)言模型加上生成式人工智能的能力是巨大的。海量語(yǔ)素?cái)?shù)據(jù)、深度神經(jīng)網(wǎng)絡(luò)和極大的計(jì)算力,相當(dāng)于把整個(gè)來(lái)自互聯(lián)網(wǎng)的知識(shí)“壓平“,再通過(guò)人機(jī)互動(dòng)進(jìn)行“整裝”。

從計(jì)算邏輯上來(lái)講,ChatGPT 相當(dāng)于一個(gè)更加強(qiáng)大的搜索引擎。普通的搜索引擎例如谷歌和百度通過(guò)爬蟲(chóng)的模式“扒”整個(gè)互聯(lián)網(wǎng)的信息,并通過(guò)復(fù)雜的算法進(jìn)行排序。而人工智能使用機(jī)器學(xué)習(xí)的方法,相當(dāng)于把這些扒出來(lái)的信息,用預(yù)測(cè)的方式進(jìn)行了符合語(yǔ)言邏輯的整理。知識(shí)加工變得更加便捷迅速,消費(fèi)變得更加簡(jiǎn)明清晰——有的時(shí)候甚至過(guò)于簡(jiǎn)便,給了考試論文作弊以可乘之機(jī)。

針對(duì)這一點(diǎn),技術(shù)樂(lè)觀主義者認(rèn)為,既然從今以后機(jī)器能夠生成的內(nèi)容,或許也不需要大多數(shù)的人類去動(dòng)腦實(shí)現(xiàn),就如同搜索引擎取代了圖書(shū)館的館藏卡片、計(jì)算器取代珠算一般。的確,那些需要大量重復(fù)的文字類工作,或者機(jī)械的列舉、整理工作,即使 AI 不介入最終決策,確實(shí)也能夠提供相當(dāng)程度的生產(chǎn)力,輔助人類進(jìn)行知識(shí)的加工和消費(fèi)。

那么,讀書(shū)還有用嗎?各大高校、研究機(jī)構(gòu)的人員,是否也可以下班了?

機(jī)器能“學(xué)到”什么

大語(yǔ)言模型和生成式人工智能,為將來(lái)的知識(shí)“生產(chǎn)者”帶來(lái)了一個(gè)繞不過(guò)的課題:何為知識(shí)?如何生產(chǎn)多樣、公正、真實(shí)的知識(shí)?

人工智能的“學(xué)習(xí)”能力是驚人的。現(xiàn)有的大語(yǔ)言模型和人工智能的應(yīng)用,都脫不開(kāi)機(jī)器學(xué)習(xí)作為其底色。“學(xué)習(xí)”二字,實(shí)質(zhì)上是用大量的數(shù)據(jù)訓(xùn)練預(yù)測(cè)模型,并在預(yù)測(cè)的準(zhǔn)確度,以及普適性上找到平衡。這種預(yù)測(cè)實(shí)際上是基于現(xiàn)有知識(shí)的,語(yǔ)言模型的預(yù)測(cè),也是基于現(xiàn)有語(yǔ)言之間的聯(lián)系。例如輸入“紅燒”,機(jī)器預(yù)測(cè)“肉”;然后根據(jù)更多的輸入,例如地點(diǎn),人,習(xí)慣等等,給出更加精確的預(yù)測(cè),比如“外婆做的紅燒牛肉”等等。

這種預(yù)測(cè)是怎么實(shí)現(xiàn)的呢?我們熟悉的坐標(biāo)系是二維的。比如整個(gè)人群中,身高和體重有一個(gè)大致的對(duì)應(yīng)關(guān)系,給出身高,機(jī)器預(yù)測(cè)一個(gè)平均體重,就是基于現(xiàn)有數(shù)據(jù)的預(yù)測(cè)。再加入另一個(gè)維度,比如性別,那么就成為了一個(gè)三維坐標(biāo),男女的預(yù)測(cè)會(huì)有所不同。如此下去,數(shù)據(jù)的維度可以是無(wú)限的,而機(jī)器學(xué)習(xí)的模型,就是在人腦所不能想象的多維空間中尋找此類聯(lián)系,并不斷調(diào)整各個(gè)維度之間的權(quán)重。比如,身高對(duì)體重的預(yù)測(cè)“有多重要”,可以在大量的數(shù)據(jù)輸入之后進(jìn)行調(diào)整。

因此,基于機(jī)器學(xué)習(xí)的人工智能,會(huì)把各種維度的數(shù)據(jù),在更高維度的空間里聯(lián)系起來(lái),有發(fā)現(xiàn)數(shù)據(jù)之間潛在聯(lián)系的能力,也會(huì)“學(xué)到”一些現(xiàn)實(shí)中不存在的、但很可能發(fā)生的聯(lián)系。用在語(yǔ)言模型中,人工智能也能學(xué)習(xí)到不同的語(yǔ)言風(fēng)格,挖掘現(xiàn)有文字中的“精髓”和“問(wèn)題”。

數(shù)據(jù)越大,模型越成熟,其計(jì)算和挖掘能力也越高。類似于 BERT、GPT 這樣誕生于大機(jī)構(gòu)的 AI,被許多人認(rèn)為走到了技術(shù)的“拐點(diǎn)”,量變產(chǎn)生質(zhì)變也不無(wú)道理——這對(duì)于知識(shí)生產(chǎn)者來(lái)講是好事。不過(guò),大模型也有其內(nèi)在的問(wèn)題,模型越大,問(wèn)題也越尖銳,特別是涉及到知識(shí)的多樣、公正和真實(shí)方面。

怎樣才能生產(chǎn)真實(shí)

且公正的知識(shí)?

新的知識(shí)能從現(xiàn)有知識(shí)的連結(jié)和新模式中產(chǎn)生,這一點(diǎn)不管是從人還是機(jī)器的層面都是成立的。然而,現(xiàn)有的知識(shí)是否足夠?是否充分?是否公平?如果現(xiàn)有知識(shí)的基礎(chǔ)是不足的、甚至是有偏見(jiàn)的,那么在此基礎(chǔ)上建立的新知識(shí)也會(huì)產(chǎn)生偏差。

自從機(jī)器學(xué)習(xí)的AI投入大規(guī)模應(yīng)用以來(lái),學(xué)者們就在不斷地揭示出這些模型內(nèi)在的偏見(jiàn):性別歧視、種族歧視、有違倫理的輸出等等。開(kāi)發(fā)者們用各種補(bǔ)丁和糾偏的方式去彌補(bǔ),但大部分問(wèn)題都潛藏于數(shù)據(jù)生產(chǎn)和訓(xùn)練過(guò)程中,而AI的偏見(jiàn),亦是對(duì)社會(huì)偏見(jiàn)的反映和放大。

另外一個(gè)問(wèn)題則是數(shù)據(jù)的質(zhì)量。機(jī)器學(xué)習(xí)不僅牽涉到訓(xùn)練模型的能力,還有數(shù)據(jù)的數(shù)量和質(zhì)量。現(xiàn)有的開(kāi)發(fā)過(guò)程,對(duì)模型的性能有著更多的強(qiáng)調(diào)甚至是迷信,反而會(huì)忽視更底層的數(shù)據(jù)來(lái)源問(wèn)題。現(xiàn)在的大部分?jǐn)?shù)據(jù)都要依賴人工來(lái)清洗和格式,為數(shù)據(jù)分類、打標(biāo)簽等等。很多時(shí)候,這個(gè)制作數(shù)據(jù)的過(guò)程是不透明的,甚至是潦草的。比如,大公司的AI開(kāi)發(fā)背后,是大量“臟亂差”的人工被外包到欠發(fā)達(dá)地區(qū)的“AI工廠”。這種過(guò)程一方面存在著勞工倫理問(wèn)題,另一方面也對(duì)數(shù)據(jù)質(zhì)量提出了挑戰(zhàn)。

到了大模型時(shí)代,這個(gè)問(wèn)題可能會(huì)被隱藏得更深一些:不是每個(gè)研究者或者團(tuán)隊(duì)都有能力從0開(kāi)始開(kāi)發(fā)AI模型,尤其是大語(yǔ)言、大圖像模型,大多都是在現(xiàn)有模型的基礎(chǔ)上進(jìn)行微調(diào)。而大模型本身的問(wèn)題和偏差,會(huì)被遷移到更多的應(yīng)用模型上。而越是底層的偏差,越是難以通過(guò)微調(diào)糾偏的方式進(jìn)行處理。

現(xiàn)有語(yǔ)言模型的預(yù)測(cè)生成模式,甚至還會(huì)將數(shù)據(jù)現(xiàn)有的偏差放大,產(chǎn)生“過(guò)擬合“的效果:例如,某種疾病在某個(gè)族群中統(tǒng)計(jì)數(shù)據(jù)占比偏高,約有60%;但若讓語(yǔ)言模型去生成一個(gè)病人的畫(huà)像,那么有超過(guò)90%的可能,生成的病人描述會(huì)屬于該族群。

現(xiàn)在一些AI的模型訓(xùn)練,采用的是一種“互搏”模式——所謂“生成對(duì)抗網(wǎng)絡(luò)”(generative adversarial.NETwork),讓兩個(gè)模型不斷互相生成、彼此糾正。這種方式的確是提高了模型訓(xùn)練的效率,然而任何小的偏差,都會(huì)在這種“互搏”中被放大。同樣的原理,如果一個(gè)與機(jī)器緊密合作的知識(shí)生產(chǎn)者,其生產(chǎn)依賴于這類“生成”,那么一些來(lái)自于模型的偏見(jiàn),就會(huì)被嵌入更多的新知識(shí)中,新知識(shí)再被吸收為數(shù)據(jù),又進(jìn)一步加強(qiáng)了模型的偏差。知識(shí)生產(chǎn)者在這個(gè)過(guò)程中必須保持警惕。

什么是新知識(shí)?

AI 的“生成”能代表新知識(shí)嗎?

所謂的新知識(shí),究竟是什么?如果要充分使用AI來(lái)生產(chǎn)知識(shí),那么知識(shí)生產(chǎn)者就必須要從人機(jī)的結(jié)合點(diǎn)去思考這個(gè)問(wèn)題。任何信息,以及人類從真實(shí)世界中獲取的知識(shí),都需要被“清洗”和“格式”成數(shù)據(jù)。除了上面提到的數(shù)據(jù)質(zhì)量以外,數(shù)據(jù)生成的過(guò)程也很重要。簡(jiǎn)而言之,人們要研究的問(wèn)題是什么?這個(gè)問(wèn)題被翻譯成為了怎樣的數(shù)據(jù)?這些數(shù)據(jù)是怎么被生產(chǎn)出來(lái)的,又是否全面、公正地代表了知識(shí)生產(chǎn)者們想要研究的問(wèn)題?

這個(gè)問(wèn)題,對(duì)于“傳統(tǒng)”的知識(shí)生產(chǎn)者而言也是成立的。以歷史學(xué)為例,雖然歷史研究的是過(guò)去的事情,但過(guò)去的事情沒(méi)有百分百能夠蓋棺定論的。學(xué)者們通常會(huì)不斷地尋找新的史料,去補(bǔ)充對(duì)于歷史問(wèn)題的理解,去不斷地挖掘過(guò)去被忽略的視角和聲音。有趣的是,當(dāng)下的史學(xué),也常常會(huì)求助于大量的數(shù)據(jù),特別是過(guò)去的經(jīng)濟(jì)、人口、氣候數(shù)據(jù),甚至依靠機(jī)器學(xué)習(xí),為歷史帶來(lái)的新認(rèn)識(shí)、新觀點(diǎn)。

同樣的,依靠機(jī)器生成的認(rèn)識(shí)和觀點(diǎn),也有可能放大了某一些數(shù)據(jù)來(lái)源的重要性。現(xiàn)在的知識(shí)生產(chǎn)者,過(guò)于依賴那些主流的、存在于互聯(lián)網(wǎng)的、電子的信息,去在那些已經(jīng)被別人“翻譯”為數(shù)據(jù)的東西上進(jìn)行創(chuàng)造。在AI時(shí)代,AI 提供的便捷和可延展性,也會(huì)潛在地讓人們更容易忽視沒(méi)有被數(shù)據(jù)化、電子化的,非主流的,經(jīng)驗(yàn)性的知識(shí),從而錯(cuò)過(guò)形成新觀點(diǎn)、新視角的可能性。

往更深層次講,新知識(shí)往往產(chǎn)生于對(duì)于新材料的挖掘,不同觀點(diǎn)、不同視角之間的碰撞,對(duì)于現(xiàn)有知識(shí)的重新解構(gòu)。大語(yǔ)言模型為知識(shí)的展現(xiàn)提供了許多可能性,然而其內(nèi)在的邏輯和架構(gòu)可能是和這種生產(chǎn)方式相悖的。

基于大語(yǔ)言模型的訓(xùn)練方式,和模型生成輸出的特征,排序靠前的、概率更高的輸出內(nèi)容,權(quán)重會(huì)變得更大,特征會(huì)變得更單一。“AI生成的”幾乎已經(jīng)變成了一個(gè)形容詞,去描述那些沒(méi)有特征的、不斷重復(fù)、說(shuō)了像是沒(méi)說(shuō)的片湯話。誠(chéng)然,對(duì)于知識(shí)消費(fèi)者而言,那些“最有可能”出現(xiàn)的答案大大降低了理解門檻;但對(duì)于知識(shí)生產(chǎn)者而言,這些東西反而有可能成為阻礙。

新時(shí)代的知識(shí)生產(chǎn)者

該往哪里走?

可能很多和我一樣的社科研究者,都在使用ChatGPT的時(shí)候遇到過(guò)這個(gè)問(wèn)題:?jiǎn)査忉屢粋€(gè)概念,說(shuō)得頭頭是道;然而問(wèn)起來(lái)源,就是“一本正經(jīng)地胡說(shuō)八道”了,比如列舉出一個(gè)作者從來(lái)沒(méi)寫過(guò)的書(shū)、從來(lái)沒(méi)發(fā)表過(guò)的論文。領(lǐng)域越是狹窄、專業(yè),“胡說(shuō)”的可能性越大。

退回到 AI 的原理,這種“創(chuàng)造”其實(shí)也是在海量的數(shù)據(jù)中,挖掘詞句“有可能”的聯(lián)系,但這些聯(lián)系在現(xiàn)實(shí)中是不存在的,說(shuō)白了只是“聽(tīng)起來(lái)很像”。這種新現(xiàn)象,在當(dāng)下被稱為“幻視”(hallucination)。對(duì)于知識(shí)生產(chǎn)者而言,如何活用人工智能去挖掘現(xiàn)有知識(shí)庫(kù)中的模式和聯(lián)系,但又對(duì)機(jī)器的“幻視”保持警惕,什么存在,什么存疑,是非常重要的技能。

與AI“對(duì)話”,也會(huì)變成一個(gè)新的技能。當(dāng)下的AI對(duì)于大部分非技術(shù)人員而言(甚至技術(shù)人員),依然是一個(gè)神秘的“黑箱”。如何從技術(shù)的底層或者中層入手,去更有效地與機(jī)器對(duì)話,理解和對(duì)抗“幻視”,需要知識(shí)生產(chǎn)者和技術(shù)從業(yè)人員的合作

而對(duì)于新知識(shí)、新視角、新材料的研究,各個(gè)領(lǐng)域獨(dú)有的結(jié)構(gòu)和詮釋,在當(dāng)下依然是十分關(guān)鍵的。大語(yǔ)言模型和生成式AI的預(yù)測(cè)模式,依然是傾向單一、重復(fù)的,越是訓(xùn)練材料少的領(lǐng)域,能力就越是有限。想要機(jī)器和人能力的結(jié)合,就必須從數(shù)據(jù)的生產(chǎn)根源上著手,去用準(zhǔn)確的、多樣的、公正的、新穎的數(shù)據(jù)訓(xùn)練AI模型,建立良性的人機(jī)互動(dòng)模式。

大語(yǔ)言模型和生成式AI的問(wèn)世對(duì)研究人員帶來(lái)的挑戰(zhàn),僅僅是一個(gè)開(kāi)始。與其探討“取代”,不如在更加審慎的目光下,尋求磨合與發(fā)展的可能。

分享到:
標(biāo)簽:ChatGPT
用戶無(wú)頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過(guò)答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定