本來(lái)準(zhǔn)備一篇文章搞定的,發(fā)現(xiàn)能講的還挺多的。所以,先寫(xiě)這一篇,后面再續(xù)!都是很重要的概念!
請(qǐng)放心,這篇文章不是ChatGPT 生成的。是我一個(gè)字一個(gè)字敲進(jìn)去的。
ChatGPT 一下子火起來(lái)。不過(guò),對(duì)于還沒(méi)有認(rèn)真研究這個(gè)領(lǐng)域的做數(shù)字營(yíng)銷(xiāo)的朋友而言,很多術(shù)語(yǔ)撲面而來(lái),理解起來(lái)太費(fèi)勁。
畢竟,我們做數(shù)字營(yíng)銷(xiāo),是ChatGPT 等AIGC技術(shù)的應(yīng)用者,但不是開(kāi)發(fā)者。可是,如果不了解重要概念,在應(yīng)用時(shí)候就會(huì)難以真正理解背后的原理,就會(huì)被具體的功能牽著鼻子走,而難以有創(chuàng)新。
所以,下面這些“黑話”,以及背后的邏輯,我們有必要知道。
GPT
GPT是“Generative Pre-trained Transformer”
(生成型預(yù)訓(xùn)練變換模型)的縮寫(xiě),目的是為了使用深度學(xué)習(xí)生成人類(lèi)可以理解的自然語(yǔ)言。
理解人類(lèi)自然語(yǔ)言的模型有多種,GPT只是其中的一種。另一種很著名的模型是BERT 模型(后面會(huì)講)。
GPT也不只是用在跟你“聊天”上的ChatGPT ,它還有更底層作為基座的InstructGPT 。
目前我們討論的GPT一般指的是GPT-3以及它的升級(jí)版GPT-3.5,但GPT目前已經(jīng)到了第四版,也就是GPT-4 。
GPT-3 是由人工智能公司OpenAl 訓(xùn)練與開(kāi)發(fā),該模型設(shè)計(jì)基于谷歌開(kāi)發(fā)的變換語(yǔ)言模型(Transformer 模型,后面會(huì)提到)。OpenAI 于 2020 年 5 月發(fā)表了GPT-3 的論文,微軟在 2020 年 9 月 22 日宣布取得了GPT-3 的獨(dú)家授權(quán)。
所以,現(xiàn)在大家都說(shuō),微軟贏麻了,谷歌慌得了,就是因?yàn)镃hatGPT 微軟的“勢(shì)力范圍”。
畢竟,如果所有人都找ChatGPT 問(wèn)問(wèn)題,而不在搜索引擎上搜索,谷歌的廣告業(yè)務(wù)不就芭比Q了嗎?
但,遲早人們可以用自然語(yǔ)言跟機(jī)器對(duì)話得到問(wèn)題的答案。搜索引擎作為信息入口的功能,肯定會(huì)被既能直接提供答案,又能作為信息入口的GPT等新方式所取代。
生成式AI 和判別式AI
生成式AI ,就是幫你做東西的AI。判別式AI ,就是機(jī)器能夠幫助辨別東西的AI,也叫決策式AI 。
比如,ChatGPT,在你提問(wèn)之后說(shuō)話給你巴拉巴拉一大堆,這就是生成式AI。你讓一個(gè)作圖AI,按照你提的要求做個(gè)畫(huà),這也是生成式AI。
生成式AI 為啥火,因?yàn)樗軌蛑苯禹憫?yīng)人,直接跟人交流,這是人們最期待的AI 方式。就跟《星際穿越》里面的TARS 機(jī)器人一樣。
判別式AI ,也挺重要的,典型的就是讓機(jī)器具有像人一樣的認(rèn)識(shí)能力。比如,人工視覺(jué)、聽(tīng)音識(shí)曲、自動(dòng)感知后自動(dòng)判別然后再自動(dòng)決策等。我們數(shù)字營(yíng)銷(xiāo)行業(yè)的營(yíng)銷(xiāo)自動(dòng)化(MA ),就很可以利用上判別式AI 。比如,自主判別某個(gè)用戶是否屬于高機(jī)會(huì)型潛在客戶,然后自動(dòng)為他提供相應(yīng)的商業(yè)信息或營(yíng)銷(xiāo)誘餌。
生成式AI 和判別式AI 沒(méi)有孰優(yōu)孰劣之分,它們是機(jī)器智能的兩個(gè)必備能力。就如同人,既要有判斷力,也要有創(chuàng)造力。既能有決定做不做一件事情的能力,也要有能夠把事情做出來(lái)的能力。兩種AI 就是對(duì)應(yīng)的人的這兩種能力。
語(yǔ)料
語(yǔ)言的材料。這個(gè)詞并不是在ChatGPT 等自然語(yǔ)言AI產(chǎn)生之后才產(chǎn)生的。例如,我們學(xué)習(xí)一門(mén)外語(yǔ),也需要語(yǔ)料。畢竟,沒(méi)有人天生就懂一門(mén)自己從來(lái)沒(méi)有見(jiàn)過(guò)的語(yǔ)言。
我時(shí)常在想,當(dāng)中國(guó)人第一次接觸英語(yǔ)的時(shí)候,是誰(shuí)這么聰明,能第一個(gè)學(xué)會(huì)英語(yǔ)呢?肯定是一個(gè)“中外混血兒”,他的媽媽是老外,爸爸是中國(guó)人吧!
但事實(shí)上,并不需要這樣,據(jù)說(shuō)最早學(xué)會(huì)外語(yǔ)的中國(guó)人是學(xué)者,或者應(yīng)該說(shuō),最早學(xué)會(huì)中文的外國(guó)人是學(xué)者(南懷仁、湯若望這些),然后他們又教會(huì)中國(guó)人學(xué)會(huì)外語(yǔ)。他們?cè)趺磳W(xué)會(huì)的?就是基于生活在中國(guó)(或者外國(guó)),而擁有了豐富的語(yǔ)料資源。
語(yǔ)料的英語(yǔ)是Corpus,字典上的解釋是:一套書(shū)面文本,特別是某一特定作者的全部作品或某一特定主題的寫(xiě)作。
在ChatGPT 等模型中,語(yǔ)料被分解為T(mén)oken 和各種向量關(guān)系,通過(guò)預(yù)訓(xùn)練的方式,人們基于這些Token 和向量關(guān)系,建立起各種參數(shù)和模型,成為可被機(jī)器“消化、吸收”的原始學(xué)習(xí)素材。
所以,語(yǔ)料是ChatGPT的原材料,沒(méi)有語(yǔ)料,就沒(méi)有ChatGPT。
我這篇文章,未來(lái)就有很大可能成為某些自然語(yǔ)言人工智能模型的語(yǔ)料。
Token
Token 是語(yǔ)言模型用于處理和生成文本的文本單位。我們通常認(rèn)為,一個(gè)單詞就是一個(gè)Token,但實(shí)際上并不如此,比如OpenAI 算兩個(gè)token,分別是open和ai,再比如ChatGPT是chat 、g、p 和t 這四個(gè)token。
Token對(duì)ChatGPT至關(guān)重要,是ChatGPT理解和生成語(yǔ)言的最基本元素。
在用戶輸入一段話后,它使用一個(gè)分詞算法將每個(gè)輸入的單詞拆分成token 。例如,“Hello world!”將被拆分為3個(gè) token :[“Hello”,“world”,“!”]。“I’m hAppy