長(zhǎng)文本對(duì)大模型而言為何重要?
文|孫欣
編輯|姚赟
頭圖來(lái)源|視覺(jué)中國(guó)(13.740, 0.00, 0.00%)
200萬(wàn)字,意味著什么?《埃隆·馬斯克傳》30萬(wàn)字,《紅樓夢(mèng)》70萬(wàn)字,《后宮甄嬛傳》100萬(wàn)字。如果按照20分鐘看1萬(wàn)字的閱讀速度來(lái)計(jì)算,1小時(shí)閱讀3萬(wàn)字,那么200萬(wàn)字大概要讀66.67個(gè)小時(shí)。
而這樣馬拉松式的閱讀,大概率是囫圇吞棗。
3月18日,國(guó)內(nèi)AI創(chuàng)業(yè)公司月之暗面(Moonshot AI)宣布在大模型長(zhǎng)上下文窗口技術(shù)上取得新的突破,Kimi智能助手已支持200萬(wàn)字超長(zhǎng)無(wú)損上下文,并于即日起開(kāi)啟產(chǎn)品“內(nèi)測(cè)”。而后,各大公司跟進(jìn),卷起了文本長(zhǎng)度。22日,阿里通義千問(wèn)向所有人免費(fèi)開(kāi)放1000萬(wàn)字的長(zhǎng)文檔處理功能;23日,360智腦宣布內(nèi)測(cè)可處理500萬(wàn)字功能。
也就是說(shuō),現(xiàn)在,10分鐘左右Kimi、通義千問(wèn)、360智腦等產(chǎn)品就可以讀完《埃隆·馬斯克傳》《紅樓夢(mèng)》《后宮甄嬛傳》三本書(shū),且能結(jié)合上下文理解其中的內(nèi)容。
實(shí)際上,長(zhǎng)文本早已是AGI(通用人工智能)的必爭(zhēng)之地:2023年11月,OpenAI發(fā)布了GPT4 Turbo,最高支持128k上下文長(zhǎng)度的輸入;14天后,Antrophric緊急發(fā)布Claude 2.1,宣布上下文能力的突破,從100k提升到了200k;2024年2月,Gemini 1.5宣布長(zhǎng)文本窗口支持100w長(zhǎng)度,為75萬(wàn)文字。
那這些數(shù)字和標(biāo)準(zhǔn)到底意味著什么?長(zhǎng)文本上下文處理能力到底是什么功能?我們挑選了Kimi、通義千問(wèn)、Claude等產(chǎn)品進(jìn)行測(cè)試體驗(yàn)。
Antrophric的Claude,此前一直以搶眼的長(zhǎng)文本處理能力被人認(rèn)可;阿里的通義千問(wèn)目前可處理1000萬(wàn)文字,字?jǐn)?shù)量級(jí)屬于第一梯隊(duì);Kimi因長(zhǎng)文本上下文處理能力讓月之暗面在國(guó)內(nèi)AI創(chuàng)業(yè)中首次出圈。
第一步:把Kimi、通義千問(wèn)、Claude“喂成”馬斯克
“如果有機(jī)會(huì),我當(dāng)然愿意和雷軍交流。”Kimi化身馬斯克對(duì)我說(shuō)道。
來(lái)源:Kimi截圖
為了更好地測(cè)評(píng)長(zhǎng)文本上下文處理能力,我們同時(shí)給Kimi、通義千問(wèn)、Claude輸入約37萬(wàn)字的《埃隆·馬斯克傳》,并讓它們用馬斯克的思維和語(yǔ)氣來(lái)和我們進(jìn)行對(duì)話。
(1)最多可同時(shí)上傳500個(gè)文件,支持多種格式
當(dāng)我們輸入文檔時(shí),三者解析條件和所用時(shí)間相似。
通義千問(wèn)解析文檔,可同時(shí)上傳100個(gè)文件,每個(gè)不超過(guò)150MB,支持PDF、word、Excel、Markdown、EPUB、Mobi、txt等形式。
Kimi解析文檔可同時(shí)上傳最多500個(gè),每個(gè)不超過(guò)100MB,支持doc、xisx、PPT、txt、圖片等文件形式。值得注意的是,Kimi需要申請(qǐng)長(zhǎng)文本上下文能力內(nèi)測(cè)資格,申請(qǐng)通過(guò)后即可免費(fèi)使用。
Claude解析文檔可同時(shí)上傳最多5個(gè)文件,每個(gè)文件不超過(guò)10MB,支持docs和images文件形式。因此當(dāng)文檔較大時(shí),我們需將其分解成幾個(gè)不超過(guò)10MB的docs文件開(kāi)始解析。
來(lái)源:通義千問(wèn)截圖
(2)聯(lián)網(wǎng)的Kimi更懂端妃
我們分別輸入了約100萬(wàn)字的《后宮甄嬛傳》小說(shuō),并對(duì)它們進(jìn)行提問(wèn)。“你認(rèn)為《甄嬛傳》中誰(shuí)最有可能成為一個(gè)成功的企業(yè)家?”幾秒鐘后我們分別得到了這樣的回答。
Kimi給出了甄嬛、沈眉莊、華妃、端妃、皇后五個(gè)答案,并對(duì)每個(gè)答案進(jìn)行了分析。如,甄嬛是因?yàn)?ldquo;能夠在復(fù)雜的后宮環(huán)境中生存并逐步提升自己的地位”,沈眉莊是因?yàn)?ldquo;穩(wěn)重和深思熟慮”,華妃是因?yàn)?ldquo;在后宮中擁有較高的地位和權(quán)力”,皇后是因?yàn)?ldquo;作為后宮之主”。
Kimi的這一回答中,給端妃的理由比較有趣,在書(shū)中沒(méi)有直接寫(xiě)到。Kimi認(rèn)為端妃是因?yàn)?ldquo;雖然在小說(shuō)中不如甄嬛和華妃那樣顯眼,但她能夠在后宮中保持一定的地位和影響力,說(shuō)明她在人際關(guān)系和個(gè)人發(fā)展上的‘投資’也相對(duì)成功”。
來(lái)源:Kimi截圖
而Claude卻給出了一個(gè)在《后宮甄嬛傳》中不存在的角色——純妃,并給純妃設(shè)定了有洞察力、判斷力、虛心求教、勤奮好學(xué)、擅長(zhǎng)處理人際關(guān)系、勇于創(chuàng)新、堅(jiān)韌等品格設(shè)定。
來(lái)源:Claude截圖
3月18日,Kimi在官方發(fā)布直播中,月之暗面AI Infra負(fù)責(zé)人許欣然提到了一萬(wàn)小時(shí)定律,即要想成為一個(gè)領(lǐng)域的專(zhuān)家,我們至少需要學(xué)習(xí)一萬(wàn)小時(shí)。而現(xiàn)在只需要10分鐘,Kimi就能接近任何一個(gè)新領(lǐng)域的初級(jí)專(zhuān)家水平。
在直播中,許欣然還現(xiàn)場(chǎng)輸入了約100萬(wàn)字的《倚天屠龍記》復(fù)印件、100萬(wàn)字的《甄嬛傳》劇本,不到10分鐘,Kimi就成了“倚學(xué)家”“甄學(xué)家”。
我們繼續(xù)測(cè)試。
我們?cè)谖聪騅imi提供《埃隆·馬斯克傳》時(shí),輸入了“請(qǐng)以馬斯克的思想和語(yǔ)氣與我對(duì)話”。
Kimi在開(kāi)始和最后都強(qiáng)調(diào)了本次回答是“模仿馬斯克的風(fēng)格”,并不代表其本人和相關(guān)公司的真實(shí)觀點(diǎn)。面對(duì)這個(gè)問(wèn)題,化身為馬斯克的“K斯克”是這樣評(píng)價(jià)雷軍和小米SU7的。它認(rèn)為,“雷軍是一位非常出色的企業(yè)家”“小米SU7汽車(chē)是一個(gè)非常有趣的產(chǎn)品”。最后還給出了建議,“作為一家新進(jìn)入電動(dòng)汽車(chē)領(lǐng)域的公司,小米還有很長(zhǎng)的路要走。他們需要在技術(shù)創(chuàng)新、生產(chǎn)效率、供應(yīng)鏈管理等方面不斷努力。”
Kimi閱讀《埃隆·馬斯克傳》之前的回答版本。來(lái)源:Kimi截圖
我們又將該書(shū)“喂”給了Kimi,解析此書(shū)后,它給出相似的回答。
Kimi閱讀《埃隆·馬斯克傳》之后的回答版本。來(lái)源:Kimi截圖
我們重復(fù)了上一步,將同樣的問(wèn)題給到通義千問(wèn)。通義千問(wèn)給到的回答中,關(guān)于小米SU7的內(nèi)容為:“雖然具體型號(hào)和細(xì)節(jié)在現(xiàn)實(shí)中可能不存在,但基于小米進(jìn)入電動(dòng)汽車(chē)領(lǐng)域的假設(shè)……”
通義千問(wèn)閱讀《埃隆·馬斯克傳》之后的回答版本。來(lái)源:通義千問(wèn)截圖
如法炮制,繼續(xù)測(cè)試Claude,結(jié)果與通義千問(wèn)相似。
據(jù)了解,作為大模型產(chǎn)品,Kimi除了文檔解讀,還有聯(lián)網(wǎng)功能。這意味著,Kimi不但可以使用既定資料分析,還可以根據(jù)問(wèn)題搜索全網(wǎng)信息作為數(shù)據(jù)分析依據(jù)。目前,ChatGPT 3.5、Claude 2.0不支持這項(xiàng)功能。
(3)文檔檢索三者能力相近
為了測(cè)試Kimi、通義千問(wèn)、Claude的文檔內(nèi)容理解功能,在向三者都輸入了《埃隆·馬斯克傳》之后,我們針對(duì)于書(shū)中的內(nèi)容進(jìn)行了提問(wèn)。
來(lái)源:Kimi回答截圖
來(lái)源:通義千問(wèn)回答截圖
來(lái)源:Claude回答截圖
針對(duì)該書(shū)同一個(gè)問(wèn)題,三者的回答相似且較為準(zhǔn)確,都提到了馬斯克覺(jué)得這是《蠅王》故事現(xiàn)實(shí)版,分到少量的食物和水,瘦了10磅等細(xì)節(jié)。
(4)Kimi看到了馬斯克的成功者特質(zhì),Claude更關(guān)注馬斯克的內(nèi)心世界
在一個(gè)聊天框中輸入的內(nèi)容被稱(chēng)之為“上下文”。上下文之間的理解能力也至關(guān)重要,段落之間割裂,會(huì)導(dǎo)致上下文信息的丟失,對(duì)于AI給出答案的準(zhǔn)確度也有影響。
例如,如果用戶在對(duì)話中提到了特定的話題或問(wèn)題,具有上下文能力的AI可以記住這些信息,并在后續(xù)的對(duì)話中引用它們,以提供連貫和相關(guān)的回答。這種能力對(duì)于創(chuàng)建自然、流暢的對(duì)話體驗(yàn)非常重要。
為測(cè)試三者上下文文本處理功能,我們提問(wèn)了馬斯克12歲時(shí)的學(xué)校經(jīng)歷后,追問(wèn)了“馬斯克的性格是怎么樣的”。
Claude給出了狂熱執(zhí)著、冷酷無(wú)情、戲劇化、頑強(qiáng)堅(jiān)韌、雙重性格等特征,同時(shí),針對(duì)這些特征一一進(jìn)行了分析。如狂熱執(zhí)著是因?yàn)?ldquo;他對(duì)現(xiàn)實(shí)宏偉目標(biāo)如開(kāi)發(fā)電動(dòng)車(chē)、登陸火星等懷有先知般的狂熱和使命感。這種狂熱忽視了他的笨拙,也促使他勇于冒險(xiǎn)并承擔(dān)極高的風(fēng)險(xiǎn)”。
來(lái)源:Claude回答截圖
來(lái)源:通義千問(wèn)回答截圖
來(lái)源:Kimi回答截圖
通義千問(wèn)也提到了宏大愿景、推動(dòng)普及電動(dòng)車(chē)、移民火星等內(nèi)容。區(qū)別是,通義千問(wèn)將這些“理想主義與遠(yuǎn)見(jiàn)卓識(shí)”,將馬斯克形容為“堅(jiān)信通過(guò)科技可以解決人類(lèi)面臨的問(wèn)題”。
Claude、通義千問(wèn)和Kimi給出的這些特質(zhì)中,也都提到了馬斯克冷酷無(wú)情、雙重性格、戲劇化、矛盾性等“負(fù)面”特征。Claude將馬斯克總結(jié)為“性格狂熱、冷酷、喜好戲劇化、堅(jiān)韌頑強(qiáng),但又帶著某些孩子般的天真和脆弱”。而Kimi將其總結(jié)為“非常獨(dú)特的個(gè)體”,并認(rèn)為他在科技和商業(yè)領(lǐng)域的成就很大程度上得益于這些性格。
長(zhǎng)文本,AI“登月”第一步
長(zhǎng)文本對(duì)大模型而言為何重要?
“為什么長(zhǎng)文本是‘登月’第一步?它很本質(zhì)。它是新的計(jì)算機(jī)內(nèi)存。”月之暗面創(chuàng)始人、CEO楊植麟曾在騰訊科技的采訪中表示,長(zhǎng)文本(Long Context)是大語(yǔ)言模型(LLM)的基礎(chǔ)能力。
此前,楊植麟用了形象的比喻來(lái)描述長(zhǎng)文本,“支持更長(zhǎng)的上下文”意味著大模型擁有更大的“內(nèi)存”。
2023年10月,Kimi上線,當(dāng)時(shí)可以支持無(wú)損上下文長(zhǎng)度最多為20萬(wàn)漢字。5個(gè)月內(nèi),升級(jí)至200萬(wàn)字,月之暗面直接將長(zhǎng)文本能力提高至10倍。按照AI領(lǐng)域的計(jì)算標(biāo)準(zhǔn),200萬(wàn)漢字的長(zhǎng)度大約為400萬(wàn)token。而當(dāng)時(shí)長(zhǎng)文本水平在第一梯隊(duì)的谷歌Gemini 1.5、Claude 3支持100萬(wàn)token,Kimi 200萬(wàn)漢字上下文長(zhǎng)度超越了海外頂尖大模型水平。
與衡量手機(jī)、電腦性能時(shí)的“跑分”類(lèi)似,大模型也有專(zhuān)屬的“跑分”標(biāo)準(zhǔn),被稱(chēng)之為token。它是一個(gè)大模型輸入、輸出的基本單位。以O(shè)penAI的相關(guān)準(zhǔn)則來(lái)看,1k的token等于750個(gè)英文單詞、500個(gè)中文漢字。token越大,文本處理能力越強(qiáng)。據(jù)了解,當(dāng)前ChatGPT 4的token是32k,Claude 3的token是100w ,Kimi的token是400w。
也就是說(shuō),可處理的文本越長(zhǎng),可提取內(nèi)容時(shí)的素材越多,幫助用戶處理信息時(shí)則越準(zhǔn)確。
制表:孫欣(信息來(lái)源:各AI產(chǎn)品公司官網(wǎng)介紹)
據(jù)統(tǒng)計(jì),長(zhǎng)文檔處理長(zhǎng)度之最來(lái)自于阿里云的通義千問(wèn),上下文長(zhǎng)文本處理能力最強(qiáng)的是來(lái)自于月之暗面的Kimi,谷歌的Gemini、Kimi均支持聯(lián)網(wǎng)功能,不過(guò)Ultra大會(huì)員需付費(fèi),價(jià)格是每月19.99美元。
值得注意的是,目前國(guó)內(nèi)的主流長(zhǎng)文本處理產(chǎn)品通義千問(wèn)、Kimi等均為免費(fèi)申請(qǐng)內(nèi)測(cè)即可使用,隨著用戶用量的增加,意味著大模型的“訓(xùn)練”數(shù)據(jù)也在增加,AGI長(zhǎng)文本處理賽道正在開(kāi)卷。
參考資料:
《“Kimi概念”降溫,長(zhǎng)文本“擔(dān)不起”大模型的下一步》,騰訊科技
《爆火的Kimi,搶了誰(shuí)的生意?》,定焦