OpenAI官方教程：如何解決GPT無法處理長(zhǎng)文本和最新數(shù)據(jù)的問題-魔扣目錄

這是OpenAI官方的cookebook最新更新的一篇技術(shù)博客，里面說明了為什么我們需要使用embeddings-based的搜索技術(shù)來完成問答任務(wù)。

本文原文來自DataLearner官方博客：OpenAI官方教程：如何使用基于embeddings檢索來解決GPT無法處理長(zhǎng)文本和最新數(shù)據(jù)的問題 | 數(shù)據(jù)學(xué)習(xí)者官方網(wǎng)站(Datalearner)

盡管GPT的能力很強(qiáng)，但是OpenAI認(rèn)為，基于embeddings的搜索依然十分重要。甚至，這種方式比模型做fine-tuning更好。本篇博客將簡(jiǎn)單介紹一下為什么OpenAI認(rèn)為目前基于embeddings的搜索是GPT的最強(qiáng)補(bǔ)充能力！

一、GPT的缺點(diǎn)

盡管目前GPT-4或者ChatGPT的能力已經(jīng)很強(qiáng)大，但是目前它依然有很大的缺陷：

訓(xùn)練數(shù)據(jù)是基于2021年9月之前的數(shù)據(jù)，缺少最新的數(shù)據(jù)
無法訪問我們無法公開的文檔
基于歷史會(huì)話中獲取信息

因此，OpenAI發(fā)布了這樣一篇文檔，說明如何使用兩步搜索回答來增強(qiáng)GPT的能力：

搜索：搜索您的文本庫(kù)以查找相關(guān)的文本部分。
請(qǐng)求：將檢索到的文本部分插入到發(fā)送給GPT的消息中，并向其提出問題。

二、為什么搜索比f(wàn)ine-tuning更好？

GPT可以通過兩種方式學(xué)習(xí)知識(shí)：

通過模型權(quán)重（即在訓(xùn)練集上微調(diào)模型）
通過模型輸入（即將知識(shí)插入到輸入消息中）

盡管微調(diào)可能感覺更自然——畢竟，通過數(shù)據(jù)訓(xùn)練是GPT學(xué)習(xí)所有其他知識(shí)的方式——但OpenAI通常不建議將其作為教授模型知識(shí)的方式。微調(diào)更適合于教授專業(yè)任務(wù)或風(fēng)格，對(duì)于事實(shí)回憶來說則不太可靠。

注意，這里說的是事實(shí)回憶，也就是說，如果你有自己的數(shù)據(jù)，只想從數(shù)據(jù)中獲得知識(shí)或者獲得相關(guān)的內(nèi)容，那么搜索比微調(diào)可能更好。舉個(gè)例子來說，如果你有大批的歷史數(shù)據(jù)，你只想找到數(shù)據(jù)中你需要的部分，包括某些概念在哪里出現(xiàn)過，為什么使用了它等等。這些都算是事實(shí)回憶。

但是，如果你希望模型可以基于某種模式生成某些內(nèi)容。例如，你希望模型可以基于XX風(fēng)格生成某些工作日志甚至是宣傳內(nèi)容，那么微調(diào)可能效果更好。

類比來說，模型權(quán)重就像長(zhǎng)期記憶。當(dāng)您對(duì)模型進(jìn)行微調(diào)時(shí)，就像為一周后的考試而學(xué)習(xí)。當(dāng)考試到來時(shí)，模型可能會(huì)忘記細(xì)節(jié)，或者錯(cuò)誤地記住它從未讀過的事實(shí)。

相比之下，消息輸入就像短期記憶。當(dāng)您將知識(shí)插入消息時(shí)，就像帶著開放的筆記參加考試。有了筆記，模型更有可能得出正確的答案。

相對(duì)于微調(diào)，文本搜索的一個(gè)缺點(diǎn)是每個(gè)模型一次只能讀取有限數(shù)量的文本，以O(shè)penAI為例，其一次輸入的內(nèi)容限制如下：

模型名稱

文本最長(zhǎng)輸入

gpt-3.5-turbo

4096個(gè)tokens（大約5頁(yè)）

gpt-4

8192個(gè)tokens（大約10頁(yè)）

gpt-4-32k

32768個(gè)tokens（約40頁(yè)）

延續(xù)這個(gè)比喻，您可以將模型想象成一位學(xué)生，盡管可能有許多參考書可供借鑒，但一次只能查看幾頁(yè)筆記。

因此，為了構(gòu)建一個(gè)能夠利用大量文本回答問題的系統(tǒng)，OpenAI建議使用“搜索-提問”方法。

三、文本檢索

搜索文本的方法很多，包括：

基于詞匯的搜索（Lexical-based）
基于圖形的搜索（Graph-based）
基于嵌入的搜索（Embedding-based）

OpenAI推薦的詞嵌入方法。嵌入很容易實(shí)現(xiàn)，并且在問題中表現(xiàn)尤為出色，因?yàn)閱栴}通常在詞匯上不會(huì)與它們的答案重疊。

可以考慮將僅使用嵌入的搜索視為作為整個(gè)系統(tǒng)的起點(diǎn)。更好的搜索系統(tǒng)可能會(huì)結(jié)合多種搜索方法，以及特性，如受歡迎程度、最近性、用戶歷史記錄、與先前搜索結(jié)果的冗余、點(diǎn)擊率數(shù)據(jù)等。

通過將問題首先轉(zhuǎn)換為假設(shè)的答案然后再進(jìn)行嵌入的技術(shù)，如HyDE，也可以提高問答檢索的性能。同樣，GPT還可以通過自動(dòng)將問題轉(zhuǎn)換為一組關(guān)鍵詞或搜索術(shù)語(yǔ)來潛在地改善搜索結(jié)果。

四、如何建立基于embeddings的搜索系統(tǒng)來解決問題

總的來說，這樣的系統(tǒng)包含3個(gè)步驟：準(zhǔn)備需要檢索的知識(shí)、檢索、提問即可：

準(zhǔn)備搜索數(shù)據(jù)（僅一次）收集：即獲取你要用的數(shù)據(jù)，例如OpenAI的案例是下載幾百篇有關(guān)2022年奧運(yùn)會(huì)的維基百科文章切塊：將文檔分成短小的、大多是自包含的部分以進(jìn)行嵌入嵌入：使用OpenAI API對(duì)每個(gè)部分?jǐn)?shù)據(jù)獲得embeddings結(jié)果存儲(chǔ)：存儲(chǔ)embedding是（對(duì)于大型數(shù)據(jù)集，可以使用向量數(shù)據(jù)庫(kù)）
搜索（每次查詢一次）給定用戶問題，從OpenAI API生成查詢的embeddings使用embeddings，按照與查詢相關(guān)性對(duì)文本部分進(jìn)行排序
提問（每次查詢一次）將問題和最相關(guān)的部分插入到發(fā)送給GPT的消息中返回GPT的答案

簡(jiǎn)單總結(jié)一下就是將原始數(shù)據(jù)用嵌入的方式存儲(chǔ)，然后針對(duì)問題獲取embeddings結(jié)果，再利用這個(gè)結(jié)果檢索最相似的內(nèi)容，把這個(gè)提問和最相似的結(jié)果發(fā)給GPT，獲得GPT的回答即可。也就是說，這是另一種解決GPT無法回答最新數(shù)據(jù)和長(zhǎng)文本內(nèi)容的方法！

成本

這個(gè)方法比原始的方法來說多了幾個(gè)步驟，但是成本并不一定更多，因?yàn)镚PT的接口比embedding的接口更貴。如果系統(tǒng)中查詢次數(shù)比較多，那么成本主要在步驟上面的步驟3（提問）。有個(gè)簡(jiǎn)單的計(jì)算方法：

對(duì)于使用gpt-3.5-turbo來說，每次查詢假設(shè)1000個(gè)tokens，那么每次查詢成本0.002美元，約等于1美元查詢500次
對(duì)于gpt-4接口來說，假設(shè)每次查詢依然1000個(gè)tokens，那么每次查詢成本0.03美元，一美元可以查詢30次！

但是這只是簡(jiǎn)單估算，具體的成本可能還要看系統(tǒng)什么樣子。

總結(jié)

這是一個(gè)非常棒的idea。可以解決目前GPT或者其它大模型沒有最新數(shù)據(jù)或者輸入限制的問題。在AutoGPT中，作者也有一個(gè)思路，就是每次都把最近的問題以及最相關(guān)的目標(biāo)一起發(fā)送給GPT，獲得答案，以此來獲得更長(zhǎng)記憶的能力。但是從實(shí)現(xiàn)效果來說，OpenAI這種利用Embeddings先獲取最相關(guān)文本再提問的方式可能是比較優(yōu)雅的。而且也可以控制輸入和輸出的tokens。

官方有代碼實(shí)現(xiàn)案例參考原文末尾鏈接：OpenAI官方教程：如何使用基于embeddings檢索來解決GPT無法處理長(zhǎng)文本和最新數(shù)據(jù)的問題 | 數(shù)據(jù)學(xué)習(xí)者官方網(wǎng)站(Datalearner)

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

OpenAI官方教程：如何解決GPT無法處理長(zhǎng)文本和最新數(shù)據(jù)的問題

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

每日養(yǎng)生app2018-06-03

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03