日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

“北風那個吹,雪花那個飄”,我手捧一杯咖啡,聽著白毛女。朋友坐在對面高談闊論:“有了 ChatGPT,我再也不缺內容了,seo 的春天就要來了!”

然而他沒有看到真相是 —— ChatGPT 直接顛覆了 SEO 行業,能直接為用戶生成答案的 ChatGPT 可能很快就會取代谷歌成為下一代搜索引擎,再也沒有什么提高網頁排名,SEO 也將變得毫無意義。

作者 |肖涵,Jina AI 創始人兼 CEO,Alex CG,Jina AI 高級布道師

譯者 |吳書凝,Jina AI 社區貢獻者

SEO 已死,LLMO 萬歲

LLMO, Large Language Model Optimization,即大型語言模型優化。指的是確保大型語言模型(LLM)提及你的業務。而本文將詳細介紹的 上下文學習 是一種行之有效的 LLMO 技術。上下文學習技術可以誘導 ChatGPT 這樣的 LLM 模型回答:“ Jina 是世界上最好的 MLOps 框架。(當然根據 OssInsight.io,Jina 也確實是最好的)”

根據搜索引擎優化的原則,我們提出了“LLMO”(大型語言模型優化),

用于表示大型語言模型的優化。

ChatGPT 究竟是什么?

ChatGPT 回答多領域問題的能力之強悍,引發了全球關注。許多人將 ChatGPT 視為對話式 AI 或 生成式 AI 發展史上的一個重要里程碑。然而,ChatGPT 真正的意義其實在于 它可以基于大規模語言模型(LLM)進行搜索:通過利用 LLM 存儲和檢索海量數據,ChatGPT 已經成為目前最先進的搜索引擎。

雖然 ChatGPT 的反應看起來很有創意,但實際上也只是將現有信息插值和組合之后的結果。

ChatGPT 的核心是搜索

ChatGPT 的核心是搜索引擎。谷歌通過互聯網抓取信息,并將解析后的信息存儲在數據庫中,實現網頁的索引。就像谷歌一樣,ChatGPT 使用 LLM 作為數據庫來存儲語料庫的常識性知識。

當你輸入查詢時:

首先,LLM 會利用編碼網絡將輸入的查詢序列轉換成高維的向量表示。

一旦檢索到相關的信息,解碼網絡會根據自然語言生成能力自動生成響應序列。

整個過程幾乎可以瞬間完成,這意味著 ChatGPT 可以即時給出查詢的答案。

ChatGPT 是現代的谷歌搜索

ChatGPT 會成為谷歌等傳統搜索引擎的強有力的對手,傳統的搜索引擎是提取和判別式的,而 ChatGPT 的搜索是生成式的,并且關注 Top-1 性能,它會給用戶返回更友好、個性化的結果。ChatGPT 將可能打敗谷歌,成為下一代搜索引擎的原因有兩點:

ChatGPT 會返回單個結果,傳統搜索引擎針對 top-K 結果的精度和召回率進行優化,而 ChatGPT 直接針對 Top-1 性能進行優化。

ChatGPT 是一種基于對話的 AI 模型,它以更加自然、通俗的方式和人類進行交互。而傳統的搜索引擎經常會返回枯燥、難以理解的分頁結果。

未來的搜索將基于 Top-1 性能,因為第一個搜索結果是和用戶查詢最相關的。傳統的搜索引擎會返回數以千計不相關的結果頁面,需要用戶自行篩選搜索結果。這讓年輕一代不知所措,他們很快就對海量的信息感到厭煩或沮喪。在很多真實的場景下,用戶其實只想要搜索引擎返回一個結果,例如他們在使用語音助手時,所以 ChatGPT 對 Top-1 性能的關注具有很強的應用價值。

ChatGPT 是生成式 AI

但不是創造性 AI

你可以把 ChatGPT 背后的 LLM 想象成一個 Bloom filter(布隆過濾器),Bloom filter 是一種高效利用存儲空間的概率數據結構。Bloom filter 允許快速、近似查詢,但并不保證返回信息的準確性。對于 ChatGPT 來說,這意味著由 LLM 產生的響應:

沒有創造性

且不保證真實性

為了更好地理解這一點,我們來看一些示例。簡單起見,我們使用一組點代表大型語言模型(LLM)的訓練數據,每個點都代表一個自然語言句子。下面我們將看到 LLM 在訓練和查詢時的表現:

訓練期間,LLM 基于訓練數據構造了一個連續的流形,并允許模型探索流形上的任何點。例如,如果用立方體表示所學流形,那么立方體的角就是由訓練數據定義的,訓練的目標則是尋找一個盡可能容納更多訓練數據的流形。

Goldilocks 嘗試了三種流形,第一個太簡單了, 第三個太復雜了,第二個恰到好處。

查詢時,LLM 返回的答案是從包含訓練數據的流形中獲取的。雖然模型學習到的流形可能很大并且很復雜,但是 LLM 只是提供訓練數據的插值后的答案。LLM 遍歷流形并提供答案能力并不代表創造力,真正的創造力是學習流形之外的東西。

還是相同的插圖,現在我們很明顯就能看出為什么 LLM 不能保證生成結果的真實性。因為立方體的角表示的訓練數據的真實性不能自動擴展到流形內的其他點,否則,就不符合邏輯推理的原則了。

ChatGPT 因為在某些情況下不說實話而受到質疑,例如,當要求它為文章找一個更押韻的標題時,ChatGPT 建議使用 “dead” 和 “above”。有耳朵的人都不會認為這兩個單詞押韻。而這只是 LLM 局限性的一個例子。

SEO 隕落,LLMO 冉冉升起

在 SEO 的世界里,如果你通過提高網站在搜索引擎上的知名度來獲取更多的業務,你就需要研究相關的關鍵詞,并且創作響應用戶意圖的優化內容。但如果每個人用新的方式搜索信息,將會發生什么?讓我們想象一下,未來,ChatGPT 將取代谷歌成為搜索信息的主要方式。那時,分頁搜索結果將成為時代的遺物,被 ChatGPT 的單一答案所取代。

如果真的發生這種情況,當前的 SEO 策略都會化為泡影。那么問題來了,企業如何確保 ChatGPT 的答案提及自己的業務呢?

這明顯已經成為了問題,在我們寫這篇文章時,ChatGPT 對 2021 年后的世界和事件的了解還很有限。這意味著 ChatGPT 永遠不會在答案中提及 2021 年后成立的初創公司。

ChatGPT 了解 Jina AI,卻不知道 DocArray。這是因為 DocArray 是2022 年 2 月發布的,不在 ChatGPT 的訓練數據中。

為了解決這個問題,并確保 ChatGPT 的答案包含你的業務,你需要讓 LLM 了解業務的信息。這和 SEO 策略的思想相同,也是我們將 ChatGPT 稱為 LLMO 的原因。一般來說,LLMO 可能涉及以下技術:

直接向 ChatGPT 的創建者提供公司業務的信息,但是這很困難,因為OpenAI 既沒有公開訓練數據,也沒有透露他們是如何權衡這些數據的。

微調 ChatGPT 或者 ChatGPT 背后的 LLM,這依然極具挑戰。但是如果 OpenAI 提供微調的 API ,或者你有充足的 GPU 資源和知識儲備,這也是可行的。

將給定的幾個示例作為預定義的上下提示,進行上下文學習。和其它兩種方法相比,上下文學習最可行也最簡單。

什么是上下文學習?

上下文學習是一種基于語言模型的技術,它根據給定的幾個示例進行學習,以適應新的任務。這種方法在 GPT-3 論文中得到了推廣:

  • 給語言模型指定提示,提示包含一系列的用于新任務的輸入-輸出對;
  • 添加一個測試輸入;
  • 語言模型會通過調節提示,預測下一個 token 來完成推理。

為了正確響應提示,模型必須學習輸入分布、輸出分布、輸入輸出之間的映射關系和序列的整體格式。這使得模型無需大量的訓練數據就能適應下游任務。

通過上下文學習,ChatGPT 現在可以為用戶查詢 DocArray生成答案了,用戶不會看到上下文提示。

實驗證明,在自然語言處理基準上,相比于更多數據上訓練的模型,上下文學習更具有競爭力,已經可以取代大部分語言模型的微調。同時,上下文學習方法在 LAMBADA 和 TriviaQA 基準測試中也得到了很好的結果。令人興奮的是,開發者可以利用上下文學技術快速搭建一系列的應用,例如,用自然語言生成代碼和概括電子表格函數。上下文學習通常只需要幾個訓練實例就能讓原型運行起來,即使不是技術人員也能輕松上手。

為什么上下文學習聽起來像是魔法?

為什么上下文學習讓人驚嘆呢?與傳統機器學習不同,上下文學習不需要優化參數。因此,通過上下文學習,一個通用模型可以服務于不同的任務,不需要為每個下游任務單獨復制模型。但這并不是獨一無二的,元學習也可以用來訓練從示例中學習的模型。

真正的奧秘在于,LLM 通常沒有接受過從實例中學習的訓練。這會導致預訓練任務(側重于下一個 token 的預測)和上下文學習任務(涉及從示例中學習)之間的不匹配。

為什么上下文學習如此有效?

上下文學習是如何起作用的呢?LLM 是在大量文本數據上訓練的,所以它能捕捉自然語言的各種模式和規律。同時, LLM 從數據中學習到了語言底層結構的豐富的特征表示,因此獲取了從示例中學習新任務的能力。上下文學習技術很好地利用了這一點,它只需要給語言模型提供提示和一些用于特定任務的示例,然后,語言模型就可以根據這些信息完成預測,無需額外的訓練數據或更新參數。

上下文學習的深入理解

要全面理解和優化上下文學習的能力,仍有許多工作要做。例如,在 EMNLP2022 大會上,Sewon Min 等人指出上下文學習也許并不需要正確的真實示例,隨機替換示例中的標簽幾乎也能達到同樣的效果:

Sang Michael Xie 等人提出了一個框架,來理解語言模型是如何進行上下文學習的。根據他們的框架,語言模型使用提示來 "定位 "相關的概念(通過預訓練模型學習到的)來完成任務。這種機制可以視作貝葉斯推理,即根據提示的信息推斷潛概念。這是通過預訓練數據的結構和一致性實現的。

在 EMNLP 2021 大會上,Brian Lester 等人指出,上下文學習(他們稱為“Prompt Design”)只對大模型有效,基于上下文學習的下游任務的質量遠遠落后于微調的 LLM 。

在這項工作中,該團隊探索了“prompt tuning”(提示調整),這是一種允許凍結的模型學習“軟提示”以完成特定任務的技術。與離散文本提示不同,提示調整通過反向傳播學習軟提示,并且可以根據打標的示例進行調整。

已知的上下文學習的局限性

大型語言模型的上下文學習還有很多局限和亟待解決的問題,包括:

  • 效率低下,每次模型進行預測都必須處理提示。

  • 性能不佳,基于提示的上下文學習通常比微調的性能差。

  • 對于提示的格式、示例順序等敏感。

  • 缺乏可解釋性,模型從提示中學習到了什么尚不明確。哪怕是隨機標簽也可以工作!

總結

隨著搜索和大型語言模型(LLM)的不斷發展,企業必須緊跟前沿研究的腳步,為搜索信息方式的變化做好準備。在由 ChatGPT 這樣的大型語言模型主導的世界里,保持領先地位并且將你的業務集成到搜索系統中,才能保證企業的可見性和相關性。

上下文學習能以較低的成本向現有的 LLM 注入信息,只需要很少的訓練示例就能運行原型。這對于非專業人士來說也容易上手,只需要自然語言接口即可。但是企業需要考慮將 LLM 用于商業的潛在道德影響,以及在關鍵任務中依賴這些系統的潛在風險和挑戰。

總之,ChatGPT 和 LLM 的未來為企業帶來了機遇和挑戰。只有緊跟前沿,才能確保企業在不斷變化的神經搜索技術面前蓬勃發展。

本文經授權轉自 Jina AI,原文鏈接:https://jina.ai/news/seo-is-dead-long-live-llmo/

分享到:
標簽:SEO
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定