日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

來源:Mangesh Gothankar

在本文中,我們將了解如何從零開始構建 LLM(大型語言模型)。你可能會問,為什么要做這樣的事情?是這樣的,LLM 在無數應用中都非常有用,從頭開始構建一個 LLM,你就能了解底層的 ML 技術,并根據自己的特定需求定制 LLM。

什么是 LLM (大型語言模型)以及如何構建LLM?

內容目錄:

語言在人類交流中起著基礎性作用,在當今數據不斷增長的網絡時代,創建工具來分析、理解和連貫地交流是不可避免的。

這就是LLM的由來。

大型語言模型是一種 ML 模型,可以完成各種自然語言處理任務,從創建內容到將文本從一種語言翻譯成另一種語言。大型 "一詞表征了語言模型在學習期間可改變的參數數量,令人驚訝的是,成功的大型語言模型擁有數十億個參數。

本文揭示LLM 發展背后的情況,了解它們聞所未聞的能力,并理解它們是如何重塑語言處理世界的。

主要啟示:

  • 了解有關 LLM 的一切及其目前的技術水平

  • 了解不同類型的 LLM,并評估它是否是一種時尚或流行

  • 發現從頭開始訓練 LLM 的最佳方法,并對其進行分析

什么是大型語言模型

通俗地說,"大型語言模型 "是一種經過訓練的深度學習模型,它能以類似人類的方式理解和生成內容。在大舞臺的背后,大型變換器模型創造了奇跡。

大型語言模型是一種深度學習算法,可以完成多項自然語言處理任務。

大型語言模型被稱為神經網絡,因為人腦為這些系統提供了靈感。這些神經網絡使用分層節點網絡工作,非常類似神經元。

此外,大型學習模型必須經過預先訓練,然后進行微調,以教授人類語言,從而解決文本分類、文本生成挑戰、問題解答和文檔摘要等問題。Top 12 大型語言模型在解決各種問題方面的潛力可應用于從金融、醫療保健到娛樂等領域,這些模型服務于一系列 NLP 應用,如人工智能助手、聊天機器人、翻譯等。

大型語言模型由難以計數的參數組成,類似于模型在訓練過程中學習收集的記憶。您可以將這些參數視為模型的知識庫。

快速回顧變革者模型

2017 年,一切都變了。

瓦斯瓦尼(Vaswani)發表了(我更喜歡傳說中的)論文《Attention is All You Need》,其中使用了一種新穎的架構,他們稱之為 "轉換器(Transformer)"。

如今,轉換器模型是大型語言模型最常見的架構。轉換器模型通過對輸入進行標記化處理數據,并通過數學公式來識別標記之間的關系,這樣,計算系統就能看到人類在收到相同查詢時會注意到的模式。

此外,轉換器模型還具有自我注意機制,這使得模型的學習速度比傳統的擴展短期記憶模型更快。自我注意機制允許轉換器模型封裝序列的不同部分或完整句子,從而進行預測。

總而言之,轉換器模型在自然語言處理中發揮了重要作用。隨著各公司開始利用這一革命性技術并開發自己的大型語言模型,企業和技術專業人士都必須了解這項技術的工作原理。尤其關鍵的是,要了解這些模型如何處理自然語言查詢,使其能夠準確地響應人類的問題和請求。

因此,讓我們深入了解大型語言模型的世界,探索是什么讓它們如此強大。

大型語言模型的關鍵要素

大型語言模型由多個神經網絡層組成。這些定義好的層協同工作,處理輸入文本并創建理想的輸出內容。

讓我們來看看。

嵌入層(The embedding layer)

該層是大型學習模型的關鍵要素。嵌入層接收輸入(一串單詞),并將每個單詞轉化為矢量表示。單詞的向量表示捕捉了單詞的含義及其與其他單詞的關系。

前饋層(The feedforward layer)

LLM 的前饋層由幾個完全連接的層組成,用于轉換輸入嵌入。同時,這些層允許模型提取更高層次的抽象概念,即識別用戶輸入文本的意圖。

遞歸層(Recurrent Layer)

遞歸層允許 LLM 學習依賴關系,并生成語法正確、語義豐富的文本。

注意機制(The attention mechanism)

大語言模型中的注意力機制可讓人專注于輸入文本中的某個元素,以驗證其與手頭任務的相關性。此外,這些層還能使模型創建最精確的輸出。

大型語言模型的類型

通常,大型語言模型會根據其所執行的任務進行分類:

  • 自回歸大型語言模型
  • 基于變換器的大型語言模型
  • 多語言模型
  • 混合模型

自回歸大型語言模型(預測下一個單詞)(Autoregressive LLM)

大型學習模型的訓練目的是建議輸入文本中的下一個詞序,簡單地說,它們的唯一任務就是續寫文本。

例如,在文本 "你好嗎?"中,大型學習模型可能會完成 "你好嗎?"或 "你好嗎?我很好 "這樣的句子。

屬于這一類的大型學習模型有 Transformers、LaMDA、X.NET、BERT 和 GPT-3。

  • GPT-3- GPT-3 是一種革命性的語言模型,有可能根據所提供的描述提供高質量的類人文本。此外,GPT-3 還使用了數十億個參數和技術來創建類人句子。

  • LaMDA- LaMDA 是一種事實性語言模型,經過訓練可創建不同的創意文本模式,如詩歌、代碼、腳本、音樂作品、電子郵件、信件等,并能非正式地回答您的問題。

  • XLNet- XLNet 是一種自回歸語言模型,可理解文本序列的無監督表示。

這些 LLM 面臨的唯一挑戰是,它在完成文本而不僅僅是回答方面的能力令人難以置信,很多時候,我們期待的是答案而不是完成。

將上面討論的例子 "你好嗎?"作為輸入,大型學習模型會嘗試用 "在做什么?"或 "我很好 "這樣的文字來完成文本。這就說明,回答可以是完成語,也可以是答案,這也正是對話優化 LLM 出現的原因。

基于變換器的 LLM(對話優化型)

這些類型的 LLM 會回答問題,而不是完成問題。因此,當輸入 "你好嗎?"時,這類 LLM 通常會回答 "我很好",而不是完成句子。

經過對話優化的 LLM 包括 ChatGPT、BERT、BARD、InstructorGPT、Falcon-40B-instruct 等。

  • BERT-BERT(Bidirectional Encoder Representation from Transformers)是一種基于深度神經工作的動態自動回歸 LLM。它的主要重點是理解單詞之間的關系,而不是關注一個單詞的含義。

多語言模型

多語言模型在不同的語言數據集上進行訓練,可以處理和生成不同語言的文本。它們有助于完成跨語言信息檢索、多語言機器人或機器翻譯等任務。

  • XLM-XLM 是由 Facebook 創建的跨語言語言模型。

混合模型

混合模型是不同架構的混合體,可提高性能。例如,基于變壓器的架構與遞歸神經網絡(RNN)相結合,用于順序數據處理。

  • UniLM(統一語言模型)是一種混合大型語言模型,它結合了自動回歸和序列到序列建模方法。

還有更多。尤其是如果你想獲得最終的成功,這篇文章就更不能省略了。

生成式人工智能與大型語言模型的微妙區別

生成式人工智能(Generative AI)是一個龐大的術語;簡單地說,它是一個統稱,指的是有可能創建內容的人工智能模型。此外,生成式人工智能還可以創建代碼、文本、圖像、視頻、音樂等。一些流行的生成式人工智能工具有 Midjourney、DALL-E 和 ChatGPT。

大型語言模型是生成式人工智能的一種,它在文本上進行訓練并生成文本內容。ChatGPT 就是生成式文本人工智能的一個節選。

所有大型語言模型都是生成式人工智能。

現在,如果您正在猶豫不決,想知道在哪里、做什么以及如何從頭開始構建和訓練 LLM,別擔心,繼續來了解下面的內容。

構建大型語言模型

現在是創建 LLM 的時候了。

我們將使用 TensorFlow 或 PyTorch 等機器學習框架來創建模型,這些框架提供了用于創建和訓練 LLM 的預建工具和庫,因此幾乎不需要重新發明輪子。

我們將首先概述 LLM 的架構。此外,您還需要選擇要使用的模型類型,例如遞歸神經網絡轉換器,以及層數和每層的神經元數。

接下來就是使用收集到的預處理數據對模型進行訓練。

如何從零開始訓練 LLM

對于不同類型的 LLM,訓練 LLM 的方法也不同。假設您想建立一個連續文本 LLM,那么與對話優化的 LLM 相比,方法將完全不同。

這兩點是影響 LLM 性能的關鍵因素。因此,讓我們來討論一下訓練 LLM 所涉及的不同步驟。

自回歸 LLM(Autoregressive LLMs )

延續文本的 LLM 的訓練過程被稱為相關 LLM。這些 LLM 在自我監督的學習環境中進行訓練,以預測文本中的下一個單詞。以下是從頭開始訓練 LLMs 的每個步驟:

步驟 1:收集數據集

訓練 LLM 的第一步也是最重要的一步是收集大量文本數據。畢竟,數據集對大型學習模型的性能起著至關重要的作用。

最近,受 LLaMA-13B 啟發的最新對話優化大型語言模型 "OpenChat "在 Vicuna GPT-4 評估中取得了 105.7% 的 ChatGPT 分數。

其成功背后的秘訣是高質量的數據,該模型在 ~6K 數據上進行了微調。

用于訓練的數據收集自互聯網,主要來自社交媒體、網站、平臺、學術論文等。所有這些語料庫確保了訓練數據盡可能地分類,最終為大規模語言模型描繪出改進的通用跨領域知識。

因此,利用高質量的數據釋放 LLM 的潛能是毫無疑問的!

步驟 2:數據集預處理和清理

接下來是數據集預處理和清理步驟。

由于數據集是從眾多網頁和不同來源抓取的,因此數據集很有可能包含各種細微的差異。因此,消除這些細微差別并為模型訓練提供高質量的數據集至關重要。

具體步驟主要取決于您目前正在處理的數據集。標準的預處理措施包括:

  • 解決拼寫錯誤。
  • 刪除有毒/有偏見的數據。
  • 將表情符號轉化為等效文本。
  • 數據重復。

訓練數據可能有重復或幾乎相同的句子,因為這些數據僅從互聯網上的眾多數據源收集而來。因此,出于兩個重要原因,堅持重復數據刪除的做法是不可避免的:

  • 它有助于模型避免每次都記住相同的數據。
  • 它有助于更好地評估 LLM,因為測試和訓練數據包含非重復信息。

步驟 3:準備數據

數據集準備是對數據進行清理、轉換和組織,使其成為機器學習的理想數據。這是任何機器學習項目中必不可少的一步,因為數據集的質量會直接影響模型的性能。

在預訓練階段,LLM 被訓練為預測文本中的下一個標記。因此,輸入和輸出對也相應地進行了開發。

步驟 4:定義模型架構

下一步是 "定義模型架構和訓練 LLM"。

目前,正在開發大量 LLM。您可以在 Hugging Face Open LLM Leaderboard 上了解所有 LLM 的概況。首先,研究人員在創建 LLM 時會遵循一個明確的流程。

通常,研究人員會從現有的大型語言模型架構(如 GPT-3)以及模型的實際超參數開始。然后,對模型架構/超參數/數據集進行調整,最終形成新的 LLM。

步驟 5:超參數調整

毫無疑問,超參數調整是一件既費錢又費時的事情。

不用擔心!例如,如果您使用的是 GPT-3,那么請使用其相應架構的超參數,然后在小范圍內確定最佳超參數,再將其插值到最終模式中。

這項實驗包括以下任何一項或全部內容:

  • 位置嵌入
  • 學習率
  • 權重初始化
  • 優化器
  • 激活
  • 損失函數
  • 層數、參數和注意頭
  • 密集層與稀疏層的分組

以下是一些行之有效的超參數實踐:

  • 學習率調度器 - 行之有效的方法是在訓練過程中盡量降低學習率,因為這樣可以克服局部最小值,提高模型的穩定性。
  • 正則化 - LLM 通常容易出現過度擬合。因此,有必要使用 Dropout、Batch Normalization 和 L1/L2 正則化等技術來避免模型的過度擬合。
  • 批量大小 - 理想情況下,選擇適合 GPU 內存的大批量大小。
  • 權重初始化 - 模型的收斂性很大程度上取決于訓練前初始化的權重。畢竟,初始化合適的權重可以加快收斂速度。但請記住,只有在定義自己的 LLM 架構時才使用權重初始化。

對話優化 LLM(Dialogue-optimized LLM)

在對話優化 LLM 中,首要步驟與預訓練 LLM 相同,一旦完成預訓練,LLMs 就有可能完成文本。

此外,為了生成特定問題的答案,LLM 還需要在包括問題和答案在內的監督數據集上進行微調,到這一步結束時,您的 LLM 就可以為所提問題創建解決方案了。

例如,ChatGPT 是一種對話優化 LLM,其訓練過程與上述步驟類似。唯一不同的是,除了預訓練和監督微調外,它還包括一個額外的 RLHF(從人類反饋中強化學習)步驟。

LLM 訓練完成后,就是評估其性能的時候了。讓我們來看看如何評估!

如何評估大型學習模型?

大型語言模型評估不能主觀臆斷,相反它必須是一個評估 LLM 性能的邏輯過程。

考慮到在分類或回歸挑戰的情況下進行評估,比較實際表格和預測標簽有助于了解模型的性能如何,為此我們通常會查看混淆矩陣。但 LLM 又是什么情況呢?它們會生成文本。

不用擔心!評估 LLM 有兩種方法--內在方法和外在方法。

內在方法

傳統的語言模型使用內在方法進行評估,如每字符比特數、復雜度、BLUE 分數等。這些度量參數跟蹤語言方面的性能,即模型預測下一個單詞的能力。

  • 復雜度:易混度是 LLM 預測詞序中下一個詞的能力的度量。易混度越低,表示性能越好。
  • BLEU 分數:BLEU 分數用于衡量 LLM 生成的文本與參考文本的相似程度。BLEU 分數越高,表示性能越好。
  • 人工評估:人工評價包括請人工評委對 LLM 生成的文本質量進行評分。這可以通過使用各種不同的評估來實現,如流暢性、連貫性和相關性。

此外,同樣重要的是,沒有放之四海而皆準的評價指標,每種衡量標準都有自己的優缺點。因此,必須使用各種不同的評估方法,以全面了解 LLM 的表現。

以下是評估 LLM 的一些額外注意事項:

  • 數據集偏差:LLM 是在大型文本和代碼數據集上進行訓練的。如果這些數據集存在偏差,那么 LLM 也將受到限制。必須意識到數據集可能存在偏差,并采取措施加以緩解。
  • 安全性:LLM 可用于生成有害內容,如仇恨言論和錯誤信息。必須建立保護機制,防止本地語言學習工具被用于制作有害內容。
  • 透明度:對本地語言學習者的培訓和評估方式保持透明至關重要。這將有助于建立對本地語言學習者的信任,確保他們得到負責任的使用。

外在方法

隨著當今LLM的進步,外在方法正成為評估法律碩士表現的首選。評估 LLM 的建議方法是考察它們在推理、解決問題、計算機科學、數學問題、競爭性考試等不同任務中的表現。

EleutherAI 推出了一個名為 Language Model Evaluation Harness 的框架,用于比較和評估 LLM 的性能,HuggingFace 整合了該評估框架,以衡量社區創建的開源 LLM。

該框架通過四個不同的數據集對 LLM 進行評估,最終得分是每個數據集得分的累積。以下是參數:

  • A12 Reasoning(A12 推理)- 這是為小學生設計的科學問題集。
  • MMLU - 這是一項評估文本模型多任務精確度的綜合測試。它包含 57 個不同的任務,包括美國歷史、數學、法律等科目。
  • TruthfulQA - 該測試評估模型創建準確答案和跳過生成網上常見虛假信息的傾向。
  • HellaSwag- 這是一項挑戰最新模型的測試,以 95% 的精確度做出對人類來說很容易的常識性推斷。

部署 LLM

最后,是在生產環境中部署 LLM 的時候了。

您可以選擇Lambda 或 google Cloud Functions 等無服務器技術,將模型部署為網絡服務。此外,您還可以使用 Docker 等容器化技術,將模型及其依賴項打包到一個容器中。

最后......是時候更進一步了!

大型語言模型(如 ChatGPT 或谷歌的 PaLM)在人工智能領域掀起了一場風暴,然而,大多數公司在訓練這些模型方面還沒有任何進展,只能依賴少數幾家科技巨頭作為技術提供商。

如果您也在原地踏步,并計劃走得更遠,我們或許能幫到您多走一英里。

分享到:
標簽:LLM
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定