日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747


近來,ChatGPT再一次激發了人們對通用人工智能的熱情,甚至到了人人都在談AIGC的地步。然而,大模型對數據豐富性的依賴更加嚴重,面向機器學習以及深度學習的數據架構又是怎樣的呢?

“Garbage in,Garbage out”,數據獲取已經成為許多機器學習應用中的關鍵問題,甚至成為了瓶頸,深度學習的興起進一步加劇了這一問題。盡管高質量的機器學習模型最終從昂貴的開發和高度專業化的代碼過渡到了更像商品的東西,但這些模型涉及數百萬甚至數百億個參數,需要大量數據進行訓練。因此,當今機器學習的主導模式是每當面臨新任務時就創建一個新的大型數據集。雖然這種方法取得了重大進展,但收集大量高質量的數據集往往需要耗費大量的時間和人力資源。對于某些任務,例如罕見疾病的檢測,構建大型數據集幾乎是不可行的。

在一個軟件系統中,尤其是機器學習驅動的軟件系統,如何解決數據匱乏的問題呢?

數據匱乏在機器學習領域普遍存在,在監督式學習中尤為突出,但也適用于無監督的情形。為了簡化問題,暫不考慮強化學習,可以從監督,無監督和半監督學習入手。

數據匱乏問題可以分為兩大類:一是數據難以獲取導致數據缺失,另一類是已有的數據缺乏標簽,無法形成高質量的數據。

“知易行難”,每一類問題又是求解的呢?

1.數據缺失

1.1 數據集再利用

數據集再利用是指將預先存在的數據集用于新用途。可能是添加數據的最明顯的方法,例如,Imag.NET 最初制作并用于分類,但后來被重用于圖像生成。

數據重用還包括對現有數據集的轉換。例如,考慮修復,即根據周圍信息恢復圖像丟失部分的過程。修復是使用各種預先存在的數據集完成的。

當然,也有可能重新定義一個沒有任何機器學習任務的數據集。

1.2 數據增強

數據增強是生成更多數據的常用方法,它通過對應用的修改人為地使訓練集膨脹,最初的目標是防止過載。

數據增強通常采用鄰域風險最小化(VRM)。在 VRM 中,需要人類知識來定義訓練數據中每個樣本周圍的鄰域,并從這個鄰域分布中提取虛擬樣本。在CV領域,常見的數據增強是幾何變換,比如翻轉、裁剪、縮放和旋轉等,其思想分類器不變,而改變圖像的位置和方向,類似地,光度變換還可以修改顏色通道。

特別是在小型數據集或數據集不平衡的時候,數據增強可以提高泛化能力,可以采用聯合訓練生成增強模型的方法。除了人類定義的轉換,使用預先訓練的生成性對抗網絡(GAN)也可以來創建新的示例。

1.3 多模態學習

多模態學習試圖豐富學習算法的輸入,使學習者可以訪問多個模態,例如,一個圖像及其標題或圖像的說明。多模態學習的主要缺點是要獲得豐富的輸入信息,并能夠有效地將其集成到模型中。這種方法應該可以減少數據需求和提高一般性。

此外,當數據點的數量非常小時,特別是在學習過程中只有少數目標有特定標簽示例的時候,多模態學習也可以被使用。例如,通過將圖像與多種和更豐富的語義(類別標簽,屬性和自然語言描述)相結合,可以有更良好的表現。

1.4 規程學習

在規程學習中,使用預先確定的規程來訪問示例,這些示例通常按難度的增加順序排列。其動機來自人類自身教學方式,因為教師往往從教授更簡單的概念開始,試圖通過難度分數來增加訓練實例。

在給定難度分數的情況下,該算法從一組簡單的數據點開始,逐漸增加了在整個學習過程中訓練樣例的難度。這種進展使模型能夠在一些簡單的例子上學習廣泛的概念,然后用更困難的例子來完善概念。這種方法可以提高性能,同時減少收斂所需的示例數量。其約束是對難度標簽估計器的內在需求。對困難的標注可能非常苛刻,甚至可能比標準的標注還要苛刻。

1.5 基于論證的機器學習

基于論證的機器學習(ABML)是一種利用專家的局部知識來約束搜索空間的方法。簡而言之,就是試圖找到 if-then 規則來歸納過程中解釋論證的例子。首先找到一條規則,將其添加到一組規則中,然后刪除該規則所涵蓋的所有訓練數據點。重復這個過程,直到刪除所有示例。ABML 的主要優勢是使用專家知識來證明特定的示例,這往往比解釋全局現象更容易。

ABML 可能不那么受歡迎,然而,如果專家局部知識是可用的,這將是一個集成部分先驗知識的強大方法。此外,歸納假設對專家來說更有意義,因為它必須與輸入論點一致。

1.6 多任務學習

多任務學習是一個突出的研究領域,其中試圖訓練多個不同(但相關)的任務同時進行,同時解決這些多重任務,利用它們之間的共性和差異。同時共同學習多個任務,以增強跨任務的相似性,更好地概括。

多任務學習在視覺和自然語言處理中都得到了成功的應用。在沒有大型數據集的情況下,這種成功的關鍵因素是: 它是一種基于跨任務共性的隱式數據增強方法; 它能夠解開跨任務和特征相關性; 鼓勵分類器在稍微不同的任務上也表現良好。

以垃圾郵件過濾為例。通常,來自單個用戶的數據不足以完成模型的訓練。直觀地說,不同的人有不同的特性分布來區分垃圾郵件和合法的電子郵件。但是,可以利用用戶間的共性來解決這個問題。為了建立這些相似性,可以將每個用戶作為一個獨特但相關的分類任務,并在不同用戶之間進行一個模型的訓練。

多任務學習的實現可以分為兩大類——隱藏層的硬參數共享和軟參數共享,其中硬參數共享更為常用。在硬參數共享的類型中,隱藏層在所有任務之間共享,同時保留幾個特定于某些任務的輸出層。在軟參數共享中,每個任務都有自己的模型和參數。然后,模型參數之間的距離被正則化,以增強交叉任務間的相似性。

1.7 遷移學習

遷移學習是一種被廣泛使用的、非常有效的整合先前知識的方法,將在解決一個問題時獲得的知識轉移到另一個不同但相關的問題上。這個思想是使用在相關任務上受過訓練的預先存在的模型。這些預先訓練的模型通常用作使用手頭任務的小數據集進行微調的初始化。因此,為了收斂,需要特定于任務的示例要少得多。

另一個有益的副作用是使用模型初始的寬領域知識,相比于初始化隨機權重,模型以一些相關的全局知識來開始微調階段。例如,在 ImageNet 上訓練的模型已經被轉移到醫學成像任務中,使用在一個大型和多樣化的圖像數據集上訓練的普遍視覺特征。盡管 ImageNet 中的圖像和下游任務中的圖像有所不同,但這些特性與許多視覺任務相關。因此,這種方法顯著減少了所需標記特定任務的數據大小。

在自然語言處理中,通常使用的預訓練模型 BERT 在各種任務中取得了最先進的結果。預訓練模型通常是以自我監督的方式進行,其中不同的輸入部分被掩蓋,目標是預測被掩蓋的部分。例如,給定一個句子,可以對它進行迭代,每次屏蔽一個不同的單詞,以創建各種示例。

深度網絡中的微調通常是通過添加一個未經訓練的最后一層,并在特定任務的小數據集上訓練新模型來完成的,或者是通過嵌入下一個最后一層的輸出來完成。另一種可能的微調技術是以一個相對較小的學習率來訓練整個網絡; 也就是說,對已經合適的權重進行小的改變。微調也可以通過凍結預訓練模型的前幾層權重來完成。這種技術背后的動機是第一層捕獲通用特性,這些特性可能也與新任務相關。因此,在微調期間會凍結它們應該保留與原始任務和新任務相關的捕獲信息。

總之,遷移學習對于減少任務的特定數據數量和提高模型的性能都是一個強有力的工具。

1.8 元學習

元學習通過對多個學習過程的經驗進行推廣來改進學習算法。雖然元學習通常可以與 多任務學習系統有意義地結合,但它們的目標是不同的。多任務學習的目標是解決所有的訓練任務,而元學習的目標是利用訓練任務來解決新的小數據任務。因此,元學習是創建具有先驗經驗的模型,能夠快速適應新的任務。具體來說,元學習會逐漸學習跨任務的元知識,在使用很少的任務特定信息時,就可以推廣到一個新的任務。

元學習有三種常見的方法: 基于度量(類似于最近鄰算法)、基于優化(元梯度優化)和基于模型(不假設數據分布)。

作為基于度量的方法,可以顯式地從給定的支持集中學習,以最小化批處理的損失。結果是一個模型學會了將一個小的、帶標簽的支持集和一個未標簽的示例進行映射,從而不用微調就能適應新類類型的需要。

在基于優化的研究領域,典型的方法是模型無關元學習(MAML) ,這是一個通用的優化算法,與任何基于梯度下降的模型兼容。它使用了一個元損失,用于誘導快速變化時,微調新的任務和基于任務總數的梯度。

在基于模型的研究領域,一般地,元學習模型依賴于“快速權重”,這些權重是網絡的參數,與常規的基于梯度的權重變化相比,變化的時間尺度更小。這種 短期可塑性維持了一種動態變化的短期記憶,記憶了數據單元在網絡中活動的近期歷史,而不是標準的慢循環連接。該模型在多個任務中的性能優于許多其他的循環模型。

2. 標簽缺失

另一類問題是數據非常豐富,但是幾乎沒有標簽。這種情況在實踐中很常見,因為未標記的數據通常比標記的數據更容易獲得。

如何解決標簽缺失的問題呢?

2.1 主動學習

當需要更多的標簽但標注成本高昂的時候,一個直接的問題是如何有效地獲取新的標簽數據。主動學習就是一個很好的方法,可以通過反復查詢信息源來標記新的數據點。這些查詢可以包括來自數據集或新的前數據點中未標記的示例,通常是接近決策邊界的示例。

有許多方法可以確定下一步應該查詢訓練集中的哪些數據點。通常的目標包括挑選最能改變當前模型的例子,當前模型最不確定的例子,或者類似于數據分布的不同例子。在存在少量數據的情況下,用典型的示例來展示模型是最有益的。

當生成新的示例時 ,仍然需要人工標注,雖然數據增強修改了輸入,但是主動學習生成的示例沒有標簽。因此,生成算法應該保持新的數據點可解釋,也就是說,確保它們有一個清晰的標簽。例如,使用 GAN 來生成新的示例,或者從頭開始并標記它們 ,或者通過修改現有的示例同時試圖保留標記。重要的是,GAN 方法比基于轉換的方法更具表現力,但是結果往往更難以解釋。

2.2 半監督學習

半監督學習通過在學習過程中整合有標記和無標記的示例來減少標記要求。這是一個非常廣泛而活躍的領域,但并不能說是涵蓋了所有的領域

半監督學習使用大量未標記的數據估計分布 P (X = x) ,以減少帶注釋的數據需求。它對 P (X = x)和 P (Y = y | X = x)之間的關系作出強有力的假設,以減少所需要的標記例子的數量。通常,這些假設采取以下形式:

  • 平滑度: 相鄰的點更有可能共享一個標簽,即每兩個相鄰的樣本 x,x’應該有相似的標簽。
  • 聚類能力: 數據傾向于形成離散的聚類,其中屬于同一聚類的點更有可能共享一個標簽。因此,決策邊界只能通過特征空間中的低密度區域。
  • 流形: 數據近似地位于一個比輸入空間維數低得多的流形上。因此,當考慮輸入空間的低維流形時,同一流形上的任何數據點都應該有相同的標簽。

這三種假設都可以看作是對點間相似性的不同定義: 平滑性將其定義為輸入空間中的鄰近性,聚類能力假設高密度區域包含相似的數據點,以及位于同一低維流形上的點狀態是相似的。

使用無監督預處理方法的一種常用方法是利用 P (X = x)上的知識在比原始維數更低的維數上提取有用的特征,從而降低學習復雜度。這包括使用自動編碼器模型來學習表示,或者使用像 PCA 這樣的降維方法。

2.3 數據編程

數據編程是編程創建訓練集的范例。在數據編程中,用戶將弱監督策略或領域啟發式表示為標記函數(LF) ,即對數據子集進行標記的程序。LF 是不精確的,可能是相互矛盾的,會導致噪音標簽的產生。數據編程通過明確地將標記過程 f: x → Y 表示為一個生成模型,目的是“去噪”生成訓練集。

還是垃圾郵件檢測例子,如果電子郵件包含 URL 或轉賬請求,潛在的 LF將返回“垃圾郵件”標簽,如果來自聯系人列表中的某人,則返回“非垃圾郵件”。這些函數本身的性能很差,然而,就像集成方法一樣,數據編程的優勢在于許多弱啟發式的結合。

2.4 正則化期望

正則化期望使用了關于數據子組中不同標簽比例的先驗知識來創建有噪聲的標簽。關于標簽在數據各個子組中比例的先驗知識,使得正則化期望成為可能(從標簽比例中學習)。

這個估計過程依賴于期望運算的一致收斂性,它使用子群體的經驗方法來近似預期關于一個群體的分布,然后利用后者計算給定標簽的期望值,最后利用標簽分布上的條件平均值估計群的平均值。

2.5 遠程監督

遠程監督使用了已有數據庫收集所需關系的示例,然后使用這些示例自動生成帶標簽的訓練數據。

遠程監督也是利用現有數據集的一種常用方法。在遠程監督中,一個模型被學習給一個標記的訓練集,就像在“標準”監控機器學習中一樣,但是訓練數據被弱標記,也就是說,是基于啟發式或規則的自動標記。

例如,一個大型未標記的語義數據庫為關系抽取提供遠程監控,任何一個句子中包含一對與該語義數據庫中關系已知的實體,都可能以某種方式表達這種關系。由于包含給定實體對的句子數量可能很多,有可能為標記過程提取和組合有噪聲的特征。

2.6 附帶監督

附帶監督基于這樣一種思想,即任務的信息線索可能存在于數據集中,而這些數據集并沒有考慮到這個任務。例如,從名字中推斷出性別。人們可以使用維基百科,它不是為這個任務而創建的。附帶的信號是出現在維基百科頁面第一段關于名字相同的人及其性別指標。這個信號與手頭的任務相關,可以用于監督,減少對數據標注的需要。

附帶監督是不假設知識的標注過程。附帶信號可以是噪音,或只有弱相關的目標任務,仍然可以用來提供監督和促進學習。這里的監督概念與遠程監控的概念不同: 在遠程監控中,模型以標準的監督式學習方式學習,但訓練集是基于啟發式自動標記的。在附帶監督下,一套完整的訓練集可能永遠不會存在。

例如,上下文相關的拼寫和語法檢查是一直依賴于附帶監督的任務。在假設大多數編輯過的文本資源(書籍、報紙、維基百科)不包含許多拼寫和語法錯誤的情況下,這些方法為單詞、句讀和現象生成上下文表示。然后,這些表示用于識別錯誤,并以與上下文相關的方式予以糾正。

3. 不是結束的結束語

機器學習的主導模式一般是使用眾包來創建大型的、特定于任務的數據集。在機器學習驅動的數據架構中,經常面臨的是數據匱乏的問題,而數據匱乏可以分為兩類:數據缺失和標簽缺失。

如何解決數據缺失的問題呢?

如何解決標簽缺失的問題呢?

對于非機器學習驅動的軟件系統而言,數據架構又面臨哪些問題呢?

分享到:
標簽:架構 數據
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定