GPT-4的發(fā)布給ChatGPT帶來了又一次飛躍，ChatGPT不僅支持文字輸入，還能看得懂圖片、甚至是漫畫、梗圖，以GPT-4為代表的多模態(tài)大模型非常強(qiáng)大。多模態(tài)大模型就是指模型可以處理多種結(jié)構(gòu)/類型的數(shù)據(jù)，例如GPT-4，它既可以處理你輸入的文本，也可以處理你上傳的圖片。

那么，多模態(tài)到底意味著什么呢？

1. 什么是多模態(tài)？

人類有五種基本感官:觸覺、視覺、聽覺、嗅覺和味覺。與每一種感覺相關(guān)的感覺器官向大腦發(fā)送信息，幫助我們理解和感知我們周圍的世界。然而，事實(shí)上，除了這五種基本的感官之外，還有其他的人類感官是你生活中必不可少的。這些鮮為人知的感覺包括空間意識(shí)和平衡等。通過這些感官的交互，也就是多模態(tài)，以下是最常見的幾種模態(tài)：

GPT-4專注于語言和視覺作為一些基本的模態(tài)。所謂融合，是指將來自兩個(gè)或多個(gè)模態(tài)的信息合并以執(zhí)行預(yù)測(cè)任務(wù)。有兩種類型的融合：- 早期融合：模態(tài)將在訓(xùn)練早期就連接起來。- 晚期融合：我需要在每個(gè)模態(tài)早期進(jìn)行一些處理，然后再將它們組合起來。

看一些現(xiàn)實(shí)世界的例子，了解什么是MMML應(yīng)用：

2. 單模態(tài)分類模型及一些基本概念

從單模態(tài)的分類模型開始，分析視覺、文本和聲音模態(tài)的基本處理方法，還試圖澄清了數(shù)據(jù)集、最近鄰居、神經(jīng)網(wǎng)絡(luò)基礎(chǔ)、推理和模型參數(shù)等相關(guān)術(shù)語和概念。

2.1 單模態(tài)的分類模型

從一種模態(tài)的分類模型開始，例如視覺分類，給定一張圖片，它是不是一只狗呢？

這是三個(gè)二維矩陣疊加在一起形成的彩色圖像，如何解決這個(gè)圖像分類問題呢？因?yàn)榇蠖鄶?shù)神經(jīng)網(wǎng)絡(luò)或分類器只接受二維矩陣，為了制作這個(gè)輸入向量，需要將這個(gè)三維向量分解并將它們疊加在一起，就像下面的圖像所示的那樣。然后，才能能夠通過多分類輸出來獲取目標(biāo)的對(duì)象分類。

對(duì)于單模態(tài)模型，首先有一個(gè)輸入，可以是如上所述的3D矩陣，然后將其傳遞到已經(jīng)訓(xùn)練好的模型中，得到一個(gè)分類（單類或多類）或回歸輸出。

對(duì)于單詞、句子或段落這樣的模態(tài)而言，有兩種類型：書面（文本）和聲音（轉(zhuǎn)錄）。舉個(gè)例子，假設(shè)從一段文本中提取了一個(gè)單詞，想要了解這是正面還是負(fù)面的情緒。該怎么做呢？

為了簡(jiǎn)單起見，可以使用one-hot向量，這是一個(gè)非常長(zhǎng)的向量，其長(zhǎng)度是字典的長(zhǎng)度。這個(gè)字典是我們的模型從訓(xùn)練集中創(chuàng)建的，計(jì)算出它所發(fā)現(xiàn)的所有去重后的單詞。對(duì)于每一個(gè)單詞，在向量中有一個(gè)索引條目。需要注意的是，某些非常低頻的詞語，可能不在字典中。

用這個(gè)one-hot向量將作為最大熵模型的輸入向量，進(jìn)而進(jìn)行情緒分類，命名實(shí)體分類（名字 vs 地方 vs 實(shí)體），或者詞性標(biāo)注（動(dòng)詞，名詞，形容詞）等。如果想要更細(xì)粒度地按單詞運(yùn)行模型，就可以這樣做。

但是，如果想要處理更大量的文本，比如一句話或一段話，該怎么辦呢？

可以將輸入向量變成一個(gè)詞袋向量，但它仍然是一種one-shot編碼，現(xiàn)在對(duì)目標(biāo)文檔中的每個(gè)單詞進(jìn)行編碼，如果一個(gè)維度上有這個(gè)單詞就是1，否則就是0。然后可以運(yùn)行同樣的任務(wù)，就像上面做的情緒分類一樣。

最后，在看看聲音模態(tài)。假設(shè)正在聆聽一個(gè)音頻，基本上，音頻是一個(gè)非常長(zhǎng)的一維向量，可以使用此向量并運(yùn)行分類問題以轉(zhuǎn)錄語音。在實(shí)踐中，人們用時(shí)間窗口在音頻信號(hào)中切片，并開始處理該數(shù)據(jù)集以創(chuàng)建Spectogram。在這個(gè)音頻中，檢查獲取了多少低頻與高頻成分，以千赫為記錄在Spectogram中。然后，我們將這個(gè)Spectogram轉(zhuǎn)換為模型的輸入向量。

除了僅僅進(jìn)行轉(zhuǎn)錄外，還可以使用這些模型來獲取情感分類或語音質(zhì)量。

2.2 相關(guān)術(shù)語

數(shù)據(jù)集是帶有標(biāo)簽的樣本集合，包括：

訓(xùn)練集：在這個(gè)訓(xùn)練集上學(xué)習(xí)分類器
驗(yàn)證集：通過查看L1或L2函數(shù)在此處選擇最佳的超參數(shù)，基本上希望看到哪些超參數(shù)會(huì)帶來最佳的結(jié)果。
測(cè)試集：在這個(gè)保留的測(cè)試集上評(píng)估分類器。

最近鄰居：最簡(jiǎn)單但仍然是最有效的分類器之一。 - 在訓(xùn)練時(shí)間，時(shí)間復(fù)雜度為O（1），測(cè)試時(shí)間為O（N） - 它使用距離度量來找到最近的鄰居。 - 它將使用L1（曼哈頓）或L2（歐幾里得）距離。

2.3 神經(jīng)網(wǎng)絡(luò)基礎(chǔ)

根據(jù)激活函數(shù)的不同，一個(gè)神經(jīng)元可以被稱為一個(gè)線性分類器。神經(jīng)網(wǎng)絡(luò)中每個(gè)部分的組成和功能如下：

1）定義一個(gè)神經(jīng)元的得分函數(shù)，目標(biāo)是預(yù)測(cè)該類別標(biāo)簽的得分。例如，對(duì)于圖像分類問題“這是一只狗、貓、鳥還是豬？”，可以將為鴨子、貓、鳥和豬各設(shè)置一個(gè)神經(jīng)元。具有線性激活函數(shù)的神經(jīng)元如下圖所示：

接下來，在這里學(xué)習(xí)權(quán)重和偏置值。

定義損失函數(shù)（可能是非線性的）
優(yōu)化參數(shù)的權(quán)重（考慮梯度下降）

然后，考慮多層前饋神經(jīng)網(wǎng)絡(luò)。

這個(gè)多層網(wǎng)絡(luò)由一個(gè)輸入層，幾個(gè)隱藏層，以及一個(gè)可能包含激活函數(shù)的輸出層組成。每個(gè)前面的隱藏層的輸出作為后面層的輸入。

最后，我還有兩個(gè)概念需要澄清：

推理：用于測(cè)試。推理可以被看作是通過輸入獲得評(píng)分/輸出的過程。它既是獲得這個(gè)分?jǐn)?shù)的行為，也涉及到它的使用。
模型參數(shù)：在訓(xùn)練時(shí)使用，將使用基于梯度的方法進(jìn)行優(yōu)化。基本上，需要有固定訓(xùn)練的數(shù)據(jù)，通過學(xué)習(xí)得到最小損失的權(quán)重和偏差。

3. 多模態(tài)機(jī)器學(xué)習(xí)的核心問題

多模態(tài)是一種新的AI/ target=_blank class=infotextkey>人工智能范式，其中各種模態(tài)（文本、語音、視頻、圖像）與多種智能處理算法結(jié)合，以實(shí)現(xiàn)更高的性能。

業(yè)界有多種實(shí)現(xiàn)多模態(tài)的方式，通過多模態(tài)機(jī)器學(xué)習(xí)，希望確保該空間中的相似性對(duì)應(yīng)著相應(yīng)概念的相似性，通過存在的其他模態(tài)，給出缺失的模態(tài)內(nèi)容。多模態(tài)應(yīng)用目前包括各種任務(wù)，如信息檢索、映射和融合。

在多模態(tài)機(jī)器學(xué)習(xí)中，大約有五個(gè)核心問題——表示、翻譯、對(duì)齊、融合和協(xié)同學(xué)習(xí)。

3.1 多模態(tài)的數(shù)據(jù)表達(dá)

多模態(tài)數(shù)據(jù)的最大挑戰(zhàn)是以一種方式總結(jié)來自多個(gè)模態(tài)（或視圖）的信息，以便綜合使用互補(bǔ)信息，同時(shí)過濾掉冗余的模態(tài)部分。由于數(shù)據(jù)的異質(zhì)性，一些挑戰(zhàn)自然而然地出現(xiàn)，包括不同類型的噪聲、模態(tài)（或視圖）的對(duì)齊以及處理缺失數(shù)據(jù)的技術(shù)。目前，主要有兩種的方法來完成多模態(tài)表達(dá)：聯(lián)合表達(dá)和協(xié)調(diào)表達(dá)。

協(xié)調(diào)表達(dá)

多模態(tài)數(shù)據(jù)必須在非常弱的（它們的空間不重疊）或非常強(qiáng)的（最終成為聯(lián)合表示）之間協(xié)調(diào)，通過結(jié)構(gòu)化的協(xié)調(diào)來完成嵌入。

協(xié)調(diào)表達(dá)涉及將所有形式投射到它們的空間中，但這些空間使用約束進(jìn)行協(xié)調(diào)。這種方法對(duì)根本上非常不同并且可能不適用于聯(lián)合空間的形式更有用。由于自然界中形式的多樣性，協(xié)調(diào)表達(dá)在多模態(tài)表示領(lǐng)域中比聯(lián)合表達(dá)具有巨大優(yōu)勢(shì)，使用約束進(jìn)行協(xié)調(diào)是一種強(qiáng)大的方法。

聯(lián)合表達(dá)

聯(lián)合表達(dá)涉及將所有模態(tài)投影到一個(gè)共同的空間，同時(shí)保留來自給定模態(tài)的信息。訓(xùn)練和推理時(shí)需要所有模態(tài)的數(shù)據(jù)，這可能會(huì)使處理缺失數(shù)據(jù)變得困難。另外，通過遞歸模型，可以在每個(gè)時(shí)間步融合模態(tài)的不同視圖，最終使用聯(lián)合表示完成手頭的任務(wù)（如分類，回歸等）。

對(duì)于所有模態(tài)在推斷時(shí)都存在的任務(wù)，聯(lián)合表達(dá)更適合。另一方面，如果缺少其中一種模態(tài)，則協(xié)調(diào)表達(dá)更適合。

3.2 多模態(tài)機(jī)器翻譯

多模態(tài)機(jī)器翻譯涉及從多個(gè)模態(tài)中提取信息，基于這樣的假設(shè)，附加的模態(tài)將包含有用的輸入數(shù)據(jù)的替代視圖。在這個(gè)領(lǐng)域中最重要的任務(wù)是口語翻譯、圖像引導(dǎo)翻譯和視頻引導(dǎo)翻譯，它們分別利用音頻和視覺模態(tài)。這些任務(wù)與它們的單語對(duì)應(yīng)任務(wù)——語音識(shí)別、圖像字幕和視頻字幕——不同之處在于需要模型生成不同語言的輸出。(來源) 下面我們可以看到一個(gè)圖像字幕的例子出了大錯(cuò):

上述模型無法將視覺場(chǎng)景與語法句子進(jìn)行同步理解，這對(duì)于強(qiáng)大的多模態(tài)模型至關(guān)重要。多模態(tài)翻譯模型有兩種類型：基于示例的和生成式的。

基于示例的模型將存儲(chǔ)一個(gè)翻譯詞典，如上所示，然后將其從一種語言模態(tài)映射到另一種。在推理過程中，模型將從字典中提取最接近的匹配項(xiàng)，或通過推斷字典提供的信息創(chuàng)建翻譯。這些模型需要存儲(chǔ)更多的信息，運(yùn)行速度非常緩慢。

生成模型在推理時(shí)不需要參考訓(xùn)練數(shù)據(jù)即可產(chǎn)生翻譯。生成模型有3個(gè)類別，分別是基于語法的、變壓器模型和連續(xù)生成模型。

3.3 多模態(tài)的對(duì)齊

多模態(tài)對(duì)齊是找到兩種或更多模態(tài)之間的關(guān)系和對(duì)應(yīng)。

為了對(duì)齊不同的模態(tài)，模型必須測(cè)量它們之間的相似度并處理長(zhǎng)距離依賴關(guān)系。多模態(tài)對(duì)齊涉及的其他困難包括缺乏注釋數(shù)據(jù)集、設(shè)計(jì)好的模態(tài)相似性度量以及存在多個(gè)正確的對(duì)齊方式。主要有兩種類型的多模態(tài)對(duì)齊：- 顯式對(duì)齊：其目標(biāo)是找到模態(tài)之間的對(duì)應(yīng)關(guān)系，并對(duì)同一事件的不同模態(tài)數(shù)據(jù)進(jìn)行對(duì)齊。例如：將語音信號(hào)與轉(zhuǎn)錄對(duì)齊。- 隱式對(duì)齊：對(duì)齊有助于解決不同任務(wù)時(shí)的模型（例如“注意力”模型）。它是多個(gè)下游任務(wù)（如分類）的先驅(qū)。例如：機(jī)器翻譯

3.4 多模態(tài)的融合

多模態(tài)融合可能是更重要的問題和挑戰(zhàn)之一。融合是將來自兩個(gè)或兩個(gè)以上模態(tài)的信息結(jié)合起來解決分類或回歸問題的實(shí)踐。使用多個(gè)模態(tài)提供更強(qiáng)大的預(yù)測(cè)能力，使我們能夠捕獲互補(bǔ)信息。即使其中一個(gè)模態(tài)缺失，多模態(tài)融合模型仍可使用。

3.5 協(xié)同學(xué)習(xí)

協(xié)同學(xué)習(xí)是將學(xué)習(xí)或知識(shí)從一種模態(tài)轉(zhuǎn)移到另一種模態(tài)的挑戰(zhàn)。對(duì)于在資源有限的模態(tài)下建立模型——如缺乏注釋數(shù)據(jù)、嘈雜的輸入和不可靠的標(biāo)簽，從資源豐富的模態(tài)中轉(zhuǎn)移知識(shí)是相當(dāng)有用的。

小結(jié)

多模態(tài)機(jī)器學(xué)習(xí)是一種新的人工智能范式，結(jié)合各種模態(tài)和智能處理算法以實(shí)現(xiàn)更高的性能。多模態(tài)機(jī)器學(xué)習(xí)中的核心問題包括表示、翻譯、對(duì)齊、融合和協(xié)同學(xué)習(xí)。其中，多模態(tài)數(shù)據(jù)的表達(dá)是最大的挑戰(zhàn)之一，需要使用聯(lián)合表達(dá)和協(xié)調(diào)表達(dá)等方法。多模態(tài)機(jī)器翻譯涉及從多個(gè)模態(tài)中提取信息，基于這樣的假設(shè)，附加的模態(tài)將包含有用的輸入數(shù)據(jù)的替代視圖。多模態(tài)對(duì)齊是找到兩種或更多模態(tài)之間的關(guān)系和對(duì)應(yīng)，多模態(tài)融合可能是更重要的問題和挑戰(zhàn)之一，協(xié)同學(xué)習(xí)是將學(xué)習(xí)或知識(shí)從一種模態(tài)轉(zhuǎn)移到另一種模態(tài)的挑戰(zhàn)。

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

淺析多模態(tài)機(jī)器學(xué)習(xí)1. 什么是多模態(tài)？2. 單模態(tài)分類模型及一些基本概念3. 多模態(tài)機(jī)器學(xué)習(xí)的核心問題小結(jié)

1. 什么是多模態(tài)？

2. 單模態(tài)分類模型及一些基本概念

3. 多模態(tài)機(jī)器學(xué)習(xí)的核心問題

小結(jié)

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

每日養(yǎng)生app2018-06-03

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03