近來,多模態(tài)大語言模型(Multimodal Large Language Model,MLLM)受到廣泛關(guān)注,成為一個(gè)新興的研究熱點(diǎn)。
MLLM通常以大語言模型(Large Language Model,LLM)為基礎(chǔ),融入其它非文本的模態(tài)信息,完成各種多模態(tài)任務(wù)。
圖片
相比于常規(guī)的多模態(tài)模型,MLLM涌現(xiàn)出一些令人驚嘆的新能力,例如基于圖片進(jìn)行詩文創(chuàng)作和OCR-Free的數(shù)學(xué)推理等。這些強(qiáng)大的能力顯示MLLM有望成為實(shí)現(xiàn)通用人工智能的一種途徑。
為此,來自中科大、騰訊等機(jī)構(gòu)的研究人員深入探討了MLLM的研究進(jìn)展并發(fā)表了該領(lǐng)域的首篇綜述《A Survey on Multimodal Large Language Models》:
圖片
論文鏈接:https://arxiv.org/pdf/2306.13549.pdf
圖片
項(xiàng)目鏈接(實(shí)時(shí)更新最新論文):https://Github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
研究人員將MLLM定義為「由LLM擴(kuò)展而來的具有接收與推理多模態(tài)信息能力的模型」,該類模型相較于熱門的單模態(tài)LLM具有以下的優(yōu)勢:
1. 更符合人類認(rèn)知世界的習(xí)慣。人類具有多種感官來接受多種模態(tài)信息,這些信息通常是互為補(bǔ)充、協(xié)同作用的。因此,使用多模態(tài)信息一般可以更好地認(rèn)知與完成任務(wù)。
2. 更加強(qiáng)大與用戶友好的接口。通過支持多模態(tài)輸入,用戶可以通過更加靈活的方式輸入與傳達(dá)信息。
3. 更廣泛的任務(wù)支持。LLM通常只能完成純文本相關(guān)的任務(wù),而MLLM通過多模態(tài)可以額外完成更多任務(wù),如圖片描述和視覺知識(shí)問答等。
該綜述主要圍繞MLLM的三個(gè)關(guān)鍵技術(shù)以及一個(gè)應(yīng)用展開,包括:
1. 多模態(tài)指令微調(diào)(Multimodal Instruction Tuning,M-IT)
2. 多模態(tài)上下文學(xué)習(xí)(Multimodal In-Context Learning,M-ICL)
3. 多模態(tài)思維鏈(Multimodal ChAIn of Thought,M-CoT)
4. LLM輔助的視覺推理(LLM-Aided Visual Reasoning,LAVR)
前三項(xiàng)技術(shù)構(gòu)成了MLLM的基礎(chǔ),而最后一個(gè)是以LLM為核心的多模態(tài)系統(tǒng)。
三項(xiàng)技術(shù)作為LLM的代表性能力在NLP領(lǐng)域已有廣泛研究,但擴(kuò)展到多模態(tài)領(lǐng)域時(shí)會(huì)出現(xiàn)許多新的特點(diǎn)與挑戰(zhàn)。
LLM輔助的視覺推理系統(tǒng)涉及幾種典型的設(shè)計(jì)思路,即將LLM作為控制器、決策器或語義修飾器。
CVPR 2023最佳論文Visual Programming [1]即采用了將LLM作為控制器的設(shè)計(jì)思路。本文將對前述的幾個(gè)方面以及相關(guān)挑戰(zhàn)做簡單的概覽,更豐富的內(nèi)容請參考原文。
多模態(tài)指令微調(diào) M-IT
指令(Instruction)指的是對任務(wù)的描述,多模態(tài)指令微調(diào)是一種通過指令格式的數(shù)據(jù)(Instruction-formatted data)來微調(diào)預(yù)訓(xùn)練的MLLM的技術(shù)。
通過該技術(shù),MLLM可以跟隨新的指令泛化到未見過的任務(wù)上,提升zero-shot性能。多模態(tài)的指令格式如下所示:
圖1.M-IT格式
多模態(tài)指令數(shù)據(jù)的基本形式可以概括為(指令,多模態(tài)輸入,回答)三元組。指令的設(shè)計(jì)可以分為手工設(shè)計(jì)與GPT輔助設(shè)計(jì)這兩種方式。
前者指的是人工為每種任務(wù)設(shè)計(jì)一系列指令模板,比如對于傳統(tǒng)的視覺問答任務(wù),指令可以設(shè)計(jì)為「<image> What is the answer to the question? {question}」,其中<image>和{question}(對應(yīng)著圖1中的<text>)為原有視覺問答任務(wù)中的圖像和問題。
另一種GPT輔助設(shè)計(jì)的方式是通過手工設(shè)計(jì)少量樣例來Prompt GPT生成更豐富的指令。
對于多模態(tài)指令微調(diào),研究人員從數(shù)據(jù)、模態(tài)橋接(Modality Bridging)和評測三個(gè)方面對現(xiàn)有工作進(jìn)行了總結(jié),如下圖所示:
圖2.M-IT總結(jié)
多模態(tài)上下文學(xué)習(xí) M-ICL
多模態(tài)上下文學(xué)習(xí)指的是給定少量樣例作為Prompt輸入,激發(fā)模型潛在的能力并規(guī)范化模型的輸出。其樣例如下圖所示:
圖3.M-CoT樣例
目前以Flamingo[2]為代表的M-ICL相關(guān)的研究工作還比較少。
LLM通常不需要專門的訓(xùn)練即可擁有ICL能力,但現(xiàn)階段的MLLM還比較依賴訓(xùn)練,并且仍缺乏對樣例選擇和樣例順序等方面的深入研究。
多模態(tài)思維鏈 M-CoT
多模態(tài)思維鏈通過顯示地逐步推理(給出中間的推理步驟)來獲得多模態(tài)任務(wù)的答案。相比于直接輸出答案,M-CoT在較為復(fù)雜的推理任務(wù)上能夠取得更好的表現(xiàn)。
研究人員從模態(tài)橋接(Modality Bridging)、學(xué)習(xí)范式、思維鏈配置以及生成模式這四個(gè)方面總結(jié)了當(dāng)前的研究:
圖4. M-CoT總結(jié)
目前M-CoT的研究也較少,仍處在初步探索階段。
LLM輔助的視覺推理 LAVR
這類工作利用LLM強(qiáng)大的內(nèi)嵌知識(shí)與能力以及其他工具,設(shè)計(jì)各種視覺推理系統(tǒng)。
相比于傳統(tǒng)視覺推理模型,這些工作具有以下的好的特性:
(1)強(qiáng)大的零/少樣本泛化能力
(2)具備新的能力,這些系統(tǒng)能夠執(zhí)行更加復(fù)雜的任務(wù),如解讀梗圖的深層含義
(3)更好的互動(dòng)性與可控性
研究人員從訓(xùn)練范式、LLM扮演的角色以及評測三個(gè)部分總結(jié)了當(dāng)前的進(jìn)展:
圖5.LAVR總結(jié)
挑戰(zhàn)和未來方向
目前來看,MLLM的發(fā)展還處于起步階段,無論是相關(guān)技術(shù)還是具體應(yīng)用都還存在著許多挑戰(zhàn)與可研究的問題,可以總結(jié)為以下幾點(diǎn):
1. 現(xiàn)有MLLM的感知能力受限,導(dǎo)致獲取的視覺信息不完整或者有誤,并進(jìn)一步使得后續(xù)的推理出錯(cuò)。這可能是因?yàn)楝F(xiàn)有模型在信息容量和計(jì)算負(fù)擔(dān)之間的妥協(xié)造成的。
2. MLLM的推理鏈較為脆弱。表現(xiàn)為即使是做簡單的多模態(tài)推理問題,模型有時(shí)仍會(huì)因?yàn)橥评礞湕l斷裂導(dǎo)致輸出錯(cuò)誤答案。
3. MLLM的指令服從能力需要進(jìn)一步提升。表現(xiàn)為在進(jìn)行指令微調(diào)后,即使是較為簡單的指令,部分MLLM仍然無法輸出預(yù)期的答案。
4. 物體幻視問題普遍存在。表現(xiàn)為MLLM輸出的回復(fù)與圖片的內(nèi)容不相符,出現(xiàn)了編造物體等現(xiàn)象,影響了MLLM的可靠性。
5. 高效參數(shù)訓(xùn)練。由于MLLM的模型容量很大,在計(jì)算資源受限的條件下,高效參數(shù)訓(xùn)練有望能夠解鎖更多MLLM的能力。
上述前四點(diǎn)問題在與本文同系列的論文(https://arxiv.org/pdf/2306.13394.pdf)中有非常詳細(xì)的評測和討論,歡迎大家閱讀。
除了上述問題外,MLLM在具體的子方向上也都只進(jìn)行了初步探索,比如M-ICL目前仍然缺乏對樣本選取以及排序的深入研究。
參考資料:
[1] Gupta, Tanmay and Kembhavi, Aniruddha. Visual programming: Compositional visual reasoning without training. CVPR 2023
[2] Alayrac, Jean-Baptiste and Donahue, Jeff and Luc, Pauline and Miech, Antoine and Barr, Iain and Hasson, Yana and Lenc, Karel and Mensch, Arthur and Millican, Katherine and Reynolds, Malcolm and others. Flamingo: a visual language model for few-shot learning. NeurIPS 2019