7月27日,由微博、新浪新聞主辦的人工智能領域行業峰會——“融合生態 價值共創”2022新智者大會召開,在大會“智驅萬物:AI推動萬物互聯的加速到來”的議題中,百度技術委員會主席吳華女士分享了題為《大模型技術及應用》的演講,揭秘大模型的基本原理、發展趨勢,分享了大模型助力產業智能化的前沿應用。
2022新智者大會-百度技術委員會主席吳華-主題演講
以下是吳華女士演講實錄,內容經編輯略有刪減:
大家好!我是百度的吳華,我今天要分享的主題是《大模型技術及應用》。
我今天的分享包括三個部分,首先我會介紹大模型的知識,接下來介紹百度文心大模型,之后介紹大模型的應用。
我們知道,現在人工智能主要三個方面:深度學習、大數據、大算力。三個結合起來促進了現在人工智能的發展。
基于這樣的大數據、深度學習、大算力,我們能夠通過從無標注的數據中自監督的學習,得到預訓練的大模型。這些大模型在下游各種任務的應用中,只需要少量的任務數據,就能取得非常好的效果。
因此,它泛化能力和通用性都非常強。它已經成為了人工智能的新方向。
首先,我們來看預訓練大模型的基本原理。
預訓練大模型的基本原理,實際上有一點像人的教育的過程。自從我們出生,從上小學、中學,甚至上大學,我們接受的都是通識教育。
在這個漫長的成長過程中,我們能夠從周圍的文本、圖像、視頻等等,建構自己的知識體系。之后接受專業教育的時候,我們需要很少量的或者相對短的時間,就可以獲得專業的技能。
所以,預訓練大模型也像人類的學習一樣,能夠從大量的數據中學習知識和規律。在下游的各種人工智能的應用中,大模型可以使用少量的標注數據,就能得到很好的效果。
因此,它可以大規模的、可復制的進行大工業的落地。
我們知道,預訓練大模型最早是2018年的Bert開始1億的參數的模型。現在已經發展成了1.2萬億的參數,參數規模已經提升了1.2萬倍,算力規模也提升了1152倍,數據規模也提升了587倍。
為什么大家還是在不停增大規模呢?實際上隨著參數規模的增大,以及數據的增大,預訓練大模型的推理能力以及在下游的應用過程中的效果越來越好,遷移能力和泛化能力越來越強。因此,這個模型還在不斷增大過程中。
預訓練大模型最先是在自然語言處理領域得到了發展。在這個過程中,預訓練大模型在國際權威的兩個數據集上,主要是自然語言理解的數據集上,超越了人類的水平。
同時,它在知識推理、知識問答、內容生成等方面,都得到了極大的提升。
之后,大模型開始應用在視覺和跨模態等領域。在視覺上,通過大模型的訓練,在視覺分類、視覺分割等任務上,其性能也得到了極大的提升。
在跨模態方面,我們通過文本和圖像融合訓練,能夠提升視覺推理、視覺問答等任務的水平。
最近,跨模態大模型能夠根據文本或者說的一句話,就可以生成一幅跟話相關的或者文本相關的圖像。圖像的可觀性以及質量都非常好,甚至超越了人類的水平。
在預訓練大模型的應用或者訓練的過程中,實際上,人類的先驗知識是不可或缺的。首先,在GPT-3的訓練過程中,人類實際上通過自己的先驗知識,不斷地調試參數,進行超參的設置。
之后,百度的文心ERNIE 3.0通過引入人類凝煉的知識圖譜,使得模型的效果進一步得到提升。之后,我們發現在應用過程中,有不同的已經標注好的任務數據,如果模型能夠學習到這些數據,效果也會得到不斷提升。
因此,通過人工設置模板,把這些任務數據使得充分利用,也能進一步提升這些預訓練模型的效果。
前面說的這三項,是三種不同的使用人類先驗知識的方法,都是為了提升預訓練大模型的效果。
除了提升效果以外,其實預訓練大模型,也能夠跟人類協同,提升人類的效率。
比如說,GitHub使用預訓練模型來生成代碼,這些代碼能輔助程序員提高他寫代碼的效率。
最近,Transformers的部分作者出來創業,創業了一個Adept的項目,目標是想使這些大模型和人類生活中使用的各種各樣的電子工具結合,使得人類的生活或者工作的效率提升。
比如說,用模型生成一個報表,或者是說創作一段文本等等,使得人類效率能得到大幅度提升。
接下來介紹文心大模型。
文心大模型,包括自然語言處理大模型、視覺大模型、跨模態大模型、以及生物計算大模型,生物大模型能提升發現新藥的效率。
在大模型的基礎上,為了提高行業應用的效率/效果,我們也構建了行業大模型。在實際應用中,我們也提供了各種各樣的工具和平臺,使得使用大模型的流程變得更加簡單。
ERNIE模型是一個知識增強的預訓練模型,這個模型有三個特點。
第一個特點,能夠從大規模的知識圖譜和海量的無結構數據中學習。除了海量無結構數據以外,我們也充分利用了人類的知識。比如說大規模的知識圖譜,我們能夠通過兩者的協同來學習知識和規律。
比如說,我們通過掩碼知識圖譜中”作品”這個詞,指導模型從文本中學習這種知識推斷關系。反過來我們掩碼”作家”這個詞,能夠通過知識圖譜,去指導還原。
通過這種方法,我們能解決結構化數據和無結構化數據統一表示的問題,使得學習效果進一步提升。
我們發現通過這種方法的學習,模型能夠有更好的知識推理能力和問答能力。
第二個特點,在ERNIE模型中,能夠同時融合自編碼和自回歸的結構,能夠使這個模型即能夠理解語言也能夠生成語言。
在理解語言的時候,我們采用自編碼的方式,模型能夠看上下文。也就是前面的和后面的詞,我都能看到。這樣的話,有利于語言理解的效果提升。
而在生成的時候,模型只能看到前面已經生成的語言。那這樣的話,模型采用自回歸的方法,來進行語言生成。
通過這樣的方式,這個模型能同時做到自然語言處理里面的語言理解和語言生成。
第三個特點,我們采用了飛漿非常領先的并行技術,能夠高效地支持超大參數規模的模型訓練。飛槳能夠支持千億規模的參數模型訓練。我們知道,這么大的參數訓練,不可能在一臺機器,一張卡,或者說單機多卡這樣的訓練,需要多機多卡并行訓練,因此,我們采用了模型并行、參數并行、流水線并行、參數貼片的并行方式,使得模型訓練的效率,提升了50%。
基于這樣的一個基礎,所以我們發布了鵬城-百度·文心大模型,能夠基于飛槳領先的并行技術,以及鵬城先進的算力中心,訓練2600億的模型,在60多項任務中達到了最好的水平。
而且,這個模型能夠非常高效部署,部署效率能夠達到用小模型相當的效果。
知識增強大模型,能夠顯著提升語言理解能力,尤其是復雜知識推理能力,比如跟GTP-3比,我們的模型能夠提高8%個點。尤其是在多步推理和常識推理上,知識增強模型表現得更好。
剛才我們提到,模型除了做語言理解以外,還有能做語言生成,而且能做多種風格的語言生成。比如說做小說的寫作,還有歌詞的創作,以及詩歌的創作等等。
而且,創作出來以后,我們有做過一些評估。有時候都不能分出來是人寫的,還是機器寫的。
同時,我們發現知識能提升學習效率,在模型發布的時候,在國際排行榜SuperGLUE上排在榜首,這是自然語言領域權威的一個數據集合。可以看到我們的模型和GPT-3相比,模型的參數規模非常小,但是我們的效果更好。
同時,我們也看到,我們的模型有生成能力。尤其是能生成不同風格的文體。比如說,我們能夠寫小說,能夠做詩歌的創作,可以寫歌詞等等。
在預訓練大模型中,我們已經融入了大規模的知識圖譜,在實際應用過程中,也有很多已經標注了跟任務相關的知識。
在大模型中,我們也把這些多種多樣的任務知識,融入到大模型的訓練中。而且是通過統一的、基于提示的方式來把這些知識融入在我們的大模型中。
比如說把問答、情感分析,甚至文本生成等等這樣的一些任務知識,能融入到這個大模型訓練中,可以進一步提升下游的任務效果。
我們看到,在左邊第一張圖中,在公開的數據中,我們即使不利用任務相關的數據,這個模型也能夠顯著提升這些任務的效果。尤其在真實場景中,包括語言理解和語言生成的這兩類任務中,模型的遷移能力也得到了顯著的提升。
除了文本相關模型,實際上我們也訓練了跨模態生成大模型。這些模型能夠同時利用文本和圖像的數據,同時做文本到圖像,以及圖像到文本的生成。這樣的話,兩個任務能夠互相幫助,進一步提升生成的效果。
我們來看一些例子。
上面一排實際上是從文本到圖像的一個生成。也就是說,我說一句話,模型能根據這些話生成相對應的圖片。我們看到這些圖片的寫意能力還是非常強的。
下面一排,實際上是我輸入一個圖片,這個模型就能夠輸出一句對這個圖片的描述。這個應用還是非常好的,這樣的話比如說我們出去游玩,拍了很多照片,但是你檢索的時候非常難。
那如果能夠生成一句描述,你檢索的時候就很快、很高效的得到這些圖片。
除了剛才說的底座的文心ERNIE模型,以及ERNIE-VILG跨模態模型。實際上,我們在任務模型中,在下游應用中,也需要和任務相關的大模型。
我們知道,在自然語言領域中,對話任務是一個非常綜合性的任務。如果我們實現了機器自由對話,那我們離通用人工智能就更近了一步。
因此,我們也訓練了面向對話任務的大模型PLATO。
我們發現,PLATO在對話過程中,你有同樣的上文,可能對應不同的回復。
所以,針對這樣的特點,我們提出了基于隱變量的對話生成大模型,能夠解決多樣性的生成問題。
同時,我們在對話的過程中,我們在理解對方說的話的基礎上,模型同時要回復。這實際上是一個理解和生成結合的過程。因此,我們用統一的框架來建模理解和生成。
我們看到,基于這樣的原理,發布了全球首個百億對話預訓練生成模型,這個模型效果好,能耗低。同時,我們也發現在這個百億模型之前,我們發布了一個16億的模型。這個16億的模型,雖然參數少,但是效果比其它發布的更大模型,效果更好。所以,說明它的能耗更低。
我們來看一個例子,在這個例子中,首先這個機器人實際上是一個有自己的人設。比如說她是女性,她的興趣是人工智能。根據這樣的設定,跟人對話的過程中,她能很快的就她的興趣進行聊天。
而且,她還能回答人工智能領域相關的。比如說,關于模型訓練,以及函數特點的一些問題。同時,她也具有人類的常識。比如說,她也知道要如何算數,計數計的比較準確。同時,你要出去玩的時候,她知道今天是雨天,提醒你帶傘。或者提醒你去針對今天的天氣,穿衣等等這樣的一些能力。
接下來,我介紹大模型在實際應用中面臨的一些問題。
在實際應用中,我們面臨三大挑戰。
第一個是在行業應用中,因為大模型缺乏行業知識,它的能力不能充分的得到體現。
第二個是在使用的大模型過程中,因為數據建設、模型調試、以及部署的門檻高,也使得大模型在下游的應用中,沒有得到充分的利用。
第三個是大模型對于計算資源和存儲資源的要求都非常高,所以在資源受限的場景下,也不能很好的被使用。
所以,面對這三個問題,我們來看看怎么解決。
我們發現,在行業應用中,有一些充分訓練的模型,即使沒有利用預訓練技術,效果也比大模型的效果好。
為了解決這個問題,我們就提出了建設行業大模型的一個方案。也就是說,在通用大模型的基礎上,利用存在大量的、無標記的數據,再訓練一個行業大模型。這樣的話,使得行業大模型在行業相關的任務上的效果,能得到極大的提升。
我們來舉幾個例子。
第一個是百度和國網合作的一個知識增強的電力行業的大模型。
我們發現,在電力行業也存在很多的結構化知識。充分利用這些結構化的知識,發現電力行業大模型,在電力相關的這些任務中,能提升相關任務的效果,平均能提高3-4個點之間。
同時,我們發現另外一個例子,在金融領域我們跟浦發銀行合作,也利用了金融領域的結構化知識,提高金融行業里面的任務效果。比如說,在命名實體識別上,我們從60%多提高到90%多,這個提高還是非常大的。
除了前面舉例的行業以外,大模型已經在各行各業中得到了非常廣泛的應用。比如說,在互聯網行業、醫療行業、保險、證券、交通等等這樣的一些行業里面能大幅的提升效率和效果。
我們剛才提到,大模型在資源受限的場景,不能充分的發揮效果。因此,我們可以提供大模型小型化的一些方案,比如說裁減、蒸餾、量化、稀疏等。在不同的場景中,可以使用不同的方法,因為這些方法在效果、速度、部署成本、迭代的效率等等方面是各有優缺點的。
我們來舉一個例子,在搜索場景的例子。在這個場景 里,實際上當時面臨著一個非常大的挑戰,是千億模型怎么在搜索場景進行部署。
我們采用了兩種方法。第一種方法是在訓練的過程中同時進行蒸餾,將大模型蒸餾成一個比較小的模型。這樣的話,能夠用同一個計算資源做兩件事,訓練多個模型。這樣的話,節省了計算資源。
第二個,為了保證小模型的效果,我們采用了助教的方式。也就是說,我們中間采用了中型的模型來作為助教,來教這個小模型。也就是說,大模型教中型模型,中型模型教小型模型的方式,使得效果得到了極大的提升。我們當時用了萬分之2.5的參數,就能達到千億模型96%的效果。所以,基本上是無損的這種方式來做的。
剛才我們提到,大模型在使用過程中,其實部署的成本比較高,或者門檻比較高。因此,我們把大模型平臺化,在這個平臺中,我們提供了多種大模型部署方案,以及效果提升的方案,并且提供錯誤分析、模型迭代、模型監控等等多種功能,使得模型效果能得到充分的保證。
因此,我們提供了工具平臺,而且是面向不同的用戶。比如說,對于專業的用戶,我們提供了開發套件;對于零基礎的開發者,我們提供了EasyDL開發工具以及平臺;介于兩者之間的,我們提供了BML這樣的一個開發平臺。
而且,在這個平臺上,我們提供了多種服務。比如說數據標注、模型調試,以及效果驗證等等一些工具,使得這個模型部署得到充分的保證。
現在文心大模型在百度的產品上得到了廣泛的應用,包括百度搜索、新聞推薦、好看視頻、地圖、小度等等,效果都得到了極大的提升,有的高達10%以上。
同時,大模型實際上能提高人的創作效率。因此,大模型也用來文案寫作。比如說之前我們高考作文寫作,大模型也可以來做媲美于人類高考生的作文的寫作,還有做視頻的生成、詩歌的生成等。
基于大模型,我們能生成一個數字人,數字人能根據圖像或者文字內容的不同,有不同的表情、不同的手勢,甚至能夠生成很流暢的一個視頻。
所以,我們能夠利用大模型,大幅度提高人的生產效率。而且,現在文心大模型已經廣泛應用于千行百業。
大模型能夠助力產業智能化,保險、金融、醫療、人力資源、證券、通訊、電商、物流等等行業,得到了充分的使用。
最后,希望我們將來能夠有更多的行業使用大模型,真正的提升生產效率。
今天我的演講就到這里,謝謝大家!
<結束>