1.什么是AI?大模型的本質是什么?
2.AI大模型,能實際幫企業干什么?
3.如何從0-1訓練出一個大模型?
4.設計AI大模型產品有哪些經驗?
5.產業AI化,大模型給產業帶來哪些變革?
6.AI產業化,大模型自身產業會如何發展?
7.未來大模型發展將面臨哪些新挑戰?
只有真做大模型的企業,才能回答出這7個問題
循環智能 發布了自主研發的千循大模型。此前,循環智能跟華為云一起聯合發布了盤古大模型。當時大模型參數量級超過了1000億,也就是說循環智能在2021年就已經邁入千億大模型俱樂部。
麒麟合盛APUS 發布了天燕大模型AiLMe。基于天燕大模型AiLMe,APUS還推出了文本模型、圖像模型、視頻模型、音頻模型四個垂直領域精煉模型,并研發出智能問答大師、簡筆成畫、墨染等 7 款 AI 消費端產品。
竹間智能 以大小模型雙輪驅動,以NLP為核心技術。在以ChatGPT為代表的LLM(大語言模型)技術掀起全球浪潮之際,竹間對所有產品系列進行了全線升級,并推出運用多種LLM技術的成熟AIGC企業級產品。
01
什么是人工智能?
大模型的本質是什么?
麒麟合盛APUS鄧小波
說到人工智能,就無法繞過機器學習這個概念。
過去,大多數計算模型都是基于參數規模較小的判決式算法,是一些“小模型”。
如今發現,基于大量數據和海量算力的“大模型”,是一條相對更容易的路徑。
基于海量訓練數據和大參數規模神經網絡的大模型輸出的語言或文字,能更好地滿足用戶問答或各種場景需求,從而將人工智能的能力應用到自動駕駛、智能助理等各行各業。
這很有可能,成為整個人類社會的第四次科技革命,影響力甚至超越互聯網。
實際上,我們也判斷這可能是未來30-50年間最大的技術浪潮,是唯一一個可以同電力革命相媲美的技術革命。
正因為如此,在國內現在已經有100多家企業在做大模型,還有很多的企業在觀望如何參與其中。
那么,大模型的本質是什么?為什么它會有如此巨大的影響力?
大模型是人類歷史上,第一次將所有的知識濃縮到一個模型里。
巨大的參數量,形成了足夠大的神經網絡,能夠包容全世界所有的知識和信息。不但包括人類圖書館中的書籍、論文等,甚至包括在多模態下收集的各種圖片和視頻信息,這樣它就可以更好地利用數據進行智能決策。
過去的“小模型”,比如阿爾法狗、人臉識別算法等,解決了局部領域或專業行業中的問題,效果還不錯,但它們更多地是從局部的知識中學習,快速獲得范式或相關內容。由于缺乏足夠的常識,當需要跨出專業領域,與其他系統進行對接,或者與其他人進行交互時,會遇到許多瓶頸。
而“大模型”,具有了人類的常識,會出現“智能涌現”現象。
例如In-context Learning上下文學習,CoT知識鏈推理。這有點類似于人類中出現貝多芬和愛因斯坦這樣的天才的情況,你無法預測哪個環節會出現貝多芬或愛因斯坦。
這就意味著,機器具備了像人一樣,舉一反三的能力。
雖然有些知識我們可能沒有教過它,但是它可以處理相關問題。
更重要的是,大模型和小模型在商業化范式上也會有所不同。
對于小模型來說,每個場景可能都需要單獨訓練,遇到不同場景,還要重新開始訓練,每次訓練需要付出對應的成本,這樣成本一直不會降低;
而對于大模型來說,建設基礎通用大模型的初始投入可能會比較大,但它精煉行業模型并應用到千行百業中的邊際成本相對比較低,是一種用固定成本取代邊際成本的商業范式,應用越廣平均成本越低,讓人工智能產業有了更大的盈利可能。
當年互聯網最性感的地方,就在于增加新用戶時,它的邊際成本相對較低,大模型也是如此。
大模型會成為未來AI時代的“操作系統”,在它上面會生成很多應用,承載無數應用場景,為人類生活和生產提供賦能。
02
AI大模型,能實際幫企業干什么?
循環智能施楊樂
拿我們自身舉例,我們通過錨定三件事,來給企業賦能。
第一,是提升了解客戶的能力。
第二,是提升整體企業團隊服務的能力。
第三,是提升企業的管理能力,讓管理者聽見一線的“炮火”。
我們認為,最重要的第一件事情就是提升認知客戶的能力。
在現在的經濟環境下,我們的增量紅利已經快要消失了,所以大家在維護客戶、客戶引流轉化的過程中,更多是強調對現有的客戶做更精細化的運營。那么我們應該怎么了解我們的客戶、怎么做市場調研、怎么對客戶做分層呢?
傳統的做法一般是在線上找賣點、找咨詢公司做調研問卷等,但是這些手段的弊端其實顯而易見,比如說線上埋點,一個促銷活動搞兩個禮拜,你埋點都埋了一個多禮拜,這容易導致時效性不高。調研問卷也是如此,而且調查問卷還存在真實性存疑的問題。
那么AI大模型怎么能夠怎樣幫我們去分析這件事情?
你可以想象成,銷售或服務人員在服務過程中,旁邊都坐了“第三個人”——大模型。
它不僅默默的聽你跟客戶聊什么東西,它還能夠通過發現問題、進行解決方案提煉、情感分析、根因分析等,最后告訴你客戶提到了什么問題、原因是什么,并幫你做一個總結提煉。
有了這樣的技術,我們就可以對客戶分析進行批量處理了,這個場景非常符合前面提到的4個特征,雙邊實時、廣泛、流動和智能。當我們對每一個客戶都做總結的時候,它可能每一通會話都非常精煉,但它不規范。但這時我可以讓大模型對已經總結過的提煉和問題再做總結歸納,然后再進行統計分析,因為這些資料已經歸一化了。
AI大模型可以幫助我們對一個非常廣泛的數據、大量的數據、新鮮的數據馬上做一個分析,并針對你當時想到的問題做高度的總結提煉和最終結論的輸出。
第二件事情,是我們要去提升整體團隊的服務能力。
我們在客戶服務的過程中,客戶會問問題,有的時候也會遇到挑戰我們專業服務情況出現。在這里面,AI大模型就會承擔一個智慧小秘書的角色。雖然前些年也有非常多的產品在做智慧輔助這件事,但AI大模型最大的不同其實在于以下兩點,第一個它能夠更加精準的識別客戶的問題,包括識別上下文、識別情感等。第二個是它提供的答案會更加準確,因為它的知識檢索效率非常高。
那么AI大模型在線下的客戶服務場景中能不能用呢?其實也能用,比如房地產和汽車的線下銷售,很多銷售人員在跟客戶見完面以后都會有做筆記的習慣,甚至一個汽車的4s店銷售曾跟我說,每個客戶長什么樣子、穿什么衣服、身高多少,他可能都會用小筆記記一下,這樣客戶下一次來的時候,才能第一眼就認出對方,并知道他之前有過什么樣需求,以此實現更好地轉化。
做小筆記這件事情,其實完全可以用自主錄入的工具去完成,比如我們的一個產品“客戶的智慧描摹”,銷售在接待完客戶之后,可以馬上掏出手機進行錄音,錄音的過程中會提到客戶長什么樣子、有什么需求、需要什么產品、對我們產品是什么要求等,講完后AI系統就會幫忙分析,并且記錄客戶的重要點。這相當于給每一個銷售服務人員都配備了一個導師,幫助提升他們的營銷轉化效率和能力。
第三件事,就是提升我們管理的質量,讓管理者聽見一線的炮火。
很多中高層的管理脫離一線久了,都會想知道現在的一線是如何服務客戶,但如果他沒有親自下一線,就很難去了解相關內容。現在通過AI大模型,只要是能夠拿到客戶的溝通記錄,我們的AI就可以去提煉一個完整的客戶服務SOP流程。
通過大模型,我們可以看到業績比較優秀的服務人員、銷售人員的服務模式是什么樣的,他的話術、服務邏輯又是什么樣的。大模型有能力去分析每一通服務的過程,管理者就不需要自己去聽錄音了,聽錄音效率很低,而AI大模型可以通過總結和提煉直接告訴你最終的結果。
我們的大模型也可以去做一些決策類的分析。
我們曾給汽車領域的客戶做過一個產品,場景是通過大量的溝通內容分析后對大模型進行提問,比如:
今天的客戶怎么樣?總結一下今天的優勢客戶?客戶一共提了哪些問題?客戶意向怎么樣?接下來我的跟進策略是什么?
因為大模型它有能力去讀取更加廣泛、實時、大量的信息,經過一定的推理之后,是可以結合一些預先業務輸入進行判斷的。雖然它的判斷不一定完全準確,但也可以給到我們的決策者更多的數據支撐。我相信很多管理者的決策都是要基于一個更加真實的數據樣本,才能做出更加正確的決策和更加有效的管理動作。
03
如何從0-1訓練出一個大模型?
麒麟合盛APUS鄧小波
根據我們的經驗,訓練一個大模型,在技術路線上分為三個階段:
在最初階段,追求的是大參數,也就是說模型需要有足夠大的容量,就像我們人類一樣,要有足夠多的腦細胞來承載知識。
在第二階段,我們發現大型訓練數據集比大參數更加重要,只有大型訓練數據集才能獲得更好的訓練效果。
最近,我們進一步研究發現,更精準和清潔的數據、更加實時的數據,可能會取得更好的訓練效果。
實際上,大參數就相當于大模型的底盤,大底盤能承載更多理論知識,但最終并不能決定這個模型的優劣。
以google為例,曾推出過一個5400億參數的大模型PaLM,但實際上評測效果反而不如ChatGPT1750億參數的模型,這也引發了行業內很多反思。
大模型的成長也有成熟期,到了成熟期,當擁有了基礎參數和一定的規模能力以后,大腦的聰明程度更多取決于神經網絡的發展。當參數規模擴大后,如果其吸收能力無法滿足訓練數據的規模增長,也無法達到理想效果。國外的一些理論研究表明,使用20倍以上參數規模的數據去訓練的時候,效果會比較好。
通用大模型預訓練階段,采用的數據基本上是無標注的,海量原始數據可能存在不精準或互相矛盾等問題,從而影響到最終訓練效果。需要在后續的微調過程中,通過提升數據質量來進行輸出對齊,使其更精準、更實時、更有效,讓大模型的輸出效果變得更好。
除了選擇技術路線之外,大模型訓練還有四大要素——場景、數據、算法、算力。
許多專家都會提到后面三個要素,但是在我們看來,場景一個是非常重要的要素。
在算法層面,對于一些大型企業來說,大家的差異并不大,主要集中在框架中的神經網絡層數、參數規模、token維數、學習率等許多細節方面。
今年上半年,大家都在關注如何購買足夠的算力,為未來的大規模計算做戰略儲備。
我們預測,在今年下半年之后,人們會意識到最終決定應用效果的最重要因素仍是大模型本身的性能效果,而影響其性能效果的關鍵是訓練數據。
在大模型應用層面,將需要更多的行業內專業人員來對數據進行整理和輸出,以便更好地與行業數據對齊,從而達到期望的效果。
與此同時,大模型開發者也需要更快地與場景和行業結合,以獲取更好的行業數據進行模型訓練,不斷迭代服務,實現數據飛輪的運轉。
因此,我們認為:
下半年場景和數據可能是大模型企業或相關產業鏈條中決戰的關鍵因素。大模型誰最終能跑得好,主要取決于誰能擁有更好的數據和更多應用場景。
一個大模型在訓練結束后,在教會大模型掌握全人類的知識和常識后,還要讓它學會在不同行業中的話術,進行溝通交流,讓專業人員更好地理解和適應它——我們稱之為“對齊”。
“對齊”實際上包括很多方面,既包括知識對齊,也包括法律法規和價值觀對齊。在運行過程中也可能存在一些矛盾,比如需要人員去幫助它了解哪些觀點是正確的,以及如何將話術轉化為讓客戶更能接受或喜聞樂見的內容等等。
在行業應用中,模型本身并不創造任何價值,它只是在技術上的儲備,只有在行業“對齊”并輸出后,幫助行業賦能,實現產業升級,才能創造價值。
04
設計AI大模型產品有哪些經驗?
循環智能施楊樂
設計AI大模型產品需要滿足4個特征。
我們要思考的問題,即什么樣的AI應用才能夠給我們的企業帶來超額的價值。注意,我這里強調的是“超額的價值”,因為用老舊的技術其實也能解決一些問題,以前我們能做到8分,現在通過一個跨世紀的技術如果只提升到9分,價值就不夠明顯。
因此我們需要遵循高價值AI應用的4個特征,去設計我們的AI大模型應用和產品。
第一個特征,數據實時雙邊在線。
即數據應用一定是輸入、輸出同時在線,它的整體價值才會達到最大。比如抖音為什么火爆、在海外上線兩個月就能突破1億人的注冊量?很重要的原因之一就是因為抖音的創作者發布視頻非常方便,并且一經發布,用戶馬上就可以看到。
第二個特征,數據處理消耗大量邊際計算資源。
這句話乍一聽,好像有點不太有道理,為什么消耗資源越多就越有價值?因為這點指的是調動更多的資源來為它服務。比如搜索一個問題,如果你只在自己的電腦上搜索,就只能搜索到電腦里的知識庫和文檔;但如果通過谷歌、百度等搜索網站,調動的就是全世界的知識來幫你解決問題,這時它消耗的邊際資源雖然很大,但是回報也非常大。
第三個特征,數據流動和交換的速度快,范圍?。
比如以前沒有高速公路的時候,從A地到B地可能需要半個月、一個月,有了高速公路我們可能只花一天就到了,它帶來的效益是非常大的。所以我們需要快速的數據流動、廣泛的應用數據,這樣對我們的價值才更寶貴。
第四個特征,做現在用人工做不到的事。
我舉兩個案例。第一個是谷歌翻譯,可能全世界的翻譯工作者一年翻譯的書還不及谷歌翻譯一天翻譯出來的文字量大,所以這是人類做不到的事情,只有技術才能做到。
第二個是智慧城市,一個城市一天產生的交通道路監控視頻,光靠?可能100年都看不完,這些寶貴的數據絕大多數還沒有發揮過作用就已經被默默刪除。但由于人工智能的興起,這些數據靠人雖然做不完,但是靠技術可以,可以通過視頻去抓違章、查看走私人口、抓逃犯等。
所以我們的AI也一定是遵照這4個特征去做,過去靠人工無法做到的事情,帶來的價值將更大。
05
產業AI化,
大模型給產業帶來哪些變革?
竹間智能孫彬
AI大模型給產業帶來哪些變革?
我來站在從業者的視角分析一下。
首先想一下,Chat GPT給大家帶來的是什么?
相信所有跟它做過對話的人都不僅僅是為了好玩,大家會感覺到“我是在跟一個智能體對話”。
這代表了什么?代表人類可以跟大模型進行溝通了。
它能理解你,能回答你,能幫你去執行。大語言模型最好的一點就是它用一種“暴力”的方式帶來了足夠多的知識,然后又可以理解人的情緒,可以跟人對話,這恰恰將以前人和機器交互的瓶頸問題解決了。
我的第一個判斷,是大模型會改變我們現在的軟件范式。
相信做IT的同事們對此都有切身體會,當PC出現的時候,當互聯網到來的時候,當手機應用開始爆發的時候,軟件范式都曾發生過改變,從工業軟件到PC軟件,到網站和手機App,再到現在的大模型熱潮,軟件范式又將被改寫一次。
那么,大語言模型來了以后,軟件應用會是什么范式?我們通過對話的方式就可以調動各種各樣的應用。
如果說以前我們是應用為主導,今后我們可以非常明確地想象,人會跟手機或者智能硬件溝通,然后由它來完成相應的軟件操作,所有應用之間的屏蔽會被打破,應用的能力會被調用,大語言模型直接調動應用能力會形成新的交互方式,這將是一個新的操作系統,新的“iphone 時刻”。
在未來2到3年內,我們大量的C端應用,都會因為對話方式的改變而改變,很有可能不再是觸摸式輸入,而是語音輸入,很多行動也會打破應用的邊界,可能每個手機都會有個AI助手,它可以通過對話的方式調度多個應用能力,下單、叫車、購買都可以通過語音來完成,接下來會有千千萬萬個基于類ChatGPT模型的應用出現。
以上是C端的變化,那么B端會怎樣變化?
我的第二個判斷是,在B端,企業/行業的私域知識會變得至關重要,產生大量的企業ChatGPT、行業ChatGPT。
目前,大語言模型的特點是它可以高度理解人的語義,并且可以做一些深層次的工作,比如寫作、推理、分析等等,但是它的知識是不可被依賴的。這是因為用來訓練的互聯網數據是不可靠的,今天的大語言模型實際上是一個對話模型,并不是一個問答模型。
它是為了對話而產生的,所以它會妥協,會認錯,為了讓對話繼續進行下去,它會根據對話的人的喜好改變內容,但是它并不是一個具備正確知識的模型。
但對企業客戶來說,我們的行業總監、客服、營銷人員、政策咨詢人員,絕對不能給客戶不準確的知識。
所以,在B端一定會發展成這樣的范式:大語言模型做溝通和理解,加上私域知識——準確的私域知識——然后驅動行業/企業的應用,行業/企業的應用也會因為這一變化而變化。
那么,企業的私域知識怎樣構建?我們可以回顧一下企業數字化的發展過程:
最早的時候,我們把設備聯網叫數字化,這是第一代的生產數字化。
第二步,我們將ERP,包括生產制造系統使用起來,實現全業務流程IT化,這是第二代的資產數字化。
現在,我們有了大語言模型,有了行業/企業的私域知識,真正地讓企業的hr部門、行政部門、銷售部門、客服部門……所有的知識全部用對話或者閱讀的方式表達出來,就真正讓企業智能化了。
人工智能發展到一定階段之后,可以將知識利用起來,就實現了進化,我們將從數字化時代進化到數智化時代。
在接下來的時間,我們會看到越來越多的企業將部門的知識、企業的知識甚至行業的知識利用人工智能技術變成知識庫,變成可以被AI構建和調用的知識,形成知識流,然后讓這些知識變成數字人,服務我們的企業,服務我們的客戶。
我們可以預測,在未來的一年,企業服務的這些內容會呈現指數級的增長,會提升至少10倍以上。從事To B行業的創業者,一定要對此做好準備。
06
AI產業化,
大模型自身產業會如何發展?
麒麟合盛APUS鄧小波
未來的人工智能大模型產業架構,可以與城市生態做類比:
算力是一種資源,相當于土地,需要我們投入真金白銀購買、租用或生產。
大模型相當于基建,可以與專利結合起來,形成有用的數據資產。就像土地開發一樣,單純土地的價值可能不大,但完成基建建設后,土地才可能會變成有價值的地產。
在大模型之上,會提煉出各行各業的行業模型和精煉大模型,就像在城市基建基礎上,開發出各種不同的商業和住宅。
在不同的商業和住宅區,還會形成不同的社區生態,大模型應用中同樣也會實現不同的產業應用生態,供不同的終端用戶或客戶使用。
這就是整個人工智能大模型產業的架構。
在這里,我們可以看到兩個關鍵點:
1)行業模型在確定性和控制性方面可能比普通消費者使用的模型要求更高;
2)對于消費者來說,更多的模型需要創新和開放,以生成更多新內容。兩者的側重點可能略有不同。實際上,在大模型開發中,這是一種能力的體現,你需要有側重點,以達到最終的生態要求。
07
AI大模型發展將面臨哪些新挑戰?
竹間智能孫彬
作為技術從業者,我在這里跟大家分享幾個我們看到的新挑戰:
第一個挑戰就是大模型閱讀 or 知識圖譜預建?
過去我們做了很多的知識圖譜,但是今天的大語言模型可以閱讀文檔,可以閱讀那些非結構化的數據。那么,到底是不是還需要建立知識圖譜?換一種說法,就是今天是要預設好答案,方便來問答和查詢,還是要讓大語言模型自己去閱讀內容,然后給你答案?
其實,這兩種實踐路徑都可以完成很多的內容查詢,但是最終哪個效果好,哪個準確率高,我相信應該是不同的場景使用不同的模式。也許有人會問兩種結合在一起會不會更好?答案很值得期待,希望我們的從業團隊用工程能力給出結果。
第二個新挑戰是“Prompt?Embedding?Fine-tuning? ”
這三個詞都是現在特別熱的詞。Prompt是提示詞,Embedding指嵌入接口,Fine-tuning指模型微調,都是訓練大模型要做的工作。但目前其實并沒有多少團隊能夠把模型調好,可能在微調的過程中間,越調越差。
所以今天我給到大家的建議,就是不要迷戀對大語言模型進行微調,最終要以結果可控和高質量目標作為標準。利用大語言模型的能力加上自身的工程能力,比如對知識圖譜、對客戶數據的調用,然后利用數據的能力,最終滿足客戶的需要才是王道。
第三個新挑戰,到底是應該做大語言模型,還是做專業模型?
我的觀點是通用大語言模型有它的優勢,專業模型也有它的場景,每個模型其實都有它的能力特點。我們認為通用大語言模型適合于To C端進行對話和訓練,專業的模型適合于在行業內調取專業的知識,完成專業的任務。
第四個新挑戰:大模型應該云端調用還是私域部署?
在10年前,大家就在討論公有云好還是私有云好,其實我們看到今天這兩者是并存的。云計算和AIGC產業發展有相似之處,通用模型適合于各種各樣的中小企業,通用靈活;專業模型安全性高,數據可以控制,它要為企業服務,數據要準確,要完成不同的任務。
所以我們可以這樣預測,未來會有幾個頭部的企業提供最優秀的大語言模型來為大家服務,但同時也會有千千萬萬的行業私有云、企業私有云,千千萬萬的行業模型和企業模型。
未來,公有的大模型一定會越做越強,會由頭部的幾個企業來領導,行業的私有模型一定會百花齊放,這也是我們很多To B企業的商機。
我們相信,ChatGPT現象將給我們帶來巨大的AIGC紅利。寫作類、繪畫類、創作類的職業會實現巨大的提效。
大模型歸根到底是一個工具,會使用工具的人將會淘汰不會用工具的人。
智能家居行業會有很大的發展,過去每個家庭的環境太復雜,所以大家沒有辦法在家庭環境中預設好各種對話,現在大語言模型應用之后,對智能家居行業又會有很大的促進。
同樣還有個人助手類的應用,我認為會有極大的發展。AI可以幫你訂機票、訂餐、更改日期,還有去執行一些預約,甚至去購買一些東西,我們期待著今年下半年會有很多個人助理類的應用大爆發。
此外,還有元宇宙的“ IP 眾包”模式、情感陪伴類產品等等,都會迎來爆發。
感謝:竹間智能總裁兼COO孫彬、APUS麒麟合盛聯合創始人鄧小波、循環智能解決方案高級總監施楊樂 等人的真誠分享。