近日,全球領(lǐng)先的IT市場(chǎng)研究和咨詢(xún)公司IDC發(fā)布《中國(guó)生成式AI應(yīng)用開(kāi)發(fā)平臺(tái)市場(chǎng):企業(yè)統(tǒng)一AI開(kāi)發(fā)平臺(tái)的雛形》報(bào)告。IDC所定義的大模型平臺(tái)包括兩部分,一個(gè)是模型開(kāi)發(fā)平臺(tái),即提供模型訓(xùn)練與調(diào)優(yōu)工具,賦能開(kāi)發(fā)者自主使用基礎(chǔ)模型進(jìn)行開(kāi)發(fā),另一個(gè)是應(yīng)用開(kāi)發(fā)平臺(tái),支持開(kāi)發(fā)人員聚焦應(yīng)用開(kāi)發(fā),提供低代碼無(wú)代碼開(kāi)發(fā)工具。
該報(bào)告不僅對(duì)市場(chǎng)上主流的大模型平臺(tái)廠商進(jìn)行了對(duì)比分析,還為企業(yè)用戶(hù)選擇大模型平臺(tái)提供了關(guān)鍵的技術(shù)指標(biāo)。在此次評(píng)估中,百度智能云獲得七項(xiàng)滿(mǎn)分,位于所有大模型平臺(tái)廠商第一名。亞馬遜云AWS、阿里云并列第二名。
IDC報(bào)告指出,大模型平臺(tái)給應(yīng)用程序開(kāi)發(fā)提供了一個(gè)新的路徑,企業(yè)在選擇大模型平臺(tái)的時(shí)候,應(yīng)該重點(diǎn)關(guān)注廠商在模型層和數(shù)據(jù)層的能力。在模型層能力方面,如何讓模型更好的適配企業(yè)的應(yīng)用場(chǎng)景至關(guān)重要。而在數(shù)據(jù)層能力方面,如何做好RAG(檢索增強(qiáng)生成),保證生成內(nèi)容的準(zhǔn)確性,消除幻覺(jué)最為關(guān)鍵。
而在這兩個(gè)方面,百度智能云都有深厚的技術(shù)積累。百度智能云千帆大模型平臺(tái)(以下簡(jiǎn)稱(chēng)千帆平臺(tái))是大模型與AI應(yīng)用開(kāi)發(fā)及服務(wù)平臺(tái),可以從模型開(kāi)發(fā)、模型服務(wù)、應(yīng)用開(kāi)發(fā)三大維度,為企業(yè)提供全流程服務(wù)。目前,文心大模型日均調(diào)用量超過(guò)15億次,千帆平臺(tái)已經(jīng)幫助客戶(hù)精調(diào)了3.3萬(wàn)個(gè)模型、開(kāi)發(fā)了77萬(wàn)個(gè)企業(yè)應(yīng)用。
模型精調(diào)助力大模型與產(chǎn)業(yè)深度融合
大模型具有強(qiáng)大的泛化能力,可以處理很多通識(shí)類(lèi)問(wèn)題,但在某些特定行業(yè)及領(lǐng)域的表現(xiàn)不如人意。這是因?yàn)椴煌袠I(yè)有著獨(dú)特的專(zhuān)業(yè)知識(shí)、邏輯和數(shù)據(jù)特點(diǎn),通識(shí)知識(shí)無(wú)法完全覆蓋這些特殊需求。模型精調(diào)是增強(qiáng)大模型在行業(yè)應(yīng)用中表現(xiàn)的關(guān)鍵,通過(guò)將行業(yè)的專(zhuān)業(yè)知識(shí)和數(shù)據(jù)特征融入大模型,可以讓其更好地滿(mǎn)足行業(yè)特定需求,從而提升應(yīng)用的準(zhǔn)確性和可靠性。
行業(yè)內(nèi)主流大模型服務(wù)商也正在通過(guò)大模型平臺(tái)提供模型精調(diào)服務(wù),幫助企業(yè)快速打造AI應(yīng)用。
AWS SageMaker集成了亞馬遜的高性能預(yù)訓(xùn)練模型庫(kù),這些預(yù)訓(xùn)練模型在大規(guī)模的通用數(shù)據(jù)上進(jìn)行了訓(xùn)練,已經(jīng)學(xué)習(xí)到了豐富的特征表示和知識(shí),為模型精調(diào)提供了良好的基礎(chǔ),同時(shí),SageMaker 還提供了多種先進(jìn)的機(jī)器學(xué)習(xí)算法,用戶(hù)可以根據(jù)精調(diào)任務(wù)的特點(diǎn)和需求,選擇合適的算法來(lái)進(jìn)一步優(yōu)化模型性能。
百度智能云千帆大模型平臺(tái)提供了完整的工具鏈,是業(yè)界首個(gè)上線DPO、KTO等模型訓(xùn)練方法的平臺(tái),提供了高質(zhì)量通用語(yǔ)料數(shù)據(jù)和開(kāi)箱即用的模型精調(diào)樣板間。無(wú)論是想要自己準(zhǔn)備數(shù)據(jù)、做精調(diào),還是想快速上手、復(fù)制行業(yè)最佳實(shí)踐,千帆平臺(tái)都可以高效支持。目前,在千帆平臺(tái)上,每天有超過(guò)一半的調(diào)用量是來(lái)自精調(diào)后的模型。
拿醫(yī)療行業(yè)舉例,杭州全診醫(yī)學(xué)基于千帆平臺(tái)和文心大模型打造了AI醫(yī)療助理應(yīng)用,能夠在導(dǎo)診、預(yù)診、診間、入院、手術(shù)、隨訪等全階段服務(wù)醫(yī)生患者。以輔助醫(yī)生撰寫(xiě)病歷為例,全診醫(yī)學(xué)通過(guò)使用20萬(wàn)份精標(biāo)病歷數(shù)據(jù)對(duì)大模型進(jìn)行了精調(diào),使AI醫(yī)療助理的醫(yī)學(xué)用語(yǔ)更準(zhǔn)確、更規(guī)范,大幅提升病歷內(nèi)容質(zhì)量。病歷生成的準(zhǔn)確度提升了45%,醫(yī)生的接診量提高了20%,造福更多病患。
RAG已成為企業(yè)解決大模型幻覺(jué)問(wèn)題的有效手段
生成式 AI 已成為企業(yè)布局和投資的重點(diǎn),企業(yè)希望借助大模型實(shí)現(xiàn)降本增效和產(chǎn)品創(chuàng)新。然而,通用大語(yǔ)言模型(LLM)在實(shí)際應(yīng)用中往往存在幻覺(jué)問(wèn)題或回答不準(zhǔn)確的情況,尤其是在面向 B 端場(chǎng)景時(shí),難以有效滿(mǎn)足企業(yè)的落地需求。為解決這一問(wèn)題,企業(yè)通常采用 RAG(檢索增強(qiáng)生成)技術(shù),將生成式 AI與企業(yè)內(nèi)部數(shù)據(jù)庫(kù)、知識(shí)庫(kù)相結(jié)合,使生成內(nèi)容更加準(zhǔn)確、合理。在此過(guò)程中,向量數(shù)據(jù)庫(kù)憑借其在語(yǔ)義理解和高效檢索方面的獨(dú)特優(yōu)勢(shì),成為企業(yè)實(shí)現(xiàn) RAG 的關(guān)鍵組成部分。
不久前,IDC發(fā)布了《RAG與向量數(shù)據(jù)庫(kù)市場(chǎng)前景預(yù)測(cè)》報(bào)告,對(duì)使用大模型的企業(yè)進(jìn)行了深入調(diào)研。報(bào)告顯示,在生成式 AI 的開(kāi)發(fā)過(guò)程中,41% 的高管認(rèn)為構(gòu)建 RAG 架構(gòu)至關(guān)重要;此外,81% 的 IT 領(lǐng)導(dǎo)者認(rèn)為,基于業(yè)務(wù)數(shù)據(jù)的生成式 AI 模型能夠?yàn)槠髽I(yè)帶來(lái)顯著的競(jìng)爭(zhēng)優(yōu)勢(shì)。這表明,RAG 技術(shù)在提升通用大模型準(zhǔn)確性方面效果顯著,且企業(yè)對(duì)其認(rèn)可度正持續(xù)提高。隨著更多企業(yè)意識(shí)到 RAG 的重要性,它有望成為生成式 AI 落地的關(guān)鍵推動(dòng)力。
在分析了RAG和向量數(shù)據(jù)庫(kù)市場(chǎng)的發(fā)展趨勢(shì)后,IDC還評(píng)估了市場(chǎng)上的主要廠商。在這一評(píng)估中,百度智能云的向量數(shù)據(jù)庫(kù) VectorDB 在核心性能、功能全面性、大模型支持、戰(zhàn)略與生態(tài)合作、工程化落地五個(gè)關(guān)鍵領(lǐng)域保持領(lǐng)先,綜合排名并列第一。
目前,百度智能云 VectorDB 已經(jīng)在超過(guò) 500 家客戶(hù)中實(shí)際落地使用,支持 HNSW、Puck、PQ 等常用算法,主流 LLM、RAG 框架,以及百度智能云千帆和開(kāi)源 Embedding 模型,支持企業(yè)一站式部署落地。面向未來(lái),百度智能云 VectorDB 將繼續(xù)在產(chǎn)品形態(tài)、內(nèi)核功能、生態(tài)支持三個(gè)方面重點(diǎn)發(fā)力,為企業(yè) AI 應(yīng)用落地服務(wù),提供最專(zhuān)業(yè)的向量數(shù)據(jù)庫(kù)服務(wù)。