隨著企業、機構中非結構化數據應用的日益增多以及AI的爆發式增長所帶來的大量生成式數據,所涉及的數據呈現了體量大、格式和存儲方式多樣、處理速度要求高、潛在價值大等特點。但傳統數據平臺對這些數據的處理能力較為有限,如使用文件系統、多類不同數據庫存儲上述數據,在數據存儲管理、查詢分析效率、數據價值挖掘等方面都存在一定的瓶頸,例如傳統數據庫查詢是點查和范圍查的一種精確查詢,無法滿足大模型下如智能問答、智能推薦等場景。
因此,企業急需一款或數款管理好非結構化數據的數據管理平臺。業內常用的做法,是利用人工智能中的表示學習,將這些非結構化數據抽象、轉換為高維度的多維向量,由此可以結構化地在向量數據庫中進行管理,實現快速、高效的數據存儲和檢索過程,結合相似性檢索特性,進而更高效地支撐更廣泛的應用場景,比如智能推薦場景等。同時,隨著大語言模型應用中對長文本處理和領域知識表示使用的深入,對向量數據庫的需求也日益迫切。
近日,在向星力?未來數據技術峰會上,星環科技正式發布了分布式向量數據庫Transwarp Hippo。作為一款企業級云原生分布式向量數據庫,星環分布式向量數據庫Hippo支持存儲、索引以及管理海量的向量式數據集,提供向量相似度檢索、高密度向量聚類等能力,有效地解決了大模型在知識時效性低、輸入能力有限、準確度低等問題,讓大模型更高效率地存儲和讀取知識庫,降低訓練和推理成本,激發更多的AI應用場景。在賦予大模型擁有“長期記憶”的同時,還可以協助企業解決目前最擔憂的大模型數據隱私泄露問題。
大模型的快速應用,推動向量數據庫向高擴展、高性能、實時性方向發展
大模型正在與企業應用迅速結合,重塑企業應用中人與數據的交互方式。然而,不管是通用模型,還是微調出來的行業模型,都存在著一定的局限性:
* 實時性難題:模型訓練需要很長的時間,可能需要半年或一年,實時資訊、新聞、市場行情等快速變化的信息,無法及時地內置到模型當中。
* 長Token難題:大模型的輸入Token(文本中的最小單位)能力受到算力和工程化程度的限制。在這種限制下,例如無法將一家上市公司的全部年報數據輸入進大模型,導致不能進行全面的分析。
* 精度校正難題:大模型雖然經過大量數據的長期訓練,但很多場景下精準度還是不夠,需要補充知識庫進行校正,讓其能夠給出更準確的結果和更實時的信息。
目前,大模型訓練所使用的數據包含了如文檔、圖片、音視頻等各種類型的非結構化數據。用戶可以通過表示學習的預處理方式將這些數據轉化為多維向量,并存儲在向量數據庫中,從而可以很好地解決上述三個問題。比如,在應用端與大模型進行交互時,將輸入的文字、圖片等問題信息進行向量化,先進行語義搜索,找到相關的信息,將其拼接成提示詞傳遞給大模型,大模型通過計算分析后反饋結果。
星環科技創始人、CEO孫元浩表示,“向量數據庫承擔了中間存儲的角色,我們認為向量數據庫就是大語言模型的海馬體,是一個記憶體。其基本功能是能夠存儲多維向量,并提供進一步的檢索。”
向量數據庫早先被用于文本搜索或者語義搜索,過去不少公司用來做個性化推薦、構建知識圖譜等。隨著大模型的興起,向量數據庫可以讓大模型更高效率地存儲和讀取知識庫,并以更低的成本進行模型微調,進一步地激發AI應用場景。此外,幾千、上萬種應用帶來海量的數據,需要一個高擴展的向量數據庫來存放更多的數據信息。而向量數據復雜度的提升,模型推理速度的加快等也要求能夠提供高性能的檢索能力。實時動態變化的數據,對向量數據庫的實時寫入、實時更新、實現召回能力的要求變高,通過將實時資訊、實時新聞、市場行情等快速變化的信息及時地內置到模型中,使其能夠提供更實時、更精準的結果。
星環科技分布式向量數據庫Transwarp Hippo
星環分布式向量數據庫Hippo作為一款企業級云原生分布式向量數據庫,基于分布式特性,可以對文檔、圖片、音視頻等多源、海量數據轉化后的多維向量進行統一存儲和管理。通過多進程架構與GPU加速技術,充分發揮并行檢索能力,實現毫秒級高性能數據檢索,結合相似度檢索等技術,幫助用戶快速挖掘數據價值。
與開源的向量數據庫不同,星環分布式向量數據庫Hippo具備高可用、高性能、易拓展等特點,支持多種向量搜索索引,支持數據分區分片、數據持久化、增量數據攝取、向量標量字段過濾混合查詢等功能,很好地滿足了企業針對海量向量數據的高實時性檢索等場景。
* 云原生技術,支持彈性擴縮容
星環分布式向量數據庫Hippo采用全面容器化部署,支持服務的彈性擴縮容,同時具備多租戶和強大的資源管控能力。
* 高擴展性,海量向量數據存儲
與直接利用各類算法lib不同,星環Hippo存儲和計算都可以充分利用分布式特性,按需靈活擴展,滿足大規模集群部署需求;通過Raft算法確保數據的強一致性;并提供故障遷移,數據修復等數據保障能力。
* 深度優化,高性能數據檢索
星環分布式向量數據庫Hippo支持多進程架構與GPU加速,充分發揮并行檢索能力;支持基于檢索速度和內存使用的特定優化,以及寄存器級算法優化;同時提供多類索引支持,滿足不同需求不同體量的業務場景。
* 動態更新,實時檢索
星環分布式向量數據庫Hippo提供數據動態更新的能力,對于實時插入/更新的數據,可以快速完成數據的加載和索引的構建,解決向量數據T+1的傳統處理邏輯,滿足實時動態變化數據的向量檢索分析。
* 多樣化接口,豐富場景支持
星環分布式向量數據庫Hippo供標準的Python、Restful、CPP、Java API等接口,可輕松對接各類應用和模型,提高應用開發和調用的效率。同時,提供類SQL接口,滿足入庫等特定場景,大幅降低使用和操作的難度。
* 多模型聯合
基于TDH多模型統一技術架構,向量數據與關系型數據、圖數據、時序數據等多種模型數據可進行統一存儲管理,并通過統一接口實現數據跨模型聯合分析。
具備高可用、高性能、易拓展等特點的星環分布式向量數據庫Hippo,可以很好地滿足企業針對海量向量數據的高實時性等場景。
* 文本檢索
傳統搜索引擎更偏向于詞/句的精確查詢,星環分布式向量數據庫Hippo通過向量引擎提供自然語言處理能力,可以更好地支持基于語義的查詢分析,讓查詢更滿足人性化的需求。
* 語音/視頻/圖像檢索
星環分布式向量數據庫Hippo將多維向量特征構建成高效的向量索引,實現數據的相似性檢索,可覆蓋人臉識別、語音識別、視頻指紋等多類AI場景。
* 個性化推薦
星環分布式向量數據庫Hippo可與各類深度學習平臺搭建的模型進行耦合,通過向量相似度檢索,可以對用戶行為與喜好等多方面進行分析、挖掘,做到千人千面的推薦效果。
* 智能搜索,智能問答
知識圖譜的目的在于將結構化數據、非結構化數據以及這些數據、實體之間的關聯關系進行存儲和表達。通過星環分布式向量數據庫Hippo可以將這些信息更好地進行表達和處理,給出符合需求的一系列近似答案和推薦查詢。
向量數據庫與圖數據庫聯合,低成本、高效構建特定領域大模型應用
基于星環分布式向量數據庫Hippo,可以有效地解決大模型在知識時效性低、輸入能力有限、準確度低等問題。通過將最新資料、專業知識、個人習慣等海量信息向量存儲在星環分布式向量數據庫Hippo中,可以極大地拓展大模型的應用邊界,讓大模型保持信息實時性,并能夠動態調整,使大模型擁有“長期記憶”。
通過建立垂直領域的知識庫,對大模型輸出結果進行校正,可以提高結果的精準度,在一定程度上解決“AI幻覺”問題。
此外,通過星環分布式向量數據庫Hippo對向量數據進行存儲,有效解除大模型對輸入的限制,并且大模型在安全機制下訪問向量數據庫中的隱私數據,可以充分保證數據安全,杜絕隱私泄露風險。
然而,大模型只有向量數據庫還不夠。在召回的基礎上通過提示工程確保數據更精確,更貼近實際場景,同樣也是重要的一環。星環科技將分布式向量數據庫Hippo和分布式圖數據庫StellarDB結合,并以此作為微調的數據憑依,可以更低成本、更高效地構建特定領域的大模型應用。
圖數據庫StellarDB和知識圖譜聯合,與大模型可視化端到端構建工具一起,提供了知識抽取融合、知識建模、知識圖譜生成存儲、基于大模型的知識問答等閉環功能。客戶以知識圖譜作為大語言模型提示即可發起模型微調,以較低代價就可獲得行業的專屬大語言模型問答應用。
將向量數據庫、圖數據庫與大語言模型結合,可以構建業務域知識圖譜和業務系統的應用服務,進一步提高人機交互的效率,提供更靈活的組合業務服務,激發出更多更深入的業務場景AI應用。
例如,在詢問某開源通用大模型關于某集團玉米收儲價格、某集團主要合作上下游企業等問題,通用大模型沒有行業知識,無法給出準確答案。而把農業知識圖譜和向量數據庫結合后,可以從知識圖譜中去獲取或者補充大模型的答案,使其可以精確地回答新收豬價以及價格影響等。
通過這樣的組合可以解決大模型目前存在的三大問題。一是能夠把實時的知識、變化的信息放到大模型中,二是能夠校正結果的準確性,極大地提升精準度,三是構建相應的知識圖譜,增強大模型的能力。
在星環科技此次推出的金融領域大模型“無涯”中,基于星環科技自身在金融領域積累的上百萬金融專業領域的語料,結合圖數據庫StellarDB、深度圖推理算法技術,形成了大規模高質量的金融類事件訓練指令集,共同鑄就了星環開發金融領域大語言模型的堅實底座。星環“無涯”大模型能夠理解金融行業的術語,也能夠執行特定的任務,比如分析上市公司的年報、公告,生成新聞摘要,判斷特定新聞事件產生的影響等,提升分析師、研究員、投資經理的效率。