日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

星環科技向量數據庫Transwarp Hippo自發布已來,受到了眾多用戶的歡迎,幫助用戶實現向量數據的存儲、管理和檢索,探索和實踐大模型場景。在與用戶不斷地深入交流以及實踐中,Hippo迎來了V1.1版本,一套系統即可支持向量與全文聯合檢索,提高文本數據的召回精度,從而提升大語言模型應用的準確率。同時,Hippo1.1新增余弦距離、批量數據導入導出、Explain與Profile支持、ARM架構支持等能力,大幅降低用戶使用門檻和成本。

此外,Hippo社區版同樣支持以上新特性,點擊文末閱讀原文或者訪問星環科技官網,即可申請下載體驗,開啟大語言模型場景探索之旅。

一庫搞定向量+全文聯合檢索,提升大模型準確率

在大語言模型應用中,向量數據庫作為中間載體,可以有效地解決大模型在知識時效性低、輸入能力有限、準確度低等問題,賦予大模型擁有“長期記憶”。因此,向量數據庫的召回精度直接影響大模型輸出結果的準確率。然而,在一些實踐場景中,對于向量數據庫本身而言,單一使用向量檢索會產生召回準確率不高的問題:

* 對噪聲和冗余信息敏感:若向量數據庫中存在大量的噪聲和冗余信息,則檢索的準確率會降低;

* 對特征選擇的依賴:在向量檢索中,需要對數據進行特征提取和選擇,若特征選擇不當,則會影響檢索的準確性;

* 對查詢語義理解的局限性:當查詢語義比較復雜或模糊時,向量檢索無法準確理解用戶的意圖,導致準確率降低;

此外,像一些特殊情況,如所檢索內容未構建特征或特征比重較小時,會導致準確率降低,甚至無召回結果。

針對文本搜索場景,全文檢索更適合做關鍵字匹配,可以避免檢索內容低頻的問題。而向量檢索則能找出字面上不同但語義上相近的內容。通過將向量檢索和全文檢索的聯合召回,可以降低漏檢和誤檢的概率,能夠實現比單獨使用向量或全文檢索更高的精度。

此外,向量數據與全文數據在存儲、計算上有很大的差別,單一的數據庫架構很難同時高效支持這兩種場景。例如,對于公開數據集如ANN Benchmark,Elasticsearch的性能遠落后于專業的向量數據庫。

星環科技向量數據庫Hippo底層使用自研的分布式數據管理系統TDDMS,能夠支持向量數據和全文數據統一存儲管理,一套數據庫系統即可支持向量與全文數據聯合檢索召回,避免了部署多套系統帶來的架構復雜、開發運維成本高等問題。同時,Hippo1.1提供兼容Elasticsearch協議的SDK支持,方便用戶更便捷地使用向量數據庫。

11.png

例如,當查詢“A公司業務發展情況”時,通過向量檢索可以檢索出A公司“主要業務”、“經營模式”、“財務情況”、“市場地位”等信息,通過全文檢索可以檢索出知識庫中和關鍵字“業務”、“發展”相關的結果作為補充,通過將兩者檢索的結果進行結合,可以使得大模型回答的結果更加豐滿和準確。

當查詢“A公司產品經理B的履歷”時,若該產品經理B在知識庫中出現的頻率較低或未構建特征時,單一使用向量檢索召回的結果可能主要是A公司介紹,而通過全文檢索則會檢索出產品經理B相關的內容,通過向量+全文的聯合檢索召回,使得大模型能夠準確地給出答案。

222.png

多個新特性升級,幫助用戶實現降本增效

1、余弦距離支持,簡化業務邏輯

余弦距離在大模型領域有著廣泛的應用。在過去,用戶在將向量數據導入向量數據庫之前,需要對數據庫做L2歸一化,并搭配內積距離間接實現余弦距離,這個過程較為復雜,需要用戶手工操作,并要求有一定的技術基礎。Hippo1.1新增原生的余弦距離支持,用戶不再需要通過向量歸一化計算 IP metrics 來使用余弦距離,大幅簡化了業務邏輯,降低了用戶使用門檻。

2、批量數據導入導出,加速數據流轉

Hippo1.1新增基于csv格式的批量數據導入導出功能,方便用戶進行數據流轉。此外,用戶還可以通過Python、Restful等API進行數據操作。

3、支持ARM架構,滿足國產化需求

隨著 ARM架構 CPU 的普及程度越來越高,Hippo1.1在支持X86架構的基礎上,新增支持ARM架構,滿足企業用戶國產化需求。

4、支持Explain與Profile,高效性能優化

當執行帶過濾條件的向量檢索時,Hippo會根據過濾條件預估過濾率,選擇最優的搜索路徑。通過Explain接口,用戶可以準確地看到檢索的具體執行路徑,通過Profile接口,用戶可以看到?次搜索中各階段的細分耗時情況。基于這兩點特性,用戶可以更高效地進行數據庫調試、問題排查和性能優化。

333.png

分享到:
標簽:向量 準確率 搞定 模型 提升 檢索 數據庫 聯合
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定