摘要:未來企業之間的競爭將更加集中在數據上,誰能夠更好地利用數據,誰就有可能在未來的競爭中取勝。而看好AI,就應該看好向量數據庫,這是騰訊云的邏輯。------騰訊云數據庫副總經理羅云
昨天,騰訊云在北京召開發布會,宣布重新定義向量數據庫,并發布了國內首個AI原生的向量數據庫Tencent Cloud VectorDB。
先來快速了解下騰訊云重新定義向量數據庫的思考維度:
圖片來自,發布會現場拍攝。
騰訊云提出,向量數據庫不僅應該支持自然語言查詢,更應將AI算法深度融合至計算層、存儲層和數據庫引擎中,從而提升AI原生應用的開發效率。
關于騰訊云對向量數據庫的重新定義,你有什么看法?在老魚看來,是具有創新性的,該定義把AI與數據庫技術深度融合,涉及到自然語言查詢,以及深度結合AI的數據算子和存儲優化,這些都為處理大規模非結構化數據帶來了新的可能性。
此次重新定義的價值表現在兩個方面。首先,這提供了一種全新的AI應用開發解決方案。通過自然語言查詢和AI算法的深度結合,可以極大提高開發效率。其次,利用存儲優化和AI的輔助,可以顯著降低存儲成本并提高數據處理效率。
向量數據庫及其核心工作原理
在ChatGPT火起來之前,可能90%的吃瓜群眾都不知道向量數據庫為何物?如今,如果你還不知道向量數據庫,那就out啦。因為,幾乎所有由大語言模型(LLM)驅動的 AI產品或技術都使用了向量數據庫,向量數據庫是AI的基礎設施。
那么,向量數據庫究竟是什么?通俗地講,是一種幫助機器學習模型在海量數據中找到相似樣本的技術。這可能聽起來有些抽象,那就讓老魚用一個例子來解釋一下。
假設一個圖書館就是一個數據庫,而書就是數據庫中的數據。在傳統的數據庫中,我們通過書名、作者、出版日期等關鍵詞去搜索我們想要的書籍。這個過程類似于我們在數據庫中通過關鍵詞檢索需要的數據。
然而,向量數據庫的運作機制又是怎樣的呢?在一個"向量"圖書館中,假設你不僅想找到一本特定的書,你還想找到所有和這本書類似的書,例如內容、風格、主題都相似的書。這在傳統圖書館中可能是一項極具挑戰的任務,因為這需要逐一瀏覽和對比每一本書的內容。
然而,在"向量"圖書館中,每本書都會被轉換成一個向量,它像書的指紋,包含了書的所有特征信息。然后,我們可以通過計算這些向量之間的距離或相似度,找到與特定書最相似的其他書籍。這就是向量數據庫的核心工作原理。
例如, "I like to eat pizza" 這句話,在我們人類的眼中極為簡單,但在計算機眼中,它會被解構成每一個單詞對應的向量。如下:
有趣的是,語義相似的句子會對應到相似的向量。就像我們經常玩的魔方,可以通過轉動、找到與目標向量近似的向量。
在現實中,向量數據庫被廣泛應用在AI和機器學習領域,特別是在處理和查詢大量高維向量數據的場景,如人臉識別,語音識別,商品推薦等等。通過向量數據庫,我們可以在海量數據中,快速有效地找到相似的向量,從而提高檢索的效率和精度。這種能力不僅極大地推動了AI技術的實用化,也使得我們的生活變得更加便捷和個性化。
向量數據庫與大模型、生成式人工智能的邏輯關系
我們再來看一看向量數據庫與大模型以及生成式人工智能的邏輯關系。
應用開發者如何使用向量數據庫和大模型處理和查詢過程?通常,這個過程包括文本分割、Embedding轉換、向量存儲、問題查詢、向量檢索、最后到大模型的推理。
老魚盡量把復雜的技術講得簡單一些,向量數據庫就像是一個擁有極為豐富藏書的圖書館,大模型則好比一位擁有專業圖書館管理員,總能在海量的書籍中迅速找到讀者所需的信息。而生成式人工智能,就像是一位敏捷的作家,能基于圖書館中已有的信息創作出全新的作品。
騰訊云重新定義了向量數據庫的概念,他們認為向量數據庫不僅是一個數據的存儲庫,同時也是一種關鍵的訓練工具。
這個定義的核心在于,向量數據庫能顯著提升生成式人工智能的輸出質量,同時拓寬了大模型的時間和空間邊界,解決了大模型對于新信息的無知和可能的隱私泄露問題。
眾所周知,現在的大模型,如GPT-4,其訓練數據截止日期是2021年9月,那么對于此后的事情,它是一無所知的。然而,向量數據庫有能力存儲最新的信息,從而填補這個漏洞。
同時,通過在本地存儲向量數據,向量數據庫能有效地防止了大模型可能導致的隱私泄露風險,這無疑是今天許多企業和組織極為關心的問題。
騰訊云向量數據庫能不能打?
評估一個向量數據庫能不能打,通常需要考量多個關鍵因素:性能、可靠性、易用性、擴展性、成本效益,以及AI和機器學習的集成等。
1、性價比:向量數據庫應當保證良好的性能,同時盡量降低存儲和計算成本。
2、成熟度與可靠性:一個高質量的向量數據庫應該提供穩定可靠的服務,即使在面臨大規模并發查詢時也能保持高可用性,并且在硬件出現故障時能夠保證數據的持久性。
3、易用性:一個高質量的向量數據庫應該是簡單易用的,包括簡單快速的數據插入、查詢和刪除流程,同時提供易于理解和使用的API。此外,對于各種常見的數據格式和編程語言的支持也是必要的。
4、AI和機器學習的集成:對于AI原生向量數據庫,其是否能夠深度集成AI和機器學習算法,并提供豐富的AI功能,也是評價其成敗的一個重要指標。
……
接下來,讓我們看一下騰訊云Tencent Cloud VectorDB展示的一些核心亮點數據:
高吞吐:最高支持10億級向量檢索規模, 相比單機插件式索引規模提升10倍;具備百萬級每秒查詢(QPS)的峰值能力;
低延遲:P99響應延遲20ms
高可用:基于騰訊集團大規模運營積累,日均處理萬億次請求,現網運營可用性指標達到99.99%
彈性擴展一站式向量檢索數據庫 :Embedding+檢索集成方案,數據嵌入AI效率提升10倍
向量化能力(embedding):多次獲得權威機構認可,2021年曾登頂MS MARCO榜單第一、相關成果已發表于NLP頂會EMNLPACL。
低成本:將騰訊云向量數據庫用于大模型預訓練數據的分類、去重和清洗相比傳統方式可以實現10倍效率的提升,如果將向量數據庫作為外部知識庫用于模型推理,則可以將成本降低2—4個數量級。
……
這些指標意味著怎樣的水平?90%的吃瓜群眾可能沒有概念,那就讓我們深入解析一下。
騰訊云數據庫副總經理羅云接受老魚采訪時,他表示,Tencent Cloud VectorDB在業界處于已經位居第一梯隊領先位置,其性能和谷歌的AI檢索引擎相媲美,,遠超一些開源的解決方案。比如:簡單的FAISS庫應用可能在數十萬到百萬級別,而插件式+單機能夠達到幾百萬,到億級別就比較少了。
羅云進一步表示,Tencent Cloud VectorDB在接入層支持自然語言查詢,在計算層,通過AI算子替代企業尋找/調優AI算法,將接入工期從1個月縮短到3天。在存儲層,融合智能壓縮算法,把向量存儲成本降低50%。
在接受采訪時,羅云還分享了一份有趣的數據:與傳統流程相比,使用Tencent Cloud VectorDB可以實現10倍的性能提升。在傳統開發流程中,AI應用的開發者需要花費大量時間進行數據處理、模型選取、向量化等步驟。而在Tencent Cloud VectorDB的幫助下,這些步驟可以大大簡化,使開發者可以在更短的時間內完成工作。
羅云對向量數據庫的市場前景表達了樂觀的看法,隨著AI技術的快速發展,他預計向量數據庫有望在NoSQL領域或整個數據庫領域占據重要的位置。
最后,對于Tencent Cloud VectorDB的目標客戶,羅云表示主要是需要使用大模型和處理大量數據的企業,特別是那些在AI,機器學習,搜索和推薦系統等領域有大量應用的公司。
而Tencent Cloud VectorDB的出現,無疑為這些企業提供了一種新的選擇。從性能、可靠性和成本效益來看,Tencent Cloud VectorDB有明顯優勢。那么,騰訊云向量數據庫能否吸引大量的企業用戶,從而改變現有的云數據庫市場競爭格局,我們拭目以待。