前言
目前,AIGC領域正處于蓬勃發展的階段,同時大規模數據集的使用和計算資源用量提升,也為AIGC業務架構底層的基礎設施提出了更高的要求。為了更好地支持AIGC業務的發展,UCloud在數據中心建設、網絡、文件存儲、主機鏡像市場等多個方面都提供了相關產品和解決方案。
數據庫方面,在云主機鏡像市場已支持Milvus向量數據庫的基礎上,UCloud云數據庫UDB中的PostgreSQL(以下簡稱UPgSQL)還新增支持了pgvector向量數據庫插件,持續在AIGC業務架構中所涉及的向量數據庫環節完善產品支持。
pgvector的特點及使用場景
pgvector是PostgreSQL數據庫的擴展插件,其設計目的是讓用戶能夠在現有的PostgreSQL數據庫上實現向量搜索和計算,而無需引入額外的向量數據庫,主要特點如下:
和PostgreSQL數據庫深度集成
pgvector作為PostgreSQL數據庫的一個擴展插件,它允許在PostgreSQL數據庫中存儲和查詢向量數據,無需遷移數據或更改應用程序架構,從而降低了集成的復雜性。如果業務架構已經在使用 PostgreSQL,而且希望快速地添加向量數據支持,pgvector是一個便捷的選擇。
SQL簡單易用
pgvector使用標準SQL查詢語言,適合于熟悉SQL查詢的用戶,而Milvus等專業向量數據庫則是提供了自己的查詢語言和 API。
數據模型可以靈活組合
pgvector允許用戶將向量數據存儲在表中的特定列中,同時允許將向量數據與其他屬性數據混合在一起。這種靈活性使得用戶可以在單一查詢中同時處理向量數據和其他結構化數據,從而滿足更廣泛的分析需求。
開箱即用
UDB UPgSQL數據庫產品已經內置了pgvector插件,可以在實例創建成功后直接開始使用,無需進行額外的配置。與Milvus等向量數據庫相比,這種集成方式減少了學習和配置的成本。
UCloud pgvector數據庫快速入門
pgvector最大支持創建16000個維度的向量, 并可以對最大2000個維度的向量建立索引。云數據庫UPgSQL默認已經安裝并啟用pgvector插件,以下是商品搜索與推薦系統案例中使用pgvector的具體步驟:
1.在UCloud UPgSQL控制臺創建一臺PostgreSQL數據庫實例,通過Root用戶登錄數據庫。
2.創建一個商品表,其中包含商品的名稱、描述和特征向量。
3.向商品表中插入一些商品數據,包括商品名稱、描述以及與其相關的特征向量。
4. 當搜索商品時,可以使用向量相似度來執行智能的商品搜索
5.基于用戶的歷史購買記錄或瀏覽行為,可以計算用戶的偏好向量,然后根據相似度來為用戶推薦其他商品。
6.創建索引:為了提高查詢效率, pgvector支持為向量數據建立IVF-Flat索引,可以通過下列語句創建索引。
創建索引語句的參數說明:
●CREATE INDEX ON products表示在 "products" 表上創建一個新的索引。
●USING ivfflat: 這部分指定了要使用的索引方法,即 "ivfflat"。
●(vector_data vector_cosine_ops): "vector_data" 是列的名稱, "vector_cosine_ops" 是指向量余弦相似度操作符,這表明你希望使用余弦相似度來優化這個索引。
●WITH (lists = 100): "lists" 參數設置為 100,是為了控制索引中的列表數量,以便在向量搜索時進行更有效的查詢。
更多使用方法詳見 pgvector官方文檔
UDB作為UCloud云平臺的核心產品,為廣大用戶提供了多樣化的數據庫選擇,覆蓋了MySQL、PostgreSQL、SQL Server、MongoDB等常用數據庫品類。UDB PostgreSQL數據庫支持pgvector插件后,可以通過創建UDB PostgreSQL數據庫快速獲得pgvector功能,無需額外的配置。
同時,如果需要專業的向量數據庫功能,也可以使用UCloud鏡像市場中的Milvus鏡像,創建對應主機獲取Milvus向量數據庫服務。作為一款開源向量數據庫,Milvus專注于高性能的向量數據存儲與檢索。它的設計旨在處理大規模的向量數據,包括圖像、文本、音頻等各個領域的向量特征。Milvus以高效的相似性搜索和向量計算為特色,滿足了多領域數據探索和分析的需求。