日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

放眼如今的數據庫市場,堪稱百花齊放。有基于傳統路線的,以MySQL,Oracle為基礎的;有走新理論的,基于Aurora,Spanner等;有面向應用場景的,比如工業數據庫,時序數據庫,圖數據庫等。更有向量數據庫這種以黑馬之姿為繚亂的數據庫江湖增添異色的。

編譯丨千山

“為什么你不應該投資向量數據庫?”

前段時間,流數據庫公司 RisingWave創始人&CEO吳英駿公開發文,闡述了這一有違“時潮”的觀點。在文中,吳英駿表示,盡管他對向量數據庫的前景頗有信心,但目前并不鼓勵進入向量數據庫市場。

圖源:medium圖源:medium

今年以來,大模型熱居高不下。而在近幾個月的大模型相關發布會或研討會上,“向量數據庫(Vector Database)”一詞頻頻出現,或多或少會成為話題點之一。

回溯一下,在今年3月的NVIDIA GTC Keynote 中, 英偉達CEO黃仁勛首次提及向量數據庫,并強調對于構建專有大型語言模型的組織而言,向量數據庫至關重要。此后,在平靜已久的數據庫行業,向量數據庫就像是突入的石子,攪亂了一池春水。

僅4月,四家向量數據庫初創公司Chroma、Qdrant、Weaviate和Pinecone就斬獲了10多億融資,資本市場對這一賽道的看好可見一斑。

  • Chroma:4月6日宣布獲得1800萬美元(當前約合人民幣1.3億元)種子輪融資
  • Qdrant:4月19日宣布獲得 750 萬美元(當前約合人民幣5400萬元)種子輪融資
  • We­a­v­i­a­te:4月22日宣布獲得5000萬美元(當前約合人民幣3.6億元)B輪融資
  • Pi­n­e­c­o­ne:4月28日宣布獲得1億美元(當前約合人民幣7.2億元)B輪融資

那么吳英駿為何提出這一論點?向量數據庫的熱度能維持到幾時,此時押注后續又要擠出多少泡沫?我們不妨冷靜地觀望一下。

1、一夜之間,新范式誕生

數據庫發展已歷經半個多世紀,經歷了各種不同的階段,可謂發展迅猛。最古老的類型是SQL或關系型數據庫。Web 2.0公司不斷增長的需求引發了NoSQL革命,其中數據庫變得更加靈活,能夠更好地應對爆炸式增長的數據量。現在,隨著ChatGPT的出現以及AIGC狂潮的爆發,向量數據庫的市場被點燃了。

與傳統數據庫不同,向量數據庫更擅長在非結構化數據中尋找意義。這些數據庫使用向量嵌入以數值表示數據,并將它們排列在彼此相似的集群中。

傳統數據庫,常見的關系數據庫(如MySQL,PostgreSQL,Oracle)和NoSQL數據庫(如MongoDB,Cassandra),幾十年來一直是業務數據管理的支柱。它們以結構化格式(如表、文檔或鍵值對)存儲和組織數據,從而更容易使用標準編程語言進行查詢和操作。

這些數據庫擅長處理具有固定模式的結構化數據,但它們經常在處理非結構化數據或高維數據(如圖像、音頻和文本)方面遇到困難。缺少標簽或未對齊的格式意味著非結構化條目可能會在搜索中丟失或錯誤地從過濾中排除。這給許多數據庫操作帶來了出錯的風險,必須通過手動構建數據來解決這個問題。因此通常需要我們手動審查非結構化條目。但人工審查必然又會耗費大量時間。

此外,隨著數據量和速度的增加,它們可能還會面臨性能瓶頸,從而引發響應時間變慢和可擴展性問題。

而向量數據庫不同,它不依賴于結構化格式,不是依靠不同的類別和列表來組織記錄,而是將數據作為數學向量存儲在高維空間中并對其進行索引。這種方法稱為“向量化”,可以更有效地搜索相似性并更好地處理復雜的數據類型(圖像、音視頻、自然語言)。某種程度上,向量數據庫代表了數據存儲和檢索的范式轉變。

2、成為大模型的“海馬體”

一方面,向量數據庫簡化了人工智能開發者對向量數據的管理。通過把來源權威可信的圖片、視頻和文本這樣的非結構化數據轉換成向量,并儲存到向量數據庫中,它就能幫助大模型具有“長期記憶”,進而減少大模型產生“幻覺”的可能性。

另一方面,向量數據庫能夠執行近似最近鄰 (ANN) 搜索,快速識別大型數據集中的類似項目。其主要優勢在于它們使用降維和索引算法等技術,向量數據庫可以大規模執行這些搜索,提供閃電般的響應時間,這使其成為推薦系統、異常檢測和自然語言處理等應用的理想選擇。

打個比方,如果向量數據庫是一個巨大的倉庫,那么人工智能就是熟練的倉庫經理。在這個倉庫中,每件物品(數據)都存儲在一個盒子(向量)中,整齊地組織在多維空間的貨架上。倉庫經理(AI)知道每個盒子的確切位置,可以根據物品的相似性快速檢索或比較物品。

倉庫的組織和優化程度越高,倉庫經理就能更快、更準確地找到各種任務所需的物品,例如提出建議、識別模式或檢測異常。正如管理良好的倉庫對于順利的業務運營至關重要一樣,向量數據庫在人工智能驅動的應用程序和解決方案的成功中起著至關重要的作用。

向量數據庫創業公司Qdrant的CEO兼聯合創始人Andre Zayarni曾提到,絕大多數人工智能研發項目從未投入生產的關鍵因素是缺乏正確的工具。(如果能)將大模型連接到實時的非結構化數據可以為任何希望構建更有用AI應用的人打開大量機會。顯然,向量數據庫在這里充當了這樣的橋梁作用。

3、熱錢涌入,挑戰依舊

值得一提的是,向量技術并不新鮮,但在ChatGPT橫空出世之前,向量數據庫非常小眾。前文提到的兩家初創公司Pinecone和Weaviate都成立于2019年,但此前無論是融資還是營收都是乏善可陳的狀態。

Pinecone聯合創始人兼首席執行官Edo Liberty曾坦率地提到,如果沒有ChatGPT的出現,我們根本不可能獲得巨額融資。

如今大量開發者涌入AIGC開發領域,這些向量數據庫廠商也等到了黎明。風口常有,而時代不常有。軟件服務初創公司Heltar的創始人Avyukt Aggarwal也談到,AIGC的爆火成就了向量數據庫。“每次淘金熱都會有人賣鏟子。對于生成式AI,鏟子是什么?向量數據庫。幾乎每一個LLM支持的應用程序都在使用它們或即將使用它們。”

隨著部署到企業生產中的AI應用程序與日俱增,對向量數據庫的需求必定會直線上升。所以稱向量數據庫為鏟子或許也并不算太過夸張。

但是在這蒸蒸日上的發展態勢下,向量數據庫依然面臨著不可忽視的幾項挑戰。騰訊云數據庫副總經理羅云在接受媒體采訪時表示,其一,成本。向量化數據有著高昂的計算成本,尋求存儲成本替代是必要的。另外,在檢索層面成本也非常高昂。據他判斷,短期內在成本方面不會發生數量級差異。其二,平臺產品與開源社區之間的關系。向量化技術目前已十分成熟,并存在大量開源解決方案,在不同的領域也存在不同的向量化方案,先發者與后來者,老牌廠商與新生力量之間的競爭正在持續升溫。

4、現在押注,為時尚早

與任何有效的新技術一樣,熱度的攀升到底是基于炒作還是潛力,旁觀者其實很難辨別。向量數據庫到底是大模型時代的天選之子,還是正在經歷曇花一現式的虛假繁榮,很多投資者也極難判斷。

但有一點可以明確的是,向量數據庫的出現并不代表大模型時代已經將像Postgres或NoSQL這樣的傳統數據庫拒之門外了。事實上,Postgres本身就有一個內置的Pgvector功能可以進行向量或相似性搜索。

除了PostgreSQL之外,包括OpenSearch,ClickHouse和Cassandra在內的幾個開源數據庫已經實現了自己的向量搜索功能。如果你已經使用這些系統,則無需采用新的向量數據庫。

此外,還有老牌數據庫公司為了不落伍,正在通過與人工智能相關的服務來鞏固自己。甲骨文提供了一系列人工智能算法,同時也以“數據庫內學習的速度”提供它們。IBM的老式Db2也已更名為“AI數據庫”,現在有ML來提高查詢性能和“基于信心的查詢”。

在《為什么你不應該投資向量數據庫?》一文中,吳英駿表示,現在入局向量數據庫可能并非合適的時機。其理由主要集中于以下幾點:

其一,先發優勢明顯。市場上已經充斥著大量的向量數據庫產品,潛在用戶可以很容易地在現有市場中找到合適的選擇。

其二,需求層次不同。如果一家公司已經采用了Elastic,redis,SingleStore或Rockset等商業數據庫,并且不需要高度先進的向量搜索功能,則可以充分利用這些數據庫的現有功能。盡管在向量數據處理方面的表現不如專業的向量數據庫,但依然可以滿足多數用戶的一般要求。

其三,技術在不斷前進。隨著數據庫領域技術的進步,越來越多的數據庫會考慮納入向量搜索功能,以滿足當前用戶群的需求。對于目前缺乏向量搜索功能的數據庫,實現這些功能或許只是時間問題。

簡言之,“與其投資新的向量數據庫項目,不如集中精力于現有數據庫,并探索利用向量引擎增強這些數據庫的機會,使其更加健壯和強大”。

5、寫在最后

放眼如今的數據庫市場,堪稱百花齊放。有基于傳統路線的,以MySQL,Oracle為基礎的;有走新理論的,基于Aurora,Spanner等;有面向應用場景的,比如工業數據庫,時序數據庫,圖數據庫等。更有向量數據庫這種以黑馬之姿為繚亂的數據庫江湖增添異色的。

“于無聲處聽驚雷”。每一次表層應用需求的轉變,都會推動底層基礎設施技術的更新。數據庫同樣如是。大模型時代的到來,生成式AI的日新月異,牽引著數據量和數據類型發生質的變化。這催生了對于向量數據庫的需求。向量數據庫十分契合AI大模型非結構化場景,仿佛天選,但長遠來看,其市場需求尚處于初期,中遠期規模還不到夸張之時。在若干輪優勝劣汰之后,我們或許才能看清誰是真正的執棋者。

參考鏈接:

https://thenewstack.io/vector-databases-long-term-memory-for-artificial-intelligence/

https://www.yicai.com/news/101799505.html

https://analyticsindiamag.com/why-are-investors-flocking-to-vector-databases/

https://venturebeat.com/ai/how-vector-databases-can-revolutionize-our-relationship-with-generative-ai/

https://medium.com/data-engineer-things/why-you-shouldnt-invest-in-vector-databases-c0cd3f59d23c

分享到:
標簽:向量 數據庫
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定