不同于歷史上的黃金和石油,數(shù)據(jù)成為了我們新的寶藏,一個(gè)驅(qū)動(dòng)社會(huì)進(jìn)步、催生創(chuàng)新的無(wú)盡源泉。然而,這些形式各異、復(fù)雜紛繁的數(shù)據(jù)需要一個(gè)管理者,一個(gè)保險(xiǎn)庫(kù),一個(gè)解析者,這就是數(shù)據(jù)庫(kù)的角色。
為了更系統(tǒng)、深入的梳理數(shù)據(jù)庫(kù)的發(fā)展脈絡(luò)和最新進(jìn)展,數(shù)據(jù)猿采訪了多位業(yè)界專家,包括星環(huán)科技聯(lián)合創(chuàng)始人劉汪根、PingCAP 創(chuàng)始人兼 CEO 劉奇、達(dá)夢(mèng)數(shù)據(jù)技術(shù)服務(wù)中心副總經(jīng)理胡俊、南大通用GBase 8s產(chǎn)品線總經(jīng)理崔志偉、酷克數(shù)據(jù)首席科學(xué)家楊勝文等,來(lái)共同探尋數(shù)據(jù)庫(kù)的價(jià)值和未來(lái)。
數(shù)據(jù)庫(kù)的演進(jìn)歷程
理解任何一個(gè)領(lǐng)域的發(fā)展方向,首先需要探尋其歷史軌跡,數(shù)據(jù)庫(kù)也不例外。每一次數(shù)據(jù)庫(kù)技術(shù)的飛躍,都是對(duì)過(guò)去需求變遷和技術(shù)挑戰(zhàn)的回應(yīng)。因此,只有深入理解數(shù)據(jù)庫(kù)的發(fā)展歷史,我們才能更清晰地洞察其未來(lái)的發(fā)展趨勢(shì),從而探索出新的創(chuàng)新路徑,引領(lǐng)數(shù)據(jù)庫(kù)技術(shù)走向新的高度。
追溯歷史,20世紀(jì)70年代,有一位名叫埃德加·科德的英國(guó)計(jì)算機(jī)科學(xué)家在IBM工作時(shí),受到數(shù)據(jù)存儲(chǔ)和檢索的低效率之困擾,他靈光一現(xiàn),提出了關(guān)系模型。從此打開(kāi)了關(guān)系型數(shù)據(jù)庫(kù)發(fā)展的大門。
基于關(guān)系模型,Oracle公司應(yīng)運(yùn)而生。這家公司的關(guān)系型數(shù)據(jù)庫(kù)軟件風(fēng)靡全球,引發(fā)了一場(chǎng)數(shù)據(jù)庫(kù)革命。此時(shí),另一位英雄Michael Stonebraker教授創(chuàng)建了PostgreSQL,這款數(shù)據(jù)庫(kù)具有很多高級(jí)功能,如GIS數(shù)據(jù)存儲(chǔ),進(jìn)一步豐富了關(guān)系型數(shù)據(jù)庫(kù)領(lǐng)域。
進(jìn)入21世紀(jì)初,互聯(lián)網(wǎng)的迅猛發(fā)展讓數(shù)據(jù)庫(kù)面臨新的挑戰(zhàn)。谷歌公司的工程師們發(fā)現(xiàn)傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)在大規(guī)模數(shù)據(jù)處理方面的不足。于是,他們提出了一種分布式數(shù)據(jù)庫(kù)技術(shù)——Bigtable,實(shí)現(xiàn)分布式存儲(chǔ)數(shù)據(jù),提高了處理大規(guī)模數(shù)據(jù)的效率。
與此同時(shí),AWS開(kāi)發(fā)了云數(shù)據(jù)庫(kù)服務(wù)Amazon RDS,這使得數(shù)據(jù)庫(kù)在云端變得更加靈活,降低了企業(yè)的運(yùn)維成本。隨后,微軟、谷歌、阿里巴巴等科技巨頭紛紛效仿,推出了各自的云數(shù)據(jù)庫(kù)產(chǎn)品。
在這些年的發(fā)展中,數(shù)據(jù)庫(kù)領(lǐng)域涌現(xiàn)出各種各樣的新技術(shù)。許多公司和人物在這個(gè)過(guò)程中發(fā)揮了關(guān)鍵作用,他們的故事成為了數(shù)據(jù)庫(kù)領(lǐng)域發(fā)展的見(jiàn)證。從關(guān)系型數(shù)據(jù)庫(kù)到NoSQL,再到NewSQL,數(shù)據(jù)庫(kù)技術(shù)不斷演進(jìn)。
辨析數(shù)據(jù)庫(kù)的兩個(gè)關(guān)鍵問(wèn)題
站在歷史的瞭望臺(tái)上,我們可以看到數(shù)據(jù)庫(kù)技術(shù)如何順應(yīng)時(shí)代的潮流,從過(guò)去到現(xiàn)在,逐漸形成一個(gè)輝煌的脈絡(luò)。在這條道路上,每一次技術(shù)創(chuàng)新和應(yīng)用的飛躍,都代表了對(duì)歷史的繼承和超越。而今,我們正站在一個(gè)新的起點(diǎn),數(shù)據(jù)庫(kù)的發(fā)展已經(jīng)步入一個(gè)全新的階段。
走到歷史的分叉口,我們需要對(duì)一些關(guān)鍵問(wèn)題找到合理的答案。目前,數(shù)據(jù)庫(kù)領(lǐng)域有兩個(gè)問(wèn)題亟需找到答案:分布式數(shù)據(jù)庫(kù)最終會(huì)一統(tǒng)天下,還是會(huì)與集中式數(shù)據(jù)庫(kù)長(zhǎng)期并存;數(shù)據(jù)庫(kù)類型越來(lái)越多,最終是走向?qū)?kù)專用,還是多模融合?
為了回答這兩個(gè)問(wèn)題,數(shù)據(jù)猿采訪了多位數(shù)據(jù)庫(kù)領(lǐng)域的專家。
1、分布式VS集中式數(shù)據(jù)庫(kù)
隨著互聯(lián)網(wǎng)的發(fā)展和大數(shù)據(jù)的出現(xiàn),分布式數(shù)據(jù)庫(kù)逐漸成為了數(shù)據(jù)庫(kù)的重要發(fā)展方向。談到分布式數(shù)據(jù)庫(kù),業(yè)界在一個(gè)問(wèn)題上存在分歧——分布式數(shù)據(jù)庫(kù)會(huì)最終完全替代集中式數(shù)據(jù)庫(kù),還是這兩種數(shù)據(jù)庫(kù)會(huì)長(zhǎng)期并存?
南大通用GBase 8s產(chǎn)品線總經(jīng)理崔志偉告訴數(shù)據(jù)猿,“我不認(rèn)為分布式數(shù)據(jù)庫(kù)會(huì)最終完全替代集中式的數(shù)據(jù)庫(kù)。理由大致如下:
① 分布式數(shù)據(jù)庫(kù)和集中式數(shù)據(jù)庫(kù)的產(chǎn)生都是有特定的業(yè)務(wù)場(chǎng)景,既存在互聯(lián)網(wǎng)的海量數(shù)據(jù)場(chǎng)景,也存在中小銀行的小業(yè)務(wù)場(chǎng)景,這些業(yè)務(wù)場(chǎng)景看不到有消失或合并的趨勢(shì);
② 分布式數(shù)據(jù)庫(kù)的出現(xiàn)還有一個(gè)機(jī)緣就是國(guó)產(chǎn)硬件的性能不足,用分布式數(shù)據(jù)庫(kù)分工協(xié)作來(lái)解決問(wèn)題。然而,國(guó)產(chǎn)的硬件設(shè)備也是在飛速進(jìn)步的,可以逐步解決性能不足的問(wèn)題;
③ 集中式數(shù)據(jù)庫(kù)在特定的業(yè)務(wù)場(chǎng)景中,仍然存在靈活、快速、簡(jiǎn)捷、強(qiáng)一致性等優(yōu)勢(shì),分布式數(shù)據(jù)庫(kù)遇到跨節(jié)點(diǎn)join的時(shí)候依然吃力;
我認(rèn)為未來(lái)數(shù)據(jù)庫(kù)的發(fā)展將會(huì)進(jìn)入一個(gè)百花齊放的階段,不同的業(yè)務(wù)場(chǎng)景使用不同的數(shù)據(jù)庫(kù)產(chǎn)品,各種不同的數(shù)據(jù)庫(kù)分工協(xié)作來(lái)為客戶解決問(wèn)題。比如,在非關(guān)系型數(shù)據(jù)庫(kù)出現(xiàn)之前,文本、視頻等都存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)的大對(duì)象類型,現(xiàn)在有了專業(yè)的文檔數(shù)據(jù)庫(kù);之前還需要考慮對(duì)文本搜索的優(yōu)化,現(xiàn)在很多都在ES中實(shí)現(xiàn)。”
對(duì)于這個(gè)問(wèn)題,達(dá)夢(mèng)數(shù)據(jù)技術(shù)服務(wù)中心副總經(jīng)理胡俊認(rèn)為,“分布式數(shù)據(jù)庫(kù)會(huì)是很重要的方向之一,但分布式數(shù)據(jù)庫(kù)有其適用的特定場(chǎng)景,在很多領(lǐng)域仍然可能采用更通用的集中式架構(gòu)數(shù)據(jù)庫(kù)。因此我們認(rèn)為集中式和分布式是兩個(gè)賽道,雖然這兩個(gè)賽道互相之間可能會(huì)有一些競(jìng)爭(zhēng),但原則上是兩個(gè)互補(bǔ)的東西。
分布式和集中式實(shí)際上并非完全對(duì)立的兩條技術(shù)路線,也沒(méi)有誰(shuí)更優(yōu)于誰(shuí)的概念,只是使用業(yè)務(wù)場(chǎng)景不同,匹配的技術(shù)架構(gòu)也就有所不同。客戶在選擇分布式數(shù)據(jù)庫(kù)的時(shí)候,應(yīng)該綜合考慮業(yè)務(wù)模型、技術(shù)棧選型、運(yùn)維成本、產(chǎn)業(yè)供應(yīng)商體系等因素。此外,分布式數(shù)據(jù)庫(kù)是重量級(jí)的技術(shù),對(duì)用戶的使用門檻是比較高的,這一點(diǎn)用戶也應(yīng)該綜合考慮。
總的來(lái)說(shuō),我們認(rèn)為客戶在選型時(shí)應(yīng)該不拘泥于數(shù)據(jù)庫(kù)的類型,而是選擇以實(shí)際需求、痛點(diǎn)為導(dǎo)向,尋找能夠滿足自己實(shí)際需求和技術(shù)指標(biāo)的產(chǎn)品解決方案。比如,在客戶需求層面,不論客戶定義實(shí)現(xiàn)其所需功能的數(shù)據(jù)庫(kù)為分布式還是集中式,客戶在項(xiàng)目實(shí)施過(guò)程中都可基于通用達(dá)夢(mèng)數(shù)據(jù)庫(kù),按自身實(shí)際需求和技術(shù)指標(biāo),采用不同的系統(tǒng)配置和不同的集群軟件搭配方案來(lái)構(gòu)建集中式、分布式或混合搭配使用的數(shù)據(jù)庫(kù)實(shí)例。”
星環(huán)科技聯(lián)合創(chuàng)始人劉汪根認(rèn)為,“分布式和集中式分別面對(duì)不同的場(chǎng)景,會(huì)長(zhǎng)期處于并存的狀態(tài),但最終分布式數(shù)據(jù)庫(kù)會(huì)最終完全‘替代’集中式數(shù)據(jù)庫(kù)。
分布式數(shù)據(jù)庫(kù)有2個(gè)特點(diǎn),一個(gè)是可以橫向擴(kuò)展,提供更大的存儲(chǔ)和更高的性能,另一個(gè)就是可以提供高可用,保證數(shù)據(jù)和系統(tǒng)安全。對(duì)于集中式數(shù)據(jù)庫(kù),在實(shí)際生產(chǎn)的時(shí)候,用戶最起碼還是會(huì)部署雙機(jī)來(lái)實(shí)現(xiàn)高可用和容災(zāi)。對(duì)于用戶來(lái)說(shuō),由于應(yīng)用和業(yè)務(wù)的多樣性,用戶的數(shù)據(jù)量會(huì)不斷地增加,并且都不滿足于存數(shù)據(jù),都希望能夠通過(guò)各自各樣的方式去分析數(shù)據(jù),從數(shù)據(jù)中去獲取價(jià)值。所以不管是從存儲(chǔ)還是計(jì)算,用戶對(duì)數(shù)據(jù)庫(kù)系統(tǒng)的要求越來(lái)越高,分布式可以很好地滿足這些要求。
從實(shí)際系統(tǒng)迭代方向上,用戶原先的服務(wù)器硬件和數(shù)據(jù)庫(kù)軟件也會(huì)有生命周期,以及面臨集中式擴(kuò)容,一些行業(yè)的國(guó)產(chǎn)化需求,用戶是要考慮替換的。而在替換的時(shí)候,是繼續(xù)用舊技術(shù),還是用新的分布式技術(shù),我相信用戶都會(huì)逐步采用新技術(shù)的。例如,像上面說(shuō)的,分布式可以橫向擴(kuò)展,就不會(huì)有擴(kuò)展難的問(wèn)題,提供更大的存儲(chǔ)和更高的計(jì)算能力,可以滿足更多的業(yè)務(wù)場(chǎng)景。”
2、專庫(kù)專用VS多模型數(shù)據(jù)庫(kù)
隨著數(shù)據(jù)庫(kù)尤其是非關(guān)系型數(shù)據(jù)庫(kù)的發(fā)展,涌現(xiàn)出大量針對(duì)特定應(yīng)用場(chǎng)景的數(shù)據(jù)庫(kù),典型的包括:
實(shí)時(shí)數(shù)據(jù)庫(kù):內(nèi)存存儲(chǔ)、事件驅(qū)動(dòng)和流處理等實(shí)時(shí)數(shù)據(jù)庫(kù)的核心技術(shù)突破,在低延遲和高吞吐量方面取得重要進(jìn)展。這使得實(shí)時(shí)數(shù)據(jù)庫(kù)能夠快速響應(yīng)和處理實(shí)時(shí)數(shù)據(jù),應(yīng)用于金融、物聯(lián)網(wǎng)和游戲等領(lǐng)域。
時(shí)序數(shù)據(jù)庫(kù):時(shí)序數(shù)據(jù)庫(kù)主要用于存儲(chǔ)和查詢時(shí)間序列數(shù)據(jù)。核心技術(shù)突破包括數(shù)據(jù)壓縮、高效索引和時(shí)間窗口查詢,應(yīng)用場(chǎng)景包括物聯(lián)網(wǎng)、監(jiān)控系統(tǒng)和金融行業(yè)。
圖數(shù)據(jù)庫(kù):圖數(shù)據(jù)庫(kù)以圖結(jié)構(gòu)存儲(chǔ)和查詢數(shù)據(jù),適用于處理復(fù)雜的關(guān)系網(wǎng)絡(luò)。核心技術(shù)突破包括圖遍歷算法、子圖匹配和圖分析,應(yīng)用場(chǎng)景包括社交網(wǎng)絡(luò)、知識(shí)圖譜和推薦系統(tǒng)。
列式數(shù)據(jù)庫(kù):列式數(shù)據(jù)庫(kù)以列為存儲(chǔ)單元,優(yōu)化了對(duì)大量列數(shù)據(jù)的查詢性能。核心技術(shù)突破包括列存儲(chǔ)、向量化執(zhí)行和數(shù)據(jù)壓縮,應(yīng)用場(chǎng)景包括數(shù)據(jù)倉(cāng)庫(kù)、大數(shù)據(jù)分析和報(bào)表系統(tǒng)。
無(wú)服務(wù)器數(shù)據(jù)庫(kù):無(wú)服務(wù)器數(shù)據(jù)庫(kù)將數(shù)據(jù)庫(kù)服務(wù)與底層基礎(chǔ)設(shè)施抽象分離,使用戶無(wú)需關(guān)心服務(wù)器和運(yùn)維。核心技術(shù)突破包括彈性伸縮、按需付費(fèi)和自動(dòng)化運(yùn)維,應(yīng)用場(chǎng)景包括云原生應(yīng)用和快速原型開(kāi)發(fā)。
GPU加速數(shù)據(jù)庫(kù):GPU加速數(shù)據(jù)庫(kù)利用GPU的并行計(jì)算能力,加速了數(shù)據(jù)庫(kù)的查詢和分析性能。核心技術(shù)突破包括GPU計(jì)算、數(shù)據(jù)并行處理和內(nèi)存優(yōu)化,應(yīng)用場(chǎng)景包括實(shí)時(shí)數(shù)據(jù)分析、人工智能等。
向量數(shù)據(jù)庫(kù):大模型的爆火,也帶動(dòng)了向量數(shù)據(jù)庫(kù)的發(fā)展。劉汪根指出,不管是通用模型,還是微調(diào)出來(lái)的行業(yè)模型,都存在著一定的局限性,包括實(shí)時(shí)性、長(zhǎng)Token、幻覺(jué)等問(wèn)題。大模型訓(xùn)練所使用的數(shù)據(jù)包含了如文檔、圖片、音視頻等各種類型的非結(jié)構(gòu)化數(shù)據(jù)。用戶可以通過(guò)表示學(xué)習(xí)的預(yù)處理方式將這些數(shù)據(jù)轉(zhuǎn)化為多維向量,并存儲(chǔ)在向量數(shù)據(jù)庫(kù)中,從而可以很好地解決上述問(wèn)題。
面對(duì)越來(lái)越多的數(shù)據(jù)庫(kù)類型,人們不禁要問(wèn),以后是每種業(yè)務(wù)類型實(shí)現(xiàn)專庫(kù)專用,還是這些數(shù)據(jù)庫(kù)會(huì)走向融合統(tǒng)一,最終用一種通用數(shù)據(jù)庫(kù)來(lái)滿足多樣化的數(shù)據(jù)需求?針對(duì)這個(gè)問(wèn)題,數(shù)據(jù)猿也采訪了業(yè)界專家。
達(dá)夢(mèng)數(shù)據(jù)技術(shù)服務(wù)中心副總經(jīng)理胡俊認(rèn)為,“就目前來(lái)講,專庫(kù)專用,其實(shí)是一種發(fā)展趨勢(shì),因?yàn)閳?chǎng)景不同,特定數(shù)據(jù)庫(kù)的使用效果相差很大;但是否要融合,其表現(xiàn)出的是一個(gè)技術(shù)發(fā)展方向的問(wèn)題,但問(wèn)題的本質(zhì)卻是在需求側(cè)關(guān)注的幾個(gè)重點(diǎn)方向:降本增效、數(shù)據(jù)安全以及數(shù)據(jù)庫(kù)對(duì)于新技術(shù)的支撐作用。從這個(gè)角度來(lái)講,是否會(huì)走向融合,還是要看需求側(cè)的變化,技術(shù)和產(chǎn)品的發(fā)展還是要圍繞需求進(jìn)行演化。”
星環(huán)科技聯(lián)合創(chuàng)始人劉汪根認(rèn)為,“專庫(kù)還是會(huì)專用的,也會(huì)逐漸走向融合,但我說(shuō)的融合并不是說(shuō)形成一類通用的數(shù)據(jù)庫(kù),而是多模型的融合,也就是多模數(shù)據(jù)庫(kù)。
像分析海量數(shù)據(jù)的關(guān)聯(lián)關(guān)系,需要用到圖數(shù)據(jù)庫(kù),通過(guò)圖模型來(lái)存儲(chǔ)和分析數(shù)據(jù),分析性能更高、更直觀。而工業(yè)物聯(lián)網(wǎng)場(chǎng)景下時(shí)時(shí)刻刻產(chǎn)生的海量數(shù)據(jù),傳統(tǒng)關(guān)系型是沒(méi)法解決的,或者說(shuō)存儲(chǔ)成本太高,分析效率較低,這里就需要專門的時(shí)序數(shù)據(jù)庫(kù),來(lái)提供高性能的實(shí)時(shí)數(shù)據(jù)寫入、復(fù)雜分析,以及高的壓縮率來(lái)降低存儲(chǔ)成本等。再比如,當(dāng)前比較火的大模型,就需要專門的向量數(shù)據(jù)庫(kù)。
但是,這些為了滿足不同場(chǎng)景的不同數(shù)據(jù)庫(kù)也存在問(wèn)題。首先,這些獨(dú)立的系統(tǒng),每個(gè)都需要單獨(dú)維護(hù),運(yùn)維成本就非常高。同時(shí),接口標(biāo)準(zhǔn)也不一致,用戶需要學(xué)習(xí)適配的不同接口,開(kāi)發(fā)成本高。同樣的,這些產(chǎn)品也使用了各自獨(dú)立的計(jì)算引擎和存儲(chǔ),數(shù)據(jù)存儲(chǔ)在各自的生態(tài)中難以互通,若需要把數(shù)據(jù)從一個(gè)產(chǎn)品導(dǎo)入到另一個(gè)產(chǎn)品中,需要通過(guò)導(dǎo)入導(dǎo)出,ETL流轉(zhuǎn)效率低,同時(shí)也難以保證數(shù)據(jù)的準(zhǔn)確性、一致性和實(shí)效性。數(shù)據(jù)往往在流轉(zhuǎn)過(guò)程中導(dǎo)致數(shù)據(jù)不一致,最終影響業(yè)務(wù)準(zhǔn)確性。
多模數(shù)據(jù)庫(kù)就很好地解決了這個(gè)問(wèn)題,用一個(gè)統(tǒng)一的平臺(tái)來(lái)處理多種不同的數(shù)據(jù)模型,對(duì)外提供統(tǒng)一的接口。而星環(huán)不僅是在接口上做到了統(tǒng)一,計(jì)算、存儲(chǔ)管理和資源管理框架上都做到了統(tǒng)一。用戶僅需要維護(hù)一套系統(tǒng),多種模型的數(shù)據(jù)進(jìn)行統(tǒng)一存儲(chǔ)管理,一個(gè)SQL就可以實(shí)現(xiàn)不同數(shù)據(jù)模型的操作和查詢,模型轉(zhuǎn)化流轉(zhuǎn)以及跨模型關(guān)聯(lián)分析,解決了不同模型數(shù)據(jù)之間的組合使用問(wèn)題,具有復(fù)雜度低、開(kāi)發(fā)成本低、運(yùn)維成本低、數(shù)據(jù)處理效率高等優(yōu)點(diǎn)。”
找到未來(lái)的發(fā)展方向
需要指出的是,數(shù)據(jù)庫(kù)雖然有幾十年的發(fā)展歷史,但并不意味著他進(jìn)入遲暮之年了。正相反,數(shù)據(jù)庫(kù)正值“壯年”,本身正處于快速發(fā)展過(guò)程中,新技術(shù)、新理念層出不窮。
那么,數(shù)據(jù)庫(kù)要進(jìn)一步發(fā)展,未來(lái)核心的突破方向有哪些呢?
達(dá)夢(mèng)數(shù)據(jù)技術(shù)服務(wù)中心副總經(jīng)理胡俊告訴數(shù)據(jù)猿,“目前,數(shù)據(jù)庫(kù)技術(shù)快速發(fā)展,很多技術(shù)方式都值得關(guān)注,例如HTAP技術(shù)、云化技術(shù)、人工智能的技術(shù)、新型硬件設(shè)備技術(shù)等等。現(xiàn)階段達(dá)夢(mèng)重點(diǎn)關(guān)注分布式數(shù)據(jù)庫(kù)、HTAP和云數(shù)據(jù)庫(kù)技術(shù),這是近兩年會(huì)落地的技術(shù)趨勢(shì)。AI for DB、多模數(shù)據(jù)庫(kù)等趨勢(shì)仍然需要一些時(shí)間。”
在數(shù)據(jù)猿看來(lái),數(shù)據(jù)庫(kù)要獲得進(jìn)一步發(fā)展,可以從以下幾個(gè)方向進(jìn)行突圍:
湖倉(cāng)一體
湖倉(cāng)一體是指將數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)兩種技術(shù)融合在一起,以實(shí)現(xiàn)數(shù)據(jù)的管理、處理和分析。該技術(shù)通過(guò)將數(shù)據(jù)湖的靈活性和數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)化管理相結(jié)合,解決了傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的剛性和數(shù)據(jù)湖的松散性之間的矛盾。核心技術(shù)包括元數(shù)據(jù)管理、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換等,目前的挑戰(zhàn)主要包括數(shù)據(jù)一致性、性能和安全等方面。
存算分離
存算分離是指將數(shù)據(jù)的存儲(chǔ)和計(jì)算分離開(kāi)來(lái),以提高數(shù)據(jù)處理和分析的效率。該技術(shù)通過(guò)將數(shù)據(jù)存儲(chǔ)在分布式存儲(chǔ)系統(tǒng)中,并通過(guò)計(jì)算引擎進(jìn)行數(shù)據(jù)處理和分析,解決了傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)計(jì)算資源緊張、性能瓶頸等問(wèn)題。核心技術(shù)包括分布式存儲(chǔ)、計(jì)算引擎等,目前的挑戰(zhàn)主要包括數(shù)據(jù)安全、數(shù)據(jù)一致性、計(jì)算任務(wù)調(diào)度等方面。
流批一體
流批一體是指將數(shù)據(jù)流處理和批處理相結(jié)合,以實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)分析和離線數(shù)據(jù)分析的融合。該技術(shù)通過(guò)將數(shù)據(jù)流處理和批處理的優(yōu)點(diǎn)相結(jié)合,解決了傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)實(shí)時(shí)性差、批處理效率低等問(wèn)題。核心技術(shù)包括實(shí)時(shí)數(shù)據(jù)處理、批處理引擎等,目前的挑戰(zhàn)主要包括數(shù)據(jù)一致性、計(jì)算性能、數(shù)據(jù)安全等方面。
事務(wù)與分析融合
事務(wù)與分析融合是指將事務(wù)處理和數(shù)據(jù)分析相結(jié)合,以實(shí)現(xiàn)在數(shù)據(jù)處理過(guò)程中進(jìn)行實(shí)時(shí)數(shù)據(jù)分析和決策支持。該技術(shù)通過(guò)將實(shí)時(shí)數(shù)據(jù)分析和事務(wù)處理結(jié)合在一起,解決了傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)分析和事務(wù)處理分離的問(wèn)題。核心技術(shù)包括事務(wù)處理引擎、實(shí)時(shí)數(shù)據(jù)分析等,目前的挑戰(zhàn)主要包括性能、數(shù)據(jù)安全等方面。
AI尤其是大模型與數(shù)據(jù)庫(kù)的融合
正如PingCAP創(chuàng)始人兼 CEO 劉奇所說(shuō),“AI這次真的要重塑整個(gè)軟件行業(yè)了。AI技術(shù)對(duì)軟件行業(yè)主要影響有兩個(gè)方面,一是代碼,一是數(shù)據(jù)。
AI僅用7個(gè)月即完成一半人類寫代碼的工作,在過(guò)去七個(gè)月的時(shí)間里,Github上新增代碼中已經(jīng)有超過(guò) 46% 是由 AI 生成的。如果從軟件開(kāi)發(fā)效率的角度看,AI 實(shí)際上已經(jīng)完成差不多一半的人類工作。而在數(shù)據(jù)方面,用戶無(wú)需編輯SQL,只要用自然語(yǔ)言描述希望得到什么數(shù)據(jù),希望做什么分析,即可圖表化自動(dòng)生成。
AI帶來(lái)的能力讓數(shù)據(jù)消費(fèi)門檻變得極低,這也給數(shù)據(jù)庫(kù)帶來(lái)巨大挑戰(zhàn)。AI時(shí)代下,我們希望提供‘人人可用,開(kāi)放生態(tài)’的數(shù)據(jù)庫(kù)。基于此,我們認(rèn)為未來(lái)數(shù)據(jù)庫(kù)至少應(yīng)該是云原生架構(gòu),并具備更低成本、彈性擴(kuò)展、以及規(guī)模化數(shù)據(jù)整合能力。一言以蔽之,數(shù)據(jù)架構(gòu)現(xiàn)代化是全球化趨勢(shì)。”
達(dá)夢(mèng)數(shù)據(jù)技術(shù)服務(wù)中心副總經(jīng)理胡俊指出,“大模型的建立和訓(xùn)練、以及推理應(yīng)用,是基于海量的數(shù)據(jù)基礎(chǔ)之上才能做到的,數(shù)據(jù)庫(kù)系統(tǒng)作為數(shù)據(jù)存儲(chǔ)、管理的核心軟件,在這個(gè)技術(shù)架構(gòu)中占據(jù)重要的地位;如何提高對(duì)各種大模型數(shù)據(jù)類型的支持程度、海量數(shù)據(jù)處理效率、模型數(shù)據(jù)安全性、生態(tài)適配,降低海量數(shù)據(jù)存儲(chǔ)成本,給數(shù)據(jù)庫(kù)系統(tǒng)提供了挑戰(zhàn)的同時(shí),也帶來(lái)了機(jī)遇。目前的數(shù)據(jù)庫(kù)系統(tǒng)作為傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù)的重要載體,在大模型領(lǐng)域也有涉及和應(yīng)用,隨著大模型的迅速發(fā)展,也會(huì)拉動(dòng)數(shù)據(jù)庫(kù)的迅速發(fā)展。”
酷克數(shù)據(jù)首席科學(xué)家楊勝文告訴數(shù)據(jù)猿,“大模型的訓(xùn)練需要依賴海量的數(shù)據(jù)和強(qiáng)大的算力支持,千億級(jí)參數(shù)大模型的推理也對(duì)計(jì)算資源有較高的要求。目前市面上大部分?jǐn)?shù)據(jù)庫(kù)產(chǎn)品并不能很好的支持大模型的訓(xùn)練和推理。
得益于存算分離、雙計(jì)算引擎(MPP引擎和ML引擎)、云原生的架構(gòu)優(yōu)勢(shì),HashData對(duì)大模型的訓(xùn)練、微調(diào)、推理、應(yīng)用都有重大的價(jià)值。首先,HashData可以對(duì)原始海量數(shù)據(jù)進(jìn)行高效的存儲(chǔ)和管理,并利用強(qiáng)大的數(shù)據(jù)處理引擎對(duì)這些數(shù)據(jù)進(jìn)行分析、清洗和變換,最終生成高質(zhì)量的訓(xùn)練數(shù)據(jù)。其次,利用HashData強(qiáng)大的ML引擎,可以結(jié)合企業(yè)數(shù)據(jù)對(duì)大模型進(jìn)行高效的微調(diào),甚至從頭訓(xùn)練大模型。第三,利用HashData內(nèi)置的向量數(shù)據(jù)庫(kù)能力,極大地簡(jiǎn)化了基于大模型的知識(shí)增強(qiáng)的智能應(yīng)用建設(shè)。HashData同時(shí)開(kāi)發(fā)了面向數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師和應(yīng)用開(kāi)發(fā)者的數(shù)據(jù)科學(xué)工具箱HashML,使得從數(shù)據(jù)處理、模型微調(diào)到智能應(yīng)用開(kāi)發(fā)的全流程變得更簡(jiǎn)單,大幅降低了AI技術(shù)應(yīng)用門檻。”
需要指出的是,以上各個(gè)技術(shù)方向并不是獨(dú)立的,而是存在密切的關(guān)聯(lián)。星環(huán)科技聯(lián)合創(chuàng)始人劉汪根認(rèn)為,數(shù)據(jù)庫(kù)技術(shù)正在呈現(xiàn)一體化趨勢(shì),一體化有幾個(gè)方面的含義,包括湖倉(cāng)集一體化、多模處理一體化、交易分析一體化等等。過(guò)去,大家都用Hadoop湖+MPP倉(cāng)的混合架構(gòu),這是由于歷史的發(fā)展以及技術(shù)上的局限性形成的,但是隨著湖倉(cāng)一體技術(shù)的發(fā)展,從技術(shù)層面上可以實(shí)現(xiàn)了一體化。例如,傳統(tǒng)數(shù)倉(cāng)如Teradata的替代方面,很多用戶都選擇在替代時(shí)升級(jí)為湖倉(cāng)一體架構(gòu)。
多模處理一體化方面,為了滿足一些特定場(chǎng)景下的需求而使用不同的數(shù)據(jù)庫(kù)類型,這些不同的數(shù)據(jù)庫(kù)系統(tǒng)的開(kāi)發(fā)、運(yùn)維等給用戶帶來(lái)了很大的困擾,因此需要走向一體化,也就是多模數(shù)據(jù)庫(kù)。此外,像OLAP和OLTP,其實(shí)最早時(shí)就是一體化的,后來(lái)隨著交易和分析業(yè)務(wù)的增長(zhǎng),逐漸分開(kāi)發(fā)展,現(xiàn)在隨著數(shù)據(jù)庫(kù)技術(shù)的發(fā)展又逐漸走向了統(tǒng)一。總之,數(shù)據(jù)庫(kù)正在走向一體化,讓數(shù)據(jù)處理走向智能化、平民化,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)庫(kù)處理的降本增效。
在紛繁復(fù)雜的技術(shù)進(jìn)展中,我們瞥見(jiàn)了未來(lái)的端倪,也探尋到了數(shù)據(jù)庫(kù)的發(fā)展藍(lán)圖。就如同在晨曦的破曉中,新的一天即將到來(lái),數(shù)據(jù)庫(kù)也在歷史與創(chuàng)新的交織中,步入了一個(gè)嶄新的篇章。
在我們前方,云計(jì)算、大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)、區(qū)塊鏈、5G,以及其他未知的技術(shù)風(fēng)潮,像潮水一般涌來(lái),不斷塑造著數(shù)據(jù)庫(kù)的新形態(tài)。而數(shù)據(jù)庫(kù),如一艘無(wú)懼風(fēng)浪的航艦,帶著我們勇往直前,破浪前行。每一次的航行,都在打開(kāi)未來(lái)的大門。每一次的探索,不僅僅是技術(shù)的革新,更重要的是,它將成為我們理解世界、改變世界的新工具,成為我們探索未知、創(chuàng)造未來(lái)的新途徑。
明天,數(shù)據(jù)庫(kù)會(huì)怎樣改變數(shù)字世界?我們又會(huì)怎樣改變數(shù)據(jù)庫(kù)?這是一個(gè)充滿懸念的問(wèn)題,也是一個(gè)值得期待的答案。
文:一蓑煙雨 / 數(shù)據(jù)猿