當前構建大數據應用的難點是什么?對于這個問題,相信很多資深從業者都會回答:海量數據的高效處理與運維。在大數據時代中,它是數據庫行業面臨的基礎性問題,如何將它解決?既是挑戰,也是機遇。
在無數數據庫行業的老將新兵中,我們注意到一批力圖解決大數據語境下,數據庫使用和運維難題的“引路人”。今天,InfoQ的專訪對象---姚延棟,正是這批大數據“引路人”中的一個。
作為Greenplum的第三號員工,在過去十年間,姚延棟曾帶領團隊將Greenplum打造成為世界排名第三的分析型數據庫,創下由華人主導的數據庫產品最好排名。而在數據庫領域從業數十年后,他又選擇開啟自己的創業之旅,與兩位合伙人共同創辦了一家名為四維縱橫的數據庫公司。那么,他為什么在這個時間點選擇創業?當傳統行業的數字化轉型成為大勢所趨,數據庫領域又發生了什么新故事?我們帶著這些問題,同四維縱橫創始人姚延棟一起聊聊數據庫的過去與未來,挑戰與機遇。
行業中存在一種思維慣性
“創業是為了打破行業的慣性。”
“如果把數據庫領域比作一個大森林,那么我們就是對地形非常熟悉的原住民。當有人想穿過大森林,卻不知該走哪條路的時候,我們就充當“引路人”來幫助他們穿過森林。倘若沒有我們,那他們可能會按照自己的慣性去走。”
姚延棟在Greenplum效力的十年期間,最初主要從外圍模塊入手打造產品,后來逐步向核心邁進,打磨內核模塊,直到團隊駕馭整個數據庫內核,他坦言這與農村包圍城市的過程十分類似。在此期間,他發現行業中存在一種慣性思維,而創業的目的就是為了打破這種慣性。
那么,這個慣性到底指的是什么?
以時序場景為例,現在業內普遍流行使用專用的時序數據庫,典型的代表產品有InfluxDB、OpenTSDB 等,而與此同時,幾乎所有場景都需要關系型數據庫。這樣一來,大家就不得不引入多個數據庫產品,使得技術棧以及監控運維變得十分復雜。
雖然專用時序數據庫在一定程度上滿足了業務對于時序處理的需求,但也存在諸多問題,其中性能低、擴展性差的問題尤為顯著。過去時序數據庫大多是為數據中心的服務器監控、埋點數據處理等簡單場景設計的,所以,其無法為物聯網等場景下的大量數據源和大量指標提供支持。除此之外,開發效率低、需要MPP數據庫或者大數據產品配合以及數據孤島化等方面,都是擺在從業者面前的難題。
應運而生的超融合時序數據庫
“我一直把數據庫的技術演進和生物界的進化類比去看。”
從上世紀60年代誕生起,數據庫技術就一直在不斷地演進、迭代,其背后主要是兩股力量在推動:一股力量是性能問題,另一股力量是效率問題。
上世紀七八十年代,關系型數據庫開始獨步天下,從業者主要是基于關系型數據庫來高效存儲和處理應用開發中用到的數據;到了2000年左右,數據規模大幅增長,而大數據處理技術尚未展露雛形,整個社會對于浩瀚信息的處理仍處于比較迷茫的階段,以至于技術的迭代速度趕不上數據增長的速度。自此,大數據處理的性能問題開始顯現,數據庫領域隨之出現了時序數據庫、KV數據庫、文檔數據庫等專用數據庫,以期解決性能從0到1的問題。但由于應用要與多個數據庫溝通,從多個數據庫讀取數據到應用程序內存中再進行關聯、聚集以及合并等計算,很多數據處理邏輯被迫只能放在應用中,開發和運維效率就不可避免地大打折扣。
如此一來,為了解決效率問題,行業中又出現了Presto等類型的產品,即在專用的數據庫上封裝一個查詢引擎,試圖把數據處理邏輯從應用處理邏輯中剝離出來。這種方式雖然在一定程度上解決了開發效率問題,但性能仍是短板,且并未從根本上解決技術棧復雜的問題。
我們可以看到,在進化了近50年后,現有的數據庫技術已經不能滿足從業者的需求 --- 他們需要更加簡單易用、省心省力的數據庫。在這樣的背景下,為了能給用戶提供簡單易用的接口,真正實現數據平民化,姚延棟和他的團隊將關系數據庫、時序數據庫和分析數據庫融合在同一個數據庫產品中,打造了全球唯一一款PB級超融合時序數據庫--MatrixDB。
超融合時序數據庫解決了什么問題?
目前,超融合時序數據庫主要應用在兩大場景:第一,時序、時空場景,通常是物聯網、工業互聯網、車聯網和智慧城市等領域;第二,實時數據分析場景。
談到時序、時空場景,姚延棟分享了一個海量設備、大量存儲的典型物聯網場景。“以一家做光纖和5G通訊設備的國際制造商為例,這家制造商大概有1000萬設備,每臺設備每次都會采集300個指標數據,每次共計需要采集30億指標。”基于這種情況下,MatrixDB實現了超大規模數據的實時加載特性,在保證低延遲和高并發加載的同時,也減輕了系統資源消耗,充分將快速采集、高效存儲的特性顯示了出來,使得海量數據的存儲問題、秒級采集的頻率要求都能得到完美的解決。
在實時分析的特性方面,姚延棟又給出了另一個案例:在一個實時數據分析的業務中,MatrixDB可以實現對IT運營域和OT生產域的數據收集,通過ETL/CDC和物聯網協議插入數據以后,便能將兩張網的數據整合在一起,使得公司的全部數據一目了然地展現。當企業再基于這些數據進行分析時,就能得到更加精準且全面的結論。
我們還注意到了MatrixDB的另一個重要特性——模塊化和可插拔。專用時序數據庫通常包含存儲器和簡單的執行器,沒有優化器和并發控制等關系數據庫經典組件。從本質上來看,它是把存儲器“做成”了數據庫,以此來解決一個特定的問題。而超融合時序數據庫則是把存儲器“做進”數據庫,通過把各個核心功能做到模塊化、可插拔,在一個關系數據庫內部同時實現多種存儲引擎,以及跨存儲表關聯和ACID。比如有200張表,其中190張是關系型數據,這部分可以使用關系引擎存儲;剩余10張是時序數據,就可以使用時序引擎存儲,且它們可以相互關聯。
與傳統的關系數據庫+專用時序數據庫相結合的架構相比,通過支持多種存儲引擎,超融合時序數據庫可以讓性能快10-100倍,同時大幅降低成本,提升開發運維效率。
令人驚喜的是,除了快速采集、高效存儲、實時分析以及模塊化和可插拔特性以外,我們注意到MatrixDB作為一款數據庫產品,還提供了機器學習的能力。隨著人工智能技術的飛速發展,In-Database Machine Learning成為一個值得關注的方向,將機器學習的算法內置到數據庫將逐漸成為主流。一方面,借助分布式數據庫的并行計算能力,可以使計算速度超越單機;另一方面,由于單機上的內存有限,在數據量很大的情況下,只能抽樣進行訓練,模型精度就會變差。通過In-Database Machine Learning模式,就能實現在全量數據上訓練,模型精度也將得到進一步提高。
“過去從業者需要自己寫程序才能實現機器學習。”這是姚延棟提到的一個現象,并表示這其中的技術門檻比較高。“目前,MatrixDB數據庫通過直接提供SQL接口,大大降低了機器學習的門檻,能夠在一定程度上緩解人才稀缺的問題”。
下一步怎么走?
“未來我們會繼續在性能和效率兩個維度持續發力,并沿著更智能的方向去發展。”落實到具體的業務層面,姚延棟表示會在提升易用性、構建生態兩個方面重點發力。
眾所周知,數據庫運維對于從業者來說是一個很大的挑戰,也因此衍生出了數據庫運維這個行業。尤其在分布式數據庫環境中,節點數量多以及需求多樣化的特點,使得運維的難度更是大幅增加。姚延棟表示:“今后,我們將繼續致力于降低數據庫的使用門檻,使數據庫有能力提供自動性能調優、健康檢查等功能。”
在構建生態的方面,他也給出了更高層面的考慮。數據庫是基礎軟件,沒有人能夠只使用數據庫就解決業務問題,必須與很多周邊產品搭配,才能發揮真正的價值。因此,對于數據庫產品來說,生態的重要性不言而喻。“如果沒有生態,我們相當于把復雜度問題扔給了用戶,聯合行業內上下游共建生態是我們接下來的方向”。
"數據庫能定義未來記憶。"由于MatrixDB數據庫更多應用于物聯網、車聯網、工業互聯網和智慧生活等場景,姚延棟也與InfoQ談到了他對于萬物互聯時代中數據庫的理解,萬物互聯的目的是為了更智能化,而智能的前提是基于記憶,但事物本身是沒有記憶能力的,如風力發電機、智能手環等等。“未來我們希望通過超融合時序數據庫,賦予一些沒有記憶能力的設備以記憶,為智能衍生出更多的可能性。”
萬物互聯時代的智能化到底會是什么樣?這個問題還未有定論,仍然需要等待技術隨著時代不斷演進,不斷進化才能得到答案。但可以肯定的是,在這之前先建立起事物的記憶能力,能夠為不遠的智能化時代奠定基礎。
談及數據庫和四維縱橫的未來,姚延棟希望能夠讓數據處理簡單到像用電、用氣、用水一樣,把MatrixDB數據庫打造成一個真正的一站式數據處理平臺,讓從業者在進行數據處理時,不再需要關心底層的數據存儲以及計算的復雜性。這是四維縱橫正在探索的方向,也是行業共同努力的終極目標。