2021年10月18日~20日,由IT168聯(lián)合旗下ITPUB、ChinaUnix兩大技術社區(qū)主辦的第12屆中國數據庫技術大會(DTCC2021)在北京國際會議中心隆重召開。歷經十余年的積累與沉淀,DTCC已然成為國內數據庫領域的技術風向標,見證了整個行業(yè)的發(fā)展與演變。DTCC2021秉承一貫的干貨分享和實踐指導原則,本次大會依然為行業(yè)呈現了一場頂級技術盛會。
作為國產數據庫和人工智能基礎軟件提供商、數據庫領域國際標準主筆單位與國家標準牽頭建設單位,柏睿數據受邀參會,柏睿數據行業(yè)咨詢總監(jiān)陳林生在會上進行了《全內存分布式數據庫RapidsDB的應用場景與實踐》主題演講。下文整理自現場演講內容,分享給大家~(在柏睿數據公眾號對話框回復關鍵字:全內存數據庫,即可獲取嘉賓PPT)
圖:柏睿數據行業(yè)咨詢總監(jiān)陳林生
一、內存計算及內存數據庫已逐漸成為大數據處理主流技術路線
近年來,內存數據庫成為解決高并發(fā)、低時延數據管理需求的主流技術路線。但內存數據庫并不是一個新鮮概念,如今得以廣泛應用,是行業(yè)需求、成本性價比與技術成熟使然。
一方面,隨著移動互聯(lián)網的飛速發(fā)展,數據呈現出海量、實時、在線等趨勢,追求極限數據處理性能的場景越來越多,基于磁盤存儲的數據庫管理系統(tǒng)受限于磁盤讀寫的速度,已經很難滿足新場景的擴展性和時延要求。
另一方面,內存器件的容量密度在快速上升,早期直接焊接在主板上的內存芯片,容量普遍在64KB以下;發(fā)展至今,最大容量內存是單根128GB,8路服務器內存容量已經能夠達到8TB。而內存單位價格也在逐年下降,從1970年代至今,內存每兆字節(jié)的價格下降了近9個數量級。內存技術的成熟,使大量數據在內存中的存儲和處理成為可能。
那么,內存數據庫的關鍵需求是什么呢?我們知道,NoSQL在初創(chuàng)公司或互聯(lián)網公司獲得了很大的應用,但對于傳統(tǒng)的企業(yè)客戶而言,甚至是互聯(lián)網公司,也逐漸意識到數據庫的SQL和ACID是大部分企業(yè)無法直接舍棄的,同時需要兼顧極致性能、分布式、可擴展性需求等,這是柏睿數據在設計全內存分布式數據庫架構時的出發(fā)點與著重考量的關鍵需求。
但是,“內存數據庫≠磁盤數據庫+大內存”,即在傳統(tǒng)基于磁盤數據庫的架構上無法充分發(fā)揮內存計算給數據庫性能的提升,內存數據庫和傳統(tǒng)磁盤數據庫在數據庫架構的方方面面有著很大的區(qū)別。
二、內存數據庫與傳統(tǒng)磁盤數據庫的本質區(qū)別
內存數據庫與傳統(tǒng)磁盤庫采用不同的架構設計。
磁盤數據庫(Disk Resident Database,DRDB)即數據存于磁盤,需要頻繁地訪問磁盤來進行數據的操作。而磁盤相對于內存來說是極其低速的存儲介質,內存尋址為納秒(ns)級別,磁盤尋址是毫秒(ms)級別,比內存慢了100萬倍。因此,解決磁盤I/O性能瓶頸一直是磁盤數據庫的主要問題。
內存數據庫(Main Memory Database,MMDB)與磁盤數據庫的根本區(qū)別在于,內存數據庫將數據全量加載到內存中進行處理,省去了磁盤I/O開銷,具備更極致的讀寫速度,性能相對傳統(tǒng)的磁盤數據庫有數量級的提升。
但內存數據庫并非簡單地將數據移至內存即可,內存數據庫架構需要思考并優(yōu)化其他可能的性能瓶頸與問題,還要考慮比如數據持久化、超出內存數據的統(tǒng)一管理(Larger-than-Memory)等問題。
三、當磁盤I/O不再是瓶頸,內存數據庫要考慮什么問題?
2008年,SIGMOD的一篇論文對面向磁盤的數據庫性能開銷做了分析,把整個數據庫系統(tǒng)的開銷做了統(tǒng)計。分析發(fā)現:典型的數據庫環(huán)境中實際上只有12%的資源是在真正處理業(yè)務查詢和處理邏輯。其中30%用于緩沖區(qū)管理;30%處理數據并發(fā)控制管理的開銷(Locking和Latching);另外28%處理數據庫日志的處理(Logging)。如何降低這些數據庫額外開銷?這是我們在設計內存數據庫時考慮的重點方向。
柏睿數據基于多年深耕數據庫行業(yè)經驗,全面考量內存數據庫架構下,數據存儲、并發(fā)訪問控制、查詢優(yōu)化器、查詢編譯器、執(zhí)行引擎、數據持久化、高可用等方面新需求,自主研發(fā)具有國產知識產權的全內存分布式數據庫RapidsDB。
RapidsDB采用分布式內存架構,支持高吞吐、高并發(fā)、高擴張、高可用的復雜應用場景需求,實現TB級數據及上百個維度隨機數據的秒級查詢,并滿足按需動態(tài)擴展的業(yè)務需求。同時,在避免數據遷移風險的前提下,RapidsDB實現對多源異構數據統(tǒng)一的接入、查詢、分析,并快速生成可視化報表。
四、深耕行業(yè)應用,柏睿數據收獲春華秋實
至今,柏睿數據全內存分布式數據庫RapidsDB已經通過了眾多實踐檢驗,廣泛應用于金融、運營商、能源、政府、制造業(yè)、交通等領域,在自助分析/靈活查詢、傳統(tǒng)數倉平臺加速、物聯(lián)網數據分析、實時電信計費、HTAP場景中發(fā)揮實效。
在近日公布的國家工業(yè)信息安全發(fā)展研究中心(工業(yè)和信息化部電子第一研究所)電信行業(yè)數據庫能力第一期測評結果中,柏睿數據各項指標評測結果均入圍前三甲,斬獲電信行業(yè)數據庫綜合能力第二名。并且,柏睿數據已經成為中國移動智慧中臺唯一分布式內存數據庫供應廠商。
在某省級移動公司網格運營平臺提速項目中,RapidsDB大幅提升系統(tǒng)性能和經分系統(tǒng)自助分析速度,實現了PC端網格門戶的數據展示秒級響應、APP端全功能秒級響應;優(yōu)化GIS圖層渲染效率,實現網格規(guī)配、入格管理等秒級響應。
在某大型國有金融客戶項目中,RapidsDB代替Oracle+ElasticSearch復雜技術棧,實現極速性能,為全行5萬個客戶經理團隊提供日常業(yè)務查詢,支撐精準營銷及信貸風控的業(yè)務需要。
如數據庫界的“大神”、1998年圖靈獎獲得者Jim Gray先生所言:“Tape is Dead,Disk is Tape,Flash is Disk,RAM Locality is King.”陳林生認為,隨著實時性數據處理場景需求的增多、對應用極致性能要求的不斷提高,以及非易失性存儲器件技術的不斷成熟和商用化,未來絕大部分的數據庫負載都將運行在內存數據庫上。
數據庫技術的蓬勃發(fā)展,不僅帶動了產業(yè)的百家爭鳴之勢,更使中國數據庫在國際數據庫格局中占據了一席之地。作為“卡脖子”關鍵技術攻堅者、國家“專精特新”科技小巨人企業(yè),柏睿數據持續(xù)突破底層核心技術、圍繞數據庫技術打造算力核心引擎筑牢中國數字基座,并正以領先的創(chuàng)新技術、自主可控的數據智能基礎軟件作為犀舟徑楫,在數字經濟浪潮下?lián)P帆遠航!