數據庫技術發(fā)端于上世紀五十年代,近幾十年,數據庫市場幾乎被Oracle、DB2等國外廠商所壟斷。隨著云計算、互聯網的發(fā)展,國產數據庫競相發(fā)展并在云與分布式時代實現新一代數據庫技術升級迭代,并逐漸走向產業(yè)化應用,為我國基礎技術安全可控與產業(yè)技術數字化升級發(fā)揮巨大的推動作用。
作為國內領先的數據庫廠商,騰訊云數據庫一直致力于推動數據庫基礎研究創(chuàng)新、數據庫產學研合作生態(tài)建設,助力國產數據庫學術人才培養(yǎng)和技術創(chuàng)新生態(tài)建設發(fā)展。
為促進數據庫領域的產學交流與合作,讓更多數據庫從業(yè)者了解最新研究成果,熟悉更多行業(yè)前沿發(fā)展趨勢,8月16日下午,騰訊云數據庫聯合騰訊高校合作、騰訊碼客、騰訊樂享、騰訊TEG技術學堂、廣東省計算機學會舉辦主題為“【Wiztalk】數據庫技術的發(fā)展與應用”的前沿技術研討會。
數據庫作為三大基礎軟件之一,做好一款能抗能打的國產數據庫,需要多個方面的關鍵因素,比如足夠的場景打磨,和持續(xù)的研發(fā)創(chuàng)新投入,包括基于產學研合作的基礎研究等。這是騰訊長期堅持的方面。我們認為,面向未來產業(yè)場景的不斷升級變換、各項前沿信息技術的交匯融合發(fā)展,以及數據庫基礎技術的持續(xù)突破,都給我們在數據庫超越發(fā)展中帶來許多機遇和挑戰(zhàn)。
研討會分為學術報告與主題討論兩個部分。在報告分享環(huán)節(jié),湯庸教授、毛睿教授、盧衛(wèi)教授與智雅楠老師,分別以“數據與知識工程研究與應用”、“大數據泛構:應對多樣性挑戰(zhàn)的通用數據處理模式”、“分布式數據庫的多級一致性及構建技術”、“云環(huán)境下如何構建一個彈性伸縮、高性價比的分布式數據庫存儲引擎”為主題,通過線上線下結合的方式帶來前沿學術分享。而在討論環(huán)節(jié),各位專家就數據庫領域軟硬件協同,國產數據庫發(fā)展等重點問題,與線下觀眾分享了各自的觀點。
中國計算機學會協同計算專委主任、廣東省計算機學會常務副理事長、學者網創(chuàng)始人、華南師范大學教授湯庸老師指出,數據庫的目的在于數據管理與應用。數據管理上,對于結構化、可形式化的數據,采用數據庫技術進行管理;對于半結構化、非結構化的數據,運用大數據技術進行管理。數據管理方面,湯庸教授介紹了TempDB時態(tài)數據管理軟件相關工作。TempDB在邏輯上使用雙時態(tài)數據模型,使用ATSQL2語言,支持電子政務、電子商務、決策支持等信息處理系統中的時態(tài)應用;同時,TempDB在技術上基于關系數據庫管理系統MySQL平臺、采用JAVA語言進行底層開發(fā),具有較強的可移植性以及部署方便。
長江學者、深圳大學計算機與軟件學院副院長毛睿老師認為科學在于通用。當前大數據處理主要圍繞volume和velocity這兩個挑戰(zhàn),對于variety挑戰(zhàn)的研究相對較少。通用的數據處理技術因其廣泛的適用性和相對低的平均開發(fā)維護成本,一直受到商業(yè)數據庫管理系統的青睞。基于這種理念,他提出了大數據泛構技術——一種可應對多樣性挑戰(zhàn)的通用模式,并建立了基于度量空間的通用大數據處理理論框架。
大數據泛構(big data genhierarchy)把數據抽象成度量空間中的點,僅利用數據間距離的三角不等性進行數據的管理和挖掘等工作,具有高度的通用性,有望成為下一代通用數據處理系統的重要組件。
中國計算機學會數據庫專委委員、中國人民大學教授、博士生導師盧衛(wèi)老師提出了分布式數據庫的多級一致性及構建技術。他指出,金融行業(yè)尤為注重“準”,即數據的一致性,數據不能出錯。但不同業(yè)務場景對一致性或者“準”的理解、要求并非都一樣。這將會對數據庫一致性技術創(chuàng)新帶來復雜的挑戰(zhàn)。針對以上分布式一致性的困境,中國人民大學-騰訊協同創(chuàng)新實驗室研究提出“多級一致性”的事務處理理念,并應用于騰訊分布式數據庫TDSQL產品中。該技術包含嚴格可串行化、順序可串行化、可串行化三大隔離級別,同時實驗室研究提出了雙向動態(tài)時間戳調整算法,整體使得TDSQL可針對不同應用場景要求,極大地平衡性能與一致性要求,滿足金融及各類企業(yè)場景的分布式事務處理需求。
據介紹,分布式環(huán)境下提出多級一致性模型,確保TDSQL無任何數據異常,且具備高性能的可擴展性,解決了分布式數據庫在金融級場景應用的最核心技術挑戰(zhàn),使得國產分布式數據庫實現在金融核心系統場景的可用,推動國產基礎軟件產業(yè)化。基于此,TDSQL是當前國內唯一進入國有大型銀行核心系統正式投產的國產分布式數據庫。
騰訊云數據庫專家工程師智雅楠介紹,分布式數據庫TDSQL的目標是云環(huán)境下如何構建一個彈性伸縮、高性價比的分布式數據庫存儲引擎,即把數據庫打造成一種服務,用戶隨取隨用,把簡單留給用戶,把復雜留給自己。
一方面,用戶可以像使用單機數據庫一樣使用分布式數據庫,同時業(yè)務體驗又能具備無限擴展的計算能力、無限擴展的存儲能力、伸縮過程用戶無感知、100%兼容MySQL、高可靠高可用、支持存儲過程、trigger、不用需指定shared key等特性。另一方面,還需要做到高性價比,用戶需要多少資源就用多少資源,兼容性、負載均衡、擴展性、ACID、參數調優(yōu)等問題都由云服務來解決。
為了實現這個目標,TDSQL選擇了擴展性不受限制的云原生Share Nothing架構。在構建過程中,對多維度的數據粒度劃分、數據平滑遷移技術、集群的負載均衡三方面進行技術創(chuàng)新突破,包括實現智能數據地理感知、代價估算數據分布策略、基于AI的無服務彈性可伸縮技術等,可感知系統故障規(guī)律,建立高精度的數據庫資源容量預測模型,進行智能資源調度、敏捷彈性伸縮、數據布局優(yōu)化、關鍵參數自動調優(yōu)、分布式共識協議同步與通信優(yōu)化,形成高可用、高效率的彈性計算能力,做到低成本支持大規(guī)模突發(fā)性業(yè)務。
在閉門研討環(huán)節(jié),針對“硬件發(fā)展對數據庫的影響”在這一話題,騰訊云數據庫技術負責人潘安群認為,整體上看,目前數據庫硬件方面最大的變化可能是從原來的機械硬盤換到SSD。騰訊云數據庫內部也在進行新硬件的相關研究,但目前來看,新硬件對數據庫性能的提升還未實現突破性的性能改變。因此在未來,各大廠商會繼續(xù)嘗試各種新硬件,但在架構層面上的創(chuàng)新可能會更容易實現性能提升。
盧衛(wèi)老師則更看好RDMA的發(fā)展。RDMA具備高帶寬低延時的特點,對原來數據庫的架構可能會產生較大的變化。實驗表明,原先的數據庫中,一個事務訪問五個節(jié)點和訪問兩個節(jié)點相比,性能下降了90%左右,但采用RDMA后,性能基本沒有損耗。從實驗結論上看,未來分布式系統架構可能會產生較大改變,有利于提高數據庫性能。
作為國內領先的數據庫廠商,騰訊云數據庫一直致力于推動數據庫基礎研究創(chuàng)新、數據庫產學研合作生態(tài)建設,通過校企聯合實驗室共建,面向青年學者的CCF-騰訊犀牛鳥基金與騰訊犀牛鳥科研專項等,與高校、科研機構構建起“產學研”一體的長期合作,將技術研究成果轉換為應用落地,校企聯合持續(xù)輸出前沿技術創(chuàng)新與示范性應用。
騰訊云數據庫誕生自騰訊內部業(yè)務金融級場景,歷經海量場景十余年研發(fā)打磨,具備金融級分布式、云原生、實時分析、企業(yè)級通用等能力,目前已服務金融、政務、工業(yè)制造等行業(yè)超過50萬家客戶。
騰訊企業(yè)級分布式數據庫TDSQL是國內首家應用于互聯網分布式銀行核心系統、銀行傳統核心系統,也是首家?guī)椭鷩鴥茹y行核心系統從IBM大機下移至國產分布式架構的國產分布式數據庫。目前,騰訊TDSQL已經幫助20余家金融機構完成核心替換,國內TOP 10銀行機構服務占比超過6家。TDSQL也很好了支持了第七次全國人口普查,以及騰訊會議、健康碼等國計民生的數字化應用。
未來,騰訊云數據庫將繼續(xù)加大對數據庫產學研合作生態(tài)的投入,通過與騰訊高校合作、計算機與數據庫領域學術組織等內外部合作伙伴合作,持續(xù)挖掘更有效的產學合作模式,加強產學交流互動,助力國產數據庫人才培養(yǎng)和技術創(chuàng)新生態(tài)建設。