隨著物聯(lián)網(wǎng)、車聯(lián)網(wǎng)和工業(yè)互聯(lián)網(wǎng)等的迅速發(fā)展,時(shí)序數(shù)據(jù)被廣泛應(yīng)用在各行各業(yè),包括工業(yè)制造、經(jīng)濟(jì)金融、環(huán)境監(jiān)測(cè)、醫(yī)學(xué)、農(nóng)業(yè)生產(chǎn)、硬件和軟件系統(tǒng)監(jiān)控等領(lǐng)域都在大量使用時(shí)序數(shù)據(jù)揭示研究對(duì)象的趨勢(shì)性、規(guī)律性、異常性。同時(shí),在人工智能的浪潮下,時(shí)序數(shù)據(jù)作為大數(shù)據(jù)、機(jī)器學(xué)習(xí)、實(shí)時(shí)預(yù)測(cè)基礎(chǔ)數(shù)據(jù)的作用日益凸顯。各類應(yīng)用產(chǎn)生的時(shí)序數(shù)據(jù)量爆炸式增長(zhǎng),呈現(xiàn)出海量性、關(guān)聯(lián)性、時(shí)效性、實(shí)時(shí)性等特征,對(duì)數(shù)據(jù)庫(kù)寫入、存儲(chǔ)、分析性能以及實(shí)時(shí)性提出了更高的要求,如何管理海量的實(shí)時(shí)數(shù)據(jù)、從中挖掘價(jià)值,是時(shí)序數(shù)據(jù)庫(kù)需要解決的重要問(wèn)題。
Transwarp TimeLyre是星環(huán)科技自主研發(fā)的企業(yè)級(jí)分布式時(shí)序數(shù)據(jù)庫(kù),其支持分布式水平擴(kuò)展,同時(shí)具有極高的壓縮率可以支持海量時(shí)序數(shù)據(jù)的存儲(chǔ),提供高吞吐實(shí)時(shí)寫入、時(shí)序精確查詢、多維檢索等功能,可以有效支撐物聯(lián)網(wǎng)、能源制造、金融量化交易領(lǐng)域等多種時(shí)序數(shù)據(jù)業(yè)務(wù)場(chǎng)景。
近日,TimeLyre正式發(fā)布V9.1版本,通過(guò)原生分布式架構(gòu)、5-20倍無(wú)損數(shù)據(jù)壓縮能力、每秒千萬(wàn)級(jí)數(shù)據(jù)吞吐能力、優(yōu)異的查詢分析性能、豐富的生態(tài)支持、靈活的部署方式,為海量時(shí)序數(shù)據(jù)的高效存儲(chǔ)、快速查詢、便捷計(jì)算提供了有力支撐,大幅降低了企業(yè)硬件成本,保障了時(shí)序數(shù)據(jù)查詢分析的實(shí)效性,滿足了時(shí)序數(shù)據(jù)在各類復(fù)雜業(yè)務(wù)場(chǎng)景的應(yīng)用需求。同時(shí)新版本還提供一站式國(guó)產(chǎn)化替代解決方案,可以實(shí)現(xiàn)InfluxDB的平滑替換,助力企業(yè)打造自主可控?cái)?shù)據(jù)平臺(tái)。
原生分布式架構(gòu),集群靈活擴(kuò)展,輕松實(shí)現(xiàn)海量時(shí)序數(shù)據(jù)存儲(chǔ)分析
TimeLyre采用原生分布式架構(gòu),支持集群在線擴(kuò)縮容,可滿足海量時(shí)序數(shù)據(jù)存儲(chǔ)和分析需求。TimeLyre的存儲(chǔ)組件TimeLyreStorage主要由分布式數(shù)據(jù)管理系統(tǒng)與時(shí)序存儲(chǔ)引擎構(gòu)成。
* 分布式數(shù)據(jù)管理系統(tǒng)負(fù)責(zé)分布式元信息的一致性存儲(chǔ)與分布式集群管理,基于Raft協(xié)議保證數(shù)據(jù)一致性與高可用性。
* 時(shí)序存儲(chǔ)引擎使用類似LSM-Tree的技術(shù),提供高吞吐的實(shí)時(shí)插入、高性能的時(shí)序數(shù)據(jù)檢索,同時(shí)會(huì)對(duì)時(shí)序數(shù)據(jù)進(jìn)行多種編碼和壓縮,保持整體數(shù)據(jù)的高壓縮率。
在計(jì)算方面,TimeLyre采用星環(huán)科技分布式向量化計(jì)算引擎Crux實(shí)現(xiàn)快速讀取批量存儲(chǔ)文件、高速響應(yīng)數(shù)據(jù)查詢等功能。同時(shí)基于用于數(shù)據(jù)倉(cāng)庫(kù)和交互式分析的分布式編譯器Quark,提供完整的SQL編譯支持,兼容通用開(kāi)發(fā)框架和工具,使得TimeLyre可以輕松融入企業(yè)數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)湖體系,為企業(yè)提供高性價(jià)比和高度可擴(kuò)展的解決方案。此外,Quark支持分布式計(jì)算可以同時(shí)在多個(gè)時(shí)序存儲(chǔ)間平衡業(yè)務(wù)流量,能夠有效地為客戶端屏蔽掉集群細(xì)節(jié),并且解決了時(shí)序存儲(chǔ)超時(shí)或宕機(jī)后無(wú)法執(zhí)行任務(wù)的問(wèn)題。
高吞吐、高并發(fā),實(shí)現(xiàn)單節(jié)點(diǎn)每秒千萬(wàn)級(jí)數(shù)據(jù)寫入的極致性能
TimeLyre支持實(shí)時(shí)、批量等多種數(shù)據(jù)寫入方式。實(shí)時(shí)寫入具備高吞吐、高并發(fā),每秒千萬(wàn)級(jí)數(shù)據(jù)點(diǎn)插入的性能,可以保證數(shù)據(jù)檢索的實(shí)效性,是企業(yè)搭建實(shí)時(shí)數(shù)倉(cāng)的極佳選擇。此外,TimeLyre支持通過(guò)SQL、文件載入、API以及多種工業(yè)物聯(lián)網(wǎng)通信協(xié)議實(shí)現(xiàn)數(shù)據(jù)入庫(kù),滿足各種復(fù)雜業(yè)務(wù)場(chǎng)景的多樣化需求。
高水平無(wú)損數(shù)據(jù)壓縮,實(shí)現(xiàn)超高數(shù)據(jù)壓縮率,大幅降低硬件成本
TimeLyre采用行業(yè)領(lǐng)先的高水平數(shù)據(jù)壓縮優(yōu)化技術(shù),在常見(jiàn)的時(shí)序數(shù)據(jù)上可實(shí)現(xiàn)5-20倍的壓縮率,提高了資源的利用率,大幅降低用戶硬件成本。TimeLyre提供多場(chǎng)景數(shù)據(jù)靈活、高效的壓縮解決方案,不僅支持snapyy、gzip、lzo、zstd等常用壓縮算法,還支持通過(guò)Delta編碼將數(shù)據(jù)作為連續(xù)樣本之間的差異來(lái)存儲(chǔ),同時(shí)也支持行業(yè)特征編碼,根據(jù)檢測(cè)值數(shù)據(jù)類型、分布范圍,數(shù)據(jù)集中度進(jìn)行特定的編碼,通過(guò)內(nèi)置多種數(shù)據(jù)壓縮方式進(jìn)一步提升時(shí)序數(shù)據(jù)壓縮效果。
數(shù)據(jù)處理性能增強(qiáng),提供時(shí)序數(shù)據(jù)存儲(chǔ)分析極速體驗(yàn)
時(shí)序數(shù)據(jù)存儲(chǔ)方面,TimeLyre內(nèi)置多種索引結(jié)構(gòu),檢索性能達(dá)到毫秒級(jí)的低延遲響應(yīng)。數(shù)據(jù)分析方面,TimeLyre支持通過(guò)標(biāo)準(zhǔn)SQL進(jìn)行數(shù)據(jù)分析,降低用戶使用門檻。并且支持主流的SQL模塊化擴(kuò)展,兼容通用開(kāi)發(fā)框架和工具,支持事務(wù)特性,保證數(shù)據(jù)的準(zhǔn)確性。通過(guò)使用分布式向量化計(jì)算引擎,TimeLyre支持海量時(shí)序數(shù)據(jù)的計(jì)算與分析,覆蓋關(guān)聯(lián)查詢、聚合查詢、嵌套查詢等多種復(fù)雜SQL分析功能,提供復(fù)雜場(chǎng)景構(gòu)筑能力。基于星環(huán)科技多模型統(tǒng)一技術(shù)架構(gòu),TimeLyre時(shí)序數(shù)據(jù)可以與星環(huán)不同模型的數(shù)據(jù)統(tǒng)一存儲(chǔ)管理和聯(lián)合分析,打破數(shù)據(jù)存儲(chǔ)管理屏障,實(shí)現(xiàn)多模型數(shù)據(jù)的統(tǒng)一融合。
國(guó)產(chǎn)軟硬件異構(gòu)平臺(tái)靈活部署,提供全面的安全和運(yùn)維保障
TimeLyre采用星環(huán)科技自主研發(fā)的存算分離架構(gòu),基于容器技術(shù),支持業(yè)內(nèi)主流的操作系統(tǒng)和芯片,滿足各類信創(chuàng)軟硬件環(huán)境需求。并且可支持X86架構(gòu)和各種國(guó)產(chǎn)芯片架構(gòu)的混合架構(gòu),能夠運(yùn)行在異構(gòu)CPU架構(gòu)以及多種操作系統(tǒng)混合部署的集群環(huán)境中,最大化利用硬件資源,讓用戶逐步實(shí)現(xiàn)國(guó)產(chǎn)化平滑替代。
TimeLyre內(nèi)置配套的安全授權(quán)、用戶權(quán)限控制等相關(guān)安全功能,可以有效保障系統(tǒng)數(shù)據(jù)和訪問(wèn)上的安全。
* 在用戶權(quán)限認(rèn)證上,基于SASL提供plain與gssapi兩種認(rèn)證方式,同時(shí)提供用戶組概念,便于通過(guò)平臺(tái)實(shí)現(xiàn)統(tǒng)一管理與操作;
* 在數(shù)據(jù)權(quán)限上,基于角色的訪問(wèn)控制(RBAC) 機(jī)制,使用戶能夠通過(guò)將權(quán)限分配給角色并將角色分配給用戶或組來(lái)授權(quán)用戶,支持庫(kù)級(jí)/表級(jí)以及列級(jí)/行級(jí)訪問(wèn)權(quán)限控制,同時(shí)支持20多種脫敏算法,具備優(yōu)秀的數(shù)據(jù)隱私保護(hù)能力;
* 數(shù)據(jù)加密上,支持基于SSL/TLS兩類協(xié)議進(jìn)行數(shù)據(jù)加密,確保數(shù)據(jù)傳輸過(guò)程的安全。
一站式國(guó)產(chǎn)化替代解決方案,助力企業(yè)打造自主可控?cái)?shù)據(jù)平臺(tái)
為符合國(guó)家信創(chuàng)戰(zhàn)略要求,助力企業(yè)實(shí)現(xiàn)軟件自主可控,TimeLyre提供了InfluxDB一站式國(guó)產(chǎn)化替代解決方案。TimeLyre對(duì)InfluxDB有良好的兼容性,可以實(shí)現(xiàn)在不修改業(yè)務(wù)代碼的情況下,將運(yùn)行在InfluxDB中的業(yè)務(wù)和數(shù)據(jù)平滑地遷移至TimeLyre,并且在遷移過(guò)程中可以保證監(jiān)控系統(tǒng)在線持續(xù)運(yùn)行,充分保障遷移過(guò)程安全穩(wěn)定進(jìn)行。
替換InfluxDB涉及接口兼容度、高可用性、中間件與應(yīng)用層軟件兼容性等多個(gè)問(wèn)題,TimeLyre采用兩段式的替代方案,保障原系統(tǒng)和服務(wù)的低成本、安全、平滑遷移。
* 第一階段:替換InfluxDB的數(shù)據(jù)庫(kù)服務(wù),完成InfluxQL到TimeLyre標(biāo)準(zhǔn)SQL的改造工作,實(shí)現(xiàn)原有業(yè)務(wù)邏輯腳本的平滑替換;
* 第二階段:替換InfluxDB配套的grafana等運(yùn)維監(jiān)控組件,借助星環(huán)科技多模數(shù)據(jù)平臺(tái)監(jiān)控軟件Aquila Insight、大數(shù)據(jù)安全管理軟件Guardian等組件,完成對(duì)既有業(yè)務(wù)系統(tǒng)的完全國(guó)產(chǎn)化替換。
打造實(shí)時(shí)高性能時(shí)序數(shù)據(jù)平臺(tái),賦能能源制造行業(yè)數(shù)據(jù)湖建設(shè)
能源制造業(yè)數(shù)字化轉(zhuǎn)型是數(shù)字經(jīng)濟(jì)的重要環(huán)節(jié)。某能源頭部企業(yè)現(xiàn)有大量的智能化工業(yè)設(shè)備,設(shè)備檢測(cè)具有測(cè)點(diǎn)多、頻率高、數(shù)據(jù)安全要求高等特點(diǎn)。
傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)數(shù)據(jù)入庫(kù)慢、存儲(chǔ)資源消耗大、查詢計(jì)算效率低,而開(kāi)源時(shí)序數(shù)據(jù)庫(kù)可運(yùn)維性、可擴(kuò)展性較差,無(wú)法支撐復(fù)雜分析業(yè)務(wù),同時(shí)也面臨數(shù)據(jù)安全問(wèn)題,均無(wú)法支撐智能工業(yè)設(shè)備實(shí)時(shí)產(chǎn)生的大量時(shí)序數(shù)據(jù)。
該企業(yè)基于星環(huán)科技TimeLyre的實(shí)時(shí)數(shù)據(jù)存儲(chǔ)、分析能力,打造了高性能時(shí)序數(shù)據(jù)平臺(tái)。通過(guò)星環(huán)科技實(shí)時(shí)流計(jì)算引擎Slipstream實(shí)時(shí)的將散布在數(shù)萬(wàn)傳感器中的時(shí)序數(shù)據(jù)抽取到TimeLyre中,以此為基礎(chǔ)進(jìn)一步開(kāi)展行業(yè)算子計(jì)算、實(shí)時(shí)作業(yè)管理等實(shí)時(shí)分析,以及時(shí)序數(shù)據(jù)檢索、時(shí)序數(shù)據(jù)開(kāi)發(fā)等。同時(shí)利用星環(huán)科技分布式分析型數(shù)據(jù)庫(kù)ArgoDB進(jìn)行湖倉(cāng)集一體化建設(shè),實(shí)現(xiàn)了大數(shù)據(jù)靈活分析、離線作業(yè)管理等功能,進(jìn)一步增強(qiáng)了企業(yè)業(yè)務(wù)數(shù)據(jù)離線分析能力。
項(xiàng)目建成后極大提升了時(shí)序數(shù)據(jù)存儲(chǔ)性能,實(shí)現(xiàn)了每秒千萬(wàn)級(jí)流數(shù)據(jù)插入,入庫(kù)性能提升十倍以上;實(shí)現(xiàn)了高性能查詢,時(shí)序數(shù)據(jù)快速查詢能夠毫秒級(jí)返回結(jié)果,查詢性能提升十倍以上;大幅提升數(shù)據(jù)壓縮效率,數(shù)據(jù)平均壓縮率達(dá)到10倍,有效節(jié)約企業(yè)硬件成本;聯(lián)合分布式分析型數(shù)據(jù)庫(kù)ArgoDB滿足了之前未能實(shí)現(xiàn)的實(shí)時(shí)數(shù)倉(cāng)與離線數(shù)倉(cāng)聯(lián)合查詢的業(yè)務(wù)需求。
攜手頭部券商,打造量化投研一體化平臺(tái),提升投研效率
金融行業(yè)數(shù)據(jù)往往具有數(shù)據(jù)架構(gòu)大、數(shù)據(jù)頻率高、實(shí)時(shí)性強(qiáng)等特征。某頭部券商客戶使用Python進(jìn)行數(shù)據(jù)處理分析,受技術(shù)所限只能進(jìn)行單機(jī)程序部署,不僅需要購(gòu)買昂貴的高配置單機(jī)服務(wù)器滿足性能和存儲(chǔ)需求,還需要業(yè)務(wù)人員具有較高的技術(shù)水平完成復(fù)雜查詢分析的編寫,此外該技術(shù)架構(gòu)也無(wú)法完成多年高頻數(shù)據(jù)的分析,導(dǎo)致喪失部分交易機(jī)會(huì),整體收益率顯著下降。
針對(duì)該券商客戶遇到的高頻交易數(shù)據(jù)入庫(kù)存儲(chǔ)困難、因子數(shù)據(jù)分析函數(shù)復(fù)雜、業(yè)務(wù)人員技術(shù)水平要求高、硬件購(gòu)置成本高等痛點(diǎn),星環(huán)科技基于TimeLyre打造了量化投研一體化平臺(tái)TransQuant。
通過(guò)TimeLyre Tools和Workflow實(shí)現(xiàn)多源數(shù)據(jù)接入,包括存儲(chǔ)在Oracle/MySQL中的數(shù)據(jù)、以HDF5和PKL格式存儲(chǔ)的用戶因子數(shù)據(jù)以及第三方數(shù)據(jù)等,將這些數(shù)據(jù)統(tǒng)一存儲(chǔ)在TimeLyre時(shí)序數(shù)據(jù)庫(kù)中,并通過(guò)星環(huán)科技智能量化投研平臺(tái)TransQuant對(duì)這些數(shù)據(jù)進(jìn)行量化回測(cè)和因子研究,實(shí)現(xiàn)海量數(shù)據(jù)的復(fù)雜分析。
該平臺(tái)提供豐富的數(shù)據(jù)接口,通過(guò)Python API與原系統(tǒng)通信,支持多數(shù)據(jù)源多數(shù)據(jù)格式遷移導(dǎo)入,實(shí)現(xiàn)用戶業(yè)務(wù)的平滑遷移擴(kuò)展,支撐多種金融應(yīng)用場(chǎng)景。同時(shí),TimeLyre作為分布式時(shí)序數(shù)據(jù)庫(kù)大大提升了系統(tǒng)運(yùn)算能力,提供億級(jí)數(shù)據(jù)的高速運(yùn)算,相同場(chǎng)景下達(dá)到Pandas單機(jī)性能的百倍以上。此外,特別支持了客戶應(yīng)用過(guò)程中使用的上千列因子數(shù)據(jù)表,并提供了節(jié)點(diǎn)橫向擴(kuò)展能力。最終通過(guò)運(yùn)用圍繞TimeLyre的系列產(chǎn)品實(shí)現(xiàn)了對(duì)金融行業(yè)海量時(shí)序數(shù)據(jù)入庫(kù)、存儲(chǔ)、復(fù)雜分析的全面支持。