日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

導讀:本文將介紹Apache IoTDB,它是一個基于開放數據格式的數據庫。

今天的介紹會圍繞下面四點展開:

  • Apache IoTDB 簡介
  • 時序文件格式 TsFile
  • 基于開放文件的數據庫架構
  • 開源社區(qū)建設

01

Apache IoTDB 簡介

IoT是物聯網的縮寫,DB是數據庫的縮寫,IoTDB的名字直接說明了它物聯網數據庫的定位。物聯網場景下時序數據主要來自傳感器的采集,如風力發(fā)電機上用于探測風速的傳感器,每秒采集一條數據,隨著時間推移,這些數據就會形成時間序列,時間序列數據就反映了當時風力的變化情況。圖中的綠色部分展示了草帽風的現象。由于形狀類似草帽因此稱之為草帽風,此類風會對風機葉片產生負面影響,進而降低風機壽命。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

物聯網時序數據是工業(yè)設備物理量的數字化記錄,在軌道交通、能源管控、智能制造等領域有廣泛應用。

① 軌道交通

在軌道交通領域,通過將大橋安裝傳感器、對傳感器數據進行采集和分析,可以檢測橋梁的狀態(tài),如撓度、應變、振動、支座位移情況等,從而可以進行有針對性的健康檢測和加固,避免橋梁坍塌,保障人民出行安全。IoTDB已有該領域的用戶案例。

② 能源管控

一些IoTDB的開源用戶對化工廠進行能耗監(jiān)測、報警管理、預測優(yōu)化,實現節(jié)能、減排、增效,響應“碳達峰、碳中和”政策。

  • 能耗監(jiān)測:通過監(jiān)控工廠的實時用水流量,查找供水系統的跑、冒、滴、漏以及水力平衡等問題,如果出現工廠停工后用水量依然不斷增加的情況,及時進行排查。
  • 報警管理:根據測點值進行異常判斷,及時進行聲、光、電話報警,降低能源系統故障所造成的影響。
  • 預測優(yōu)化:建立能源預測模型,優(yōu)化生產排期,達到降低污染的目標。

③ 智能制造

以煙廠對IoTDB的應用為例,煙廠通過對設備狀態(tài)監(jiān)控和統計過程控制,提高生產效率,實現制造業(yè)升級。

  • 設備運行監(jiān)控:收集設備關鍵數據,檢查某時刻設備生產過程關鍵數據(嘴棒數、卷煙紙、水松紙)。
  • 制絲質量評價:根據實時監(jiān)測數據(煙絲整絲率、碎絲率等),對煙絲質量進行判定。
  • 統計過程控制(SPC):根據葉絲含水率、出料溫度等工藝質量數據,區(qū)分產品質量的隨機波動、異常波動與發(fā)展趨勢,根據趨勢判斷是否需要加料、減料,保證生產過程穩(wěn)定。

以上應用都是在各種設備上加裝了大量傳感器,而如何加,是每家工業(yè)企業(yè)需要結合業(yè)務特點進行確定的。在設計數據采集的同時,也需要設計如何對數據進行存儲。通常采集的數據越多、粒度越細越好。一臺高端設備,如飛機有8萬個傳感器;一臺挖掘機上會裝配四五百個傳感器,但挖掘機數量眾多,一家用戶有兩萬臺挖掘機,就有千萬級時間序列數據;兩萬臺風力發(fā)電機,每年能產生120PB數據。時序數據在物聯網領域的體量是龐大的。

飛機、挖掘機、風電機離我們的日常生活遙遠,但對于飛行員、挖掘機駕駛員和電廠監(jiān)控平臺管理人員來說,每臺設備都是有生命的個體,時序數據就是設備的心電圖。時序數據是重要的資產,為了更好地管理時序數據,我們在2011年受到國家863計劃支持下發(fā)起了物聯網時序數據庫——Apache IoTDB項目。

接觸工業(yè)物聯網用戶、為用戶管理時序數據,是清華大學軟件學院在2011年開始的一個方向。隨著我們對產業(yè)和時序數據相關的研究與思考的深入,我們開始自研時序數據庫,在2017年推出了IoTDB第一個版本并在Github公開源碼。2018年我們將項目捐贈給Apache基金會。經過兩年的摸索,IoTDB在2020年9月成為了Apache頂級項目。至此,IoTDB是首個入選Apache的工業(yè)物聯網時序數據庫項目,也是首個中國高校發(fā)起的Apache頂級項目。IoTDB被來自德國、美國、中國的工業(yè)互聯網廠商和智能制造廠商使用和打磨,產品和功能在開源社區(qū)中不斷成熟。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

IoTDB產品易用、好用,部署靈活,能開箱即用一鍵部署,具有高寫入吞吐和低查詢延遲,支持豐富的時間序列操作,與現有大數據生態(tài)系統集成比較完善。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

IoTDB能夠支持復雜負載。傳統數據庫應對簡單負載更加友好,但對復雜負載的處理表現不理想。簡單負載中,設備測點少,采樣頻率低、幾秒一個點甚至幾分鐘一個點,這種情況下表數據量小,一張表就可以滿足設備一周到一個月的存儲。但設備數據量大時需要進行分表,用戶的使用上會造成不便。關系表也更加適用于管理規(guī)整的數據,例如一個設備的多個傳感器采集時間相同,則表中不需要存儲空值;但當每個設備上維護各自的時鐘,獨立地上報數據,此時時間難以對齊,表的數據稀疏,空值多。

復雜負載單體設備可能會產生上千甚至數萬的點,如飛機采樣頻率比較高,轉動傳感器每秒鐘采集幾十甚至幾百個數據點,或者人工去分表都難以滿足需求。但IoTDB會針對這些復雜負載進行優(yōu)化。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

IoTDB允許設備定義數據模式。使用傳統關系型數據庫時,用戶首先要定義表結構,然后才能寫入數據。IoTDB允許用戶不預先定義表結構,直接寫入數據,這個特性降低了用戶使用負擔,也更加適應物聯網設備快速迭代升級的場景。假如一個設備裝了3、4個傳感器,隨后又新增了其他感應器收集測點,這時使用傳統數據庫需要Alter Table修改表結構,但使用IoTDB即可不用修改表結構直接向數據庫內寫入數據,寫入過程中自動完成數據模式的創(chuàng)建。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

IoTDB支持端云同步。端云同步是物聯網領域中常見的場景。終端設備采集數據,一條條地發(fā)送數據到云端數據庫。該過程中需要在端側對數據編碼為二進制流,在云數據庫側解碼數據后寫入數據庫。終端數據大量增長時,存在云端壓力不斷增加,網絡帶寬消耗大的現象。

對此我們提出了基于文件的數據同步方法,在終端把數據寫為壓縮的文件,再把文件同步到云端。由于網絡傳輸的是壓縮好的文件而不是原始數據,網絡流量消耗降低。云端也不需要在解析數據后一條條地寫入數據,只需要加載上傳的文件即可,降低了云端CPU消耗。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

IoTDB專注于數據的存儲管理,為了支持更多對數據的全生命周期處理,我們與眾多開源項目進行了集成。IoTDB支持PLC4X等工業(yè)采集協議,也適配了Kafka、Flink、Spark,還對數據交互軟件和可視化工具做了支持如Grafana, zeppelin等。用戶可以自由地利用開源軟件滿足自己的數據采集、處理、分析的需求。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

IoTDB產品形態(tài)分為三部分:

① 部署在嵌入式終端設備的時序“數據文件”

在端上,數據存儲為時序數據zip文件,支持高性能寫入,高壓縮比存儲,支持簡單查詢。

② 部署在邊緣計算設備的時序“數據庫”

邊緣計算設備上,可以支持高效豐富的時間序列查詢引擎,提供增刪改查,以及聚合查詢時序對齊等高級功能。

③ 部署在云端數據中心的時序“數據倉庫”

IoTDB可以與大數據分析框架無縫集成,支持時序數據處理、挖掘分析、機器學習。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

IoTDB與傳統數據庫不同,IoTDB把文件作為重要的概念,是系統的底層基石。

--

02

時序文件格式 TsFile

1. 文件vs數據庫

文件不是一個長活服務,不會丟失;而數據庫作為長活服務,需要保持在線,為此需要為數據庫設計高可用、保活等策略,需要檢查數據庫運行狀態(tài)是否正常。文件的運維負擔會比數據庫的運維負擔輕。寫入模式方面文件是追加寫入的方式,數據庫提供了增刪改查功能。寫入文件的數據需要在文件關閉后進行查詢,而數據庫數據寫入后即可進行查詢。文件的查詢流程和管理需要自己實現,而數據庫使用SQL即可完成數據的查詢。

對數據時效性和查詢負載不復雜的場景中,數據存儲到文件的模式更加輕便、簡單。數據庫更適用于數據應用逐漸豐富、對查詢要求高的場景。

2. 常見文件結構

Spark、Hive、Presto廣泛使用了CSV、ORC、Parquet這些文件結構。ORC和Parquet是支持嵌套的列式存儲文件結構。當使用這些文件結構存儲數據時也需要進行建模,包括定義每列的數據類型和名稱等。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

3. 建模方式

數據有多種建模方式。

一種建模方式是把所有設備數據都存到一個文件里面,此時文件中表結構第一列是時間戳,第二列是設備名,后面是這個設備的所有的測點數據。可以看到這種建模方式下,一個文件可以管理多個設備的數據,但設備名字是被重復存儲的。當查詢一個設備的一個測點的時間序列時,下圖中建模方式1的藍色部分需要全部讀出來進行過濾后才能得到結果。

第二種建模方式也是可以在一個文件里管理多個設備的,整個文件只有四列,其中設備名和測點名是重復存儲的,查詢時就需要讀取更多的數據,基本上需要把所有數據都查找一遍才能拿到需要的數據。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

第三種建模方式是每一個設備一個文件。這種模式沒有重復存儲的數據,但在一個應用里設備數量較多、達到上千萬量級,而上千萬個文件同時寫入是不能實現的方式,此外大量文件對文件系統也是負擔。

第四種建模方式是一個時間序列存儲為一個文件。這種方式相比第三種在實際應用中更不可行。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

幾種建模方式從文件數的角度,建模方式一和二的文件數可控,一個文件就可以存儲所有數據,在文件大小超過閾值后再寫入新的文件。建模三的文件數就是設備數,建模四文件數是序列數。在一個應用中希望文件數比較可控,我們更傾向使用建模一和二,整個系統的穩(wěn)定性是最重要的。在存儲方面,建模三和四沒有冗余的數據,在一些設備數比較少時會使用建模三。建模二的冗余數據又比建模一的更多。

為什么會出現空值?一個設備假如有一萬個傳感器,這一萬個傳感器的采集時間都是一樣的,此時可以存成一行,且這一行沒有任何的空值。但是一旦多個傳感器的采集時間不同,就無法按時間對齊,存儲時會出現空值的情況,空值也會影響文件的壓縮比。建模一和三都會存儲空值。

由于建模方式三、四都可以規(guī)避冗余數據,因此定位速度應該是最快的。建模方式一能夠避免掉一些測點的讀取,建模二需要讀出所有數據,所以建模二的定位速度最慢。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

可見,在壓縮比、查詢性能和海量序列管理幾個維度上,前面的幾個建模方式都不是完美的。是否有一種文件結構在管理時序數據時,文件數可控、無冗余數據、查詢性能和寫入性能比較高呢?它就是TsFile。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

4. 針對時序數據的文件結構——TsFile

TsFile全稱是Time Series File。它的數據模型是為了物聯網領域設計的,包括設備、物理量(測點)、時間和值,用TsFile管理數據時只有這四個概念。存儲優(yōu)化方面,TsFile采用列式存儲,編碼和壓縮可選多種方式,時間列可選是否由多列共享,TsFile提供了列式寫入接口。查詢優(yōu)化方面,TsFile存儲了預聚合信息、樹形索引、向量化查詢等。

① TsFile數據模型

TsFile有設備、物理量(測點)、時間和值這四個狀態(tài),圖中是兩個TsFile的典型模型。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

圖中左側是一個車輛有兩個傳感器,這兩個傳感器采集的時間是不對齊的,這時我們叫它非對齊的序列。那這種建模方式會把每一個時間序列里都存一列時間,這種方式是最節(jié)省空間的,沒有存儲任何空值。這種方式適合一個設備的不同傳感器是獨立采集的場景。

圖中右側這種設備GPS,有經度和緯度兩個物理量,那這種數據一般都是同時采集的,會共享一列時間戳。這種方式兩個列只存一列時間,我們稱之為對齊序列。可以看到對齊還是不對齊應該是一個設備的屬性,所以在設備層面有一個屬性來做控制,在寫入時也可以設置這個設備的屬性。這個數據模型的特點是在0.13版本去引入的,3月會發(fā)布0.13版本。

在場景和模型的選擇方面,非對齊序列更適合多物理量獨立采集場景,對齊序列更適多物理量同時采集的場景。可以根據不同場景選擇不同存儲引擎。

② 數據存儲結構

TsFile數據存儲結構如圖。ChunkGroups存儲一個設備一段時間寫入的數據。Chunk是一個物理量一段時間的數據,分為三種Chunk:(1)TSChunk,時間+值;(2)TimeChunk,時間;(3)ValueChunk,值。在Chunk基礎上我們又把數據劃分成Page,Page是一個物理量一段時間的數據,有三種Page:(1)TSPage,時間+值;(2)TimePage,時間;(3)ValuePage,值。通過這種方式,TsFile采用分級的數據存儲結構進行管理。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

③ Page 編碼壓縮算法

Page是數據最小粒度,可以對Page進行編碼和壓縮。圖中展示了幾種編碼和壓縮算法,紅色的是數據類型的默認壓縮編碼與使用的算法。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

④ TsFile索引結構

TsFile有豐富的索引結構。

TsFile序列內索引是三級統計信息(Page、Chunk、文件級),作用是過濾數據塊(減少 IO 和物化)和支持聚合查詢(直接返回結果)。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

序列間索引是樹形元數據索引,作用是管理海量序列更高效。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

Parquet、ORC需要一次加載全量元數據,查詢復雜度是O(N);TsFile只加載查詢路徑的元數據,時間復雜度O(log(N))。TsFile復雜度會比Parquet、ORC低很多。

⑤ 向量化寫入接口、查詢引擎

在向量化的寫入接口和查詢引擎方面,我們引用了一個Tablet的概念。Tablet結構就是管理了一個小的子表。下圖中右側是它的具體的數據定義方式,可以看到它是一個列式的存儲,采用了一些原生數據類型的數組,沒有封裝更多對象。這個結構也保持了IoTDB的高效的讀寫性能。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

⑥ 讀寫性能

下圖中是在公開的數據集合上TsFile的寫入速度、磁盤占用、單列查詢耗時三個指標與Parquet、ORC、CSV格式在四個公開數據集上的對比。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

--

03

基于開放文件的數據庫架構

我們基于TsFile做IoTDB引擎,做數據庫的目的是因為文件無法提供實時查詢,而IOT有實時查詢數據的監(jiān)控的需求;文件難以處理亂序數據、數據更新困難,工業(yè)場景中常見亂序數據,也經常有更新數據需求;多文件管理、分析需要應用層處理。

開放的數據架構指的是IoTDB是由“時序文件 + 數據庫引擎 + 分析引擎”三部分組裝起來的松耦合、模塊化的架構,類似于“存算分離”架構模式。這與傳統數據庫的黑盒子模式不同,這一架構對用戶透明可見。

IoTDB具體架構如圖所示。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

最左面是數據的來源,有設備數據、系統狀態(tài)等。

數據可以通過圖中藍色部分的時序文件導入。我們提供了文件級的API,API和Parquet、ORC類似,可以對單個TsFile進行讀寫操作。我們把數據通過API寫成TsFile文件格式后,可以通過TsFile的一些加載模塊把文件加載到數據庫中。此時數據文件層的TsFile是被數據庫的引擎所索引的,它其實在磁盤上只是換了一個目錄,我們還是能夠看到這些文件。這里的文件可以加載進去再卸載出來,文件管理非常靈活。

文件層之上是數據庫的引擎層。數據庫的引擎能夠管理多個數據文件,它還負責提供給用戶更多訪問數據庫的接口,包括原生的讀寫接口session以及命令行,交互工具,還有可視化的平臺。

分析引擎方面,我們開發(fā)了各種對接開源數據處理平臺的連接器,IoTDB 和底層的數據文件,都可以和分析引擎進行對接。

IoTDB是一個比較開放的架構,架構的設計也是我們在不斷地使用開源系統的過程中總結出來的。針對文件靈活的設計簡化了數據庫的運維,讓我們可以隨時從一個數據庫里把數據文件拿來做分析。文件也可以從這個設備側寫完后再加載到數據庫里去。

端側應用的監(jiān)控通常不需要非常及時,文件足夠滿足需求;端側文件上傳到邊側進行分析,也可以放到數據庫中進行查詢;云側文件可以將文件對接Spark、Flink做數據分析,可以作為時序數據倉庫使用。邊側和云測可以部署IoTDB數據庫。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

基于TsFile兩層設備和物理量模型,我們在數據庫層面擴展了豐富的樹形結構的物聯網數據模型。樹形結構對應了層級管理設備資產的方式,即設備歸屬的區(qū)域、設備的類型、設備號。從Root到倒數第二層節(jié)點的全路徑來定位設備ID。這種建模方式可以把一個應用的所有時間序列都統一到一棵樹中進行管理。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

樹形結構的數據模型與TsFile通過存儲組進行連接。存儲組可以讓用戶指定哪些序列可以存儲到一個文件里,一個存儲組一段時間的數據會形成一個TsFile。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

接下來我們看一些實際數據模型轉化在IoTDB中建模的案例。圖中是OPC Server采樣的點位,這些點位是一個個Name,按點分割。這個結構和樹形結構有天然的映射關系,我們可以在數據前面加一個root,按點進行樹形模型拆解后構造成一棵樹,映射非常自然。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

InfluxDB數據模型有Tag和Field,我們把Tag value當作樹里的節(jié)點,Field name作為物理量。我們不重復存儲Tag name,可以快速定位數據。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

--

04

開源社區(qū)建設

1. 核心理念

開源社區(qū)建設方面,我們運營了兩年開源社區(qū),愈發(fā)感受到開源社區(qū)核心理念的重要性。

平常在公司和團隊內工作與開源社區(qū)不同,開源社區(qū)需要更多地把溝通開放出來。IoTDB是一個基于文件的開放架構,思想也要對應地開放。清華軟件學院團隊的工作流程都需要文檔化,向社區(qū)開放,同步項目進度。

作為開源貢獻者,我們每個人都希望我們提的一件被尊重,對于開源社區(qū)來說這也是一個對待貢獻者的基本態(tài)度。

有些貢獻者除了提一些建議外還能給貢獻代碼,小的修改提一個pr社區(qū)就可以審閱合并,但更大的功能模塊開發(fā)就需要分布式協作了。

我們建設開源社區(qū)的思路是通過開放架構、開放思想,尊重每個人的建議和分布式協作,達到為用戶提供好用的開源軟件的核心目標。

2. 建立了活躍的開源社區(qū)

IoTDB社區(qū)目前有160多位開發(fā)者,上千人的用戶群。IoTDB經常舉辦培訓會和開發(fā)者、用戶見面會。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

3. 社區(qū)影響力日益凸顯

社區(qū)在軟件開發(fā)過程中的影響力逐漸增加,工業(yè)PLC數據采集系統已經與IoTDB進行了對接和集成,巴西的一些開發(fā)者貢獻了IoTDB作為Prometheus的底層存儲。國內龍頭企業(yè)也設置了IoTDB相關的工作崗位。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

4. 應用案例

在應用方面:上海地鐵運行了兩年半,管理了100萬時間序列數據。湖南湘潭和耒陽電廠數據管理系統應用IoTDB運行了20個月,管理1萬條序列。東莞東城環(huán)衛(wèi)管理系統中管理的各種環(huán)衛(wèi)車的數據,運行兩年多時間中管理著數千條序列。

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

 

今天的分享就到這里,謝謝大家。


分享嘉賓:喬嘉林博士 清華大學

編輯整理:張德通 Treelab

出品平臺:DataFunTalk


分享嘉賓:

清華喬嘉林:Apache IoTDB——基于開放數據文件格式的時序數據庫

分享到:
標簽:時序 數據庫
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰(zhàn)2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定