本文采訪自:長安汽車
1. 長安汽車業務場景
重慶長安汽車股份有限公司是中國汽車四大集團陣營企業,是一家開發、制造、銷售全系列乘用車和商用車的汽車公司,其主要產品有全系列乘用車、小型商用車、輕型卡車、微型面包車和大中型客車,全系列發動機等。長安汽車始終以“引領汽車文明,造福人類生活”為使命,以客戶為中心,以產品為主線,持續提供高品質的產品和服務,奮力推進第三次創業——創新創業計劃,向智能低碳出行科技公司轉型,為實現世界一流汽車企業努力奮斗。
目前,數字化技術對于汽車進行了深度的重構,汽車從一個配備電子功能的機械產品逐漸演變為一個配備機械功能的電子產品,云數據及 AI 技術的融合逐漸將汽車變為一個大型的智能移動終端、數據采集載體、能源儲能單元和一個移動的多功能空間。總的來說現在的智能汽車已經逐漸轉變為一個具備多功能空間的輪式移動機器人。在這樣的背景下,國家政策大力鼓勵發展智能化汽車和自動駕駛的產學研帶動,國內頭部和新勢力主機廠也逐漸將智能網聯車或自動駕駛方向作為核心業務開展。
長安汽車著力發展智能化汽車方向,應用全景包括智能車控(遠程控制分析)、智能座艙(車機埋點、車機用戶行為分析)、IoT 數據接入(準入檢測、車機激活監控)和 IoT 的車況管理(車況監控、動力研究、車聯網大屏),實現業務展現包括慧眼系統、車輛遠程診斷和遠程預警系統、遠程調試系統等。
為實現智能化汽車建設,長安汽車構建了長安智能汽車數據平臺,此大數據處理平臺一共分為五層:數據接入層、數據存儲層、資源調度層、計算引擎層、業務展現層。目前 IoTDB 主要用于數據存儲層,以應對車聯網海量時序數據的管理。
實現智能化汽車方向的工業場景涉及到車輛設備和傳感器層大量的時序數據采集,這就對于時序數據解決方案的完善性和效率提出了巨大挑戰。長安汽車目前的時序數據解決方案存在明顯局限性,因此希望尋求對于智能化汽車領域的時序數據更優的寫入、存儲、查詢、分析方案。
基于 IoTDB 時序數據庫的特點和優勢,長安汽車選擇使用 IoTDB 作為海量智能網聯車輛的車況時序數據處理方案,實現了大體量數據寫入與存儲靈活擴容,并有效提高查詢性能,降低設備與運維成本。
2. 業務需求痛點
2.1億級數據測點,每秒超千萬條新增數據點
長安汽車作為中國四大汽車集團之一,業務體量龐大,需處理車輛多、數據量大。目前長安汽車的網聯車海量車況時序數據管理系統共采集網約車約 57 萬輛,總計數據測點達到 1.5 億,數據點每秒新增超千萬。因此,長安汽車對于此數據量下時序數據庫的實時寫入、壓縮與存儲能力均要求較高。
2.2 高速信號采集頻率高
長安汽車的車輛采集信號分為高速信號和常規信號兩種。高速信號需達成毫秒級采集,常規信號 3-4 秒級采集。長安汽車的時序數據解決方案需能夠同時支持此兩類不同的采集頻次,并保證高速信號的實時低延遲采集的持續運行。
2.3 低延遲數據查詢
長安汽車的車輛數據查詢場景主要包括單車多時間序列的高效查詢和單車全時間序列的最新點的查詢,也就是車聯網場景中很經典的實時車況和離線車況/歷史車況的查詢場景。長安汽車的時序數據解決方案需在低延遲的情況下有效支持即時的實時查詢,與大體量已存儲的歷史數據查詢。
基于之前長安汽車的時序數據解決方案,一份車況數據進入 HBase 后如果要做分析,需要從 HBase 里把增量的數據完全卸載出來,而這個批量的范圍讀取過程耗時很長。例如 HBase 如果要做昨天數據的離線處理,今天凌晨就需要把操作性數據卸載出來放入 Hadoop 做分析。另外,隨著業務量增大,使用 HBase 進行批量讀取的耗時也越來越長,不適應快速擴張的數據量場景。
2.4 成本、維護難度高
長安汽車最開始對時序數據管理的解決方案采用 HBase,但面對每秒千萬的數據測點,HBase 的集群數據寫入用了 25 個數據節點承擔,如此多的數據節點直接導致系統的維護難度和成本較高。
3. 選型IoTDB原因
3.1 數據結構保證高擴展性、低成本、高穩定性
針對長安汽車龐大的已有數據體量及新增數據體量處理需求,IoTDB 專屬的物聯網原生時序模型以設備、測點/傳感器為層級存儲時間序列數據,隨著數據量的不斷增加,只需直接擴展查詢節點的硬件設備,無需中斷系統的正常運行,可達成秒級擴容,有效降低管理與運維成本。
3.2 實現千萬寫入速度
針對長安汽車對于時序數據頻密寫入的需求,IoTDB 能夠實現每秒千萬數據點寫入、處理多設備億級點位的能力,且寫入速率不隨數據量增長而下降,維持穩定高速水平。
3.3 支持高效明細、最新值查詢
長安汽車在車輛故障報警場景下,會使用 IoTDB 進行海量網聯車車況數據的明細查詢。IoTDB 采用從根節點以下,以數據點自帶的時間戳,與多層級存儲的路徑結合的存儲架構,使得不同維度的時序數據可以被有效分類存儲,繼而在查詢時可較快唯一確定 IoTDB 中的時序數據,從而在使用明細查詢的情況下,依然保持查詢高效率。
3.4 提升批量讀取速率,達成實時分析
針對長安汽車在數據分析前對于數據的快速批量讀取需求,IoTDB 因存在時間索引,可直接同步 IoTDB 底層數據文件,并運用 IoTDB 與其他大數據系統的無縫集成,用 Spark 引擎直接對存儲文件 TsFile 進行實時分析,相比原先的方案減少分析數據所需的導出份數,提高分析計算效率。
3.5 及時運維,積極驗證
長安汽車項目方認為,當業務場景給時序數據解決方案帶來新的挑戰時,處理問題的效率和思路是很重要的,一個優秀的時序數據解決方案背后的團隊需要能夠快速解決問題,使數據庫涵蓋業務場景所需的性能提升與豐富功能。長安汽車在生產環境上遇到的問題,IoTDB 的研發團隊總會很快協調到相關的研發資源進行幫助。作為匯集了一批數據庫核心技術專家和工業資深專家、擁有十幾年研究和服務工業用戶的經驗的團隊,團隊成員也特別愿意用 IoTDB 在工業互聯網場景去做生態環境的驗證,使得項目的成功與產品的成熟可以實現互利共贏。長安汽車項目方表示了對 IoTDB 開發團隊的感謝。
可以看到,IoTDB 的技術優勢能夠有效的解決長安汽車目前管理時序數據的業務痛點,因此長安汽車選擇 IoTDB 構建長安智能汽車數據平臺的數據存儲層。下面就長安汽車基于 IoTDB 構建的大規模時序數據管理的解決方案架構、時序模型結構設置與查詢性能效果展開介紹與分析。
4. 解決方案架構
車聯網是一個典型的物聯網場景。物聯網場景的數據主體是時序數據,整個時序數據的生命周期分為采集、緩存、處理、存儲、查詢分析和可視化應用六大階段。
在長安汽車車聯網場景中,使用 Tbox 和 THU 等設備和傳感器做車聯網數據(例如發動機的電噴數據、轉速、車輛的車速等)的采集。數據上云之后,基于長安汽車私有的 TCP 協議和基于 Netty 編寫的網關進行報文的攝取。通過 CLB 進入 K8s 的 TU-GW 應用后,對報文進行解析。報文解析后發送到消息隊列,并把不同業務所需要的時序消息分發到不同的存儲端上。寫入至存儲引擎后,長安汽車 TSP 業務系統和 APP 將針對車輛的最新數據和歷史車況,對時序數據進行查詢操作。
目前長安汽車的大規模時序數據管理的架構,分為 1.0 和 2.0 版本。1.0 版本針對車況場景主要使用的時序存儲引擎為 HBase,實現歷史車況數據寫入。因歷史數據體量龐大,需 25 個 HBase 數據節點寫入集群數據。同時,1.0 版本的 HBase 集群配置 10 個 Region Server。由于 HBase 的存儲架構無法獨立支持最新車況查詢,最新車況查詢需基于 Redis 實現。
2.0 版本的架構采用通過 Kafka 將數據寫入 IoTDB 的架構。測試場景采用單機高 IO 的機型,即大內存(約 384 G)+全 SSD(約 50 T)的集群配置。經過 IoTDB 良好的數據 schema 設計后,一臺 IoTDB 的機器即代替了 25 個 HBase 節點的寫入功能,并成功維持超過一年的高穩定度。目前測試數據體量約 150 萬條數據/秒,一條時序數據平均涉及 16-17 個測點,穩定支持整體寫入數據體量約千萬級。
同時,IoTDB 的強大數據查詢能力,使基于 IoTDB 的 2.0 版本實現了一套引擎支持單車時間范圍查詢(實時查詢)和單車全時間序列最新點的查詢(最新車況查詢)場景,并能穩定達成兩種查詢類型結果的毫秒級返回。
寫入與查詢能力的提升,讓基于 IoTDB 的時序數據管理架構大幅降低了原有 HBase+Redis 方案的復雜度,并使 IoTDB 可接入設備和數據的體量得以不斷增加。目前,長安汽車使用 IoTDB 單機接入設備約57萬,托管時間序列約1.5億。
5. 時序模型和查詢應用
目前,在 IoTDB 的根節點、業務名稱、設備層、傳感器層的四級節點時序模型設計上,長安汽車的設備層采用 TBOX 的 TUID,即設備 ID 作為第三級節點;在傳感器/測點層,除涵蓋信號名,使用下劃線連接 CANID 作為第四級節點。此存儲結構的設計原因是可以方便的使用 IoTDB 支持的 select last * from root.CANID 命令查詢,以便查詢單車在某 CANID 下所有的數據值,進而讓 IoTDB 同時實現長安汽車的主要查詢場景:實時車況和歷史車況的組合查詢。
在這樣的數據結構支持下,長安汽車使用如下語句運行常用查詢場景:
1.單設備的時間范圍查詢
SQL語句如下:
select CANID_SIGNAL from root.can_condition.tuid where time > t1 and time < t2
2.單設備最新值查詢
SQL語句如下:
select last * from root.can_condition.tuid
通過以上的查詢類型匯總和結果可以看出,IoTDB 實現了長安汽車最常用的兩類查詢場景,并全部實現毫秒級返回數據。
6. 未來展望
自2020年,長安汽車與 IoTDB 已穩定合作 2 年,并已構建了穩定高效的智能網聯車輛遠程監控系統。因智能網聯汽車業務已處于爆發初期,可預見車聯網場景的采集車輛數及車輛的采集密度在未來會大幅擴張,時序數據量也會呈指數級增長,大源數據依然是車聯網系統將面對的主要難題。
`未來,長安汽車與 IoTDB 將通力合作,進一步擴大車輛數據接入體量的同時,豐富 IoTDB 在車聯網場景的相關應用和功能,實現對更多車聯網業務時序數據的有效管理。