為什么要做數據治理
進入到大數據時代,數據領域里的工程師、分析師和科學家們可以很輕易的使用開源世界的各種技術(比如離線處理有MapReduce、Spark,實時處理有Flink、Spark Streaming,數據存儲有HDFS、Hbase等等)處理數據、應用數據,但是如何將繁雜的數據結構、龐大的數據集、不斷變化的元數據信息變成資產,變成可積累的知識,卻是一個很難回答的問題。對于業務驅動的公司,做數據治理并不能直接產生業務價值和效益;技術驅動的公司,數據治理也沒有很高的技術含量,但是一個沒有經過治理的數據,只會隨著業務規模的增大,越來越混亂,直到沒有人想去碰。因此如何讓這繁雜的數據變成數據資產,讓數據團隊不做重復地工作,擁有更高的效率成了每一個數據團隊需要解決的問題。
在大數據領域,數據治理可以說是高頻次的出現,那么為什么需要數據治理?應該怎么來實施數據治理。
一、數據治理的背景
說起數據治理,往往會跟數據倉庫進行對標,數據治理跟數據倉庫是什么關系呢?一般而言數據倉庫主要解決多源數據匯聚、存儲和數據分析的問題,在數據倉庫的體系中極少提到數據資產化的概念,那么數據治理在傳統的數據倉庫的基礎上,更多的體現數據資產化的概念,所以數據治理的核心能力并不是有限的數據分析,而是數據價值的充分挖掘和體現。
那么數據治理為什么不叫數據管理呢?數據管理更多的是如何來管理數據,而數據治理更充分的體現數據的價值,通過一系列的治理活動來提升數據的價值,發揮數據應有的作用,使數據驅動應用。
另外,數據治理與當前比較火熱的數據中臺又是什么關系呢?我認為數據治理是數據中臺的技術實現,通過數據治理的技術體系來建立數據中臺。
綜上所述,數據治理就是在數據爆發式增長的形勢下,數據價值發揮越來越顯得緊迫和重要,甚至可以說未來市場的競爭就是數據價值的競爭。所以只有建立完整的數據治理體系,才能保障數據內容的質量,才能真正有效的挖掘數據價值,提升競爭力。
二、數據治理的設計方法
這里就不長篇大論的描述數據治理的設計方案了,主要以關鍵點的方式來進行簡要闡述。
首先我們要考慮數據治理的目標,其一對數據通過統一的視圖進行管理;其二對多源數據進行標準化處理;其三數據資產化最重要的活動,數據價值挖掘的基礎。
- 標準先行,一般來說需要事先制定“數據分類及編碼標準”、“數據目錄標準”、“數據項標準”、“數據安全標準”、“數據交換共享標準”;
- 依據標準建立數據目錄管理功能,通過數據目錄管理來落實數據分類編碼、數據目錄和數據項標準;
- 建立數據清洗規則,使數據目錄與源數據表建立映射,數據項與源表數據項建立映射,通過ETL實現對源數據的清洗;
- 建立數據質量管理功能,按照數據目錄定期檢查數據的質量問題,并通過數據問題庫來記錄和跟蹤數據的質量問題,從而達到持續改進數據治理的效果;
- 建立數據安全管理功能,數據安全主要通過三方面來實現,其一是數據加密、脫敏等技術,其二是數據權限,包括表級、行級和列級權限定義,其三對數據交換共享進行日志記錄,并定時自動審計數據安全問題。
- 建立數據服務功能,一般都會提供通過文件、接口的方式來提供數據服務功能,按照數據安全標準對數據服務方式進行處理。
- 再強調一下ETL,支持通過表對接、文件、接口等方式歸集數據,通過數據清洗規則對數據進行清洗轉換的處理,從而加載到數據庫中,我們用Hive來作為加載數據的數據倉庫。
- 最后數據治理還有一些高級一點的功能,包括數據血緣、數據關聯等分析的能力。
伴隨以互聯網、大數據、物聯網、5G、AI、數據中臺、新基建等為代表的新一代信息技術發展,企業數字化轉型的需求加劇,但企業轉型過程中,各種數據信息會成為轉型的首要內容,而數據治理則是轉型工作的重中之重。通常來講數據治理作為一項系統性工程,在企業數字化轉型過程中暴露的問題也較多,如:
數據異構系統多,信息系統孤島現象普遍存在;
數據整合難,數據標準不統一、質量差、資源共享與協同支撐作用薄弱、價值發掘難度大等;
方法及技術局限,傳統的數據治理技術方法存在較大的局限性,咨詢-標準-系統建設的模式往往在咨詢后就難以為繼,不是找不到落地抓手,就是因工作量巨大而半途而廢。
…….
面臨當下這些問題,企業如何突破現有瓶頸讓數據治理項目可以順利進行,成功實現企業數字化轉型?億信華辰數據治理專題直播給你安排上了,有效助力企業數字化轉型。