日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

這幾年的數據領域出現好多的概念,例如:人工智能、物聯網、邊緣計算、數據治理、數據湖、數據中臺……可謂是“百花齊放”!一時間大家都在提新概念,但卻不是所有人都清楚到底意味著什么。

“人家都數據中臺了,你還在做數據報表”

“人家都數據湖了,你還在搞數據倉庫”“

阿里“拆中臺”了,中臺難道不香了”

……

到底為什么要做數據湖/數據中臺,有什么價值呢?孰優孰劣?究竟我的公司是不是也要做數據中臺/數據湖嗎,這是隨之而來的問題。

事物總是在不斷演化的,唯一不變的就是變化。今天就和大家展開討論數據倉庫、數據湖和數據中臺這幾個概念之間的藕斷絲連。

01數據倉庫

1988年,為解決企業的數據集成問題,IBM的兩位研究員創造性地提出了一個新的術語:數據倉庫(Data Warehouse)。到了1992年,后來被譽為“數據倉庫之父”的比爾·恩門給出了數據倉庫的定義,二十多年后的今天他的定義依然沒有被時代淘汰。我們來看看他是怎么定義的:

數據倉庫是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用于支持管理中的決策制定。

對于數據倉庫的概念我們可以從兩個層次予以理解:

  • 首先,數據倉庫用于支持決策,面向分析型數據處理,它不同于企業現有的操作型數據庫;
  • 其次,數據倉庫是對多個異構的數據源有效集成,集成后按照主題進行了重組,并包含歷史數據,而且存放在數據倉庫中的數據一般不再修改。

簡單的理解,其實就是為了進行OLAP,把分布在各個散落獨立的數據庫孤島整合在了一個數據結構里面,稱之為數據倉庫。

數據倉庫、數據集市、數據湖、數據中臺這些概念,終于整明白了

△數據倉庫邏輯架構

原來各個數據孤島中的數據,可能會在物理位置(比如沃爾瑪在各個州可能都有自己的數據中心)、存儲格式(比如月份是數值類型,但天氣可能是字符類型)、商業平臺(不同數據庫可能用的是Oracle數據庫,有的是微軟SQL Server數據庫)、編寫的語言(JAVA或者Scale等)等等各個方面完全不同,數據倉庫要做的工作就是將他們按照所需要的格式提取出來,再進行必要的轉換(統一數據格式)、清洗(去掉無效或者不需要的數據)等,最后裝載進數據倉庫。

自從數據倉庫出現之后,信息產業就開始從以關系型數據庫為基礎的運營式系統慢慢向決策支持系統發展。這個決策支持系統,其實就是我們現在說的商務智能即BI。可以這么說,數據倉庫為OLAP解決了數據來源問題,數據倉庫和OLAP互相促進發展,進一步驅動了商務智能的成熟。

數據倉庫是一個功能概念,是將企業的各業務系統產生的基礎數據,通過維度建模的方式,將業務數據劃分為多個主題(集市)統一存儲,統一管理。

應用場景:一般都是作為商業智能系統、數據儀表盤等可視化報表服務的數據源。

 

02數據集市

數據倉庫之父比爾·恩門說過一句話叫“IT經理們面對最重要的問題就是到底先建立數據倉庫還是先建立數據集市”,足以說明搞清楚這兩者之間的關系是十分重要而迫切的。通常在考慮建立數據倉庫之前,會涉及到如下一些問題:

  • 采取自上而下還是自下而上的設計方法
  • 企業范圍還是部門范圍
  • 先建立數據倉庫還是數據集市
  • 建立領航系統還是直接實施
  • 數據集市是否相互獨立

數據集市可以理解為是一種"小型數據倉庫",它只包含單個主題,且關注范圍也非全局。數據集市可以分為兩種:

  • 一種是獨立數據集市,這類數據集市有自己的源數據庫和ETL架構;
  • 另一種是非獨立數據集市,這種數據集市沒有自己的源系統,它的數據來自數據倉庫。當用戶或者應用程序不需要/不必要/不允許用到整個數據倉庫的數據時,非獨立數據集市就可以簡單為用戶提供一個數據倉庫的子集。

數據集市是一個結構概念,它是企業級數據倉庫的一個子集,主要面向部門級業務,并且只面向某個特定的主題。

應用場景:數據集市是數倉之上更聚焦的業務主題合集,更偏向于應對業務數據快速高效應用的需求,一般用于商業智能系統中探索式和交互式數據分析應用

 

03數據湖

2010年,Pentaho首席技術官James Dixon創造了“數據湖”一詞。他把數據集市描述成一瓶清洗過的、包裝過的和結構化易于使用的水。而數據湖更像是在自然狀態下的水,數據流從源系統流向這個湖。用戶可以在數據湖里校驗,取樣或完全地使用數據。

這個也是一個不精確的定義。數據湖還有以下特點:

  • 從源系統導入所有的數據,沒有數據流失。
  • 數據存儲時沒有經過轉換或只是簡單的處理。
  • 數據轉換和定義schema 用于滿足分析需求。
數據倉庫、數據集市、數據湖、數據中臺這些概念,終于整明白了

 

數據湖能給企業帶來多種能力,例如,能實現數據的集中式管理,在此之上,企業能挖掘出很多之前所不具備的能力。

另外,數據湖結合先進的數據科學與機器學習技術,能幫助企業構建更多優化后的運營模型,也能為企業提供其他能力,如預測分析、推薦模型等,這些模型能刺激企業能力的后續增長。

數據倉庫、數據集市、數據湖、數據中臺這些概念,終于整明白了

△數據湖示意圖

數據湖是一種數據存儲理念,存儲企業各種各樣的原始數據的大型倉庫,包括結構化、非結構、二進制圖像、音頻、視頻等等。

應用場景:以大數據技術為基礎有多樣化數據結構海量大數據存儲需求,也可作為數據倉庫或者數據集市的數據源。

 

04數據中臺

數據中臺是指通過企業內外部多源異構的數據采集、治理、建模、分析,應用,使數據對內優化管理提高業務,對外可以數據合作價值釋放,成為企業數據資產管理中樞。數據中臺建立后,會形成數據API,為企業和客戶提供高效各種數據服務。

數據倉庫、數據集市、數據湖、數據中臺這些概念,終于整明白了

△數據中臺架構圖

數據中臺整體技術架構上采用云計算架構模式,將數據資源、計算資源、存儲資源充分云化,并通過多租戶技術進行資源打包整合,并進行開放,為用戶提供“一站式”數據服務。

利用大數據技術,對海量數據進行統一采集、計算、存儲,并使用統一的數據規范進行管理,將企業內部所有數據統一處理形成標準化數據,挖掘出對企業最有價值的數據,構建企業數據資產庫,提供一致的、高可用大數據服務。

數據中臺不是一套軟件,也不是一個信息系統,而是一系列數據組件的集合,企業基于自身的信息化建設基礎、數據基礎以及業務特點對數據中臺的能力進行定義,基于能力定義利用數據組件搭建自己的數據中臺。

數據中臺是一個邏輯概念,為業務提供服務的主要方式是數據API,它包括了數據倉庫,大數據、數據治理領域的內容。

應用場景:是將數據服務化提供給業務系統,目的是將數據能力滲透到業務各個環節,不限于決策分析。

 

05各種概念對比

ODS VS 數據倉庫 VS 數據集市

操作型數據庫(ODS)、數據倉庫(DW或EDW)、數據集市(DM)是目前標準數倉結構的三個核心組件。

數據倉庫、數據集市、數據湖、數據中臺這些概念,終于整明白了

 

ODS用作所有原始數據的臨時存儲區域,這些數據即將進入數據倉庫進行數據處理。我們可以將其想象成倉庫裝卸碼頭,貨物在此處交付、檢查和驗證。在ODS中,數據在進入倉庫前可以被清理、檢查(因為冗余目的),也可檢查是否符合業務規則。在ODS中,我們可以對數據進行查詢,但是數據是臨時的,因此它僅提供簡單信息查詢,例如正在進行的客戶訂單狀態。

數據集市通常是數據倉庫的子集;它的數據通常來自數據倉庫,盡管還可以來自其他來源。數據集市的數據專門針對特定的用戶(例如銷售團隊),以便他們能夠快速找到所需的數據。通常,數據保存在那里用于特定用途,例如財務分析。

數據集市也比數據倉庫小得多,它們可以容納數十千兆字節,相比之下,數據倉庫可以存儲數百千兆字節到PB級數據,并可用于數據處理。數據集市可從現有數據倉庫或其他數據源系統構建,你只需設計和構建數據庫表,使用相關數據填充數據庫表并決定誰可以訪問數據集即可。

數據倉庫 VS 數據湖

數據倉庫與數據湖從存儲對象上來講,主要區別在于:

  • 數據倉庫則用于存儲來自多個來源的結構化數據。
  • 數據湖的不同之處在于它可存儲非結構化、半結構化和結構化數據。
數據倉庫、數據集市、數據湖、數據中臺這些概念,終于整明白了

 

數據倉庫 VS 數據湖 VS 數據中臺

大數據時代,數據量越來越多,數據形式日益復雜,而以數據倉庫為代表的、現有的數據存儲和處理技術無法滿足海量、多樣的數據處理需求的背景下產生的。“數據湖”是將復雜的事物具象化,偏技術一些,以一個形象的名字,反應了它在大數據存儲和大數據處理方面的優勢和能力。

數據湖作為一個集中的存儲庫,可以在其中存儲任何形式(結構化和非結構化)、任意規模的數據。在數據湖中,可以不對存儲的數據進行結構化,只有在使用數據的時候,再利用數據湖強大的大數據查詢、處理、分析等組件對數據進行處理和應用。因此,數據湖具備運行不同類型數據分析的能力。

數據中臺從技術的層面承接了數據湖的技術,通過數據技術,對海量、多源、多樣的數據進行采集、處理、存儲、計算,同時統一標準和口徑,把數據統一之后,以標準形式存儲,形成大數據資產層,以滿足前臺數據分析和應用的需求。數據中臺更強調應用,離業務更近,強調服務于前臺的能力,實現邏輯、算法、標簽、模型、數據資產的沉淀和復用,能更快速的相應業務和應用開發的需求,可追溯,更精準。

數據倉庫、數據集市、數據湖、數據中臺這些概念,終于整明白了

 

06總結

根據以上數據倉庫、數據湖和數據中臺的概念論述和對比,我們進行如下總結:

1、數據倉庫是通過ETL技術把原始數據進一步加工處理,提高數據數據質量,統一數據標準,然后把數據再進行分類,就是主題的維度建模過程,將數據統一存儲與管理,為了滿足決策分析型需求。

2、數據湖就好比一個大型倉庫,什么格式的數據都存儲,但只存原始數據。

3、數據中臺是將經過數據治理的數據倉庫或大數據平臺中的數據,通過接口的方式直接服務于應用系統。

那么所有這些企業都必須做嗎?

對企業來說,選擇哪種平臺?答案是沒有最好,只有最合適,盤點下自己企業數據資產情況、數據服務的需求情況、數據治理的能力情況,再根據成熟度能力模型評估,正確定位自己。

無論是建立數據倉庫還是數據中臺都是以業務目標為主,切莫盲目跟風,沒有最好的技術,只有最合適的平臺。當然,不論是建設哪個平臺,億信華辰都可以為您提供專業的產品方案服務。15年來,我們致力于為政企用戶提供從數據采集、存儲、治理、分析到智能應用的智能數據全生命周期管理方案,幫助企業實現數據驅動、數據智能。

分享到:
標簽:數據倉庫
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定