數據開發技術方向主要有數據倉庫、在線分析處理(OLAP)以及數據挖掘三部分組成。
一、數據倉庫:架構
1.數據倉庫 Data Warehouse,DW
數據倉庫是構建面向分析的集成化數據環境,為企業提供決策支持(Decision Support)。它出于分析性報告和決策支持目的而創建。
2.數據集市
①數據集市 Data Mart,DM
②操作集市 Oper Mart
3.ODS 操作數據存儲Operational Data Storage,ODS
4.ETL Extract-Transform-Load
一、數據倉庫:抽象
1.主題
①主題Subject
②主題域Subject Area
2.主體
3.模型
①模型Model
②數據模型Data Model
③業務數據模型Business Data Model
④邏輯數據模型Logical Data Model,LDM
⑤物理數據模型Physical Data Model,PDM
⑥實體Entity
⑦關系RelatIOShip
⑧屬性Attribute
⑨實體關系Entity Relationship,ER
⑩事實Fact
?維度Dimension
?維的層次Hierarchy of Dimension
?維的級別Level of Dimension
?維的成員Level of Dimension
?業務過程Business Process
?度量Measure
?指標Metric
?指示器Indicator
?粒度Grain
?度量值Measures
一、數據倉庫:建模
1.模型查詢
①即席查詢Ad Hoc Queries
②冰山查詢 Iceberg Query
③交叉探察 Drill Across
④實體建模Entity Modeling
⑤范式建模Third Normal Form,3NF
⑥維度建模Dimensional Modeling、總線架構Bus Architecture、一致性維度Comformed Dimension、一致性事實Comformed Fact
2.事實表
①事實表Fact Table
以粒度的不同來化分,事實表可以分為三類,分別是事務粒度事實表,周期快照粒度事實表和累積快照粒度事實表。
①事務粒度事實表Transaction Grain Fact Table
②周期快照粒度事實表Periodic Snapshot Grain Fact Table
③累積快照粒度事實表AccumulatingSnapshot Grain Fact Table
以用途的不同來化分,事實表可以分為三類,分別是原子事實表,聚集事實表和合并事實表。
①原子事實表Atom Fact Table
②聚集事實表Aggregated Fact Table
③合并事實表Consolidated/Merged Fact Table
其他類型事實表
①非事實型事實表Factless Fact Table
②蜈蚣事實表Centipede Fact Table
③旋轉事實表Pivoted Fact Table
④切片事實表Sliced FactTable
⑤稀疏事實表Sparse Facts
3.維度表
①維度表Dimension Table
②代理關鍵字 Surrogate Key
③緩慢變化維度SlowlyChanging Dimension SCD
④退化維度Degenerate Dimension
⑤微型維度-Minidimension
⑥多值維度Multivalue Dimension
⑦角色模仿維度RolePlayingDimensions
⑧雜項維度Junk Dimension
4.寬表
寬表Wide table
在維度建模的基礎上又分為三種模型:星型模型、雪花模型、星座模型。
星型模式:星型模式StarSchema
雪花模式:雪花模式SnowflakeSchema
星座模式:事實星座模式FactConstellation或星系模式galaxy schema
5.數據分析 BI
商業智能BusinessIntelligenceBI
OLTP
聯機事務處理Online Transaction Processing,OLTP
OLAP
①大規模并行計算框架Massively Parallel Processing,MPP
②聯機分析處理OLAPOnlineAnalytical Processing,OLAP
③MOLAP
④ROLAP
⑤HOLAP
6.多維分析
①多維分析MultidimensionalAnalvsis
②立方體Cube
③鉆取 Drill Down
④上卷Roll Up
⑤切片Slice
⑥切塊(Dice
⑦旋轉Pivot
二、數據挖掘:機器學習
①機器學習machineLearning
②標簽Lable
③特征Feature
④樣本Example
⑤模型Model
⑥策略Strategy
⑦算法Algorithm
⑧監督學習Supervised Learning
⑨回歸Regression
⑩分類Classification
?無監督學習Unsupervised Learning
三、深度學習
深度學習DeepLearning