最近梳理了一下數據挖掘與分析的常用方法論,這里簡要介紹6種模型。
1、CRISP-DM 模型
CRISP-DM是CrossIndustry Standard Process for Data Mining(跨行業數據挖掘標準流程)的字母縮寫。CRISP-DM是由一家歐洲財團(時稱SIG組織)在20世紀90年代中后期提出來的,是一套用于開放的數據挖掘項目的標準化方法,也是業內公認的數據挖掘與分析的通用方法論。


2、SEMMA模型
SEMMA是抽樣(Sample)、探索(Explore)、修訂(Modify)、建模(Model)和評估(Assess)的英文首字母縮寫,它是由SAS研究院開發的一款非常著名的數據挖掘與分析方法。SEMMA的基本思想是從樣本數據開始,通過統計分析與可視化技術,發現并轉換最有價值的預測變量,根據變量進行構建模型,并檢驗模型的可用性和準確性。

3、DMAIC方法
六西格瑪(Six Sigma,6 Sigma)是一種項以數據為基礎,追求“零缺陷”的質量管理方法。六西格瑪在商業中應用是DMAIC,包括五個步驟:定義(Define)、度量(Measure)、分析(Analyze)、改進(Improve)和控制(Control)。DMAIC方法在商業領域和環境中已得到了成功應用,它在數據挖掘項目中也能尋得一席之地。

4、AOSP-SM模型
AOSP-SM是ApplicationOriented StandardProcess for Smart Mining 的首字母縮寫,翻譯成中文是“應用為導向的敏捷挖掘標準流程”,它是思邁特公司(SMARTBI)基于跨行業數據挖掘過程標準(CRISP-DM)和SAS的數據挖掘方法(SEMMA)兩種方法論總結而來的一種面向應用的用于指導數據挖掘工作的方法。

5、5A模型
SPSS公司(后被IBM收購)曾提出過5A模型,即將數據挖掘過程分為五個A:Assess、Access、Analyze、Act、Automate,分別對應五個階段:評估需求、存取數據、完備分析、模型演示、結果展現。

6、數據挖掘與分析的“七步法”
“七步法”分為七個步驟,分別是:業務理解、數據獲取、數據探索、模型構建、模型評估、策略輸出、應用部署。“七步法”更側重從乙方的視角來完成用數據挖掘及其應用的閉環。

作者: jesse huang76 分享數據產品設計的心得,記錄數據跨界運營的經驗和感悟。連接數據、創新價值!