很多人在做數據分析的時候,不知道怎么去開展,或者懷疑自己做出的分析報告是否合理、是否全面,這是因為你對這一套標準化流程沒有真正的理解。
如何通過科學的流程,來得出有價值的分析和建議?今天我們就來講一下。
數據分析整體流程
來看一下標準化流程的九個步驟:
明確問題——先把問題定義清楚,因為很多人還沒理清問題就直接去看數據了;
搭建框架——定義問題之后再把問題考慮全面、找到一條分析主線;
數據提取——用 MySQL、Hive 等工具提取相關數據;
數據處理——用 Excel、R、Python 處理數據;
數據分析——以數據分析方法論為主來分析數據;
數據展現——用 Tableau、Excel、R、Python 工具把你的數據展現出來;
撰寫報告——考驗你的文筆功底以及整體邏輯性;
報告演講——考驗你溝通能力,表達能力,被提問能力。所有的報告撰寫完成之后不要直接去講,還是要和業務方進行大量的溝通,如果不提前做好溝通,你在會議或公眾場合上講時很容易被別人挑戰;
報告閉環——這是最難也是最大價值的地方。
這里面的數據提取、數據處理、數據展現是數據分析師前期的基本功,以工具為主,都是比較容易學到的,也比較容易完成。而明確問題、搭建框架、撰寫報告、報告演講、報告閉環更多是考驗分析師的綜合能力以及智商、情商,所以這塊往往需要很多時間去沉淀。
基于數據分析這一套標準化流程,其中涉及一些行業常用的工具,這些工具都能做什么?如何匹配不同的場景去使用?下面我簡單講一下。
數據分析常用工具
1、MySQL、Hive:
基本上所有的數據獲取方式都是通過 MySQL、Hive 這兩種語言來實現,同時你要學習一些 linux 命令,因為在排查數據異常時會用到。你需要對這兩門工具超級熟練,因為數據提取環節是不能出錯的,這一步有問題,后面就都有問題。
2、Excel:
Excel 是最高頻的數據處理工具。工作中你經常遇到的一種情況,你的 leader 直接讓你現場畫個圖,這時你最有可能用 Excel 而不是 R、Python。
3、R:
R 是一門統計型語言,專門為數據分析而生,簡單易學,但缺點是計算能力確實比較差,你導入兩個 GB 數據就有可能導致死機。
4、Python:
一門腳本型語言,可擴展性極強,算法必備,但是計算能力確實比較差,你導入兩個 GB 數據就有可能導致死機。
Python 和 R 的區別
作為數據分析中最常用的兩種編程語言,一直有同學好奇 Python 和 R 有何異同。
Python 和 R 相比, R 的機器學習算法語言 Python 都能很快實現,而對于下面所說的幾種情況,R 稍微來說就有一點難度了。
爬蟲:爬蟲在工作中價值很大,比如爬取一些競品的數據,用 R 不方便。
比如資訊類 App 的很多文章是通過爬蟲下發給大家,像今日頭條的一些文章。
文本挖掘:對評論數據研究價值很大,比如對 App 評論數據的分析,從而知道如何去做評論運營閉環。
如京東網易 App 的評論運營,其他 App 的熱點評論置前。
UDF 函數:Hive 自定義函數有時并不能滿足需求,此時就需要自己定義函數來實現需求,這時就可以用 Python 寫個 UDF。
如計算機尼系數,在 Hive 中直接調用 UDF 能夠很快輸出。
對于算法研發同學:個性化推薦、底層運維、Web 開發都是通過 Python 來實現。
總而言之,Python 是非常強大的第三方庫。
不管什么樣的工具,都是為實現目標所用的“術”,但若想完整的跑通業務,還需要數據思維、業務拆解、方法論這種“道”,希望同學們都能既掌握“術”,更掌握“道”,成長為優秀的數據分析人才!
本文轉自公眾號:勾勾談數據分析
歡迎大家去找勾勾暢談數據分析哦