閱讀提示
本內容為日常頻繁使用的數據處理操作,不涉及底層技術問題,煩請愛鉆牛角的杠精繞行。
本內容盡量簡單直白、步驟詳細,適合數據分析入門。特別喜歡技術語言的大佬們,可自行跳過。
關于網友的留言:PQ是不是Power BI?
有位朋友問道PQ是否就是Power BI?老海來簡單解釋一下吧
首先、PQ全稱PowerQuery,它主要負責完成數據清洗處理以及數據查詢篩選
而PowerBI主要由PQ、PP、PV三個主要模塊組成,也就是:
- PowerQuery—負責數據查詢整理
- PowerPivot—負責數據建模
- PowerView—負責數據可視化
也是說PowerBI包括了PQ,而不是只有PQ。
而PQ也不是只在PowerBI里,Excel2016以及更高版本也包含PQ!
- 從“數據”中選擇“從表格”,即可打開PQ編輯器模式
其次、既然提到了PQ、PP、PV,老海也想特別說明一下:
它們之間的組合關系就好比烹飪的過程
- PQ是獲取食材、處理食材的備菜階段;
- PP是煎、炒、烹、炸的烹制階段;
- PV是裝點、呈現菜品的擺盤階段;
- 而M語言作用在PQ中,重要性如同刀功;
- 而DAX語言作用在PP中,重要性如同火候;
烹飪離不開備菜、烹制、擺盤,以及恰到好處的刀功和火候!
數據分析就如同做菜一樣,自然也離不開PQ + PP + PV,以及M + DAX
而很多分析工具的過程邏輯都是暗合相通,無外乎如此。
好了,下面開始我們的對比操作演示,今天內容包括:數據更新刪除、以及排序2個方面
老海在這里主要列舉常見的方法和思路、以及工作中頻繁使用的操作。
如果你覺得有更好的方法,歡迎也分享出來,或者在文章底部留言。
數據更新和刪除
使用Excel時:
- 第1步:直接修改單元格,只適合單個數據點。這里我們來演示批量數據的方法,這里我們首先復制需要修改的參考數值,比如:100
- 第2步:選中需要處理的字段,右鍵進行“選擇性粘貼”
- 第3步:選擇我們需要的批量修改方式,比如乘法
- 第4步:此方法適合完成整列數據的簡單修改,而無需使用公式或者輔助列
- 第5步:接下來,我們來看一下如何批量刪除特定行的數據,這里我們按下Ctrl + F,或者選擇“查找和替換”,來查詢“老年”的所有數據行
- 第6步:然后搜索所有符合“老年”出來的數據行,
- 第7步:選中所有數據行,然后刪除掉即可。
- 第8步:當我們需要刪除空值的時候,我們需要使用“定位”功能,快捷鍵為Ctrl + G
- 第9步:然后選中“空值”這個選項,它表示表格區域內的空值單元格,點擊確定后,即可選中所有的空值的單元格位置
- 第10步:最后我們直接右鍵,選擇“刪除”,即可一次性清除所有存在空值的行
當使用MySQL時:
- 第1步:可以使用UPDATA SET,來更新符合查詢條件的數據行,這里我們選擇更新“顧客信息表”
- 第2步:查看更新后的數據情況,“老年”已被修改為“其他”
- 第3步:使用DELETE來刪除符合查詢條件的數據行,這里我們指定刪除“年齡階層”為“老年的”數據記錄。
- 第4步:還可以刪除這個字段,使用ALTER TABLE + DROP。當然,一般情況下,不建議直接進行刪除操作。
使用Power BI時:
- 第1步:類似Excel操作,Power BI也可以在PQ編輯器中使用“主頁”下的“替換值”功能,來替換批量修改內容。
- 第2步:在刪除數據上,Power BI可以在PQ編輯器里選擇“刪除行”或“刪除列”里的各種處理方法
使用Python時:
- 第1步:python中更新數據,一般不建議直接進行等號賦值操作,建議先進行loc/iloc的切片操作,然后再進行賦值操作。
- 第2步:在Python的pandas中進行刪除操作,一般使用loc、iloc方法的切片篩選作為代替方案,從而避免修改原始數據集。當然也可以使用drop方法,然后根據axis的值來設置刪除模式,一般axis默認為0,代表行刪除,當axis=1,則代表列刪除。
數據排序
使用Excel時:
- 第1步:我們可以直接Ctrl + L打開快速排序。而當我們需要更多排序選擇時,需要選擇“自定義排序”來完成。
- 第2步:我們可以根據自己的情況來選擇排序順序,比如我們可以設置,顧客ID按升序排列、訂單編號按降序排序。
使用MySQL時:
- 第1步:我們使用ORDER BY來指定排序字段為“客戶數量”,降序排序。
- 第2步:我們還可以同時設置多個字段排序,比如“客戶數量”為降序,“合計購買量”為升序
使用Power BI時:
- 類似Excel,PowerBI可以直接利用字段右側的下拉菜單來進行排序設置,不再贅述。
使用Python時:
- 第1步:在pandas中,一般使用sort_values方法來進行排序,參數ascending來設置升降序。
- 第2步:當涉及多個字段排序問題時,sort_values方法接受列表作為參數輸入,來實現多字段排序。
以上就是關于數據更新、刪除和排序方面的內容。OK,限于篇幅和時間,今天就這里了。
寫在最后
下期我們繼續聊聊,關于分組聚合、多表關聯、多表聯合、存儲與導出等操作。
本系列文章內容較長,建議隨手收藏下來,相信總有需要的時候!
覺得不錯,別忘了點贊、轉發一下,哈~