獲取數據后,對數據的清洗工作必不可少,常用的數據清洗方法主要有缺失值填充、數值替換、數據類型轉換、數據分列、重復值處理等,清洗的數據結果直接影響最后數據分析的結果,一個成熟的數據分析師,在日常工作中絕大多數時間都在數據清洗,下面一起學習。
缺失值填充
缺失值處理,可以使用均值、線性插值等方法進行填充,這里使用均值來作為填充值填充,首先計算分數的平均值,然后篩選分數為空的行,使用UPDATE函數將空值填充為平均值。
#計算score列的均值
SELECT AVG(score) AS avg_score
FROM score;
#使用均值填充空值
UPDATE score SET score=74
WHERE score is null;
select * from score;
清理空格
清理字符中的空格,使用的是TRIM函數,并且用UPDATE函數更新表格。
#清理字符中的空格
UPDATE course SET Cname=TRIM(Cname);
select * from course;
數值替換
REPLACE函數可以對字符進行替換,類似于Excel的替換功能。
#修改和替換
UPDATE course
SET Cname=REPLACE(Cname,'語文','語文-A');
select * from course;
大小寫轉換
小寫轉換可以用LOWER函數,大寫轉換可以用UPER函數,這里使用LOWER函數將大寫A轉換為小寫a。
#大小寫轉換
UPDATE course
SET Cname=LOWER(Cname);
select * from course;
數據類型轉換
數據類型轉換用CONVERT函數,括號中第一個寫要轉換類型的值,第二個寫要轉換成的數據類型,此處將出生日期轉換為日期類型。
SELECT Sname,CONVERT(Sage,date) as '出生日期'
FROM student;
MySQL常用的數據類型如下:
數據分列
數據分列與EXCEL的功能相似,這里使用到的函數是SUBSTRING_INDEX,這里將"語文-A",分列成科目 語文 與評級為 A 兩部分。
#數據分列
SELECT
SUBSTRING_INDEX(cname,'-',1) AS '科目',
SUBSTRING_INDEX(cname,'-',-1) AS '評級'
FROM course;
分列后的數據可以通過更新增加在原數據表中,下面是具體的代碼。
#數據分列(改表),添加兩個空字段
ALTER TABLE course
ADD (col1 VARCHAR(255),col2 VARCHAR(255));
SELECT * FROM course;
#更新分列后的字段內容
UPDATE course SET col1 = SUBSTRING_INDEX(cname,'-',1),
col2 =SUBSTRING_INDEX(cname,'-',-1);
SELECT * FROM course;
重復值處理
重復值的處理使用到DISTINCT函數,也可以使用數據分組功能,實現將某個字段去除重復值的功能。
#重復值
SELECT DISTINCT CId,Cname
FROM course;