問題描述
有一次遇到這樣一個面試題,說如果一個表中沒有主鍵,如何找到里面重復的數據?
表數據如下:
表結構如下:
針對以上問題,有以下幾種解決方案
解決方案
1. 使用 GROUP BY 分組查詢法
利用 GROUP BY 分組查詢語句來分組聚合,然后篩選出出現次數大于1的重復記錄。例如:
sql復制代碼SELECT column1, column2, column3, COUNT(*) as count FROM table_name GROUP BY column1, column2, column3 HAVING count > 1;
該語句將按照 column1、column2、column3 分組,統計每個分組的數量,然后取出數量大于 1 的分組。該方法比較簡單,但是如果表中記錄較多,可能查詢效率較低。
2. 使用子查詢法
使用子查詢獲得重復的記錄,例如:
sql復制代碼SELECT * FROM table_name WHERE (column1, column2, column3) IN (SELECT column1, column2, column3 FROM table_name GROUP BY column1, column2, column3 HAVING COUNT(*) > 1)
該語句子查詢部分統計每個不同的 column1、column2、column3 分組,然后再用 IN 子句將重復記錄選出來。
3. 使用連接查詢法
使用連接查詢,將表和本身連接起來,并比較來判斷重復。例如:
css復制代碼SELECT a.* FROM table_name a INNER JOIN (SELECT column1, column2, column3 FROM table_name GROUP BY column1, column2, column3 HAVING COUNT(*) > 1) b ON a.column1 = b.column1 AND a.column2 = b.column2 AND a.column3 = b.column3
該語句以列 column1、column2、column3 分組,找出出現兩次以上的重復記錄,并與原表進行連接查詢。
4. 使用去重后比較條數法
將表中所有列的值連接成一個字符串,再將這個字符串進行快速 MD5 哈希,用 count() 函數來計算每個哈希值出現的次數,如果某個哈希值出現次數大于 1,那么這些記錄就是重復的。例如:
scss復制代碼SELECT COUNT(*), MD5(CONCAT_WS('|', column_1, column_2, column_3, column_4, ..., column_n)) FROM table_name GROUP BY MD5(CONCAT_WS('|', column_1, column_2, column_3, column_4, ..., column_n)) HAVING COUNT(*) > 1
5. 使用子查詢法計算重復次數
使用子查詢先計算出每個記錄重復的次數,然后取出重復次數大于 1 的記錄。例如:
css復制代碼SELECT a.* FROM table_name a, (SELECT column1, column2, column3, COUNT(*) as count FROM table_name GROUP BY column1, column2, column3 HAVING count > 1) b WHERE a.column1 = b.column1 AND a.column2 = b.column2 AND a.column3 = b.column3
該語句計算出每個 column1、column2、column3 分組中出現的次數,然后篩選出出現次數大于 1 的記錄。
6. 對多列使用 DISTINCT 子句法
使用 DISTINCT 子句來去除重復的數據,例如:
sql復制代碼SELECT DISTINCT column1, column2, column3 FROM table_name
該語句將按照 column1、column2、column3 去重,只取出不同的記錄。如果存在重復數據,那么就會取出重復數據。
7. 查找輸入數據相同的記錄法
這種方法就是找到輸入的記錄與某些記錄是相同的,這些記錄就是重復記錄。例如:
sql復制代碼SELECT * FROM table_name WHERE column1='value1' AND column2='value2' AND column3='value3'
該語句將根據表中每個過濾條件來查找重復記錄。
8. 根據下標去重
該方法是通過打印出所有的鍵值,找出重復的鍵并去重。例如:
sql復制代碼SELECT DISTINCT SUBSTRING_INDEX(column_string,',',1) AS column1, SUBSTRING_INDEX(SUBSTRING_INDEX(column_string,',',2),',',-1) AS column2, SUBSTRING_INDEX(column_string,',',-1) AS column3 FROM (SELECT CONCAT(column1,',',column2,',',column3) AS column_string FROM table_name) AS table_alias
該語句將 SELECT CONCAT(column1,',',column2,',',column3) AS column_string FROM table_name 產生的結果進行處理,將 column1、column2、column3 分開,然后再按照去重不同列的方法進行處理。
9. 手動輸入表的列名法
該方法是通過手動輸入要查詢的列名,然后進行查找。例如:
sql復制代碼SELECT column1, column2, column3, COUNT(*) as count FROM table_name GROUP BY column1, column2, column3 HAVING count > 1;
10. 使用 ROW_NUMBER() OVER() 分配行號
該方法基于 ROW_NUMBER() OVER() 分配行號來找到重復的記錄。例如:
sql復制代碼SELECT * FROM (
SELECT *, ROW_NUMBER() OVER(PARTITION BY column1, column2, column3 ORDER BY column1, column2, column3) AS rn
FROM table_name
) t
WHERE t.rn > 1
該語句將按照 column1、column2、column3 分組,為每組結果分配一個行號并選出行號大于 1 的結果。這種方法適用于較新的 MySQL 版本和較大的表。