MySQL中經常會遇到重復的數據，那么當我們遇到重復的時候的時候，如果定位哪些數據是有重復的記錄？如何刪除重復的數據？我們該怎么做呢？接下來我們一步步來分析一下遇到這樣的情況后，該如何處理。

咋辦呢？

初始化實驗環境

我們創建一個簡單的表user_info，然后基于這個表進行分析重復數據的處理情況。其中的id為自增主鍵，name、sex、age三個列是我們判斷是否為重復數據的key，如果這三列的值相同，則認為這行數據為重復數據。

建表語句如下：

CREATE TABLE `user_info` (
  `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
  `name` varchar(255) DEFAULT NULL,
  `sex` varchar(255) DEFAULT NULL,
  `age` int(11) DEFAULT NULL,
  `remark` varchar(255) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=13 DEFAULT CHARSET=utf8;

初始化數據如下：

INSERT INTO `tmp_test`.`user_info`(`id`, `name`, `sex`, `age`, `remark`) VALUES (1, 'A', '男', 22, '第一個A');
INSERT INTO `tmp_test`.`user_info`(`id`, `name`, `sex`, `age`, `remark`) VALUES (2, 'B', '女', 33, '第一個B');
INSERT INTO `tmp_test`.`user_info`(`id`, `name`, `sex`, `age`, `remark`) VALUES (3, 'C', '男', 44, '第一個C');
INSERT INTO `tmp_test`.`user_info`(`id`, `name`, `sex`, `age`, `remark`) VALUES (4, 'D', '女', 55, '第一個D');
INSERT INTO `tmp_test`.`user_info`(`id`, `name`, `sex`, `age`, `remark`) VALUES (5, 'A', '男', 22, '第二個A');
INSERT INTO `tmp_test`.`user_info`(`id`, `name`, `sex`, `age`, `remark`) VALUES (6, 'B', '女', 33, '第二個B');
INSERT INTO `tmp_test`.`user_info`(`id`, `name`, `sex`, `age`, `remark`) VALUES (7, 'C', '男', 44, '第二個C');
INSERT INTO `tmp_test`.`user_info`(`id`, `name`, `sex`, `age`, `remark`) VALUES (8, 'D', '女', 55, '第二個D');
INSERT INTO `tmp_test`.`user_info`(`id`, `name`, `sex`, `age`, `remark`) VALUES (9, 'E', '男', 18, '第一個E');
INSERT INTO `tmp_test`.`user_info`(`id`, `name`, `sex`, `age`, `remark`) VALUES (10, 'A', '男', 22, '第三個A');
INSERT INTO `tmp_test`.`user_info`(`id`, `name`, `sex`, `age`, `remark`) VALUES (11, 'B', '女', 33, '第三個B');
INSERT INTO `tmp_test`.`user_info`(`id`, `name`, `sex`, `age`, `remark`) VALUES (12, 'F', '男', 15, '第一個F');

最后表中數據如下:

初始化的測試數據

明確需求

假設我們的要求是保留重復數據中，第一次出現的數據，后面出現的數據不保留。

也就是我們的上面的這個表中每一組重復數據中id最小的一行數據需要保留，其他比較大的id的重復的數據行需要被刪除。當然如果是要保留id行最大的一行數據最為最后的數據行也是可以了，只要在查詢的時候，稍微修改一下SQL語句的min(id)或max(id)函數即可。

開整

查找重復的數據

基于前面我們初始化的實驗數據，首先我們要查詢出那些數據是有重復數據的行，通過下面的SQL語句，可以得到結果：其中有重復數據的是name值為A、B、C、D的四種類型的數據。

使用如下SQL可以查詢出來那些數據行有重復記錄，并統計出重新出現的次數。

select 
	name, sex, age, 
  count(*) as count -- 數據重復出現的次數
from user_info 
group by name, sex, age 
having count(*) > 1;

重復數據在表中的統計結果如下：

數據重復的統計情況

查找要保留的數據

上面我們知道該如何查詢哪些數據是重復數據了，那么我們需要保留的數據是哪些？

使用下面的SQL既可以獲取到我們要保留的數據行：

select * from user_info 
where id in (
	select 
		min(id) 
	from user_info 
	group by name, sex, age
);

結果如下：

每組重復數據中，id值最小的數據行

上面的結果就是我們需要最后留下來的數據。這里包含了非重復的時候和每一組重復的數據中id最小的數據行。

刪除重復的數據

方法一

這是最笨的一種方式，也是最容易理解的一種方式，效率也比較低。思路如下：

步驟一

步驟二

步驟三

從上面的過程中，我們一步一步定位到了我們需要刪除的數據是哪些。定位到這些數據之后，刪除的時候，只要把查詢語句改為刪除語句即可。所以最后通過這樣的方式來刪除我時候，我們的刪除語句如下：

delete from user_info 
where (name,sex,age) in ( 
	select x.* from ( -- 刪除的時候，這里要在包裹一層子查詢
		select -- 查詢重復數據中，name, sex, age的值
			name, sex, age
		from user_info
		group by name, sex, age
		having count(*) > 1
	) as x
)
and id not in (
	select min_id from ( -- 刪除的時候，這里要在包裹一層子查詢
		select -- 查詢重復數據中，最小的id值
			min(id) as min_id
		from user_info 
		group by name, sex, age
		having count(*) > 1
	) as y
);

注意：上面的刪除語句中，我們在兩個where條件中的子查詢語句外面又包裹了一層子查詢，即為上面SQL語句中的as x和as y兩個查詢語句，之所以包裹一層的原因是在程序如下的錯誤提示：

1093 - You can't specify target table 'user_info' 
for update in FROM clause, Time: 0.084000s

上述錯誤的原因是：修改一個表的時候子查詢不能是這被修改的這個表，所以，我們的解決辦法是，在子查詢外面再套一層查詢語句就可以了。

方法二

上面方法一的思路是想辦法找到我們要刪除的數據是哪些，然后我們在刪除的時候，使用where條件去匹配這些查詢出來要刪除的數據行，以此來達到刪除重復數據的目的。

換個思路解決

此時，我們不妨換一個角度思考：我們不要去關注哪些是我們需要刪除的重復數據，相反，我們去關注哪些是我們需要留下來的數據。然后我們可以在刪除的時候，使用取反的方式not in我們需要保留下來的數據，那不是就我們需要刪除的數據嗎？

所以，我們想一想哪些使我們需要留下來的數據呢？每一組數據中，id值最小的哪一行就是我們要保留的數據行。其余的我們就不關心了。那么怎么樣才能取到這樣的數據行呢？

使用下面的SQL語句可以獲取我們需要保留的數據行的所有的id的值：

select 
	min(id) 
from user_info 
group by name, sex, age;

結果如下：

既然我們想要保留的數據行的id集合得到了，在我們要刪除數據的where條件中，使用not in我們要保留的id集合，不就是需要刪除的數據嗎？

刪除重復數據的語句如下：

delete from user_info 
where id not in(
	select min_id from (
		select 
			min(id) as min_id
		from user_info 
		group by name, sex, age
	) as x
);

注意：這里為了避免MySQL的1903錯誤，我們也在where條件的子查詢中包裹了另外一個子查詢，即上面SQL中as x查詢語句。

方法三

尋找更高效簡單的方法

通過兩個表關聯的方式來刪除數據，這個方式效率比較高，推薦使用這種方式。自己和自己關聯，關聯的條件就是我們判斷數據是否為重復數據的key。除此之外，最重要的一個條件是：兩個表的id關聯條件，這個是刪除保留數據的關鍵條件。

查詢重復數據的SQL語句如下：

select a.*,b.* 
from user_info as a 
inner join user_info as b 
on a.name = b.name 
and a.sex = b.sex 
and a.age = b.age
and  a.id > b.id;

結果如下：

寫法1

刪除重復數據SQL語句如下：

delete a.*
from user_info as a 
inner join user_info as b 
on a.name = b.name 
and a.sex = b.sex 
and a.age = b.age
and  a.id > b.id;

寫法2

除了上面的那種寫法之外，還有另外一種寫法，如下：

查詢待刪除的重復數據SQL如下：

select * from user_info as a 
where a.id <> (
	select 
		min(b.id) 
	from user_info as b 
	where a.name = b.name
	and a.sex = b.sex
	and a.age = b.age
);

刪除重復數據的SQL語句如下：

delete a.* from user_info as a
where a.id <> (
	select
		min(b.id)
	from (
		select * from user_info
	) as b
	where a.`name`= b.`name`
	and a.sex = b.sex
	and a.age = b.age
);

總結

以上是對于MySQL中重復數據刪除的時候，經常使用的方法。對于其他數據庫中存在的重復數據，刪除的思路也是這些，只是具體到SQL語句的寫法可能稍有稍有差異。只要你掌握了思路，具體到SQL語句的寫法，嘗試幾次就可以成功。

以上，希望能幫助到你。

最后提醒一點： 在真正刪除之前，記得對原數據備份一下。以便刪除錯誤后，數據不能恢復回來。可以使用如下的語句來創建一個備份表，以便于在刪除錯誤后，把數據恢復到原來的表中去。

create table user_info_bak as select * from user_info; --創建一個備份表
truncate table user_info; -- 清空原始表中的數據
insert into user_info select * from user_info_bak; -- 從備份表中把數據插入到原始表中

像上面這樣操作，數據如果刪除失誤的時候，可以從user_info_bak中還原數據到user_info表中。