不管是 windows 電腦還是 linux 電腦,在使用的過程中,或多或少都會留下很多重復的文件。這些文件不僅會占用我們的磁盤,還會拖累我們的系統(tǒng),所以,很有必要干掉這些重復的文件。
本文將介紹 6 種方法找到系統(tǒng)里的重復文件,讓你快速釋放硬盤空間!
1. 使用 diff 命令比較文件
diff 命令是 linux上非常重要的工具,用于比較文件的內(nèi)容,特別是比較兩個版本不同的文件以找到改動的地方。diff在命令行中打印每一個行的改動。最新版本的diff還支持二進制文件。
diff程序的輸出被稱為補丁 (patch),因為Linux系統(tǒng)中還有一個patch程序,可以根據(jù)diff的輸出將a.c的文件內(nèi)容更新為b.c。diff是svn、cvs、git等版本控制工具不可或缺的一部分。
當兩個文件有差異時,diff 命令將輸出差異點:
# cat a.txt
hello
abc
123
# cat b.txt
sldf
123
hello
#diff a.txt b.txt
1,2c1
< hello
< abc
---
> sldf
3a3
> hello
在 diff 中 diff 的 normal 顯示格式有三種提示:
a - add
c - change
d - delete
從上面的差異可知,因為 a.txt 的第3行 和 b.txt的第2行相等,所以 1,2c1 顯示的是a.txt 的前2行和b.txt的第1行是不同的。
由于2個文件的中的內(nèi)容123相同,相對于內(nèi)容123下面的行,b.txt 比 a.txt多了一行 hello
使用 diff 比較2個文件夾
# diff adir bdir
diff adir/a.txt bdir/a.txt
1c1
< hello
---
> abc
Only in adir: b.txt
Only in bdir: c.txt
從 diff 分析可知:
adir 文件夾與 bdir 文件夾各有一個 a.txt 文件,其中第一行內(nèi)容是不同的。a.txt 第一行內(nèi)容時 hello, b.txt 第一行的內(nèi)容時 abc。
同時,在 adir 文件中存在一個文件 b.txt, 在 bdir 文件夾中存在一個文件c.txt。
diff 命令的缺點是它一次只能比較兩個文件,如果我們要比較多個文件,這樣兩個兩個比較效率肯定非常低下。
2. 使用校驗和
Linux cksum命令用于檢查文件的CRC是否正確。確保文件從一個系統(tǒng)傳輸?shù)搅硪粋€系統(tǒng)的過程中不被損壞。所以,如果文件中有任何字符被修改,都將改變計算后CRC校驗碼的值。
校驗和命令的原理是根據(jù)一定的算法將文件內(nèi)容進行運算生成一個校驗碼,根據(jù)校驗碼的不同來判斷文件內(nèi)容是否發(fā)生變化。
# diff a.txt b.txt //沒有輸出說明2個文件內(nèi)容是相同的
#
#
#cksum a.txt
2532900428 50 a.txt
#cksum b.txt
2532900428 50 b.txt
上面的輸出信息中,"2532900428 "表示校驗碼,"50"表示字節(jié)數(shù)。
通過上面的校驗碼可知,a.txt 和 b.txt 內(nèi)容是相同的。
3. 使用 find 命令
當需要判斷一類文件時,可以根據(jù)find命令查找給定給定文件,然后對這些文件進行cksum校驗,輸出校驗碼,根據(jù)校驗碼進行判斷是否發(fā)生變化。
# find . -name "*.txt" -exec cksum {} ;
2532900428 50 ./a.txt
2532900428 50 ./b.txt
290493225 32 ./c.txt
25632541 27 ./d.txt
根據(jù)校驗碼可知 a.txt 與 b.txt 相同,c.txt 與 d.txt 不同。
4. 使用 fslint 命令
fslint是一個Linux工具來刪除文件,文件名不必要的和有問題的文件,從而保持電腦清潔。
使用該工具時我們要有個注意事項,就是我們需要給它一個起始位置。如果我們需要運行大量文件,該命令可能需要相當長的時間才能完成查找。
$ fslint .
-----------------------------------file name lint
-------------------------------Invalid utf8 names
-----------------------------------file case lint
----------------------------------DUPlicate files <==
a.txt
b.txt
-----------------------------------Dangling links
--------------------redundant characters in links
------------------------------------suspect links
--------------------------------Empty Directories
./.gnupg
----------------------------------Temporary Files
----------------------duplicate/conflicting Names
------------------------------------------Bad ids
-------------------------Non Stripped executables
5. 使用 fdupes 命令
fdupes 是 Linux 下的一個工具,它由 Adrian Lopez 用C編程語言編寫并基于 MIT 許可證發(fā)行,該應用程序可以在指定的目錄及子目錄中查找重復的文件。fdupes 通過對比文件的 MD5 簽名,以及逐字節(jié)比較文件來識別重復內(nèi)容,fdupes 有各種選項,可以實現(xiàn)對文件的列出、刪除、替換為文件副本的硬鏈接等操作。
$ fdupes ~
/home/adir/a.txt
/home/adir/b.txt
/home/adir/go.png
/home/adir/go0.png
/home/adir/h.png
-r 選項代表遞歸,表示它將在各個目錄下面使用遞歸的方式來查找重復文件。但是,Linux 下有許多重復文件是很重要的(比如用戶的 .bashrc 和 .profile 文件),如果被刪除將導致系統(tǒng)異常。
# fdupes -r /home
/home/shark/home.html
/home/shark/index.html
/home/dory/.bashrc
/home/eel/.bashrc
/home/nemo/.profile
/home/dory/.profile
/home/shark/.profile
/home/nemo/tryme
/home/shs/tryme
/home/shs/arrow.png
/home/shs/PNGs/arrow.png
fdupes 命令的常用選項如下表所示:
6. 使用 rdfind 命令
Rdfind 意即 redundant data find(冗余數(shù)據(jù)查找),是一個通過訪問目錄和子目錄來找出重復文件的自由開源的工具。它是基于文件內(nèi)容而不是文件名來比較。
Rdfind 使用排序算法來區(qū)分原始文件和重復文件。如果你有兩個或者更多的相同文件,Rdfind 會很智能的找到原始文件并認定剩下的文件為重復文件。一旦找到副本文件,它會向你報告。你可以決定是刪除還是使用硬鏈接或者符號(軟)鏈接代替它們。
$ rdfind ~
Now scanning "/opt/adir", found 12 files.
Now have 12 files in total.
Removed 1 files due to nonunique device and inode.
Total size is 699498 bytes or 683 KiB
Removed 9 files due to unique sizes from list.2 files left.
Now eliminating candidates based on first bytes:removed 0 files from list.2 files left.
Now eliminating candidates based on last bytes:removed 0 files from list.2 files left.
Now eliminating candidates based on sha1 checksum:removed 0 files from list.2 files left.
It seems like you have 2 files that are not unique
Totally, 223 KiB can be reduced.
Now making results file results.txt
我們還可以在 dryrun 中運行。
$ rdfind -dryrun true ~
(DRYRUN MODE) Now scanning "/opt/adir", found 12 files.
(DRYRUN MODE) Now have 12 files in total.
(DRYRUN MODE) Removed 1 files due to nonunique device and inode.
(DRYRUN MODE) Total size is 699352 bytes or 683 KiB
Removed 9 files due to unique sizes from list.2 files left.
(DRYRUN MODE) Now eliminating candidates based on first bytes:removed 0 files from list.2 files left.
...
rdfind 命令還提供一些忽略空文件(-ignoreempty)和跟隨符號鏈接(-followsymlinks)之類的選項。下面詳細解釋它的常用選項。
這里需要我們注意一下,rdfind命令提供了使用 -deleteduplicates true 設置刪除重復文件的選項。顧名思義,使用這個選項它將自動刪重復的文件。
$ rdfind -deleteduplicates true .
...
Deleted 1 files. <==
當然,前提是我們也必須在系統(tǒng)上安裝 rdfind 命令。