日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網為廣大站長提供免費收錄網站服務，提交前請做好本站友鏈：【網站目錄：http://www.ylptlb.cn 】，免友鏈快審服務（50元/站），

點擊這里在線咨詢客服

網站：51998
待審：31
小程序：12
文章：1030137
會員：747

首頁 > 新聞資訊 > IT業界 >正文

利用 Linux 查找重復文件

發布時間：2024-03-09 00:58:46 作者：網友整理

方法一：使用Find命令

本部分算是對find強大功能的擴展使用方法說明。在find的基礎上，我們可與（如xargs命令）等其它基本Linux命令相結合，即能創造出無限的命令行功能，比如：可以快速查找出Linux某個文件夾及其子文件夾中的重復文件列表。要實現這個功能在流程上是比較簡單的，只要查找遍歷出所有文件，再通過命令去比較每個文件的MD5就OK啦。

聽起來好像比較抽象，其實命令就一條：

find -not -empty -type f -printf "%s\n" | sort -rn | uniq -d | xargs -I{} -n1 find -type f -size {}c -print0 | xargs -0 md5sum | sort | uniq -w32 --all-repeated=separate

登錄后復制

find -not -empty -type f -printf “%sn” 表示使用find命令搜索出所有非空文件，再打印出他們的大小
sort -rn 命令不用多說了把，這條命令就是按文件大小進行反向排序
uniq -d | xargs -I{} -n1 find -type f -size {}c -print0 表示只打印了重復的行，這里使用代表打印出文件名相同的文件
uniq -w32 –all-repeated=separate 最后這里表示對MD5的前32個字節進行對比，以篩選出重復文件使用命令行的整個過程就是這么簡單和容易。

方法二：使用dupeGuru工具

DupeGuru是一個跨平臺應用，有Linux、Windows和Mac OS X版本，它可以通過文件大小、MD5和文件名等多種標準來幫助用戶找出Linux中的重復文件。Ubuntu用戶可以直接通過添加如下PPA源來方式來進行安裝：
```
sudo add-apt-repository ppa:hsoft/ppasudo apt-get updatesudo apt-get install dupeguru*
```
登錄后復制

方法三：使用Find命令解析

在工作生活當中，我們很可能會遇到查找重復文件的問題。比如從某游戲提取的游戲文本有重復的，我們希望找出所有重復的文本，讓翻譯只翻譯其中一份，而其他的直接替換。那么這個問題該怎么做呢？當然方法多種多樣，而且無論那種方法應該都不會太難，但筆者第一次遇到這個問題的時候第一反應是是用Linux的Shell腳本，所以文本介紹這種方式。

先上代碼：
```
find -not -empty -type f -printf "%sn" | sort -rn |uniq -d | xargs -I{} -n1 find -type f -size {}c -print0 | xargs -0 md5sum | sort | uniq -w32 --all-repeated=separate | cut -b 36-
```
登錄后復制

大家先cd到自己想要查找重復文件的文件夾，然后copy上面代碼就可以了，系統會對當前文件夾及子文件夾內的所有文件進行查重。

下面分析一下上面的命令。

首先看第一句：
```
find -not -empty -type f -printf "%sn"
```
登錄后復制

find是查找命令；-not -empty是要尋找非空文件；-type f是指尋找常規文件；-printf “%sn”比較具有迷惑性，這里的%s并非C語言中的輸出字符串，它實際表示的是文件的大小，單位為bytes（不懂就man，man一下find，就可以看到了），n是換行符。所以這句話的意思是輸出所有非空文件的大小。

搜索公眾號GitHub猿后臺回復“UML”，獲取一份驚喜禮包。

通過管道，上面的結果被傳到第二句：
```
sort -rn
```
登錄后復制

sort是排序，-n是指按大小排序，-r是指從大到小排序（逆序reverse）。

第三句：
```
uniq -d
```
登錄后復制

uniq是把重復的只輸出一次，而-d指只輸出重復的部分（如9出現了5次，那么就輸出1個9，而2只出現了1次，并非重復出現的數字，故不輸出）。

第四句：
```
xargs -I{} -n1 find -type f -size {}c -print0
```
登錄后復制

這一部分分兩部分看，第一部分是xargs -I{} -n1，xargs命令將之前的結果轉化為參數，供后面的find調用，其中-I{}是指把參數寫成{}，而-n1是指將之前的結果一個一個輸入給下一個命令（-n8就是8個8個輸入給下一句，不寫-n就是把之前的結果一股腦的給下一句）。后半部分是find -type f -size {}c -print0，find指令我們前面見過，-size{}是指找出大小為{}bytes的文件，而-print0則是為了防止文件名里帶空格而寫的參數。

第五句：
```
xargs -0 md5sum
```
登錄后復制

xargs我們之前說過，是將前面的結果轉化為輸入，那么這個-0又是什么意思？man一下xargs，我們看到-0表示讀取參數的時候以null為分隔符讀取，這也不難理解，畢竟null的二進制表示就是00。后面的md5sum是指計算輸入的md5值。

第六句：sort是排序，這個我們前面也見過。

第七句：
```
uniq -w32 --all-repeated=separate
```
登錄后復制

uniq -w32是指尋找前32個字符相同的行，原因在于md5值一定是32位的，而后面的–all-repeated=separate是指將重復的部分放在一類，分類輸出。

第八句：
```
cut -b 36-
```
登錄后復制

由于我們的結果帶著md5值，不是很好看，所以我們截取md5值后面的部分，cut是文本處理函數，這里-b 36-是指只要每行36個字符之后的部分。

我們將上述每個命令用管道鏈接起來，存入result.txt：
```
find -not -empty -type f -printf "%sn" | sort -rn |uniq -d | xargs -I{} -n1 find -type f -size {}c -print0 | xargs -0 md5sum | sort | uniq -w32 --all-repeated=separate | cut -b 36- >result.txt
```
登錄后復制

雖然結果很好看，但是有一個問題，這是在Linux下很好看，實際上如果有朋友把輸出文件放到Windows上，就會發現換行全沒了，這是由于Linux下的換行是n，而windows要求nr，為了解決這個問題，我們最后執行一條指令，將n轉換為nr：
```
cat result.txt | cut -c 36- | tr -s 'n'
```
登錄后復制

以上就是利用 Linux 查找重復文件的詳細內容，更多請關注www.92cms.cn其它相關文章！

分享到：

標簽：Linux 利用文件查找重復

網友整理

注冊時間：

網站：5 個小程序：0 個文章：12 篇

51998
網站
12
小程序
1030137
文章
747
會員

趕快注冊賬號，推廣您的網站吧！

文章分類

熱門網站

各百科-專業百科問答知識名網站 m.geelcn.com
免費軟件,綠色軟件園,手機軟件下載,熱門游戲下載中心-中當網 m.deelcn.com
魔扣科技 www.ylptlb.cn
體育新聞_國際體育資訊_全球體育賽事-中名網 www.feelcn.com/tiyu/tiyuxinwen/
食品安全_健康飲食_舌尖上的安全-中名網 www.feelcn.com/shenghuo/shipinanquan/
中合網 www.heelcn.com
中當網 www.deelcn.com
魔扣網站維護代運營 www.ylptlb.cn/tg
中合網-健康養生知識科普名站 m.heelcn.com
各百科 www.geelcn.com

最新入駐小程序

數獨大挑戰

數獨大挑戰2018-06-03

數獨一種數學游戲，玩家需要根據9

答題星

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試

全階人生考試2018-06-03

各種考試題，題庫，初中，高中，大學四六

運動步數有氧達人

運動步數有氧達人2018-06-03

記錄運動步數，積累氧氣值。還可偷

每日養生app

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定

熱門文章