それマグで!

知識はカップより、マグでゆっくり頂きます。 takuya_1stのブログ

習慣に早くから配慮した者は、 おそらく人生の実りも大きい。

重複ファイルを探すためにファイルのハッシュをまとめて計算する

コピーしてファイルを作った人がいるので、コピーしてファイルを作ったものを探そうと思った。

怪しいファイルの拡張子だけのPathを一覧する。

find /path/to/suspicions -type f -name '*.html' 

md5sum をかける。

find /path/to/suspicions -type f -name '*.html'  | xargs -I @ -P0 md5sum @

ソートする

find /path/to/suspicions -type f -name '*.html'  | xargs -I @ -P0 md5sum @ | sort

あとは、これの中から、重複ファイルハッシュ値を探す。 md5sum

find /path/to/suspicions -type f -name '*.html'  | xargs -I @ -P0 md5sum @ | sort | cut  -d " " -f 1

さらに、この中から、重複するIDを探す uniq -d

find /path/to/suspicions -type f -name '*.html'  | xargs -I @ -P0 md5sum @ | sort | cut  -d " " -f 1 | uniq -d 

最後に、重複した一覧を取り出す

join dup_id.list.txt sorted_md5.list.txt

はい、出来上がり。

パイプライン処理ってさすがだわ