それマグで！

知識はカップより、マグでゆっくり頂きます。　takuya_1stのブログ

習慣に早くから配慮した者は、おそらく人生の実りも大きい。

コピーしてファイルを作った人がいるので、コピーしてファイルを作ったものを探そうと思った。

怪しいファイルの拡張子だけのPathを一覧する。

find /path/to/suspicions -type f -name '*.html'

md5sum をかける。

find /path/to/suspicions -type f -name '*.html'  | xargs -I @ -P0 md5sum @

ソートする

find /path/to/suspicions -type f -name '*.html'  | xargs -I @ -P0 md5sum @ | sort

あとは、これの中から、重複ファイルハッシュ値を探す。 md5sum

find /path/to/suspicions -type f -name '*.html'  | xargs -I @ -P0 md5sum @ | sort | cut  -d " " -f 1

さらに、この中から、重複するIDを探す uniq -d

find /path/to/suspicions -type f -name '*.html'  | xargs -I @ -P0 md5sum @ | sort | cut  -d " " -f 1 | uniq -d

最後に、重複した一覧を取り出す

join dup_id.list.txt sorted_md5.list.txt

はい、出来上がり。

パイプライン処理ってさすがだわ