コピーしてファイルを作った人がいるので、コピーしてファイルを作ったものを探そうと思った。
怪しいファイルの拡張子だけのPathを一覧する。
find /path/to/suspicions -type f -name '*.html'
md5sum をかける。
find /path/to/suspicions -type f -name '*.html' | xargs -I @ -P0 md5sum @
ソートする
find /path/to/suspicions -type f -name '*.html' | xargs -I @ -P0 md5sum @ | sort
あとは、これの中から、重複ファイルハッシュ値を探す。 md5sum
find /path/to/suspicions -type f -name '*.html' | xargs -I @ -P0 md5sum @ | sort | cut -d " " -f 1
さらに、この中から、重複するIDを探す uniq -d
find /path/to/suspicions -type f -name '*.html' | xargs -I @ -P0 md5sum @ | sort | cut -d " " -f 1 | uniq -d
最後に、重複した一覧を取り出す
join dup_id.list.txt sorted_md5.list.txt
はい、出来上がり。
パイプライン処理ってさすがだわ