リンク切れとか、今どき起きないよね・・・
と思ってた時期がわたしにもありました。しかし実際にリンク切れが起きるんだから仕方ない。
404 チェッカーをwget の spider 機能で実現する
wget --spider -o ~/wget.log -e robots=off -r -p http://www.example.com
wget をSpider で起動して、 -r で再帰的に階層を降りて行って、そのときの調査結果を log に書く
404 のページを調べる
ログファイルの中から、404 の文字列を探すことで、リンク切れが起きていることを調べることが出来る。
grep -B 2 '404' ~/wget.log
ちなみに、404の文字列が出現した位置を見ることになるので、どのページにリンク切れがあったかどうかも見ることが出来て非常に便利だ。
google のクローラーのエラーを見たほうがいいかも?
Google にクローラーさせてたら、404でエラー見れるから正直なところ必要ないと思うんだけどさ。自分が管理者じゃない場合は無理なので、こういう強引な方法を取らざるをえないのだけど。
参考資料
http://www.createdbypete.com/articles/simple-way-to-find-broken-links-with-wget/