それマグで!

知識はカップより、マグでゆっくり頂きます。 takuya_1stのブログ

習慣に早くから配慮した者は、 おそらく人生の実りも大きい。

wget でリンク切れチェッカーを実現する

リンク切れとか、今どき起きないよね・・・

と思ってた時期がわたしにもありました。しかし実際にリンク切れが起きるんだから仕方ない。

404 チェッカーをwget の spider 機能で実現する

wget --spider -o ~/wget.log -e robots=off  -r -p http://www.example.com

wget をSpider で起動して、 -r で再帰的に階層を降りて行って、そのときの調査結果を log に書く

404 のページを調べる

ログファイルの中から、404 の文字列を探すことで、リンク切れが起きていることを調べることが出来る。

grep -B 2 '404' ~/wget.log

ちなみに、404の文字列が出現した位置を見ることになるので、どのページにリンク切れがあったかどうかも見ることが出来て非常に便利だ。

googleクローラーのエラーを見たほうがいいかも?

Googleクローラーさせてたら、404でエラー見れるから正直なところ必要ないと思うんだけどさ。自分が管理者じゃない場合は無理なので、こういう強引な方法を取らざるをえないのだけど。

参考資料

http://www.createdbypete.com/articles/simple-way-to-find-broken-links-with-wget/