前の記事 ≪:PHPで書かれたWEBクローラー用クラス
次の記事 ≫:RailsによるアジャイルWebアプリケーション開発 - 本

WEBクローラー用クラスに関する注意

2006年03月04日-はてなブックマーク

スポンサード リンク
[PR] 英単語を忘却曲線アプリを使って超効率よく記憶する方法

先のエントリ、PHPで書かれたWEBクローラー用クラス で紹介したクローラークラスですが、外部に向けてクロールするような処理を行う際には注意が必要です。

筆者が見た限り、このクラスにはリクエスト間隔を制御する仕組みが見当たらなかった。クロール全体におけるダウンロード量の制限設定値などはあったがそれもデフォルトでは制限無し状態にセットされている。そのまま使えば、1秒間に数百リクエストくらい投げることができてしまうだろう。そのとき、クロールされる側のWebサーバーはどうなるか?考えてもみてほしい。
使うな→PHPで書かれたWEBクローラー用クラス

スレッドを使わないだけまだマシなんでしょうが、間隔が指定できないので他サーバへ負荷をかけてしまうという問題点があります。
先のエントリで思慮が足りませんでしたので補足でアナウンスさせて頂きます。

スポンサード リンク

By.KJ : 2006年03月04日 09:17 livedoor Readerで購読 Twitterに投稿

間違いの指摘をしていただける方はメール、あるいはTwitter/FBでお願いします(クリック)