WEBクローラー用クラスに関する注意
2006年03月04日-
スポンサード リンク
先のエントリ、PHPで書かれたWEBクローラー用クラス で紹介したクローラークラスですが、外部に向けてクロールするような処理を行う際には注意が必要です。
筆者が見た限り、このクラスにはリクエスト間隔を制御する仕組みが見当たらなかった。クロール全体におけるダウンロード量の制限設定値などはあったがそれもデフォルトでは制限無し状態にセットされている。そのまま使えば、1秒間に数百リクエストくらい投げることができてしまうだろう。そのとき、クロールされる側のWebサーバーはどうなるか?考えてもみてほしい。
使うな→PHPで書かれたWEBクローラー用クラス
スレッドを使わないだけまだマシなんでしょうが、間隔が指定できないので他サーバへ負荷をかけてしまうという問題点があります。
先のエントリで思慮が足りませんでしたので補足でアナウンスさせて頂きます。
スポンサード リンク
Advertisements
SITE PROFILE
最新のブログ記事(新着順)
- 2012年2月10日 管理人のブックマーク
- ブラウザ上でPDFを表示するJSライブラリ「PDF.js」
- 次世代の検索フォームを作成するjQuery&CSS3サンプル
- 2012年2月9日 管理人のブックマーク
- faviconを書き換えてfacebookの通知っぽくしてくれるfaviconアラート実装ライブラリ「Tinycon」
- ページめくりを実現するためのjQueryプラグイン集
- 2012年2月8日 管理人のブックマーク
- HTMLをアップするとCSSのスケルトンを自動生成してくれる「bearcss」
- HTML5で綺麗でインタラクティブなグラフが描けるライブラリ「Flotr2」
- 2012年2月7日 管理人のブックマーク
- 過去のエントリ



















間違いの指摘をしていただける方はメール、あるいはTwitterでお願いします(クリック)




