WEBクローラー用クラスに関する注意
2006年03月04日-
スポンサード リンク
先のエントリ、PHPで書かれたWEBクローラー用クラス で紹介したクローラークラスですが、外部に向けてクロールするような処理を行う際には注意が必要です。
筆者が見た限り、このクラスにはリクエスト間隔を制御する仕組みが見当たらなかった。クロール全体におけるダウンロード量の制限設定値などはあったがそれもデフォルトでは制限無し状態にセットされている。そのまま使えば、1秒間に数百リクエストくらい投げることができてしまうだろう。そのとき、クロールされる側のWebサーバーはどうなるか?考えてもみてほしい。
使うな→PHPで書かれたWEBクローラー用クラス
スレッドを使わないだけまだマシなんでしょうが、間隔が指定できないので他サーバへ負荷をかけてしまうという問題点があります。
先のエントリで思慮が足りませんでしたので補足でアナウンスさせて頂きます。
スポンサード リンク
Advertisements
SITE PROFILE
最新のブログ記事(新着順)
- くちばしフォント【商用可】
- 小説表紙などに使えそうな商用可なフォント「になロマン」
- 筆で書いたようなカナ書体「筆竹仮名B」
- 無料・商用利用可な丸文字ピクセルフォント「マルミーニャM」
- スペースコブラ風フォント
- Next.jsのVercelから商用利用可能なフリー汎用フォント「Geist Font 」
- 無料で使えるいい感じの日本語フォント「しっぽり太ゴシック」
- CSSのみで実装された500種類のローディングアニメーション「CSS Loaders」
- 画像ホバーで様々なエフェクトをかけられる「Izmir」
- CSSのbox-shadowをGUIで生成できる「CSS Box Shadows Generator」
- 過去のエントリ