前の記事 «:画像切り取り用PHPライブラリ
次の記事 »:WEBクローラー用クラスに関する注意

PHPで書かれたWEBクローラー用クラス

2006年03月03日

スポンサード リンク
SourceForge.net: PHPCrawl

PHPCrawl is a class written in PHP for crawling/spidering websites. It supports filters, limiters, cookie-handling and other features. By overriding a special method of the class users can decide what should happen to the data the webcrawler finds.

SourceForgeにて、PHPで書かれたクローラー用のクラスが公開されています。
クロール後、getReportメソッドで、

  • 見つけたリンク数
  • 見つけたファイル数
  • 受信バイト数

のような値を取得することが出来る模様。
クラスリファレンスはここにあって、出来ることが大体わかると思います。

クローラーはどうやって出来ているんだろう?という疑問もこのライブラリを見ればなんとなく分かるかもしれませんね。

追記
尚、利用に当たっては他のサーバの負荷をかけてしまう等、注意が必要のようですので、実験の範囲内にした方がよいかもしれません
参考: 使うな→PHPで書かれたWEBクローラー用クラス

スポンサード リンク

投稿者 KJ : 2006年03月03日 15:05 | ブックマークに追加する Subscribe with livedoor Reader
間違いの指摘をしていただける方はメールでお願いします


本を執筆しました。