前の記事 ≪:画像切り取り用PHPライブラリ
次の記事 ≫:WEBクローラー用クラスに関する注意

PHPで書かれたWEBクローラー用クラス

2006年03月03日-はてなブックマーク

スポンサード リンク
[PR] 英単語を忘却曲線アプリを使って超効率よく記憶する方法
SourceForge.net: PHPCrawl

PHPCrawl is a class written in PHP for crawling/spidering websites. It supports filters, limiters, cookie-handling and other features. By overriding a special method of the class users can decide what should happen to the data the webcrawler finds.

SourceForgeにて、PHPで書かれたクローラー用のクラスが公開されています。
クロール後、getReportメソッドで、

  • 見つけたリンク数
  • 見つけたファイル数
  • 受信バイト数

のような値を取得することが出来る模様。
クラスリファレンスはここにあって、出来ることが大体わかると思います。

クローラーはどうやって出来ているんだろう?という疑問もこのライブラリを見ればなんとなく分かるかもしれませんね。

追記
尚、利用に当たっては他のサーバの負荷をかけてしまう等、注意が必要のようですので、実験の範囲内にした方がよいかもしれません
参考: 使うな→PHPで書かれたWEBクローラー用クラス

関連の記事検索:PHP, crawler, クローラー
スポンサード リンク

By.KJ : 2006年03月03日 15:05 livedoor Readerで購読 Twitterに投稿

間違いの指摘をしていただける方はメール、あるいはTwitter/FBでお願いします(クリック)