PHPで書かれたWEBクローラー用クラス:phpspot開発日誌

前の記事 ≪：画像切り取り用PHPライブラリ
次の記事 ≫：WEBクローラー用クラスに関する注意

PHPで書かれたWEBクローラー用クラス

2006年03月03日-

スポンサードリンク

PHPCrawl is a class written in PHP for crawling/spidering websites. It supports filters, limiters, cookie-handling and other features. By overriding a special method of the class users can decide what should happen to the data the webcrawler finds.

SourceForgeにて、PHPで書かれたクローラー用のクラスが公開されています。
クロール後、getReportメソッドで、

見つけたリンク数
見つけたファイル数
受信バイト数

のような値を取得することが出来る模様。
クラスリファレンスはここにあって、出来ることが大体わかると思います。

クローラーはどうやって出来ているんだろう？という疑問もこのライブラリを見ればなんとなく分かるかもしれませんね。

追記
尚、利用に当たっては他のサーバの負荷をかけてしまう等、注意が必要のようですので、実験の範囲内にした方がよいかもしれません
参考: 使うな→PHPで書かれたWEBクローラー用クラス

関連の記事検索：PHP, crawler, クローラー

スポンサードリンク

By.KJ : 2006年03月03日 15:05

間違いの指摘をしていただける方はメール、あるいはTwitter/FBでお願いします(クリック)

PHP/Ajax/JavaScript/CSS/デザイン等のWEB開発に関する最新技術情報をお届け

PHPで書かれたWEBクローラー用クラス

2006年03月03日-

最新のブログ記事(新着順)