PHPで書かれたWEBクローラー用クラス
2006年03月03日
スポンサード リンク
SourceForge.net: PHPCrawl
PHPCrawl is a class written in PHP for crawling/spidering websites. It supports filters, limiters, cookie-handling and other features. By overriding a special method of the class users can decide what should happen to the data the webcrawler finds.
SourceForgeにて、PHPで書かれたクローラー用のクラスが公開されています。
クロール後、getReportメソッドで、
- 見つけたリンク数
- 見つけたファイル数
- 受信バイト数
のような値を取得することが出来る模様。
クラスリファレンスはここにあって、出来ることが大体わかると思います。
クローラーはどうやって出来ているんだろう?という疑問もこのライブラリを見ればなんとなく分かるかもしれませんね。
追記
尚、利用に当たっては他のサーバの負荷をかけてしまう等、注意が必要のようですので、実験の範囲内にした方がよいかもしれません
参考: 使うな→PHPで書かれたWEBクローラー用クラス
スポンサード リンク
投稿者 KJ : 2006年03月03日 15:05
|
![]()
間違いの指摘をしていただける方はメールでお願いします
最新のブログ記事
- 2008年8月29日 管理人のブックマーク
- 全キャリア対応のデコメールの作成・変換が可能なPHPライブラリ「Qdmail」
- プロフェッショナルなノートパソコンの広告風画像を作る流れ
- 歯車や雲、人型など実用的なPhotoshopブラシ集
- 2008年8月28日 管理人のブックマーク
- オープンソースの便利PHPスクリプトまとめサイト「Open Source PHP」
- 表示法が新しくセクシーなLightBox「SexyLightBox」
- 背景画像やテクスチャ画像のリソース13サイト
- 2008年8月27日 管理人のブックマーク
- Ajaxベースのクールなショッピングカート作成
- WEBで好きな曲を共有可能な音楽共有オープンソース「Opentape」


















