PHPで書かれたWEBクローラー用クラス
2006年03月03日-
スポンサード リンク
SourceForge.net: PHPCrawl
PHPCrawl is a class written in PHP for crawling/spidering websites. It supports filters, limiters, cookie-handling and other features. By overriding a special method of the class users can decide what should happen to the data the webcrawler finds.
SourceForgeにて、PHPで書かれたクローラー用のクラスが公開されています。
クロール後、getReportメソッドで、
- 見つけたリンク数
- 見つけたファイル数
- 受信バイト数
のような値を取得することが出来る模様。
クラスリファレンスはここにあって、出来ることが大体わかると思います。
クローラーはどうやって出来ているんだろう?という疑問もこのライブラリを見ればなんとなく分かるかもしれませんね。
追記
尚、利用に当たっては他のサーバの負荷をかけてしまう等、注意が必要のようですので、実験の範囲内にした方がよいかもしれません
参考: 使うな→PHPで書かれたWEBクローラー用クラス
スポンサード リンク
Advertisements
SITE PROFILE
最新のブログ記事(新着順)
- 15000以上のいい感じの線形アイコン「Lineicons」
- CSSやTailwindでのCSSスニペットライブラリ「CSS Snippets Library」
- AIを使ってサイトマップが作れる「Octopus.do」
- ライブラリ依存のないモーダルオープンライブラリ「Blendy」
- 個性的な明朝フリーフォント「築豊初号明朝OFL」
- CSSで太陽が差し込むようなアニメーション実装
- 可愛くアニメーションする「beautifully crafted animated icons」
- アイソメトリックなアイコンがアイコンがPNG,SVGでゲットできる「Isoicons」
- ユニークなカタカナフォントtorisippo
- 美しいメッシュグラデーションをCSSで簡単に取得できる「MSHR」
- 過去のエントリ