PHPで書かれたWEBクローラー用クラス
2006年03月03日-
スポンサード リンク
SourceForge.net: PHPCrawl
PHPCrawl is a class written in PHP for crawling/spidering websites. It supports filters, limiters, cookie-handling and other features. By overriding a special method of the class users can decide what should happen to the data the webcrawler finds.
SourceForgeにて、PHPで書かれたクローラー用のクラスが公開されています。
クロール後、getReportメソッドで、
- 見つけたリンク数
- 見つけたファイル数
- 受信バイト数
のような値を取得することが出来る模様。
クラスリファレンスはここにあって、出来ることが大体わかると思います。
クローラーはどうやって出来ているんだろう?という疑問もこのライブラリを見ればなんとなく分かるかもしれませんね。
追記
尚、利用に当たっては他のサーバの負荷をかけてしまう等、注意が必要のようですので、実験の範囲内にした方がよいかもしれません
参考: 使うな→PHPで書かれたWEBクローラー用クラス
スポンサード リンク
Advertisements
SITE PROFILE
最新のブログ記事(新着順)
- 小説表紙などに使えそうな商用可なフォント「になロマン」
- 筆で書いたようなカナ書体「筆竹仮名B」
- 無料・商用利用可な丸文字ピクセルフォント「マルミーニャM」
- スペースコブラ風フォント
- Next.jsのVercelから商用利用可能なフリー汎用フォント「Geist Font 」
- 無料で使えるいい感じの日本語フォント「しっぽり太ゴシック」
- CSSのみで実装された500種類のローディングアニメーション「CSS Loaders」
- 画像ホバーで様々なエフェクトをかけられる「Izmir」
- CSSのbox-shadowをGUIで生成できる「CSS Box Shadows Generator」
- 好きな画像や文字を埋め込んだQRコードをリアルタイムで作れるWEBツール
- 過去のエントリ