PHPでWordのdocファイルやPDFをテキストとして読み取る方法
2009年01月05日
スポンサード リンク
Read PDF and Word DOC Files Using PHP
PHPでWordのdocファイルやPDFをテキストとして読み取る方法が紹介されていました。
XPDF package、Antiword というプログラムをshell_execで外部起動するだけなのですが、WordやPDF用の検索のインデックスを作成する時など、なかなかこれは便利そうです。
PDFの場合は、XPDFパッケージをインストールして入るコマンドのpdftotext にファイル名を渡します。最後の - も必要みたい。
$content = shell_exec('/usr/local/bin/pdftotext '.$filename.' -'); //dash at the end to output content
これで $content にpdfのテキストが入る
Wordの場合も同様に、Antiwordをインストールして入る antiword コマンドにファイル名を渡すだけ。
$content = shell_exec('/usr/local/bin/antiword '.$filename);
これで $content に wordのテキストが入る。
覚えておいて損はなさそうですね。
関連エントリ
スポンサード リンク
投稿者 KJ : 2009年01月05日 10:05
|
![]()
間違いの指摘をしていただける方はメールでお願いします
最新のブログ記事
- Facebook風のサムネイル付きサジェストボックスを実装するサンプル
- 2009年7月3日 管理人のブックマーク
- PHPとCSSで動的に綺麗なパーセンテージグラフを描画サンプル
- 普通の写真をすばらしいアートにするためのPhotoshopチュートリアル集
- シマシマの見やすいテーブルを作成するMooToolsプラグイン「ZebraTable」
- 2009年7月2日 管理人のブックマーク
- 「フォローしてね」を表すTwitterアイコン集
- シンプルなTwitter検索を行うためのPHPスクリプト
- PHPのcURLを使ってできる便利なサンプル集
- 2009年7月1日 管理人のブックマーク
- iPhone3.0の緯度経度APIで移動履歴を地図描画するサンプル





















