PHPでWordのdocファイルやPDFをテキストとして読み取る方法
2009年01月05日-
スポンサード リンク
Read PDF and Word DOC Files Using PHP
PHPでWordのdocファイルやPDFをテキストとして読み取る方法が紹介されていました。
XPDF package、Antiword というプログラムをshell_execで外部起動するだけなのですが、WordやPDF用の検索のインデックスを作成する時など、なかなかこれは便利そうです。
PDFの場合は、XPDFパッケージをインストールして入るコマンドのpdftotext にファイル名を渡します。最後の - も必要みたい。
$content = shell_exec('/usr/local/bin/pdftotext '.$filename.' -'); //dash at the end to output content
これで $content にpdfのテキストが入る
Wordの場合も同様に、Antiwordをインストールして入る antiword コマンドにファイル名を渡すだけ。
$content = shell_exec('/usr/local/bin/antiword '.$filename);
これで $content に wordのテキストが入る。
覚えておいて損はなさそうですね。
関連エントリ
スポンサード リンク
Advertisements
SITE PROFILE
最新のブログ記事(新着順)
- 2012年2月10日 管理人のブックマーク
- ブラウザ上でPDFを表示するJSライブラリ「PDF.js」
- 次世代の検索フォームを作成するjQuery&CSS3サンプル
- 2012年2月9日 管理人のブックマーク
- faviconを書き換えてfacebookの通知っぽくしてくれるfaviconアラート実装ライブラリ「Tinycon」
- ページめくりを実現するためのjQueryプラグイン集
- 2012年2月8日 管理人のブックマーク
- HTMLをアップするとCSSのスケルトンを自動生成してくれる「bearcss」
- HTML5で綺麗でインタラクティブなグラフが描けるライブラリ「Flotr2」
- 2012年2月7日 管理人のブックマーク
- 過去のエントリ



















間違いの指摘をしていただける方はメール、あるいはTwitterでお願いします(クリック)




