PHPでWordのdocファイルやPDFをテキストとして読み取る方法
2009年01月05日-
スポンサード リンク
Read PDF and Word DOC Files Using PHP
PHPでWordのdocファイルやPDFをテキストとして読み取る方法が紹介されていました。
XPDF package、Antiword というプログラムをshell_execで外部起動するだけなのですが、WordやPDF用の検索のインデックスを作成する時など、なかなかこれは便利そうです。
PDFの場合は、XPDFパッケージをインストールして入るコマンドのpdftotext にファイル名を渡します。最後の - も必要みたい。
$content = shell_exec('/usr/local/bin/pdftotext '.$filename.' -'); //dash at the end to output content
これで $content にpdfのテキストが入る
Wordの場合も同様に、Antiwordをインストールして入る antiword コマンドにファイル名を渡すだけ。
$content = shell_exec('/usr/local/bin/antiword '.$filename);
これで $content に wordのテキストが入る。
覚えておいて損はなさそうですね。
関連エントリ
スポンサード リンク
Advertisements
SITE PROFILE
最新のブログ記事(新着順)
- CSSのみで実装された500種類のローディングアニメーション「CSS Loaders」
- 画像ホバーで様々なエフェクトをかけられる「Izmir」
- CSSのbox-shadowをGUIで生成できる「CSS Box Shadows Generator」
- 好きな画像や文字を埋め込んだQRコードをリアルタイムで作れるWEBツール
- 約7500種の汎用ピクトグラムアイコン集「Phosphor Icons」
- ほぼCSSで実装されたUIフレームワーク「Ellegant CSS」
- TailwindCSSベースの150種類以上のUIライブラリ「SailboatUI」
- 1700種類以上のSVGアイコン「MingCute Icon」
- 2000種類以上の汎用ピクトグラムアイコン集「Atlas Icons」
- かわいい手書き風フォント「うさぎとまんげつのサンセリフ」
- 過去のエントリ