前の記事 «:これさえやればCSSをマスターできるかもしれないCSSチュートリアル&サンプル20
次の記事 »:alert等のウィンドウ内ダイアログを実現するjQueryプラグイン「jQuery Alert Dialogs」

PHPでWordのdocファイルやPDFをテキストとして読み取る方法

2009年01月05日

スポンサード リンク

Read PDF and Word DOC Files Using PHP

PHPでWordのdocファイルやPDFをテキストとして読み取る方法が紹介されていました。

XPDF packageAntiword というプログラムをshell_execで外部起動するだけなのですが、WordやPDF用の検索のインデックスを作成する時など、なかなかこれは便利そうです。

PDFの場合は、XPDFパッケージをインストールして入るコマンドのpdftotext にファイル名を渡します。最後の - も必要みたい。
$content = shell_exec('/usr/local/bin/pdftotext '.$filename.' -'); //dash at the end to output content
これで $content にpdfのテキストが入る

Wordの場合も同様に、Antiwordをインストールして入る antiword コマンドにファイル名を渡すだけ。
$content = shell_exec('/usr/local/bin/antiword '.$filename);
これで $content に wordのテキストが入る。

覚えておいて損はなさそうですね。

関連エントリ

スポンサード リンク

投稿者 KJ : 2009年01月05日 10:05 | ブックマークに追加する Subscribe with livedoor Reader
間違いの指摘をしていただける方はメールでお願いします


本を執筆しました。