前の記事 ≪:これさえやればCSSをマスターできるかもしれないCSSチュートリアル&...
次の記事 ≫:alert等のウィンドウ内ダイアログを実現するjQueryプラグイン「jQuery Alert...

PHPでWordのdocファイルやPDFをテキストとして読み取る方法

2009年01月05日-はてなブックマーク

スポンサード リンク
[PR] 英単語を忘却曲線アプリを使って超効率よく記憶する方法

Read PDF and Word DOC Files Using PHP

PHPでWordのdocファイルやPDFをテキストとして読み取る方法が紹介されていました。

XPDF packageAntiword というプログラムをshell_execで外部起動するだけなのですが、WordやPDF用の検索のインデックスを作成する時など、なかなかこれは便利そうです。

PDFの場合は、XPDFパッケージをインストールして入るコマンドのpdftotext にファイル名を渡します。最後の - も必要みたい。
$content = shell_exec('/usr/local/bin/pdftotext '.$filename.' -'); //dash at the end to output content
これで $content にpdfのテキストが入る

Wordの場合も同様に、Antiwordをインストールして入る antiword コマンドにファイル名を渡すだけ。
$content = shell_exec('/usr/local/bin/antiword '.$filename);
これで $content に wordのテキストが入る。

覚えておいて損はなさそうですね。

関連エントリ

関連の記事検索:PHP, pdf, word
スポンサード リンク

By.KJ : 2009年01月05日 10:05 livedoor Readerで購読 Twitterに投稿

間違いの指摘をしていただける方はメール、あるいはTwitter/FBでお願いします(クリック)