タイガー!タイガー!じれったいぞー!(SE編)

AS400, Java, JavaEE, JSF等の開発、習慣など。日々の気づきをまとめたブログ(備忘録)

【Acrobat】画像形式のPDFファイルを検索可能な文字列へ変換する

概要

  • 有償の「Adobe Acrobat」には、OCRテキスト認識の機能があります。画像形式のPDFを変換すれば、文章が文字列として認識されテキスト検索できたり、行をマーキングできたりと、便利にPDFファイルを活用できるようになります。ついこの前までこの機能を知りませんでした。。。

操作手順

動作検証:ADOBE ACROBAT 8 STANDARD 8.2.5

①画像形式のPDFファイルを開く
②「文書」メニューから「OCRテキスト認識」→「OCRを使用してテキスト認識」を選択

f:id:no14141:20131020174440j:plain

③設定画面
  • とりあえず、私はそのままで「OK」してみました。

f:id:no14141:20131020174452j:plain

④ 結果確認
  • テキスト検索も可能に!・・・ただし検索結果位置が漢字1文字分くらいズレてしまいます。これはVersionを新しくすれば直っているのかもしれません。

f:id:no14141:20131020174506j:plain

  • テキストをマーキングしたり、下線を引いたりできます。自炊した電子書籍に効果を発揮しそうですね。

f:id:no14141:20131020174524j:plain

  • なお、変換するとファイルサイズが小さくなりました。


A4サイズ10ページの変換結果
処理方法 結果サイズ(KB) 備考
何もしない 5,018 文字検索等できず
画像のダウンサンプリング=最低(600dpi) 2,307 じゅうぶん読める!
画像のダウンサンプリング=高(72dpi) 614 表示が荒くて、字が読みにくくなった