タイガー！タイガー！じれったいぞー！（SE編）

AS400, Java, JavaEE, JSF等の開発、習慣など。日々の気づきをまとめたブログ（備忘録）

【Acrobat】画像形式のPDFファイルを検索可能な文字列へ変換する

Acrobat

概要

有償の「Adobe Acrobat」には、OCRテキスト認識の機能があります。画像形式のPDFを変換すれば、文章が文字列として認識されテキスト検索できたり、行をマーキングできたりと、便利にPDFファイルを活用できるようになります。ついこの前までこの機能を知りませんでした。。。

操作手順

動作検証：ADOBE ACROBAT 8 STANDARD 8.2.5

①画像形式のＰＤＦファイルを開く

②「文書」メニューから「ＯＣＲテキスト認識」→「ＯＣＲを使用してテキスト認識」を選択

f:id:no14141:20131020174440j:plain

③設定画面

とりあえず、私はそのままで「ＯＫ」してみました。

f:id:no14141:20131020174452j:plain

④ 結果確認

テキスト検索も可能に！・・・ただし検索結果位置が漢字１文字分くらいズレてしまいます。これはVersionを新しくすれば直っているのかもしれません。

f:id:no14141:20131020174506j:plain

テキストをマーキングしたり、下線を引いたりできます。自炊した電子書籍に効果を発揮しそうですね。

f:id:no14141:20131020174524j:plain

なお、変換するとファイルサイズが小さくなりました。

A4サイズ10ページの変換結果
処理方法	結果サイズ(KB)	備考
何もしない	5,018	文字検索等できず
画像のダウンサンプリング＝最低(600dpi)	2,307	じゅうぶん読める！
画像のダウンサンプリング＝高(72dpi)	614	表示が荒くて、字が読みにくくなった