[裏ワザ]PDFファイルが文字化け!? 画像をテキスト変換する方法

こんにちは! ヨス(プロフィールはこちら)です。

WEBの作成を依頼されたときに、元データ(テキスト)がPDFファイルだったことがあります。で、そのPDFファイルを開いて、文字データをコピーし、TeraPadみたいなメモ帳にペーストすると……なんと文字化け

そんなときはAdobe Acrobatを使って「画像化+文字認識」で簡単に解決します。

文字化け無しの文字をPDFからとる手順

PDFの元データはこんな感じ
PDFの元データはこんな感じです。

文字化けしたPDFから文字データを取る方法は、簡単に言うと、PDFデータを画像データに変換し、今度は画像データの文字画像を文字として認識させるという過程です。

Adobe Acrobatを開き、PDFファイルをJPEG保存

まずは、Adobe Acrobatを開きます。そして文字データを取り出したいPDFファイルを開きます

そして、下記の手順で別名で保存します。

別名保存する

以下の手順で別名で保存して下さい。

別名保存する
別名で保存:[ ファイル ] → [ 名前を付けて保存 ] → [ 画像 ] → [ JPEG ]

ドラッグしても選択できなく

JPEGで保存することで、一枚の画像として保存されます

保存ボタンを押す。

ここで文字が画像になるので、文字の上をドラッグしても文字として選べなくなります。

文字と画像化した文字の違いはこんな感じです。

文字に見える画像
この文字は画像なのでドラッグできません。

こちらは文字です。なので、ドラッグすると文字を選択できます。

Adobe Acrobatで保存したJPEGファイルを開く

先ほど保存したJPEGファイルをAdobe Acrobatで開きます。ただそれだけです(笑)

JPEGファイルの開き方:[ ファイル ] → [ 作成 ] → [ ファイルからPDF ]

テキスト認識させる

テキスト認識とは、JPEGファイルのような画像データの中に入っている文字を「文字」として認識してくれる機能です。これによって、ドラッグ&コピーすることで文字をコピーできます。

このテキスト認識機能ですがスゴイ精度ですね。「☆」のマークが「大」になったり、「▲」のマークが「A」になったりしますが、ほとんどの文字は問題なく文字になります
!

テキストの認識

テキストの認識
テキスト認識の方法:[ 表示 ] → [ ツール ] → [ テキスト認識 ]

OKを押す

右側にメニューが出てくるので、[ このファイル内 ] → [ OK ]

これで単なる画像だった文字が、ちゃんとした文字になりました!するとなんと!! 文字化けせずに文字を取れます!! やったね!

2019年12月21日追記: 現在はスマホのOCRアプリをオススメしています。

文字化けってなった瞬間ショックを受けますよね~。ぜひ使ってみてください。

ただ、今回の技はかなり裏技的なだと思います。ほかに正式にやる方法があるのかもしれませんが、覚えておくと重宝すると思いますので。