pdfの資料が送られてきて、一部の内容をテキスト選択してメモ帳にコピーしたかったのですが、すべて画像形式になっているらしく、テキストとして選択することが出来ませんでした。
それで、日本語のOCRでフリーなものを探したんですが、SmartOCR Lite Edition の配布は2006年に終了。クセロReader ZEROのOCR機能のフリー版、これも2009年7月に配布が終了していた。
さらに検索すると、「Microsoft Office Document Imaging」というOCRがあることが分かりました。
これはoffice2003、2007には存在しているようで、標準のインストールをしている場合には入っていないため、インストールする必要があります。
幸い会社のOfficeが2007であることから、下記のリンクを参考にインストールしました。
2007版:【 2007 Office プログラムに同梱されている Microsoft Office Document Imaging プログラムで .mdi ファイルが開かない 】
http://support.microsoft.com/default.aspx/kb/926198/ja
2003版:【 Microsoft Office Document Image Writer インストール方法 】
http://blog.vichou.net/?eid=272437
目的のpdfを画像コピーしてPaintにてtiffファイルで保存、Microsoft Office Document Imagingを起動してtiffファイルを読み込む。
これによってテキストに変換することが出来ました。日本語OCRとしては、十分に使えます。
http://www.itmedia.co.jp/enterprise/0310/21/epn13.html
あと、「Microsoft Office Document Imaging *.* Type Library」として参照することで、プログラムを組むことも出来るようです。
静止画の文字認識
http://hpcgi1.nifty.com/MADIA/VBBBS/wwwlng.cgi?print+200805/08050013.txt
画像の文字読み取りコンポーネントを探しています
http://bbs.wankuma.com/index.cgi?mode=al2&namber=51622&KLOG=87
そういえば、Evernoteに日本語OCR機能があるってことで試してみたのですが、確かに検索すると画像の文字がハイライトされるようになっているのですが、その画像をテキストとしてコピーすることは出来ませんでした、残念。もしかしたら方法があるのかも知れませんけどね。