http://seldon.cocolog-nifty.com/petapeta/より。
該当記事でやっているのはパターンマッチング用の元になるフォントの抽出作業なのだけど、
実は、これは別に機械でやる必要がないのです。手作業でも構わない。
先の「はてなのCAPTCHAは簡単に破れる」
では抽出作業をメインに解説しましたが、適当な画像編集ツールで、それこそWindowsのペイントで十分なのですが、
手作業で元フォントを抽出しておけば、あとはマッチングで一致率をみるだけ。
つまり、あの記事の殆どは比較のための下準備の話だったりします。
実際に機械でのマッチング処理をして検証してはいませんが、ココログも抽出した元フォントとの一致率を見れば
相当な高精度でCAPTCHAの文字を認識できることでしょう。
CAPTCHAの基本的な思想とは?
wikipediaの記事には初期のCAPTCHAは、
ブラザー工業のスキャナの取扱説明書には、OCRの結果を改善するためには均質な活字面、無地の背景を用いるよう薦められていた。そこで彼らは取扱説明書に「OCR認識の結果を悪くする」と書いてある条件を真似て最初のCAPTCHAを作り出した。
という発想の元、作られているのです。OCRというのは画像から文字を認識するソフトのことですね。
OCR技術の逆を行くことで機械では読み取りにくい文字にすることができ、それをもって機械をはじこうというのです。
CAPTCHAに込められた思いを汲み取らず、画像の文字を手で入力させるという手法だけを汲み取った
プログラマが機械で認識することが難しくないCAPTCHAもどきを作ってしまう…。
プログラミングをするには、対象となる事象への関心を持つことから始めなければなりません。
現実世界をどんどん取材してまわないといけない。
「プログラムのことしか知らない」ようでは「世間知らずなシステム」を作り上げてしまうことになるのです。
投稿日時 : 2007年10月30日 10:39