光学文字認識 - Wikipedia
光学文字認識(こうがくもじにんしき、英: Optical Character Recognition)は、活字の文書の画像(通常イメージスキャナーで取り込まれる)をコンピュータが編集できる形式(文字コードの列)に変換するソフトウェアである。一般にOCRと略記される。OCRは、人工知能やマシンビジョンの研究分野として始まった。研究は続けられているが、OCRの中心はその実装と応用に移っている。
(鏡やレンズといった光学技術を使った)光学文字認識と(スキャナーとアルゴリズムによる)デジタル文字認識は本来別の領域と考えられていた。光学技術として生き残った部分が非常に少ないため、光学文字認識という言葉は現在ではデジタル文字認識を含むものとみなされている。
初期のシステムは特定の書体を読むための「トレーニング」が必要であった(事前にその書体のサンプルを読ませることを意味する)。現在では、ほとんどの書体を高い識字率で変換することが可能である。いくつかのシステムでは読み込まれた画像からそれとほぼ同じになるようフォーマットされた出力(例えばワードプロセッサのファイルのようなもの)を生成することが可能であり、中には画像などの文書以外の部分が含まれていても正しく認識するものもある。
水族館は寒すぎるときにどのように指示する
[編集] OCRの歴史
1950年、AFSA(アメリカ国家安全保障局の前身)の暗号解読者デビッド・シェパードは、日本のパープル暗号を解読したことで知られるフランク・ロウレットの依頼により、Dr.
フクロウは片目を開けて寝ていないルイス・トーデラと共に局の手続きの自動化の勧告案作成に取り組んだ。その中には印刷された文書をコンピュータが処理できる形式に変換する問題も含まれていた。シェパードはそのようなことをする機械 "Gismo" を作成することを決め、友人のハーヴェイ・クックと共に自宅で夜や週末を利用して試作に取り組んだ。彼が特許(米国特許番号 2,663,758)を取得後、このことが1951年4月27日付けの Washington Daily News と1953年12月26日付けの New York Times に掲載された。シェパードはその後 Intelligent Machines Research Corporation (IMR) を設立し、世界初のいくつかの商用OCRシステムを出荷した。Gismo も IMR のシステムも単純な文字マッチングではない画像解析をしていて、いくつかの書体を認識することができた。Gismo は画像中の文字の位置を正確に合わせる必要があったが、IMRシステムではスキャン領域のどこの文字であっても認識でき、実用に耐えるものであった。最初の商用システムは1955年にリーダーズ・ダイジェスト社に納入された。このシステムは後にスミソニアン博物館に無償で提供され展示されている。2台目のシステムはスタンダード・オイルがカリフォルニア州でクレジットカードの文字を読み取るために使い、他の石油会社もこれに追随した。IMRが1950年代後半に販売した他のシステムとしては電話会社の請求書読み取り装置やアメリカ空軍のテレタイプ用ページスキャナーなどがある。IBMなどは後にシェパードからOCRのライセンス供与を受けている。
ジークムント·フロイトは何を信じていた
アメリカの郵便局も1965年から発明家ジェイコブ・レインボーの開発した技術を元にしてOCRマシンを使っている。カナダの郵便局は1971年からOCRを使用している。OCRは受取人の名前と住所を読み取ってソート(分類)するために使われる。そして郵便番号に基づいたバーコードを封筒に印刷する。その後手紙はバーコードにしたがって細かくソートをする。バーコードが宛名とかぶる可能性があるため(基本的に宛名や住所はどこに書いても良い)、バーコードは紫外線ライトで見える特殊なインクを使用している。このインクは通常の光ではオレンジ色に見える。
なお、日本では漢字の読み取りが難しいため、1968年7月1日に郵便番号が導入され、手書きの数字である郵便番号をOCRシステムで読み取ってソートしていた。1998年に郵便番号の7桁化がなされてからはOCRで読み取った際にアメリカのようにバーコード(ただしこちらは可視光では無色なインクを使用)を印刷するようになった。
[編集] OCR技術の状況
ラテン文字の活字文書の正確な認識はほとんど解決済みの問題であり、識字率(文字を正しく認識する確率)は99%を越えているが、間違いの許されない状況では人間が結果を確認する必要がある。手書き文字認識や文字数の多い言語の文字認識ではまだ研究の余地がある。
手書き文字認識システムは近年、商用で成功している分野である。この技術はPalm OSなどが動作する携帯情報端末で入力手段として採用された。アップル・ニュートンがこの技術の先駆者である。これらの機器では筆順や速度や線の方向が入力時に分かるので比較的認識が容易である。また、ユーザー側も徐々に認識されやすい文字を書くようにトレーニングされるという面もある。
一方、紙に書かれた手書き文字を認識するソフトウェアには上記の利点が無いため、識字率はいまだ十分とは言えない。きれいに書かれた手書き文字でも識字率は80%から90%であり、1ページにつき数十個の認識不能文字が出現することになる。これは非常に限られた分野でしか実用化できないレベルである。
筆記体文書の認識は研究が盛んであるが、識字率はさらに低い。筆記体の文字認識の識字率を高めるには、文脈や文法の情報を使わなければならない。例えば、辞書の単語を認識するのは、手書き原稿の個々の文字を認識するよりも簡単である。小切手に書かれた数字の列は小さな辞書を使えばいいので識字率を上げることができる。スキャンしている文書の言語の文法に関する知識があれば、単語が名詞なのか動詞なのかを判別することが可能となり識字率を上げることができる。手書き文字の形だけでは正確な認識(一般に98%以上)は不可能といってよい。
コンピュータと人間にとって特に難しい問題は、例えば古い教会の洗礼と結婚の記録である(名前が列挙してある)。これらは経年変化で劣化しているうえ、現代では使われなくなった非常に珍しいスペルが使われていたりする。コンピュータの画像処理技術を使って人間がアルキメデス・パリンプセストや死海文書のような非常に解読が困難な文書を読むことが試みられている。このような人間とコンピュータの共同作業は興味深い研究領域と言えよう。
一般に、より複雑な認識問題にはニューラルネットワークを使うことが多く、非線形な変形でも線形な変形でもよく機能する[1]。
1970年代、印刷された楽譜を読み取る研究がMITなどの研究所で行われた。その後楽譜の記号を認識する研究が続けられ、商用のソフトウェアは 1991年に "MIDISCAN for Windows" (現:SmartScore) がリリースされた。 なお日本においては1995年楽譜OCRを搭載した楽譜作成ソフトウェアのスコアメーカーが河合楽器製作所にて製造販売されている。
人間にも読めてコンピュータも高速に処理できる文字情報として磁気インク文字認識 (Magnetic Ink Character Recognition) がある。この場合、誤認識は20,000から30,000文字に1文字である。
0 コメント:
コメントを投稿