2010年度修士論文
「画像処理を用いた点字自動認識システムの試作」
情報バリアフリー研究室　小島和倫

.目次

■研究の概要
■システムの概要
■認識精度
■まとめ
■リンク

.研究の概要

私たち人間は，周囲からの情報を五感（視覚，聴覚，嗅覚，味覚，触覚）によって取り入れている．これらのうち，視覚によって取り入れられる情報は五感全体によるものの80％以上を占めると言われている．もしこの視覚の働きが不十分なものになってしまった場合，取り入れられる情報量は激減するため，日常生活において相当な不便を強いられることになる．このように視覚機能の著しい低下によって得られる情報量が減っている，もしくはなくなってしまっている状態は視覚障害であると考えられる．
　視覚障害者の日常生活における不便な点の１つとして，通常の文字を読むことができないというものがある．視覚障害者はこれを軽減するために点字を用いていると思われがちであるが，視覚障害者全体のうち点字を読むことの出来ない人は７割程度にまで及んでおり，実際には点字を活用することのできない視覚障害者は多いという現状にある．
　そこで本研究では，点字を読むことのできない視覚障害者が点字を理解するための方法として，カメラ等で撮影された点字を画像処理によって認識し翻訳するシステムを挙げ、その試作を行った．また本研究では点字数の多い点字表示板に対して高い点字認識率を出すこと，カメラ等のフラッシュ機能が用いられた画像からの点字認識を可能にすることを目的としてシステムの試作を行った．

.システムの概要

システムの大まかな流れは以下のようになっている．赤線で囲まれている部分が点字自動認識システムの処理部分である．

【点字の大きさ推定】

　点字の大きさ推定では，点字における各距離を求める処理を行う．ここで点字における各距離とは，以下の図に示す通り，打点間距離・文字間距離・マス間距離の３つのことを指す．これら３距離は２:３:５の関係になっている

打点間・文字間・マス間距離

　処理の内容としては，まず入力画像の中心部分を切り出し，その画像に対して自己相関を取る．自己相関関数の抽出結果を示すグラフ中に，シフト画素数が２:３:５の関係になっている３つのピーク値を探し，それが見つかればそれらのシフト画素数をそれぞれ打点間・文字間・マス間距離であると推定する．処理の様子を以下の図に示す．

点字の大きさ判推定処理

【打点１個の抽出】

　次に打点１個を抽出する処理を行う．この処理では，中心画像において周囲との明るさが異なり，かつ円形である領域を１個抽出する．まず周囲との明るさが異なる部分を強調するために，近傍画素との輝度値差を算出する処理を行う．ここでは注目画素を含む中心部分とその周りの点字１文字分の範囲を持つ周囲部分との輝度値を比較し，その差を算出する．

近傍画素との輝度値差算出の処理

　次に，円形領域の抽出を行う．ここでの領域の抽出には動的輪郭法を用いる．動的輪郭法とは，下の図に示すように，複数の点によって構成されるモデルを，各点がより特徴量の大きい場所に移動していくことによって領域を抽出する方法である．近傍画素との輝度値差を算出した画像内における周囲よりも画素値の大きい各場所に対してこのモデルを適用し領域の抽出を行う．抽出された領域のうち，円形度が高く，輪郭点の特徴量が最も大きいものを１打点として抽出する．

円形領域の抽出処理

【打点検出】

　抽出された１打点のデータを用いて，他の打点の検出を行う．打点検出処理にはテンプレートマッチングを用いる．テンプレートマッチングでは，抽出された１打点を最初のテンプレートとし，入力画像内との比較を行う．
　ここでは，テンプレートを切り替えながらマッチングの処理を行う方法を用いる．まずテンプレートを中心とした狭い範囲（点字３個分程度の範囲）に対してマッチングを行う．相関度の高い場所が検出された場合，テンプレートをその場所のデータに切り替え，その場所を中心とした同規模の範囲に対して再びマッチングを行う．このように，相関度の高い場所にテンプレート切り替えながらマッチングを繰り返し行い，打点の検出を行っていく．

　狭い範囲でのマッチング処理を，相関度の高い場所が検出されなくなるまで行った後，今度は広い範囲（点字７～８個分）でのマッチングを行う．これは，狭い範囲での処理だけでは別の行に位置する打点や離れた打点を検出することができないためである．この広い範囲でのマッチングで相関度の高い場所が検出された場合，その場所をまた新たなテンプレートとして切り替えを行い，狭い範囲でのマッチング処理に戻って打点の検出を行っていく．

以上のように，狭い範囲と広い範囲でのテンプレートマッチング処理を交互に繰り返し行うことによって入力画像内の打点を検出する．このようにテンプレートを切り替えながら処理を行うことによって各場所に適したテンプレートを用いることができるため，カメラのフラッシュ機能が使用された場合の画像に起こる明るさの変化にある程度対応することが可能であると考える．

【点字検出】

打点検出処理で検出された打点を，同じ点字を構成する打点ごとに１点字ずつ区切る処理として，点字検出を行う．点字検出では点字１文字分の大きさを持つ格子データを作成し，それを打点検出位置に重ね合わせることによって点字の位置を検出する．格子の空白部分に打点検出部分が納まっていればその場所には点字が存在すると推定し，より納まる打点数の多い場所を優先して検出されるようにする．

【点字変換】

　点字変換では，検出された各点字の打点配置情報を取得し，それをカナ文字へと変換，そして音声出力を行う．
　打点配置情報の取得については以下の図に示すように，１点字における打点配置番号を左上の打点位置から縦方向へ順に①～⑥とし，検出打点が存在する場所の番号を昇順に並べたものを打点配置データとして取得する．また，打点配置データは画像中で最も左上に位置する検出点字から右方向に走査し，１行ずつ順に取得していく．

　最後に，取得された打点配置データをそれぞれ対応するカナ文字・数字等に変換し，音声出力を行う．音声出力にはテキスト読み上げソフトを用いる．クリップボードの内容を自動で読み上げる機能を利用し，変換されたカナ文字の内容をクリップボードに入力しソフトに読み上げさせることによって音声出力を行う．

.認識精度

　作成したシステムを用いて処理実験を行い，点字表示板の材質別に金属(反射影響小)・金属(反射影響大)，プラスチックの３種類，それぞれにおいてカメラのフラッシュ機能の使用・不使用の２種類，計６種類に画像を分類し認識精度を算出した．分類されたそれぞれの画像の例を以下に示す．

　認識精度を表す指標としては，点字検出率・検出成功率・変換成功率の３つを用いる．それぞれの算出式は以下のようになっている．

・点字検出率＝(検出成功点字数)÷(全点字数)
・検出成功率＝{(検出成功点字数)－(誤検出数)}÷(全点字数)
・変換成功率＝(検出成功率)×{(検出成功点字数)×6÷(検出成功打点数)}

　処理実験の結果を以下の表に示す．変換成功率では，フラッシュ不使用時と使用時について，金属(反射影響小)の表示板でそれぞれ93.8%と86.6%，金属(反射影響大)ではそれぞれ91.0%と77.1%，プラスチックではそれぞれ66.7%と86.8%となった．

処理実験結果表

.まとめ

　本研究では，点字を読むことのできない視覚障害者が点字を読むための方法として，点字を画像処理によって認識しカナ文字へと変換，また音声出力を行うシステムの試作を行った．このシステムを用いて95枚の点字が撮影された画像で実験を行った結果，金属の表示板では90%以上という高い認識精度を得ることができ，またカメラのフラッシュ機能が使用された場合においても86.6%となり，ある程度高い精度で認識可能なものとなった．プラスチック表示版においては金属の表示板とは逆にフラッシュが使用された場合の方に高い精度が出るという結果になった．
　今回試作したシステムの問題点としては，通常の文字・絵などと点字が重なって表記されているものや，場所によって色の異なる点字表示板からの認識が現時点ではできないということがある．これらの場合であっても点字の認識が可能なものとなれば，システムとしてより有用なものになると考えられる．

.リンク

・立命館大学
・情報バリアフリー研究室