【自己紹介】
閲覧いただきありがとうございます。大学4年生で卒業研究中のmapidaと申します。
研究テーマは「画像処理を用いた読唇術アプリの開発」をしています。
聴覚障がい者の方に役立てる一歩となればと思い、作り始めました。
javaの知識がほぼないので勉強中ですが、完成予定が1月下旬のため、残り日数でできるか不安になり書かせていただきます。
【開発環境】
Windows7、Eclipse、java言語、Android AP17 4.2.2(au SHL24)
制限として
・発言者ははっきりと大きな口を開けて話すこと
・日本語に特定 ・人物は1人に特定 ・テキスト出力はひらがなのみ
以上のことを考えています。出来れば向上も図っていきたいです。
【目標・考え方】
androidカメラで人が話している映像を撮影し保存します。
アプリ内で動画を読み込み、唇の動きを解析し、しゃべった言葉をひらがなで画面に出力しようと考えています。
唇の動きの解析は、OpenCVで行おうとしています。以下サイトを見たからです。
参照:OpenCV for Android のサンプル・チュートリアル一覧
http://is.gd/EBxqnFサンプルコードを実機で起動させてみました。
考え方は、"Face Detection"で顔を認識し縦の長さを半分ほどにして、
その範囲を"Image Manipulations"でエッジ検出を行い、唇の右端と左端をつなぎ中心線を作る。
中心線から何ビット動けば「あ」と出力する、ということです。
精度を上げるには学習システムがいいと考えています。しかし、参考サイトが見つかりませんでした。
解析後にできたテキストが違ったら修正します。
"唇が動いたビット数"にひらがなを記憶する という感じです。
記憶された中からアルゴリズムができていくと思うので、正答率の高いものを表示していく。
【問題点】
・調べても実際のカメラ映像を解析するものしか載っていない
→動画を読み込んで解析したい
・サンプルコードの2つ("Face Detection""Image Manipulations")をどう組み合わせていいかわからない
→顔認識プログラムににエッジ検出をプログラムを組み込めばいいと思うが、どの部分かわかっていない。
勉強中です、助言いただければありがたいです。
・唇の解析の仕方がそれでいいのかわからない。
→やってみないとわかりません;こちら文献(http://is.gd/05LvAV)で"唇の動き全体の方が重要"と書いてありました。
唇の周りも含めて検出する方法が思いつきません。助言お願いします。
・学習ソフトがどういったプログラムかわからない
→なにか案がありましたらお願いします。
【最後に】
最後まで読んでいただきありがとうございます。勉強不足なのは重々承知しています。
なにか少しでもアドバイス、参考サイト、考え方などをいただけたらうれしいです。返信待っています。