概要 | 本研究開発では,障害者の自立生活支援を目指し,雑音環境下で頑健に発話認識を行う手法の一つとして,顔部位画像情報を,音声情報に併用したマルチモーダル認識を行う.実際の生活環境下では,発話者の顔が横を向いてしまうと,画像センサーから見た時の顔の形が変わるため,認識精度が大きく劣化する.本研究では,Active Appearance Modelsを用いることで,大語彙連続発話のタスクにおいて,雑音下での斜め方向発話に対して認識精度を改善することが出来た.今後は,少量学習データによる音響及び画像モデル適応化,不特定話者による認識を検討する事により,実用化を目指して行く.
|