手話認識に関する研究

研究概要

手話に関する工学分野には、主には手話の読み取り（手話認識）と手話映像を生成するもの（手話合成）があります。当研究室では主に前者の研究領域でいろいろな研究を行っています。これまでの研究の取り組みについて、本学の産学官連携室の関連資料もご覧ください。[聴覚障害者とのコミュニケーションを支援する自動手話単語認識技術]

☝ サブユニットモデルによる手話認識

この研究は主に2009年度修士課程修了の有賀さんが取り組みました。手話の語彙は主に手指信号によってあらわされるとされています。それらの身体動作の特徴を画像やセンサから取得し、なんらかのパターン認識技術によって認識・分類を行う手法が広く研究されてきました。この研究では、手指信号が主に手の動き・手の位置・手の形によって構成されることを念頭に、その性質に合わせた認識モデルを検討しました。隠れマルコフモデルを拡張することで、そのような特徴を個別に扱えるようにすると同時に、単語表現の中に現れる共通性を利用することで、手話単語の認識性能が高まることを示しました。

☝ 深度センサを用いた手話認識システム

この研究は主に2015年度修士課程修了の波多野さんが取り組みました。視覚言語である手話では3次元的な身体動作に様々な語彙・文法表現が含まれます。深度センサ(Depthセンサ）の登場により、画像処理を用いることなく奥行情報を高速・高精度に取得できるようになりました。この研究では、代表的な深度センサであるKinect version 2を用いて手話単語のリアルタイム認識技術を提案しました。この研究成果は、経済産業省の支援事業により、民間企業との協力のもとで小型キオスク端末による連続手話認識システムの開発にも活用されました。

☝ 指文字の認識

この研究は2017年度修士課程修了の細江さん、2019年度修士課程修了のナムさんが取り組みました。手話では様々な語彙は主に手の動きや形によって表現されますが、人名や地名などの固有名詞には特定の表現が存在しない場合もあり、そのような場合に日本手話では日本語のひらがな一文字一文字に対応した固有の指の形（指文字）を使って表現します。これは他の手話でも主要な言語の表音文字を指で表現します（fingerspelling）。手話の自動認識の研究の一部として、動画像から指文字を認識する研究が広く行われています。指文字は文字ごとに決まった形はあるものの、人によって指の形や提示方法が異なり、撮影する方向によってさまざまに変化します。たくさんの種類のデータを収集することなく、3Dモデルによってさまざまな形状の変化や視点による違いを再現したデータを生成し、指文字認識の性能向上を目指しました。ポーランドAGH科学技術大学のBogdan Kwolek先生との共同研究を行いました。

☝ 一人称視点映像による手話認識

この研究は主に2022年度博士課程修了（学位取得）の三浦さんが取り組みました。手話の読み取りを、手話をしている本人視点の映像（一人称視点映像）によって行うというほかに類のない研究です。従来の映像を用いた手話の自動認識技術は、そのほとんどが手話をしている人物を対面で撮影した動画データを用いて行ってきました。しかし、手話は空間全体を用いて行う視覚言語であることから、手話者本人が見ている視界の情報も不可欠です。例えば、指差し（ポインティング）の先にある対象が手話の意味理解に必要になるため、従来のような本人を撮影した映像データでは、ポインティングの先にある人物や物体、あるいは方向のような情報が欠損する問題があり、完全な意味解釈ができないという課題がありました。

そこでこの研究では、本人視点の全方位カメラ（360°カメラ）を用いることで、手話をする人物の視点の映像データだけでなく、手話をする本人の身体動作のトラッキングも同時に行うための技術について検討し、そのようにして得られた身体動作情報が手話の自動認識に役立つことができるのかについて検討を行いました。

研究概要

☝ サブユニットモデルによる手話認識

☝ 深度センサを用いた手話認識システム

☝ 指文字の認識

☝ 一人称視点映像による手話認識

関連文献