手話認識に関する研究

研究概要

手話に関する工学分野には、主には手話の読み取り(手話認識)と手話映像を生成するもの(手話合成)があります。当研究室では主に前者の研究領域でいろいろな研究を行っています。これまでの研究の取り組みについて、本学の産学官連携室の関連資料もご覧ください。[聴覚障害者とのコミュニケーション を支援する自動手話単語認識技術]

☝ サブユニットモデルによる手話認識

この研究は主に2009年度修士課程修了の有賀さんが取り組みました。手話の語彙は主に手指信号によってあらわされるとされています。それらの身体動作の特徴を画像やセンサから取得し、なんらかのパターン認識技術によって認識・分類を行う手法が広く研究されてきました。この研究では、手指信号が主に手の動き・手の位置・手の形によって構成されることを念頭に、その性質に合わせた認識モデルを検討しました。隠れマルコフモデルを拡張することで、そのような特徴を個別に扱えるようにすると同時に、単語表現の中に現れる共通性を利用することで、手話単語の認識性能が高まることを示しました。

☝ 深度センサを用いた手話認識システム

この研究は主に2015年度修士課程修了の波多野さんが取り組みました。視覚言語である手話では3次元的な身体動作に様々な語彙・文法表現が含まれます。深度センサ(Depthセンサ)の登場により、画像処理を用いることなく奥行情報を高速・高精度に取得できるようになりました。この研究では、代表的な深度センサであるKinect version 2を用いて手話単語のリアルタイム認識技術を提案しました。この研究成果は、経済産業省の支援事業により、民間企業との協力のもとで小型キオスク端末による連続手話認識システムの開発にも活用されました。

☝ 指文字の認識

この研究は2017年度修士課程修了の細江さん、2019年度修士課程修了のナムさんが取り組みました。手話では様々な語彙は主に手の動きや形によって表現されますが、人名や地名などの固有名詞には特定の表現が存在しない場合もあり、そのような場合に日本手話では日本語のひらがな一文字一文字に対応した固有の指の形(指文字)を使って表現します。これは他の手話でも主要な言語の表音文字を指で表現します(fingerspelling)。手話の自動認識の研究の一部として、動画像から指文字を認識する研究が広く行われています。指文字は文字ごとに決まった形はあるものの、人によって指の形や提示方法が異なり、撮影する方向によってさまざまに変化します。たくさんの種類のデータを収集することなく、3Dモデルによってさまざまな形状の変化や視点による違いを再現したデータを生成し、指文字認識の性能向上を目指しました。ポーランドAGH科学技術大学のBogdan Kwolek先生との共同研究を行いました。

☝ 一人称視点映像による手話認識

この研究は主に2022年度博士課程修了(学位取得)の三浦さんが取り組みました。手話の読み取りを、手話をしている本人視点の映像(一人称視点映像)によって行うというほかに類のない研究です。従来の映像を用いた手話の自動認識技術は、そのほとんどが手話をしている人物を対面で撮影した動画データを用いて行ってきました。しかし、手話は空間全体を用いて行う視覚言語であることから、手話者本人が見ている視界の情報も不可欠です。例えば、指差し(ポインティング)の先にある対象が手話の意味理解に必要になるため、従来のような本人を撮影した映像データでは、ポインティングの先にある人物や物体、あるいは方向のような情報が欠損する問題があり、完全な意味解釈ができないという課題がありました。

そこでこの研究では、本人視点の全方位カメラ(360°カメラ)を用いることで、手話をする人物の視点の映像データだけでなく、手話をする本人の身体動作のトラッキングも同時に行うための技術について検討し、そのようにして得られた身体動作情報が手話の自動認識に役立つことができるのかについて検討を行いました。

関連文献

  • 中村 光希, 酒向 慎司, 北村 正, "手単語認識のためのサブユニットHMMの自動生成", 電子情報通信学会総合大会, D-12-124, p. 233, Mar. 2009. [CiNii]
  • 中村 光希, 酒向 慎司, 北村 正, "手話単語を構成するためのサブユニットHMMの自動生成", 第8回情報科学技術フォーラム (FIT2009), K-019, pp. 565–566, Sep. 2009. [CiNii]
  • 有賀 光希, 酒向 慎司, 北村 正, "HMMを用いた手話単語を構成するサブユニットの自動生成手法", 電子情報通信学会研究会技術報告 福祉情報工学研究会(WIT), Vol. 109, No. 358, pp. 1–6, Jan. 2010. [CiNii]
  • 有賀 光希, 酒向 慎司, 北村 正, "HMMに基づく手の動きと形状特徴のストリーム別クラスタリングを用いた手話認識手法", 第9回情報科学技術フォーラム (FIT2010), K-057, pp. 747–748, Sep. 2010. [CiNii]
  • 有賀 光希, 酒向 慎司, 北村 正, "日本手話の音韻構造を考慮したHMMに基づく手話認識", 電子情報通信学会技術研究報告 福祉情報工学研究会(WIT), Vol. 110, No. 221, WIT2010-56, pp. 127–132, Oct. 2010. [CiNii]
  • 酒向 慎司, 有賀 光希, 北村 正, "手話の音韻構造に基づいたHMM手話認識の改善", 電子情報通信学会 福祉情報科学研究会(WIT), Vol. 111, No. 58, WIT2011-8, pp. 41–46, May 2011. [CiNii]
  • 波多野 美歌, 酒向 慎司, 北村 正, "手話動作の3要素に基づく実時間手話認識", 電子情報通信学会研究会技術報告, Vol. 114, No. 92, WIT2014-13, pp. 69–74, Jun. 2014. [CiNii]
  • Mika Hatano, Shinji Sako, and Tadashi Kitamura, "Contour-based Hand Pose Recognition for Sign Language Recognition", Proc. of 6th Workshop on Speech and Language Processing for Assistive Technologies, Sep. 2015. [PDF]
  • 波多野 美歌, 酒向 慎司, 北村 正, "手話認識のための輪郭特徴を用いた手形状認識", 電子情報通信学会研究会技術報告 福祉情報工学(WIT), Vol. 115, No. 100, WIT2015-31, pp. 175–180, Jun. 2015. [CiNii]
  • 波多野 美歌, 酒向 慎司, 北村 正, "Kinect v2による手話動作の3要素に基づく実時間手話認識", 電子情報通信学会研究会技術報告 福祉情報工学研究会(WIT), Vol. 115, No. 491, WIT2015-99, pp. 59–64, Mar 2016. [IEICE]
  • 酒向 慎司, 細江 花, Bogdan Kwolek, "3次元モデルとCNNを用いた指文字認識の検討", 電子情報通信学会技術報告 福祉情報工学研究会, Vol. 117, No. 66, WIT2017-10, pp. 45–49, May 2017.[IEICE]
  • Bogdan Kwolek, and Shinji Sako, "Learning Siamese Features for Finger Spelling Recognition", Advanced Concepts for Intelligent Vision Systems, LNCS, Vol. 10617, pp.225–236, Sep. 2017. [DOI]
  • グエン トゥ ナム, 酒向 慎司, ボグダン クォーレック, 3次元CGモデルとdeep CNNによる指文字認識, 電子情報通信学会技術報告 福祉情報工学研究会, Vol.119, No.165, WIT2019-14, pp.29–34, Aug. 2019. [IEICE]
  • Nam Tu Nguyen, Shinji Ssako and Bogdan Kwolek, "Deep CNN-based Recognition of JSL Finger Spelling", International Conference on Hybrid Artificial Intelligent Systems (HAIS), Lecture Notes in Computer Science book series (LNCS), Vol. 11734, pp.602–613, Sep. 2019. [DOI]
  • Nguyen Tu Nam, Shinji Sako, Bogdan Kwolek, "Fingerspelling recognition using synthetic images and deep transfer learning", 2020 The 13th International Conference on Machine Vision (ICMV 2020), 11605, pp. 528–535, Nov. 2020. [DOI]
  • 三浦 哲平, 酒向 慎司, "3D モーションデータを用いた手話データ生成ツール", 電子情報通信学会技術報告 福祉情報工学研究会, Oct. 2021. [IEICE]
  • Teppei Miura, and Shinji Sako, "SynSLaG: Synthetic Sign Language Generator", The 23rd International ACM SIGACCESS Conference on Computers and Accessibility, pp.1–4, Oct. 2021.[DOI]
  • 三浦 哲平, 酒向 慎司, 手話認識への応用を目的としたモバイル MoCap システム ~ OpenPose を利用した 3D ポーズ推定の精度向上 ~, 電子情報通信学会技術報告 福祉情報工学研究会, vol. 121, no. 52, WIT2021-11, pp. 54–58, Jun. 2021. [IEICE]
  • Teppei Miura, Shinji Sako, "3D Ego-Pose Lift-Up Robustness Study for Fisheye Camera Perturbations", 18th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications, Vol. 4: pp. 600–606, Feb. 2023. [DOI]