特集 学会横断テーマ「少子高齢化社会を支える革新技術の提案」
構音障害リハビリテーションAI 構築のためのロードマップ―構音メカニズムの解明―
はじめに
構音障害リハビリテーションとAIの親和性と課題
2020年代に入ってから、機械音声認識や翻訳の分野において著しい科学技術の進展がみられる。チャットボットやボイスコマンド等として日常生活への実装も進んでいる。これらを裏打ちする技術として最も興味深いのは、言語に含まれる普遍的特徴が、深層学習によって捉えられたことだ(1)。筆者はヒトの摩擦子音のモデル化を行ってきたが、乱流現象にみられるコルモゴロフスケール則を用いることで精緻な空力音の予測を行っている。世間では、深層学習による予測結果が正しくとも、なぜ正しく判断できたかの根拠が示されないとスッキリしない、といった批評がなされている。言語のもつ階層性と再帰性より生じる複雑性をモデル化できたニューラルネットワークであれば、なぜそれが上手く機能できるのか、を推測することができる。
医療における歯科では、耳鼻咽喉科とともに構音・発話に関する疾患の治療やリハビリテーションに関して研究開発を推進している。言語聴覚士は直接的に患者と接し、日々の音声言語の発話に関するリハビリテーションを指導している。このような臨床現場では、患者から市中技術となった音声認識サービスを用いた発話トレーニングの可能性などの提案がなされたり、海外においては、患者団体を通したデータの収集と企業によるAIの開発がなされたりしている(2)。著者はクラウドファンディング等に参画し、舌癌患者の術後に生じる構音障害を扱う構音支援AIの研究開発に従事している(3)。構音支援AIは、患者が普段どおり発話した際に、音声をAIで認識し、会話相手に認識可能な音声をAIが生成するものである。例えば、数字や固有名詞等は正確に発音できなければ、銀行の窓口サービスの利用等、社会生活に大きな支障が生じる。構音支援AIの開発は、こうした社会保障に貢献できるものと考えている。
構音・発話に関する疾患の治療やリハビリテーションは、前述した構音支援AIの研究開発により完結するものではない。特に舌癌や先天性疾患である口唇口蓋裂の患者の場合、術後に生じることのある構音障害であり、エンドツーエンドで包括的に疾患に取り組む必要がある。
エンドツーエンドな構音障害の治療やリハビリテーションのモデルを考えると、生体の音声発話機能を司る器官で生じている物理現象の理解が不可欠であると思われる。それは、ヒトの成長発育過程において言語、音声発話機能を獲得することに加えて、舌癌や先天性疾患である口唇口蓋裂、顎変形症など術後に問題となる器質的な変化に対応するために必要な知識である(4)。しかしながら、質量集中系での考証や、電気回路をアナロジーとして用いた伝達関数による音声生成モデリング(5)などでは、上述の問題を解決することが困難であった。
筆者らは、スポーツ歯科外来や音楽歯学外来(6)においてこうした問題に直面した。そこでは、どのような形状のマウスピースのような口腔内装着物が構音への影響が少ないかを音声スペクトル特性により評価し、統計的有意差検定により事実関係を明らかにした(図1)(7)。しかし、スペクトル特性の変化がどういった原因で生じたのかは不明のままであった。この疑問に対する答えは、構音時に口腔内で生じている物理現象を直接観察することでしか得られないのではないか、と考えた。
図1 歯擦音/s/発声時の口腔内の側方断面図と、歯擦音/s/調音時の上顎の歯列と舌により形成される閉鎖空間と推定された状態の模式図 (a) Control群の正常歯列、(b) MG4(口蓋縁を4mm延長したマウスガード)群、(c) MGG(口蓋縁を正常歯肉線に設定したマウスガード)群(7)
未踏分野への挑戦
摩擦子音の構音の機械モデル構築
筆者らはまず2002年当時、口腔形状を静的に保持したまま構音可能な摩擦音/s/を対象とし、核磁気共鳴画像法(MRI)を用いて総義歯装着患者の/s/構音時の気道形状を計測した。特に総義歯前歯部の角度が/s/構音時の音声スペクトルに変化を生じさせることが報告されていたことから、その際の気道を再現できれば、気流を可視化することによって物理現象の違いを観察できるのではないかと考えた(8)。しかし単に流れ場を観察するだけでは、音声スペクトルとの関連を明らかにすることができず、より詳細な流れ場の推定と流れ場からの音源位置や強度の算出、そして計測点までの音の伝搬を明らかにする必要があると考えた。
2002年当時は国立大学全国共同利用研究施設に導入されていた大型計算機の性能はピーク性能であっても1TFLOPS程度であった。筆者らはNEC製SX-4を1ノード利用し、東京大学生産技術研究所が開発したLarge Eddy Simulation(LES)を実装したソルバーを用いて摩擦音/s/の3次元流体音響シミュレーションをし、2006年にIEEE/ACM SC06のAnalytics ChallengeにおいてFinalistに選出された(9)。ただし、その際に実行したLESによる計算では、2000万メッシュ程度であったため、摩擦音/s/の特徴帯域である4000 Hz以上の波数を解像できなかった。そのため、Lighthill-Curleの積分方程式による遠方場での音の予測では実測値とは大きく異なっていた。さらに遠方場での音には、口腔内での共鳴の影響が存在することは明らかであるため、積分方程式では本現象を十分表現できないことも問題であった。空力音のシミュレーション手法には直接と間接解法があり、前者は圧縮性ナビエ・ストークス方程式を解き、流れ場と音場が同時にえられる。一方で、分離解法は流れ場をいったん求め、得られた時系列データからLighthillの音源成分を求め、フーリエ変換により実部と虚部のデータとし、ヘルムホルツ方程式を解くことで、周波数帯域毎の音の伝搬を推定することができる。ただし、本手法はいったん流れ場の時系列データを蓄積した上で音源を求めフーリエ変換を行う必要があり、計算機や計算時間に制約が問題となった(図2)。
図2 摩擦音/s/の分離解法による数値流体音響シミュレーション (a) /s/構音時の口腔領域のメッシュ (b) LES解析による流れ場の流線 (c) Powel音源は上下顎中切歯先端付近から口唇にかけて分布 (d) 周波数領域でのLighthillテンソルを音源項としたヘルムホルツ方程式を有限要素法により解くことにより得られた、周波数階級別音圧レベル
当時大学院博士課程の学生であった吉永司氏が、スーパーコンピュータ「京」を用いてオープンソースのOpenFOAMの圧縮性ナビエ・ストークス方程式を解き、流れ場から発生する音の伝搬を直接推定することに成功した。このとき、必要とされたメッシュ数は約2億であり、それ以下では摩擦音/s/の特徴帯域である4000 Hz以上の波数を解像できなかった。この研究では、摩擦音/s/構音時の気道形状をヒトの実際の形状(実形状)をそのまま用いるのではなく、矩形管の断面積を実形状と合わせて5個つなぎ合わせた。数十通りの単純化を試みたが、断面積を実形状と合わせたことで、実形状から発生される音のスペクトル特性を精度良く矩形管モデル(Simple-S)でも再現できるようになった(10)(図3)。
図3 (a) /s/構音時の口腔領域の矢状断面における口腔形状を特徴づける5断面(上流側より舌先端と上顎S状隆起が接近し生じるsibilant groove入り口付近、出口付近、下顎中切歯付近、上顎中切歯口蓋側付近、上顎中切歯唇側付近)の設定位置 (b) (a)の5断面の面積を維持し矩形管を連結することにより構築された、単純口腔内形状モデル(Simple-S)(10)
2018年には、Simple-Sを用いた/s/音の音源生成と共鳴現象の関係性を明らかにし、摩擦音/s/の特徴帯域である4000 Hz以上の音成分が上顎前歯部より後流、口腔前庭付近で生じていることがわかった。Simple-Sを用いた大規模数値計算が実行可能になったことにより、ようやく解き明かされた事実であった(11)。著者らはさらに、Simple-Sの拡張モデルの構築を行い、音素同士を結合(調音結合)させ単語を構音する際の舌部分の運動を再現した(Simple-SA)。Simple-SAを用いて、調音結合時の/s/の構音を再現するため、/s/構音に伴う舌の挙上様式を3パターン用意し、それぞれについて観測された音のスペクトログラムを評価すると、いずれのパターンでも大きな違いはなかった(12)。このことから、/s/の構音は舌の挙上運動に関して冗長性を示すことが分かった。
さらに、Simple-Sを/s/と同じ摩擦音である/ʃ/の構音に対応(Simple-ʃ)させ、/ʃ/構音時の流れ場と音場について調べた。Simple-ʃは連続的に舌部を唇側口蓋側に移動させることができ、その時のスペクトルピークを観察すると、/s/と/ʃ/の間はほとんど線形に推移することが分かった。この事実から、摩擦音のピークの制御はヒトにとって比較的容易であることが推察され、調音結合に問題がなければ新たな音声生成と音韻化も可能であることが示唆された(図4)(13)。
図4 (a) 摩擦音/s/と/sh/構音時の上下顎中切歯付近の矢状と冠状断面画像 (b) 単純口腔内形状モデル上での上下顎中切歯付近の表現方法 (c) 単純口腔内形状モデル全体 (d) /s/と/sh/の音が単純口腔内形状モデルの上下顎中切歯付近の口蓋側から唇側への移動によって変化する現象を再現(Simple-ʃ)(13)
Tsukasa Yoshinaga, Kazunori Nozaki, Shigeo Wada, Effects of tongue position in the simplified vocal tract model of Japanese sibilant fricatives /s/ and /ʃ/, The Journal of the Acoustical Society of America, Vol.141, EL314, 2017; licensed under a Creative Commons Attribution (CC BY) license.
実形状を対象とする数値シミュレーションでは、計算格子(メッシュ)の構築が問題となる。実際のシミュレーションの計算時間よりもメッシュ構築により時間とコストが要求されることも多い。しかし、理化学研究所で開発されたCubeを用いることにより、メッシュ構築に要する工程がなくなり、さらに「富岳」を用いた超並列計算に対応したことにより、ユーザーは解きたい問題に集中することができるようになった。Cubeを用いて、総義歯前歯部の角度が/s/構音時の音声スペクトルに変化を生じさせる原因が、音源発生位置の後流化によるものであることが物理現象を直接観察することで分かった(図5)(14)。さらに、口唇口蓋裂の患者の術後に生じることのある構音障害の原因の一つである鼻咽腔閉鎖不全の予測に関して、CTから得られた時系列の3次元気道形状を基にして鼻咽腔閉鎖を時系列的に再現した(図6)。このデータに対して、Cubeを用いて圧縮性ナビエ・ストークスをスーパーコンピュータ「富岳」を用いて解いた。10数年前には考えられなかった、空力音響シミュレーションのみによる音声スペクトログラムの生成が実現した(図7)(15)。このことから音声学のみならず口腔領域の医学において、構音障害に関しての現象理解に時空間的な具体性をあたえるという、分岐点となると思われる。なぜなら、これにより一般に計測により得られているスペクトラムが示す、物理的意味を逆推定可能であることを示唆しているからである。この技術が機械学習と融合していけば、近未来的に構音に関する物理的理解が精緻に達成され、それによりこれまで歯科では扱いが難しかった構音障害への有益な突破口となり得ると思われる。
図5 実形状口腔形状モデルを用いた上顎中切歯歯軸傾斜角度0°(a,b)と30°(c,d)のモデルにおける(a,c) 5kHzと(b,d) 10kHzの速度の高速フーリエ変換結果(14)
図6 座位にて構音時の上気道領域を連続的(秒間17ボリューム)撮影可能なCT(Aquilion ONE)による「うすいみそしる」と発話時の矢状断面画像と立体再構築によるポリゴンデータ(15)
図7 「うす」調音結合時の歯擦音/s/のスペクトログラム (a) 今回の研究結果(空力音響シミュレーションのみから生成) (b)CTスキャン対象者の測定結果(15)
マイルストーン
脳幹反射回路機構の役割と構音障害
筆者らの研究グループは、生体工学、薬理学、生理学、音声工学、歯科学、音声リハビリテーション科学、医療情報学を専門とする研究者で構成されている。これまでの音声言語科学では、ヒトや類人猿を対象としていた。我々は構音に関わる脳幹反射回路に着目し、舌運動や顎運動の障害発生メカニズムの解明を通して、ヒトの音声発話障害の解明につなげたいと考えている。そのためにSimple-Sの考え方を生かした音声生成機序の解明を基軸として、さらに発展させ、ラットを用いた動物実験を実施している。また、ヒトの舌運動の機械的特性の解明とその制御に関する研究も並行して実施しており、今後、ラットでの実験との関係性について強い関心をもっている。
口腔機能には発話、咀嚼、嚥下の3つあり、それらを司る筋骨格系の神経支配は脳神経のみである。すなわち、脊椎神経を介さない運動制御が行われている特異な領域となる。老化により全身の筋力が衰え、運動機能が低下することが知られているが、最後まで発話、咀嚼、嚥下機能は衰えないことが知られている。このような特異な領域で発生する問題や課題を学際融合研究チームで解決していく研究開発を推進したいと考えている。
参考文献
(1) 田中久美子, 言語とフラクタル 使用の集積の中にある偶然と必然(2021), pp.213-227.
(2) Project Euphonia:発話障害に対応する音声認識研究に日本語も新たに追加, Google
https://japan.googleblog.com/2022/05/project-euphonia.html(参照日2022年12月22日)
(3) 口腔がん:がんで失った「ことば」を取り戻す、新規言語治療法の開発を, READYFOR
https://readyfor.jp/projects/handai-kotoba(参照日2022年12月22日)
(4) 野崎一徳, 音声言語の構音と身体環境の変化, 月刊みんぱく, Vol.46, No.9(2022), pp.4.
(5) K.N.Stevens, Acoustic Phonetics(2000), pp.379-485.
(6) 堅田 千種, 今井 みはる, 野崎 一徳, 川本 昌幸, 前田 芳信, 島 優子, 大星 直樹, 玉川 裕夫, ミュージックスプリント装着による音色変化をデジタルフィルタリングで評価する試み, 医療情報学, Vol.25, No.4(2005), pp.231-238.
(7) Kazunori Nozaki, Yoshinobu Maeda, Hiroo Tamagawa, The effect of wearing custom‐made mouthguards on the aeroacoustic properties of Japanese sibilant/s/,Dental Traumatology, Vol.29, No.2(2013), pp.139-144.
(8) 野崎一徳, 前田芳信, 村上秀明, 玉川裕夫, 十河基文, 柿本直也, 子音発生の流体音力学的モデル, 日本補綴歯科学会雑誌. 特別号(2002), paper No. 88.
(9) Kazunori Nozaki, Masaaki Noro, Masashi Nakagawa, Susumu Date, Kenichi Baba, Steven Peltier, Toshihiro Kawaguchi, Toyokazu Akiyama, Hiroo Tamagawa, Yohsuke Tanaka, Shinji Shimojo, Computational oral and speech science on e-science infrastructures, Proceedings of the 2006 ACM/IEEE conference on Supercomputing (2006), paper No. 298-es.
(10) Tsukasa Yoshinaga, Kazunori Nozaki, Shigeo Wada, Experimental Validation of Sound Generated from Flow in Simplified Vocal Tract Model of Sibilant/s/, INTERSPEECH (2016), pp.3584-3587.
(11) Tsukasa Yoshinaga, Kazunori Nozaki, Shigeo Wada, Experimental and numerical investigation of the sound generation mechanisms of sibilant fricatives using a simplified vocal tract model, Physics of Fluids, Vol.30, No.3 (2018), 035104.
(12) Tsukasa Yoshinaga, Kazunori Nozaki, Shigeo Wada, A simplified vocal tract model for articulation of [s]: The effect of tongue tip elevation on [s], PloS one, Vol.14, No.10(2019), e0223382.
(13) Tsukasa Yoshinaga, Kazunori Nozaki, Shigeo Wada, Effects of tongue position in the simplified vocal tract model of Japanese sibilant fricatives /s/ and /ʃ/, The Journal of the Acoustical Society of America, Vol.141, No.3(2017), EL314.
(14) HsuehJui Lu, Tsukasa Yoshinaga, ChungGang Li, Kazunori Nozaki, Akiyoshi Iida, Makoto Tsubokura, Numerical investigation of effects of incisor angle on production of sibilant/s/,Scientific Reports, Vol.11, No.1(2021), pp.1-11.
(15) HsuehJui Lu, Tsukasa Yoshinaga, ChungGang Li, Kazunori Nozaki, Akiyoshi Iida, Makoto Tsubokura, Numerical investigation of effects of tongue articulation and velopharyngeal closure on the production of sibilant [s],Scientific Reports, Vol.12, No.1(2022), pp.1-11.
<正員>
野崎 一徳
◎大阪大学 歯学部附属病院 准教授
◎専門:医療情報学、空力音響、分散システム