音声に含まれている言語的な内容を計算機などによって単語列あるいは文字列に変換すること.現在の音声認識の技術では,単語ごとに区切って発声したものを認識する単語音声認識では,認識対象となる単語数は一万語程度,連続的に発声した文を認識する連続音声認識では,認識対象単語数は数千語で,文法もある程度限定される.小規模な音声認識では,動的計画法を利用した「DPマッチング法」が使われたが,現在では「隠れマルコフモデル」がおもに使用されている.これは,一つの単語や音節に対して多数の話者から音声データを集め,その時間的変動とスペクトルの変動とをHMMと呼ぶ数学的機構によりモデル化しておき,これと入力音声とのマッチングを行う方法である.すなわち,入力音声の時系列をA,ある単語列をWとすると,事後確率\(P(W|A) = P(A|W)P(W)/P(A)\)を計算し,この値が最大になるような単語列が認識結果として選択される.右辺の事前確率\(P(A|W)\)は単語または音節HMMを用いて計算され,\(P(W)\)(単語列Wが生起する確率)は,単語の2字組あるいは3字組の統計を取っておくことにより計算される.しかし,\(P(A|W)P(W)\)の値を総当たり的に計算することは不可能であり,人工知能の分野でよく用いられるA*探索法によって最大値が求められる.