f:id:iTD_GRP:20190618101359j:plain — 今回は機械学習の回です

以降より、 音響モデルについて学びます。

今回は、 - 音響モデル変遷(歴史的背景) - 音響モデルで主流であった隠れマルコフモデル

について説明していきます。

この記事では主に、

MFCC
周波数ビン幅
メルフィルタバンク
対数パワースペクトル
ケプストラム

という言葉が出てきます。

音響モデルの概要
隠れマルコフモデル(Hidden Markov model; HMM)
- 隠れマルコフモデルについて
- 音声認識に用いるマルコフモデルの構造
まとめ

音響モデルの概要

音響モデルとは、音素と音響特徴量の関係を統計的なモデルで表現したものです。

前回まで行った、音声データから抽出した音声特徴量を入力して、音素に変換するパターン認識モデルであるといえます。 (音素：音声を構成する単位で、物理的な特徴で分類されたものを意味する。)

前回の例としての音声の特徴量抽出は、周波数を表す波形を包絡にして(ぎざぎざをなくす)、数値化する作業でした。この特徴量は波形を示す数値であって、これだけでは何もわかりません。音響モデルによって、これらの特徴量が音素(母音と子音に分類されるような音声の物理的な特徴)として評価することが出来るというわけです。

音響モデルは、高い精度で音素を特定することを目的に、様々な構成が提案されました。

音響モデルの主流は長い間、隠れマルコフモデル(HMM)でした。ニューラルネットワークを用いた音響モデルの研究も同時期に行われていましたが、データ不足と計算機性能の低さから結果は芳しくなかったようです。しかし、計算技術の向上やデータの増加、深層学習という新たな技術によって現在の主流モデルとなりつつあります。

以上の歴史的背景から、音響モデルには多様な技術が組み合わされたものがあり、複雑なものも多いです。隠れマルコフモデルとニューラルネットワークの複合モデルなども存在します。それぞれを理解するために、

隠れマルコフ(HMM)を用いたモデル
ニューラルネットワーク(NN)を用いたモデル

の2種類の音響モデルについて説明していきます。 (今では非常に有名な深層学習(Deep Learningについては、説明するかどうか未定です)

f:id:iTD_GRP:20190618210605j:plain — 大きく構造の異なる2種類のモデル

隠れマルコフモデル(Hidden Markov model; HMM)

隠れマルコフモデルについて

2.1. 隠れマルコフモデルについて　隠れマルコフモデルという考え方について非常に簡単に述べるなら、「ある状態のとき、次にどこへ行くか(状態遷移するか)を前の状態を参考にし(マルコフ性)、(出力確率を)推定する」ということです。

隠れマルコフを理解するには、状態遷移やマルコフ性、出力確率などについて理解する必要があります。しかし、これらの説明をすると音響モデルという本筋から大きく脱線してしまうため、隠れマルコフに関しては別の補足記事を作成します。

補足1：隠れマルコフモデルについて

音声認識に用いるマルコフモデルの構造

一般的なマルコフモデルでは、現在の状態から前の状態に戻る(遷移する)ことは許されます。

しかし、音声認識に用いる際のモデルの構造は、left-to-right HMM(前状態への遷移がないモデル)が用いられます。

left-to-right HMM：状態を横1列に並べたときに左方向への遷移を行わないモデル(時間が逆戻りしない)

f:id:iTD_GRP:20190618210934j:plain

left-to-right HMM

時間が逆戻りするということは、音素の順序も変化してしまいます。音声データの内容が異なってしまうので、左へ遷移することを許さない条件を新たに追加します。(同じ考え方から、状態を1つ飛ばしにスキップすることも出来ないことがわかる。)

音声認識に用いるHMMの一般的な構造はleft-to-rightです。しかし、このモデルははずれ値に対して頑健ではないです。

頑健(ロバストネス)：データに異常値(はずれ値)が生まれる際、その影響を受けにくいこと

一例として、ある時刻の記号の出力がほとんど無いため、どの状態からもその記号への遷移確率が定義されなかったとします。すると、当然ですがその記号を含む記号列の確率は0になります。 (そうなると、その記号が出力される場合が無くなってしまいます)

当然このような現象を防ぐために、各状態においてどの記号の出力確率(隠れ変数)も0より大きくする方が良いです。ただし、そうすることで今度は同じ記号列でもどのような状態遷移を経てきたかが一意に決まらないことになります。

f:id:iTD_GRP:20190618211132j:plain

音声認識における確率計算

HMMを構成するパラメータ集合であるλ(遷移確率、出力確率、初期確率の集合)が、観測系列O(観測されたデータ)を出力する確率を求めるための処理(アルゴリズム)を行います。

つまり入力データは関係なく、このHMMモデルがどのような状態遷移による経路が可能であるのかを示すための計算です。この計算は、前向きアルゴリズムによって行われます。

前向きアルゴリズム(Forward Probability)：全ての可能な状態遷移確率の和(前向き確率)を導入し、効率的に計算するアルゴリズム

全ての可能な経路に対して状態遷移確率を計算し、その合計を前向き確率とします。前向き確率は入力の時間単位で順次計算します

まとめ

『音響モデルにおける隠れマルコフモデルは、状態遷移と隠れ変数で出力を推定する』という記事でした。

次回は、隠れマルコフと組み合わせて使われる技術に関する記事です。次回もどうぞよろしくお願いします！

[参考書籍] - 機械学習プロフェッショナルシリーズ「音声認識」, 篠田浩一, 講談社 - IT Text 音声認識システム(改定2版) , 川原達也, オーム社

[参考サイト] - 音声処理で参考になったサイトまとめ

次の記事へ

前の記事へ目次に戻る

iTAC_Technical_Documents

アイタックソリューションズ株式会社

音声認識に用いる隠れマルコフモデル

音響モデルの概要

隠れマルコフモデル(Hidden Markov model; HMM)

隠れマルコフモデルについて

音声認識に用いるマルコフモデルの構造

まとめ