ブログ名

GMMとトライフォン

f:id:iTD_GRP:20190618235833j:plain
今回も機械学習の回です

今回もよろしくお願いします!

引き続き「音響モデル」について学びます。

今回は、

HMM(隠れマルコフモデル)に加えてよく用いられる

  • GMM
  • トライフォン という技術について説明します。

この記事は主に、

  • CDHMM
  • GMM-HMM
  • triphone

という言葉が出てきます

前回のおさらいですが、音響モデルとは、音素と音響特徴量の関係を統計的なモデルで表現したものでした。

(音素:音声を構成する単位で、物理的な特徴で分類されたものを意味する。)

今回紹介するGMMトライフォンという技術は、HMMによる音素の特定をより精密に行うために用いられます。前回記事にも書いたとおり、音響モデルは様々な技術を複合しているため、代表的な技術としてこれらを紹介します。

CDHMMとGMM(混合正規分布モデル)

GMM(混合正規分布モデル; Gaussian Mixture Model)とは

f:id:iTD_GRP:20190619000208j:plain


f:id:iTD_GRP:20190619000235j:plain

前回紹介した隠れマルコフモデル(Hidden Markov Model; HMM)は、左図のような入出力で計算を行っていました。

  • 入力:離散シンボル列(連続していない記号列)
  • 出力:離散分布(値となる) という計算を行っていました。

この手法は計算量が少なく済みます。

しかし、代わりに特徴ベクトルを量子化する(具体的な数値のような、入力出来る形にすること)際に誤差が発生し、認識性能が劣化してしまいます。

特徴ベクトルを量子化する上で誤差が生じるので、初めから量子化せずに(多次元の特徴ベクトルのまま)モデルに入力しようと考案されたのが

連続分布HMM(Continuous density HMM; CDHMM)です。

CDHMMは次元が増えるため、認識性能が上がり、計算凌駕より多く必要になります。とはいえ、計算処理が高度に発展している現在では、CDHMM技術が主流となっています。

入力・出力データは下のようになります。

  • 入力:多次元の特徴ベクトル
  • 出力:連続確率密度分布

さて、CDHMMに用いられる週直確率分布の計算を行うのが、混合正規分布モデルです。複数の正規分布の重み付けの和で成り立ちます。GMMが主要な計算モデルであるため、CDHMMよりGMM-HMMと記述される場合が多いです。

GMMの計算式

次に、GMMの計算式について説明します。

出来るだけ簡単に説明しますが、 「どうしても無理!苦手!」という方は上の説明で、「なんだか複雑な計算もできる様になったのね」と理解できていれば大丈夫です。 飛ばして進みましょう。

f:id:iTD_GRP:20190619000452g:plain
正規分布についての参照サイト http://www.randpy.tokyo/entry/normal_distribution

f:id:iTD_GRP:20190619000517j:plain
正規分布の重み付け和

f:id:iTD_GRP:20190619000538j:plain
正規分布の重み付け和

1.正規分布

正規分布とは、簡単に言うと「平均に近いほどデータが沢山あり、平均から離れるほどデータが少ない」ような分布を表しています。

2.GMMの計算式

複数の正規分布の重み付け和と条件を左に示しました。下に詳しい説明を追加しました。

f:id:iTD_GRP:20190619000731j:plain

GMMの技術はニューラルネットワーク(NN)を取り入れた特徴抽出にも用いられることがあります。

まだデータが少なかったときのNNに比べるとトライフォン(この後説明します)を用いたGMM-HMMの方が高い精度を示していたようです。その為、これらの技術に上書きする形でNNや深層学習(DNN)の技術を取り入れることがあります。

トライフォン(triphone)

f:id:iTD_GRP:20190619000809j:plain
あさ(朝)のモデル

トライフォンとは、連続する3音素の間(前の音素と後ろの音素)の依存関係を考慮する技術です。

この技術は文脈考慮と呼び、考慮しないものは文脈独立音素単位(monophone)と呼びます。よく用いられるのはトライフォンですが、連続する2音素間(biphone)、5音素間(quinphone)の関係を考慮する技術もあります。

音素の音響的特長は文脈により変化します。そこで、この文脈を考慮したモデルを考えます。(ここでの文脈とは、人が音素を発音するとき、連続で発音することによって音素の特徴が微妙に変化するときの違いのことです。)

そのほかにも話者、アクセント、イントネーションの違いがあります。

文脈考慮の技術によって調音結合(連続で音素を発音することによって特徴が変化すること周波数データから特徴量ベクトルを抽出するでも説明しています)による音声の変化により良く対応できます。

音素の種類は言語によって異なります。 (例えとして、英語の”L”と”R”の発音の違いが日本語の表現にはないことが非常に有名です。)

日本語のモノフォン(文脈を考慮しない音素単位)は、数え方にもよりますが、50程度であると言われています。しかし、文脈を考慮した音素はその周囲の音素で区別するため数が多くなる。トライフォンで考えるとその種類は6000~9000に及びます。そしてその大部分はほとんど出現しない音素です。従って、これをそのまま学習すると、データサンプルが少ない音素において過学習(over training)問題が発生してしまい性能が向上しません。 (過学習機械学習における問題です。訓練データを学習しすぎてしまい、未知のデータを入力した時に適合出来なくなってしまいます。)

そこで、それぞれの中心の音素について、その前後の音素が「似ている」ものをクラスタリングすることで、性能を向上させるという技術で過学習を防いでいます。 (クラスタリングの方法について説明するかどうかは未定です)

まとめ

今回は、音響モデルの精度を上げる代表的な技術について説明しました。

計算技術の向上によって、より複雑なデータを認識できるモデルになった」という記事でした。

次回は、ニューラルネットに関する記事です。

多層パーセプトロンに基づいて構築されるモデルは、隠れマルコフの後に主流になりつつあります。

次回もどうぞよろしくお願いします!

[参考サイト] - 音声処理で参考になったサイトまとめ


次の記事へ

前の記事へ 目次に戻る