f:id:iTD_GRP:20190611223008j:plain — 今回はフーリエ変換の回です

今回は スペクトル解析 について学びます。

スペクトルとは 「光源をプリズムに当てると様々な色の光線に分散する」という実験を覚えていますか? スペクトルは、分散した色の線1本1本のことを言います。分散された色の光線は、それぞれ違う周波数成分を持ちますが、この性質は音でも同じです。音も、様々な周波数成分の組み合わせで構成されています。この 周波数成分1つ1つをスペクトル と呼びます。

スペクトル解析は、時系列データを周波数データに変換すること です。

この記事は主に、

音声の性質(時系列データ)
周波数データ
フーリエ変換
窓関数

という言葉が出てきます。

スペクトル解析
- データ変換の概要
- フーリエ変換について
スペクトル解析の流れ
まとめ

スペクトル解析

データ変換の概要

スペクトル解析は 信号(波)がどのようなスペクトル(周波数成分)を持っているか を表現するという意味です。

何故このような処理が必要なのかについて、説明していきます。

f:id:iTD_GRP:20190611225358j:plain — スペクトル解析の概要

音声データ(時系列データ)

音とは、波です (特に、機械で録音してデジタルデータにするとき、音声データは「信号」と呼ばれることもあります。)

つまり、音声データは

　横軸：時刻　縦軸：振幅 (空気がどれだけ震えたか)

を表現したグラフであるということです。横軸が時刻であることから変換前の音声データは 時系列データ と呼ばれます。

従って、時系列データは「この音声は、どの時刻のときどの程度空気を震わせているか」を表現しています。しかし、これでは音声の特徴がわかりません。 (実際に再生すれば分かるかもしれませんが、上図の青グラフだけで何を言っているか、分かりません)

そこで、もっと特徴が表現されたグラフへ変換します。

周波数データ(スペクトル)

人間は音を高さで認識していると考えられており、機械学習による音声認識にもこの考えを適用したシステムが作られました。 (音は、周波数が大きいほど高い音、小さいほど低い音であるとされます)

周波数データは、

　横軸：周波数 　縦軸：パワー(強さ)

というグラフで表現されます。 この音声は、どの大きさの周波数成分がどの程度強く現れているのか という特徴が表現されたということになります。

そして、時系列データを周波数データに変換する計算を フーリエ変換 と言います。

フーリエ変換について

上記で書いた通り、時系列データを周波数データに変換するには フーリエ変換 をします。

フーリエ変換は、音声認識において(今のところ)最も主流で必要不可欠な処理と言えます。では、フーリエ変換という処理について完璧に理解する必要があるかと言うと･･･そんなこともないです。(機械にプログラムすれば自動で計算してくれます･･･と言えば身も蓋もないですが)

従って、本記事及びシリーズではフーリエ変換について、音声認識の精度に関わる部分の解説はしますが、それ以外では単純に 時系列データを周波数データに変換する処理 として扱います。

どうしても仕組みが知りたい！理解したい！ という方はこちらのサイトを参考にしてみて下さい。個人的に理解しやすかったです。数学アレルギーの方、読まなくても音声認識は出来ますよ。

スペクトル解析の流れ

前処理について

f:id:iTD_GRP:20190611230718j:plain — 前処理を含めたスペクトル解析の流れ

録音された時系列データに対してそのままフーリエ変換は出来ません。

時系列データに対する処理として、

エイリアシング問題
サンプリング
窓関数による切り出し

と続きますが、 アンチエイリアス、 サンプリング は前処理として先ほどの記事でまとめられているので本記事では省略します(ただし、図として示すと上図の流れになります)。

窓関数による切り出し

f:id:iTD_GRP:20190611230938j:plain — サイン波の青枠切り出しでの周期拡張→○

時系列データは、様々な周波数が組み合わさって出来ています。つまり、時系列データ内では常に周波数の強度が変わることになります(時刻によっていろいろな形の波が出来ていると言う意味です)。

フーリエ変換をするには、周期的で離散的な時間信号(データ) である必要があります。そこで、時系列データ全体から1周期分になる様な区間で切り出す作業を行います。切り出しの簡単な例として、単一周波数のサイン波で考えてみます。(本当はサンプリングした離散時間信号ですが、今回はサンプリング周期が非常に短いとします)。

下のサイン波に対して、以下のように切り出すと、周期拡張が可能になります。　(周期拡張は単純にコピペした情報としても成り立つという解釈で良いです。周期拡張によって、極端に短く信号を切り出したとしてもスペクトル解析が出来ます。)

f:id:iTD_GRP:20190611231245j:plain