ブログ名

音声認識

音声認識技術の実践 [概要・環境構築]

今回から「音声認識の基礎」シリーズで紹介した、音声認識における各技術についての実践的な記事を作成していきます。よろしくお願いします! 目次 目次 1. はじめに 1.1. 本シリーズの構成 1. 音声認識のための概要・環境構築 2. Pythonでスペクトル解析 3.…

GMMとトライフォン

今回も機械学習の回です 今回もよろしくお願いします! 引き続き「音響モデル」について学びます。 今回は、 HMM(隠れマルコフモデル)に加えてよく用いられる GMM トライフォン という技術について説明します。 この記事は主に、 CDHMM GMM-HMM triphone と…

補足:隠れマルコフモデルについて

マルコフ性とは 隠れマルコフモデル 隠れマルコフモデルは、マルコフモデルに隠れ変数を加えたモデルです。数式に関する説明が多くなるので補足記事としました。 まずは、マルコフモデル及びマルコフ性という考え方について説明します。 マルコフ性とは driv…

音声認識に用いる隠れマルコフモデル

今回は機械学習の回です 以降より、 音響モデルについて学びます。 今回は、 - 音響モデル変遷(歴史的背景) - 音響モデルで主流であった隠れマルコフモデル について説明していきます。 この記事では主に、 MFCC 周波数ビン幅 メルフィルタバンク 対数パワー…

周波数データから特徴量ベクトルを抽出する

今回は特徴量抽出の回です 今回は、特徴量の抽出 について学びます。 特徴量の抽出は、 周波数データから分析に適した特徴を抽出する 処理です。 特徴量抽出の処理は、音声をどのようなモデルで分析するかも関係するため、音響モデルの説明も少しします。 こ…

スペクトル解析

今回はフーリエ変換の回です 今回は スペクトル解析 について学びます。 スペクトルとは 「光源をプリズムに当てると様々な色の光線に分散する」という実験を覚えていますか? スペクトルは、分散した色の線1本1本のことを言います。 分散された色の光線は、…

音声認識の基礎概要

はじめに 本シリーズの構成 まとめ はじめに 本シリーズでは「音声認識の基礎」について取り扱います。 機会があなたの声を認識する 現在では、PCやスマートフォンに「話しかける」ことで操作ができる様々な機能やアプリが普及しています。 音声での文字入力…