ブログ名

音声認識

【第14回】5W1H抽出AI How要素/What要素の精度改善

今回改善した点について How要素 What要素 実行例 今後について 今回改善した点について 全体を通し、CaboChaを用いて判別する場合はチャンク毎に繋げて出力するように改善しました。 How要素 How要素は文末から探索し、係り受け先がない要素から助詞までの…

【第13回】5W1H抽出AI KNPを用いた手法の検討

KNPを用いた手法 ソースコード 実行例 次回の予定 KNPを用いた手法 KNPは地名や人名を正確に分類できるためWhen/Where抽出する時に役立ちますが、 係り受け解析は文節ではなくチャンクごとに分類するCaboChaの方が正確であることが多いです。 そのため、When…

【第12回】5W1H抽出AI KNPを用いた精度向上

KNPのセットアップ 5w1h抽出への応用 実行例 次回の予定 KNPのセットアップ 前回の記事の通り、KNPを使用するとより精度が向上すると考えられるため、以下の記事を参考にKNPをセットアップしました。 qiita.com 以下のマニュアルを参考に実際に動作させて、c…

【第11回】5W1H抽出AI KNPとcabochaの比較

精度向上に向けて KNPとは Cabochaの方が優れていること KNPとCabochaを組み合わせた手法の検討 精度向上に向けて 前回までで、助詞がある場合は高い精度で抜き出すことができるようになりました。 更なる精度向上のための手法について調査を行ったところ、K…

【第10回】5W1H抽出AI 係り受け解析を用いた手法

係り受け解析を用いた手法の検討 ソースコード ステップ1 ステップ2 次回の予定 係り受け解析を用いた手法の検討 前回、係り受け解析による手法は文ごとに区切られていないと効果がないことが分かりまししたが、 Siri等の音声サービスを使用する場合は基本文…

【第9回】5W1H抽出AI 係り受け解析による精度向上の検討

現在の課題 係り受け解析 検討方針 CaboChaAnalyzerのセットアップ 精度向上 次回の予定 現在の課題 現在の課題は、連用形の場合を考慮できないこと(「〜する人」などの場合「〜する」をHowとしてしまう)です。 つまり、修飾語を区別できていません。 この問…

【第8回】5W1H抽出AI Whatの抽出・その他の要素の抽出精度向上に向けて

Whatの抽出 その他要素の抽出精度の向上に向けて WhereやWhenの抽出が簡単なものは先に抽出 抽出した時に意味が通る様に前の要素まで抽出 How要素抽出要素の追加 コードの実行結果 今回分かった課題 Whatの抽出 まず、Whatとなるパターンは以下の二つの場合…

【第7回】5W1H抽出AI Whenの抽出

出力形式の変更 Whenの抽出 Whenとなる要素の分類 入出力の結果 次回の予定 出力形式の変更 前回までの出力の形式を変更し、入力の文に直接要素名を出力する様にしました。 これにより、誤認識などがわかりやすくなりました。 Whenの抽出 Whenとなる要素を二…

【第6回】5W1H抽出AI Howの抽出2

Howの抽出精度向上 前回の課題 課題2と3の解決策 前回との結果の比較 前回の結果 今回の結果 ソースコード: 次回の予定 Howの抽出精度向上 前回の課題 前回は下記4点の課題がありました。 「~ね」がある場合は実際にHowになりうる場合もありますが、ただ除…

【第5回】5W1H抽出AI Howの抽出1

Howの抽出 実行結果 考察 次回の予定 Howの抽出 「どのように」を表すHowのパターンは、大きく分けて以下の二種類のパターンが考えられます。 走る、行く のような動詞 です、ます のような助動詞 この二つのパターンに共通するのは基本形、終止形であること…

【第4回】5W1H抽出AI テストデータの生成

YouTube自動生成字幕をテストデータとする方法の検討 テスト結果 次回の予定 YouTube自動生成字幕をテストデータとする方法の検討 YouTubeには動画を音声認識してキャプションを生成する機能があります。 この機能はGoogle音声検索で導入されている技術とほ…

【第3回】5W1H抽出AI 抽出器の検討2

前回作成したプログラムの課題 課題の解決策 抽出器の改良 おわりに 前回作成したプログラムの課題 [前回の記事(https://www.itd-blog.jp/entry/5W1H-AI-2)の実行結果3では、2つの誤検知が発生していました。 一つ目は固有名詞である"北多摩病院"を一語とし…

【第2回】5W1H抽出AI 抽出器の検討1

新しい手法 実行結果1 実行結果2 実行結果3 おわりに 新しい手法 前回のCBSPを参考に、5W1Wを抽出する方法を考えました。 ステップ1 テキストをMeCabを用いて形態素解析 ステップ2 固有名詞を抜き出し、特徴的なパターン(oo病院、xx時など)と一部一致したら…

【第1回】5W1H抽出AI 方針の策定と形態素解析ソフト(MeCab)のセットアップ

そもそも、5W1Hとは? 目標と方針 従来の手法 表層格指向パーシングCBSP(Case-Based Shallow Parsing)[2] 精度 形態素解析ソフト(MeCab)のセットアップ おわりに 参考文献 そもそも、5W1Hとは? Wikipedia[1]によると、下記のように説明されています。 5W1H…

スペクトル解析補足記事【付録②】

はじめに リファレンス一覧 プログラム解説1 コメントアウトについて [必要なライブラリをインポート]import xx as xx というおまじないについて [超簡単な正弦波を作る]変数の定義について [超簡単な正弦波を作る]ライブラリの関数について [グラフに表示①]…

スペクトル解析補足記事【付録①】

はじめに リファレンス一覧 音声データについて 録音・編集ソフト 手順1 音声の録音 手順2 録音音声の切り出し 手順3 録音音声の編集 手順4 編集した音声をwaveに出力する 音声データの性質を調べる(おまけ) デジタル音声についての説明 サンプリング Python…

環境構築の補足

環境構築はややこしい? 環境構築って何? 環境構築ってどんな作業なの? Python ライブラリ 統合開発環境(IDE) 統合開発環境の何が良いの? 統合開発環境の悪い点は? 仮想環境 結局、仮想環境(マシン)って何なの? 結局、何が良いの? まとめ ※Pythonでの…

第6回 音声認識のための深層学習

1. ニューラルネットワークについて 1.1 MLP(多層パーセプトロン)構造 1.2 MLPの学習方法 1.3 ニューラルネットワークを用いた音声認識 再帰型ニューラルネットワーク(Recurrent neural network; RNN) 時間遅れニューラルネットワーク(Time-delay neural net…

音声認識技術の実践 [概要・環境構築]

今回から「音声認識の基礎」シリーズで紹介した、音声認識における各技術についての実践的な記事を作成していきます。よろしくお願いします! 目次 目次 1. はじめに 1.1. 本シリーズの構成 1. 音声認識のための概要・環境構築 2. Pythonでスペクトル解析 3.…

GMMとトライフォン

今回も機械学習の回です 今回もよろしくお願いします! 引き続き「音響モデル」について学びます。 今回は、 HMM(隠れマルコフモデル)に加えてよく用いられる GMM トライフォン という技術について説明します。 この記事は主に、 CDHMM GMM-HMM triphone と…

補足:隠れマルコフモデルについて

マルコフ性とは 隠れマルコフモデル 隠れマルコフモデルは、マルコフモデルに隠れ変数を加えたモデルです。数式に関する説明が多くなるので補足記事としました。 まずは、マルコフモデル及びマルコフ性という考え方について説明します。 マルコフ性とは driv…

音声認識に用いる隠れマルコフモデル

今回は機械学習の回です 以降より、 音響モデルについて学びます。 今回は、 - 音響モデル変遷(歴史的背景) - 音響モデルで主流であった隠れマルコフモデル について説明していきます。 この記事では主に、 MFCC 周波数ビン幅 メルフィルタバンク 対数パワー…

周波数データから特徴量ベクトルを抽出する

今回は特徴量抽出の回です 今回は、特徴量の抽出 について学びます。 特徴量の抽出は、 周波数データから分析に適した特徴を抽出する 処理です。 特徴量抽出の処理は、音声をどのようなモデルで分析するかも関係するため、音響モデルの説明も少しします。 こ…

スペクトル解析

今回はフーリエ変換の回です 今回は スペクトル解析 について学びます。 スペクトルとは 「光源をプリズムに当てると様々な色の光線に分散する」という実験を覚えていますか? スペクトルは、分散した色の線1本1本のことを言います。 分散された色の光線は、…

音声認識の基礎概要

はじめに 本シリーズの構成 まとめ はじめに 本シリーズでは「音声認識の基礎」について取り扱います。 機会があなたの声を認識する 現在では、PCやスマートフォンに「話しかける」ことで操作ができる様々な機能やアプリが普及しています。 音声での文字入力…