形態素解析
今回改善した点について How要素 What要素 実行例 今後について 今回改善した点について 全体を通し、CaboChaを用いて判別する場合はチャンク毎に繋げて出力するように改善しました。 How要素 How要素は文末から探索し、係り受け先がない要素から助詞までの…
KNPを用いた手法 ソースコード 実行例 次回の予定 KNPを用いた手法 KNPは地名や人名を正確に分類できるためWhen/Where抽出する時に役立ちますが、 係り受け解析は文節ではなくチャンクごとに分類するCaboChaの方が正確であることが多いです。 そのため、When…
KNPのセットアップ 5w1h抽出への応用 実行例 次回の予定 KNPのセットアップ 前回の記事の通り、KNPを使用するとより精度が向上すると考えられるため、以下の記事を参考にKNPをセットアップしました。 qiita.com 以下のマニュアルを参考に実際に動作させて、c…
精度向上に向けて KNPとは Cabochaの方が優れていること KNPとCabochaを組み合わせた手法の検討 精度向上に向けて 前回までで、助詞がある場合は高い精度で抜き出すことができるようになりました。 更なる精度向上のための手法について調査を行ったところ、K…
係り受け解析を用いた手法の検討 ソースコード ステップ1 ステップ2 次回の予定 係り受け解析を用いた手法の検討 前回、係り受け解析による手法は文ごとに区切られていないと効果がないことが分かりまししたが、 Siri等の音声サービスを使用する場合は基本文…
現在の課題 係り受け解析 検討方針 CaboChaAnalyzerのセットアップ 精度向上 次回の予定 現在の課題 現在の課題は、連用形の場合を考慮できないこと(「〜する人」などの場合「〜する」をHowとしてしまう)です。 つまり、修飾語を区別できていません。 この問…
Whatの抽出 その他要素の抽出精度の向上に向けて WhereやWhenの抽出が簡単なものは先に抽出 抽出した時に意味が通る様に前の要素まで抽出 How要素抽出要素の追加 コードの実行結果 今回分かった課題 Whatの抽出 まず、Whatとなるパターンは以下の二つの場合…
出力形式の変更 Whenの抽出 Whenとなる要素の分類 入出力の結果 次回の予定 出力形式の変更 前回までの出力の形式を変更し、入力の文に直接要素名を出力する様にしました。 これにより、誤認識などがわかりやすくなりました。 Whenの抽出 Whenとなる要素を二…
Howの抽出精度向上 前回の課題 課題2と3の解決策 前回との結果の比較 前回の結果 今回の結果 ソースコード: 次回の予定 Howの抽出精度向上 前回の課題 前回は下記4点の課題がありました。 「~ね」がある場合は実際にHowになりうる場合もありますが、ただ除…
Howの抽出 実行結果 考察 次回の予定 Howの抽出 「どのように」を表すHowのパターンは、大きく分けて以下の二種類のパターンが考えられます。 走る、行く のような動詞 です、ます のような助動詞 この二つのパターンに共通するのは基本形、終止形であること…
YouTube自動生成字幕をテストデータとする方法の検討 テスト結果 次回の予定 YouTube自動生成字幕をテストデータとする方法の検討 YouTubeには動画を音声認識してキャプションを生成する機能があります。 この機能はGoogle音声検索で導入されている技術とほ…
前回作成したプログラムの課題 課題の解決策 抽出器の改良 おわりに 前回作成したプログラムの課題 [前回の記事(https://www.itd-blog.jp/entry/5W1H-AI-2)の実行結果3では、2つの誤検知が発生していました。 一つ目は固有名詞である"北多摩病院"を一語とし…
新しい手法 実行結果1 実行結果2 実行結果3 おわりに 新しい手法 前回のCBSPを参考に、5W1Wを抽出する方法を考えました。 ステップ1 テキストをMeCabを用いて形態素解析 ステップ2 固有名詞を抜き出し、特徴的なパターン(oo病院、xx時など)と一部一致したら…
そもそも、5W1Hとは? 目標と方針 従来の手法 表層格指向パーシングCBSP(Case-Based Shallow Parsing)[2] 精度 形態素解析ソフト(MeCab)のセットアップ おわりに 参考文献 そもそも、5W1Hとは? Wikipedia[1]によると、下記のように説明されています。 5W1H…