【第1回】5W1H抽出AI 方針の策定と形態素解析ソフト(MeCab)のセットアップ

そもそも、5W1Hとは？
- 目標と方針
従来の手法
- 表層格指向パーシングCBSP(Case-Based Shallow Parsing)[2]
- 精度
形態素解析ソフト(MeCab)のセットアップ
おわりに
参考文献

そもそも、5W1Hとは？

Wikipedia[1]によると、下記のように説明されています。

5W1Hは、一番重要なことを先頭にもってくるニュース記事を書くときの慣行である。欧米ではふつう｢Five Ws｣、｢Five W's and One H｣、または略して単に｢Six Ws｣と呼ばれるが、日本では更に「1H」を足して「5W1H」とし「六何の法則」とも呼ばれる。
When（いつ） Where（どこで） Who（誰が） What（何を） Why（なぜ）How（どのように）したのか?

(Wikipedia)

目標と方針

このシリーズを通して、認知症患者向けのリマインドアプリを作成します。
最終目標は、テキストデータを要約すること です。
(認知症患者の話し声をテキスト化し、要約する)

まずは、テキストデータから5W1Hを抜き出すプログラムを作成します。

従来の手法

表層格指向パーシングCBSP(Case-Based Shallow Parsing)[2]

形態素解析を行い各単語に品詞情報を蒸したテキストに対し、語彙情報、字句のパターン、助詞の情報を用いて5W1H解析を行うモデルです。
以下の３ステップから構成されます。
1. 固有名詞の抽出
固有名詞のうち、人名・組織名をWho要素、地名はWhere要素として抽出します。固有名詞辞書を使用します。
2. 特徴表現のパターンマッチ
特徴的なパターンに着目して、人名・組織名(Who)、日時(When)を抽出します(例: oo大学、株式会社xx)。
3. 表層解析
　1、2のステップで抽出されなかった名詞は、その名詞に続く助詞等の情報をもとに、どの5W1Hに対応するのか決定されます。動詞はPredicate要素(How)に係わるものとして処理されます。

精度

約6400件の新聞記事ヘッドラインから、実際にWho、What、Predicate要素を抽出した結果です。

f:id:iTD_GRP:20200608150214p:plain — Who, What, Predicateの各要素および全体での抽出結果の評価

各要素が存在している場合は非常に高い精度で抽出できています。
その逆に、各要素が実際に存在しない場合は精度が低いです。これは、別の語をその要素として抽出してしまうためです。

形態素解析ソフト(MeCab)のセットアップ

形態素解析による品詞の分類は、5W1Hを分類するにあたって有効であることがわかったため、フリーの形態素解析ソフトウエアであるMeCabをセットアップします。
https://qiita.com/taroc/items/b9afd914432da08dafc8
上記URLを参考にMecabをセットアップしました。

セットアップが完了し、とりあえず形態素解析はできるようになりました。

f:id:iTD_GRP:20200608150642p:plain — 形態素解析結果

しかし、デフォルトの辞書では固有名詞の判断ができないため、「mecab-ipadic-NEologd」というMac OS用の拡張辞書を使用し、以下のように固有名詞を分類することができるようにしました。

f:id:iTD_GRP:20200608150848p:plain — 固有名詞の分類

おわりに

このシリーズで実施しようとしていることは意味解析に近いため、次回以降は意味解析についての具体的な手法を検討していきます。
現在は、CBSPでの解析後に存在しない要素があったとしても、意味解析によって高い精度で認識できるのではないかと考えています。
CBSPを行うための固有名詞も分類できることを確認したため、次回はパターンマッチのプログラムを書き、CBSPのようなものを作成する予定です。

参考文献

[1] https://ja.wikipedia.org/wiki/5W1H
[2] https://www.jstage.jst.go.jp/article/jnlp1994/6/6/6_6_27/_pdf/-char/ja

次の記事へ

戻る

iTAC_Technical_Documents

アイタックソリューションズ株式会社