精度向上に向けて
前回までで、助詞がある場合は高い精度で抜き出すことができるようになりました。
更なる精度向上のための手法について調査を行ったところ、KNPによる解析とCabochaによる解析を組み合わせた手法により精度が向上できる可能性があることがわかったため、今回はKNPとcabochaの比較を行います。
KNPとは
KNPとは
KNPは日本語文の構文・格・照応解析を行うシステムです. 形態素解析システムJUMANの解析結果(形態素列)を入力とし, 文節および基本句間の係り受け関係,格関係,照応関係を出力します. 係り受け関係,格関係および照応関係は,Webから自動構築した大規模格フレームに基づく確率的モデルにより決定します.
引用元:http://nlp.ist.i.kyoto-u.ac.jp/?KNP
KNPを用いるとCabochaと同様に係り受け解析を行うことができ、さらにMecabよりも詳しく文を解析できます。
例えば、カテゴリの特定が挙げられます(病院や参道といった名詞の場合は、カテゴリとして場所と施設が出力される)。
この機能はMeccabにはないため、導入すればWhere抽出の精度向上が期待できます。
Cabochaの方が優れていること
Cabochaについてhttp://chasen.org/~taku/ を参考に調査したところ、KNPよりもCabochaの方が優れている点がいくつか見つかりました。
KNPは文節ごとに係り受け関係を判別しますが、Cabochaではチャンクと呼ばれる、文節に限定しないで解析します。
また、係るか係らないかの判定ではなく、点数をつけて各チャンクと相対的に比較することで係り受け関係を判定するため、KNPによる係り受け解析よりも精度が良くなります。
KNPとCabochaを組み合わせた手法の検討
次回は、より多くの情報を取得できるKNPを用いて形態素解析を行い、Cabochaを用いて係り受け解析を行うことによって、精度の向上を目指します。
助詞が欠落している場合は、KNPによる解析によって得たカテゴリの情報から正しく抜き出せるのではないかと考えます。