ブログ名

【第4回】5W1H抽出AI テストデータの生成

YouTube自動生成字幕をテストデータとする方法の検討

YouTubeには動画を音声認識してキャプションを生成する機能があります。
この機能はGoogle音声検索で導入されている技術とほとんど同じであるため、このキャプションデータを抽出器のテストデータとして用いることはできないかと考え、プログラムを作成しました。

まず、キャプションのダウンロードには以下のフリーソフトを使用しました。 ・4K Video Downloader https://www.4kdownload.com/ja/

作成したプログラムは以下の通りです。

python

f = open('./Daigo1.srt') #キャプション読み込み
lines = f.readlines() # 1行毎にファイル終端まで全て読む(改行文字も含まれる)
f.close()
text0 = []
text2 = []

# 不要な部分を除外
for i in range(2,len(lines),2):
    text0.append(lines[i])
for i in range(0,len(text0),2):
    print(text0[i])
    text3=''.join(text0[i].splitlines())
    text2.append(text3)

# 連結
text = ''.join(text2)

実行結果 (入力データ: Daigoがひたすら話す動画のキャプション.)

f:id:iTD_GRP:20200623025114p:plain

意味不明な文章が多い結果となりました。

テスト結果

作成した上記のテストデータを使って前回のプログラムを実行した結果、以下のようになりました。

f:id:iTD_GRP:20200623025159p:plain

テストデータが長すぎて判定が難しいため、もっと短い動画で実行します。

テストデータ

f:id:iTD_GRP:20200623025211p:plain

実行結果

f:id:iTD_GRP:20200623025224p:plain

'各社に'は誤認ですし、その他にも多数の抽出できていない単語が確認できます。

次回の予定

今回作成したテストデータで精度を検証しながら、アルゴリズムを改善していきます。


次の記事へ

前の記事へ 戻る