【第4回】5W1H抽出AI テストデータの生成

YouTube自動生成字幕をテストデータとする方法の検討
テスト結果
次回の予定

YouTube自動生成字幕をテストデータとする方法の検討

YouTubeには動画を音声認識してキャプションを生成する機能があります。
この機能はGoogle音声検索で導入されている技術とほとんど同じであるため、このキャプションデータを抽出器のテストデータとして用いることはできないかと考え、プログラムを作成しました。

まず、キャプションのダウンロードには以下のフリーソフトを使用しました。・4K Video Downloader https://www.4kdownload.com/ja/

作成したプログラムは以下の通りです。

python

f = open('./Daigo1.srt') #キャプション読み込み
lines = f.readlines() # 1行毎にファイル終端まで全て読む(改行文字も含まれる)
f.close()
text0 = []
text2 = []

# 不要な部分を除外
for i in range(2,len(lines),2):
    text0.append(lines[i])
for i in range(0,len(text0),2):
    print(text0[i])
    text3=''.join(text0[i].splitlines())
    text2.append(text3)

# 連結
text = ''.join(text2)

実行結果 (入力データ: Daigoがひたすら話す動画のキャプション.)

f:id:iTD_GRP:20200623025114p:plain