YouTube自動生成字幕をテストデータとする方法の検討
YouTubeには動画を音声認識してキャプションを生成する機能があります。
この機能はGoogle音声検索で導入されている技術とほとんど同じであるため、このキャプションデータを抽出器のテストデータとして用いることはできないかと考え、プログラムを作成しました。
まず、キャプションのダウンロードには以下のフリーソフトを使用しました。 ・4K Video Downloader https://www.4kdownload.com/ja/
作成したプログラムは以下の通りです。
python f = open('./Daigo1.srt') #キャプション読み込み lines = f.readlines() # 1行毎にファイル終端まで全て読む(改行文字も含まれる) f.close() text0 = [] text2 = [] # 不要な部分を除外 for i in range(2,len(lines),2): text0.append(lines[i]) for i in range(0,len(text0),2): print(text0[i]) text3=''.join(text0[i].splitlines()) text2.append(text3) # 連結 text = ''.join(text2)
実行結果 (入力データ: Daigoがひたすら話す動画のキャプション.)
意味不明な文章が多い結果となりました。
テスト結果
作成した上記のテストデータを使って前回のプログラムを実行した結果、以下のようになりました。
テストデータが長すぎて判定が難しいため、もっと短い動画で実行します。
テストデータ
実行結果
'各社に'は誤認ですし、その他にも多数の抽出できていない単語が確認できます。
次回の予定
今回作成したテストデータで精度を検証しながら、アルゴリズムを改善していきます。