YouTubeで、投稿者が手動で字幕をつけていなくても、
自動で動画の音声を認識して、必要なら翻訳までして
字幕をつけてくれる機能があるんだけども……

これが中々にカオスな字幕になっているんだ。

そこで、現在の自動字幕・翻訳機能精度についてや
将来的にどこまで実用的なレベルになるのかなどについて
調べてみようと思う。

2016年現在の自動字幕の精度

字幕がほぼ完ぺきな例

まずは、まともな字幕の例を挙げてみよう。

[youtube https://www.youtube.com/watch?v=O4djwM_AiHY&w=640&h=360]

これは、音声であるアナウンサーの喋りが、滑舌も良く
聞き取りやすいスピードであり、単語も常用の単語が多いことから
ほぼ正確に音声認識された例だね。

さすがアナウンサー!プロは違うね~!
文字起こしを見てみても、その文章が正しい文章になっているのがわかる。

では次に、字幕がおかしい例を挙げてみよう。

字幕がおかしなことになった例

都心で初雪 平年より9日遅く – YouTube での街頭インタビューシーンだ。

インタビューを受けている一般人の音声は
やっぱ、1月ってこれくらい寒さが普通かなって…
と喋っているけれども、ここに字幕が付くと…
2016-01-13_15h20_41 (1)

それでも一環として行われたもの」……

ん?
おかしくなり始めたね。

 

さらに、この後の音声は「今までがちょっと暖かかったので」と続くが、字幕はというと

2016-01-13_15h24_49 (1)

利回りが上がった」……!?

字幕が荒れ始めたね

この前後の文字起こしを見てみれば、荒れ狂う文章の様子がよくわかる。

おそらく、現在の自動字幕・翻訳機能精度はひどく、
おかしい・カオスなものとしか言い様がなく、実用的と言うにはほど遠い。

笑いのネタとしてしか使えないレベルで、
この字幕ネタのまとめ記事が人気になっていたりするくらいだ。

英語の文字起こしはある程度正確らしいんだけど、
でも日本語の書き起こし、翻訳はまだ技術的に未熟で使い物にならないレベルのようだね。

今後の音声認識の精度は向上するのか

YouTubeの音声認識は、Googleの音声認識技術を使用しているわけだけれども、
Googleの音声認識は、精度が良いと評判のはずだ。

数年前に自動翻訳機能がスマホに搭載された時、
とってもおかしな翻訳結果となって、これまた笑いのネタになったりしたけど、
Google音声認識としては、

最初の1~3文字がハッキリと発音されていれば、その後は滑舌が悪くても
Google音声技術が、最も適切であろう単語を補完するんだ。

そう考えると、日常会話や超絶スピードのセリフなどは、
最初の1~3文字が聞こえにくい事も大いにある。

だから、最初の言葉をきちんと発している
アナウンサーの言葉がきちんと認識されるのも頷けるね。

AppleのSiriのほうが精度が良いと思われがちだけれども、
GoogleはAppleが持っていない財産のおかげで、制度は良いそうなんだ。

その財産とは、
Google検索の音声検索にユーザーが入力する音声データと、
YouTubeなどのGoogleのサービスにアップロードされる動画の音声データ

これらのデータが集積されて、膨大なデータとして蓄積され分析されているそうだ。
(参考:Google検索の音声認識がSiriよりすごい(気がする)理由:海外速報部ログ:オルタナティブ・ブログ

正確な発音で始まる単語であれば、ほぼ完璧に認識すると考えれば、
YouTubeの字幕の精度は、2016年の今はまだ使い物にならない事が多いけど、
今後は徐々に精度が高くなっていくことは期待はできるかもね。

まとめ

どうだったかな?

YouTubeの字幕についての実態を調べてみたけども、
参考になっただろうか?

  • YouTubeの音声認識は、Google音声認識技術を利用しているから精度は本来良い
  • 最初の1~3文字の発音がしっかりしてさえいれば、途中の単語などと絡めて適切であろう単語を補完してくれる
  • 滑舌がよく、周囲の騒音やBGMがなく、会話スピードも適切であれば正しい字幕がつく
  • とはいえ、YouTubeは一般人の日常動画が多いから、まだまだ可笑しな字幕になってしまうことも多い

ということだね!

きちんとした字幕を表示されないと困る、という動画投稿者は
自分で字幕を文字起こしで入力することをお勧めするよ。

参考:YouTube:投稿動画に字幕をつける(設定/編集する)方法

一方で、なんか面白い動画がないかなぁ…なんて思っている人は、
こういった可笑しな字幕を探して楽しむのも有りかもしれないねぇ。