音声認識のオート字幕の精度はどれくらい?ボイスアヤノ.メに字幕を付けてみたら…YouTubeと地上波はなぜこんなにも精度が違うのか!


技術も進化していて、自動翻訳についてはかなり進んでいます。

Google翻訳はリアルタイムで会話も翻訳できるようになってきていますし、言語の壁はいつか取っ払われる日も来るのでしょうか。

とはいえ、まだまだ発展途中なのが、音声認識です。

AbemaTVやYouTubeが取り入れるリアルタイムの音声認識

映像って、やっぱり字幕があるほうが伝わりやすいし、見やすいとは思います。

YouTubeを見ていても、全部とは言わずとも、大事なところは字幕を入れてくれる方がわかりやすいですよね。

AbemaTVが昨年、リアルタイムの音声認識を取り入れて話題になっていました。

イチロー選手の記者会見をリアルタイムでやってましたが、これがまた、なかなかちゃんと作動しないんです。

イチロー引退記者会見のAbemaTVのAI字幕が酷すぎる

冷静に見ると、吹き出してしまうような面白い認識をしています。

真面目な状況でこれってどうなのという感じなのですが。

YouTubeも、同じように音声認識をして字幕をいれることができます。

この画面左下の設定からできます。

実際にやってみると、なかなか優秀ですよ。

字幕があったほうがいいなとは思ってはいましたが、さすがに手動で字幕をいれるのは大変すぎますからね。

便利な機能です。

YouTubeには文字起こし機能もあります。

まぁぶっちゃけこれだけ読んでもなんのことやらって感じですが…

しかしこれ、精度が上がれば英語字幕もけるようになりますね。

地上波の字幕は仕組みが違う

地上波は、デジタル放送になってから字幕をつけることができるようになりました。

たまにサービスエリアとかで流れてるテレビはこの字幕がオンになっていることもあります。

みなさんは使ったことありますか?

実際にやってみると、この字幕ってかなり精度が高いんですよね。

よほどすごいアルゴリズムを使っているのかな?

と思う人もいるかもしれません。

まぁある意味正解です。

実は、人間がリアルタイムで文字を入力しています。

だから、かなり優秀な文字起こしができるんです。

特殊な職業で、文字打ち専門のステノキャプショナーという仕事があります。

1分間で300文字も入力できるそうです。

このブログも3分で書けちゃいますね。

自分もそこそこ文字打ちは早いほうなんですが、さすがにこのスピードは無理かな。

しかも、この文字打ちようの特殊なキーボードを使いこなさないといけないとのことです。

普通のキーボードよりも早く文字が打てる仕組みなんでしょうね。

とはいえ、コンピュータでの音声認識の精度を考えると、まだまだ人間には勝てなさそうです。