AIによる機械翻訳を提供します

i/owebcaster.comは2019年5月の放送から、Microsoft Azure上のSpeech Translationを使って、字幕ベースでの機械翻訳を提供します。同時通訳者が発する通訳音声の書き下しテキストではなく、AIが独自に基調講演を翻訳し、字幕に出します。

例えば、基調講演中、デモビデオ等の時間帯は同時通訳者は休憩するのですが、機械翻訳は継続して日本語訳を提供することとなります。その際はぜひ機械翻訳の字幕をご覧ください。

ただ、現時点では、機械翻訳にはいくつかの制約があります。通訳者としての観点から現状を説明したいと思います。

#1 日本語訳の精度がまた足りません

AzureのSpeech Translationは発言が継続中でも、文末を自動で検知して訳を行う仕組みですが、文末の認識がまだ不十分のようです。二つ以上の文章の内容を誤って一文と認識し、誤訳を行う場合があります。その他の要因の誤訳もありますが、機械学習によるデータ解析が進むことにより、日本語訳の精度が向上することを期待しております。

#2 日本語訳が出るタイミングが遅いです

日本語と英語は述語(動詞)の位置が異なるため、通常の翻訳手順であれば、文末を確認した後に訳を確定させ、機械翻訳もこの手順となります。しかし、同時通訳者は長文(例えば文末まで30秒以上かかる発言など)の場合、「頭ごなし訳」等のテクニックを用い、文末を待たずに訳を開始し、最後に整合性が合うように仕上げます。この手法の差があるため、機械翻訳の日本語訳は同時通訳者に比べて30秒から1分遅れる場合があります。

なお、AzureのSpeech Translationは文末確定前の翻訳経過を表示する機能があるため、番組画面では、確定前の途中経過と確定後の訳文の両方をお届けします。(下のデモ動画を参照ください)


#3 音声出力は遅れ続けるので出しません

機械翻訳が将来的に人間の同時通訳者の替わりとなるためには、英語の講演と同時に日本語訳を発声することが必須となりますし、AzureのSpeech Translationにも日本語を発声する機能はあります。しかし、現時点では機械翻訳が同時通訳として日本語訳をそのまま発声することは難しいと考えます。

理由の一つが日本語の発音構造です。日本語音声の構成要素である「かな」は常に子音+母音で構成される音節から成り立ちます。これに対し英語は子音のみで構成される音節が多数あり、文字数に対して発声に要する時間が日本語より短いことが多いです。例えば、”str”という音節に似た日本語の音節は「ステラ」ですが、実際は「SUTERA」という発音で”str”の倍以上の時間がかかります。

このように日本語は書いた文字数は漢字の効果で英語に比べて少ないですが、音声の消費時間は英語に対して長いのです。つまり、この音節の事情により、英語の発言と同じ内容の日本語を同時通訳で発声しようとしても、同じ発言時間内に日本語訳は時間枠として入らない場合が多いのです。同時通訳者は日本語訳で文脈として重要なところを中心に日本語を最適化し、そぎ落とす作業で、英語の発言時間と同じ時間枠にはめ込んでいるのです。

この日本語を縮める作業が機械翻訳ではまだ無理であり、先に説明した確定訳が文末にしか出せない仕組みであることも重なり、日本語訳を発声させても、英語の講演内容からどんどん遅れていくため、現時点(2019年3月時点)では、字幕の表示のみとさせていただきます。

なぜ、機械翻訳?

上記の制約があるなか、同時通訳の役目に機械翻訳を投入する理由ですが、これからの急速な進化が期待できる未来の番組の姿と期待しているからです。視聴者の皆様も長い目で見守っていただければ幸いです。