第21回 『機械翻訳』

皆様こんにちは.同志社大学の土屋誠司です.自然言語処理の第21回目の今回は機械翻訳について書いてみたいと思います.

実は,私はそもそも言語が苦手でして,国語も英語も不得意ですし,まったく好きではありませんでした.まさか,自然言語処理などという言語関係の研究をするとは夢にも思いませんでしたが...細々がんばっております...ということで,言語を変換してくれる機械翻訳には非常にお世話になっています.最近では,無料のソフトウェアであっても非常に精度の良い翻訳をしてくれますので重宝しています.皆様も一度は利用されたことがあるのではないでしょうか.機械翻訳をしてくれる専用機もありますし,スマホなどのアプリとして提供されているものもあります.結構,海外旅行などでは心強いかと思います.中には,テキストをコピーするだけで翻訳してくれたり,カメラでテキストを撮影するだけで翻訳してくれたりするものもあります.東京オリンピックが開催される2020年に向けて,携帯電話で話をする時,話し相手の母国語にしゃべった内容を機械翻訳し,同時通訳をしてくれる機能が提供されたりしています.ちょっとワクワクしますよね.

この機械翻訳にも様々な難しい問題があります.例えば,単語の単純な置き換えでは翻訳にはなりません.「Good morning」は「良い朝」ではなく「おはよう」であり,日本語と英語で表現方法が異なります.このあたりは,しっかりデータベースを作り込む必要があります.また,そもそも表現できないものがあります.例えば,「お湯」,「白湯」 ,「熱湯」という日本語ですが,英語にするとどうしても「hot water」となってしまいます.しかし,「お湯」,「白湯」 ,「熱湯」ではまったく温度が異なり,利用シーンが違います.これを同じ「hot water」とされてしまうのは大きな問題です.こちらが言いたいことが半分も伝わらないかもしれません.これは,文化に大きく依存している問題です.日本では特に「水」に親しみが深く,「湯水のように使う」というような表現があるように潤沢にしかも綺麗な水が手に入る環境があります.そのため,「水」に関する単語,表現が非常に充実しています.ちなみに北極圏では,「雪」に関する表現が非常に豊富らしいです.これらのことからも言語と文化,環境が密接に関係していることが分かるかと思います.

単に翻訳をする,言語を変換するだけであれば,機械的にも可能な世の中が近づいてきています.しかし,真の意味での翻訳は,それだけでは不十分で,その表現に含まれている意図や感情のようなものも含めて表現する必要があるかと思います.また,上記の例のように,そもそも翻訳しきれないものもあります.なんでもかんでも「カッコいいから外来語を使う」というのではなく,適材適所でしっかりと使い分けできることの方が,本当はカッコいいことではないかと思ったりします.

次回からは3回ほどに渡り,機械翻訳の具体的な処理についてについて書いていきたいと思います.まずは,機械翻訳で最も簡単な方法である単語直接方式と変換方式について書いてみたいと思います.