第22回 『機械翻訳(単語直接方式,変換方式)』
皆様こんにちは,同志社大学の土屋誠司です.自然言語処理の第22回目の今回は機械翻訳で最も簡単な方法である単語直接方式と変換方式について書いてみたいと思います.
機械翻訳では,ある言語を別の言語に変換することになります.ここで,変換前のある言語,変換対象になる言語のことを『原言語』,変換後の別の言語,変換結果になる言語のことを『目的言語』と呼びます.例えば,日英翻訳の場合,日本語から英語に変換しますので,『原言語』は日本語,『目的言語』は英語ということになります.逆に,英日翻訳の場合は,『原言語』は英語,『目的言語』は日本語になります.つまり,機械翻訳とは,『原言語』を『目的言語』に変換する処理と説明することができます.
この機械翻訳で,最も簡単な処理が『単語直接方式』です.これは,原言語から目的言語へ単語単位で置き換えて,目的言語の表現に沿うように並び替える処理になります.英語を初めて学習するとき,すべての単語を英和辞典で調べ,英単語の日本語訳を書き並べ,それから意味が通じるように並び替える.このような英訳をした経験は皆様にもあるのではないでしょうか.その方法をコンピュータで再現したものが『単語直接方式』です.これまでのブログで紹介させていただいた技術で言えば『形態素解析』だけを使ったような方式です.
しかし,中学校ぐらいのテストであればそれでも何とかなるのですが,高校ぐらいのテストになるとこの『単語直接方式』の翻訳方法では歯が立たなくなります.このあたりで,私は英語に挫折しましたが...そこで,もう少し考えて処理をしないといけないということになります.コンピュータでも同じで,単に単語を並べるのではなく文法情報も利用した方が精度よく翻訳できるのではないか.そこで登場したのが『変換方式』です.『形態素解析』だけではなく『構文解析』も利用し,原言語の構文解析結果を目的言語の構文解析結果に変換することで翻訳を実現します.
このように,我々が学習過程で良く行う方法とよく似た手法で翻訳されます.我々が必要とするプログラムの多くは,我々が面倒だから,時間がないから,能力がないから代わりにやって欲しいという要求に応えて開発されるものです.そのため,そのやり方は我々人間がすでにやっている方法をまねることが近道で,解決のヒントがそこにあることが多いような気がします.機械翻訳の技術は,正にその典型例かと思います.
上記の方法で,一定の精度で翻訳が可能になるのですが,昨今のグローバル化を背景に,多言語間で翻訳をしたいという需要が出てきました.日本語,英語,イタリア語,ドイツ語,フランス語など主要な言語でも多数の言語があります.翻訳にはもちろん辞書が必要になりますが,それぞれの言語間で,変換するためには,その言語間で変換するための多くの辞書が必要になります.例えば,10種類の言語間で翻訳をしようとすると,なんと90種類もの辞書が必要になります.この辞書を作るには,多くのデータが必要ですし,人手もコストもかかります.そこで,新しい方法が必要になりました.
ということで,次回は,この問題を解決する多言語間での翻訳に適している中間言語方式について書いてみたいと思います.