第23回 『機械翻訳(中間言語方式)』
皆様こんにちは,同志社大学の土屋誠司です.自然言語処理の第23回目の今回は多言語間での翻訳に適している中間言語方式について書いてみたいと思います.
前回の自然言語処理の第22回で紹介させていただいた『単語直接方式』や『変換方式』では,10種類の言語間で翻訳をしようとすると,90種類もの辞書が必要になり,多くのコストが必要になってしまいます.そこで,必要となる辞書の数を減らすことができないかと考えられたのが『中間言語方式』です.
『中間言語方式』は『ピボット方式』とも呼ばれる方法で,原言語を直接目的言語に変換するのではなく,一度別の言語,中間言語に変換します.その後,変換された中間言語から目的言語に変換する方式になります.中間言語は,言語に依存しないこと,また,意味を表現可能であることが条件になります.つまり,原言語に『形態素解析』や『構文解析』だけではなく『意味解析』まで行い,単語,構文,意味を捉え,それらの情報を中間言語で漏れなく表現する必要があります.意味まで捉えることができ,しかもコストも削減できるとなると理想的な方法かと思います.
現在では,中間言語として人工的に作られた表現方法を使用していますが,古くは中間言語としてドイツ語が利用されていた歴史があります.自然言語処理の第14回の言語と国でも書かせていただきましたが,ドイツと聞くと,まじめで硬いというイメージがあります.これはドイツ語についても同じであり,曖昧性が少なく,文法構造がしっかりしていると言われています.そのため,中間言語に採用されたようです.
このように,一度原言語を中間言語に変換してから目的言語に変換することで,必要となる辞書の数を減らすことができます.先の例と同じ10種類の言語間で翻訳しようとするとたった20種類の辞書だけで多言語間での翻訳を実現することができます.『単語直接方式』や『変換方式』と比較すると約20%程度の量の辞書で実現できるということになり,かなりのコスト削減になることが分かるかと思います.
いくら性能が良いとしても,莫大な費用が掛かるのであれば,一般的なユーザには行き渡らないことになり,結局存在しないのと同じということになってしまいます.技術は使われて初めて価値が生まれます.適切なコストと性能とのバランスが重要かと思います.また,ユーザとなる我々は,ついついコストにばかり目が行きがちではありますが,コストだけではなく,性能や信頼性などにもしっかり目を向けて,自分に合った,納得したものを選んでいただけたらと思います.
なお,自然言語処理の第7回の意味解析・文脈解析などでも書かせていただきましたが,意味までしっかり解析できる手法は未だ確立しておらず,まだまだ研究段階です.そのため,この中間言語方式はある意味「未完成」な方式と言えるのかもしれません.今後,より良いものとして進化して我々の手元にやってきてくれることを期待したいと思います.
次回は,最近の主流である事例ベース方式について書いてみたいと思います.