第24回 『機械翻訳(事例ベース方式)』

皆様こんにちは,同志社大学の土屋誠司です.自然言語処理の第24回目の今回は最近の主流である事例ベース方式について書いてみたいと思います.

2010年代から第三次人工知能ブームが来ておりますが,機械翻訳の分野でも活用され,飛躍的に翻訳性能が向上しました.大量のデータをコンピュータに蓄積し,その大量のデータを『統計処理』することで,そこから何かしらの知識やルール,規則,法則などを見つけ出すという『ビックデータの解析』技術が応用されています.機械翻訳でも大量な辞書が必要になり,その作成には多くのコストがかかります.そのため,できれば自動的に構築したいということで,実際に人が翻訳したデータを大量に収集し,それを辞書として活用する方法が開発されました.これが最近主流になっている『事例ベース方式』,『コーパス方式』と言われるものです.

大量に収集した翻訳事例を参考に単語を置き換えます.翻訳事例は人が実際に翻訳した結果ですので,基本的には誤りはなく,また,生きた表現を参考にすることができます.我々が学習する際にも,辞書や参考書だけで学習するのではなく,先生に教えていただいた方が学習効率は上がりますし,外国語であれば,その言語が使用されている現地で生活するのが最も学習効率が良いとも言われます.それをコンピュータで実現したと解釈すると,性能が向上するのも納得ではないでしょうか.

この『事例ベース方式』,『コーパス方式』が登場する前の機械翻訳は,お世辞にも素晴らしい翻訳をできるというものではありませんでした.数万円のお金をかけて購入したソフトウェアであれば,そこそこの翻訳結果を得られる可能性が高いというような程度のものでした.しかし現在では,無料で公開されている機械翻訳でも入力する話題を限定し,適切な日本語を入力しさえすれば実用に耐えうる性能があるように感じます.特に,海外旅行などのように翻訳事例がたくさんありそうなシチュエーションのもの,また,ある程度入力される文が推定できそうなシチュエーションのものについては,非常に翻訳性能は高いです.是非,海外旅行などでご利用いただけたらと思います.

ただし,自然言語処理の第20回のかな漢字変換でも書かせていただきましたが,無料ほど怖いものはありません.もし悪意のあるソフトウェアを使ってしまうと,機械翻訳のために入力した内容がすべて盗聴されてしまうような危険性がありますので,その点は注意して使用していただけたらと思います.実際,企業などでは,無料の翻訳ソフトの利用を制限しているところもあるようです.業務内容や機密情報などを翻訳ソフトで翻訳し,その情報が外部に漏れることを考えれば当然かと思います.しかし,無料であるからこそ,たくさんの利用者がいて,その結果,大量の翻訳事例を獲得することができ,翻訳性能も向上したこともまた事実です.一長一短,背に腹は代えられない...難しいところですよね...

次回は,外来語と日本語について書いてみたいと思います.