第5回 『日本語の特徴』
皆様こんにちは,同志社大学の土屋誠司です.自然言語処理の第5回目の今回は,自然言語処理を行う際に問題となる日本語の特徴について書いてみたいと思います.
学校では,国語の時間に日本語について学びます.文法もその時に学ぶことになりますが,実は日本語には,国語の時間に学ぶ文法以外にも数多くの文法体系があり,「これが正しい文法」というものは存在していません.ちなみに,正しい文法のことを『正書法』と呼びます.そのため,例えば品詞の分類など,様々な定義に「ゆれ」が存在しています.『単語辞書』や『連接可能性辞書』などの知識(データベース)を使用することで実現している自然言語処理では,そもそもこのデータベースをどう作るべきかという根本的な問題が生じます.
またこれに関連して,特に日本語の場合,文の要素(主語や目的語,述語など)を省略したり,単語自体を省略したりすることがあります.そのため,文法に則った表現をするとは限らないという問題もあります.笑い話などでも良く出てくる「私はコーヒー」という表現は,例えば「私の注文はコーヒーです」と解釈することができます.この省略されている部分の解釈は,話の流れや前後にある文章などにより異なってくることになりが,日常生活では使用される表現になります.しかし,文法という枠組みからは逸脱した表現であり,通常の文法知識だけでは解釈することはできません.略語の場合は,例えば英語では,ある単語の頭文字をとって略語を形成する(例えば,NLP:Natural Language Processing(自然言語処理))ことが一般的ですが,日本語では,単語のある部分を切り出して繋ぎあわせることで略語を形成することが多く,より複雑であると言われています.この略語には様々なバリエーションがあり,日々創出され続けるため,簡単にはデータベースに登録することができません.
データベースへの登録が難しいという視点では,これまでのこのブログにも出てきた複合語の問題もあります.「自然言語処理」という単語も「自然言語処理」という一つの単語なのか,「自然言語」と「処理」なのか,「自然」と「言語」と「処理」なのか,判断が分かれます.言葉は生き物であり,また,分野によってもその語の一般度合いが異なりますので,どの複合語を辞書に登録しておくべきかをはっきりと決めることはできません.また,同音異義語や異音同義語の問題もあります.特に日本語には,「ひらがな」,「カタカナ」,「漢字」さらには「アルファベット」も使用して表現しますので,同じ言葉でも複数の表記方法があり,外来語をそのままの形で輸入して使用するという独自性がありますので,同音異義語や異音同義語も自然と多くなってしまいます.
これら日本語の特徴に起因する特有の問題をうまく処理できるように自然言語処理技術は開発され,我々の生活を便利にする一躍を担っています.次回は,形態素解析の次に行う文法を確認する処理である構文解析について書いてみたいと思います.