第2回 『自然言語の構造』

皆様こんにちは,同志社大学の土屋誠司です.自然言語処理の第2回目の今回は,コンピュータで処理する対象である自然言語の構造について書いてみたいと思います.

自然言語は,小さいものをどんどんつなげて大きくしていくことができる階層構造を持っています.一番小さなまとまりが『音素』です.これは音の単位であり,人間の情報伝達において音声をどのように使用しているかを基に定義したものです.声を文字に書き起こす音声認識システムでは,この『音素』レベルで処理をしています.日本語をローマ字で書いた時のアルファベット1文字が『音素』にあたります.例えば「音」という単語であれば,ローマ字で書くと「oto」となりますので単語「音」は「o」,「t」,「o」の3つの音素で構成されているということになります.

この『音素』で表現されるのが『文字』です.言葉を記すための最小の言語単位です.日本語であれば「ひらがな」1文字がこれにあたります.先ほどの単語「音」であれば「お」,「と」の2つの文字で構成されています.

この『文字』で表現されるのが『形態素』です.これは,意味を持つ最小の言語単位であり,この『形態素』を集めてくると『語(単語)』になります.日本語では最も馴染みのあるまとまりでしょうか.文法上一つの機能,一つの意味のまとまりをもつ最小の言語単位です.この『形態素』という概念は,そもそもは欧米の言語研究の成果として導入されたものであり,日本語との相性が良いとは言えません.そのため,日本語においては『形態素』と『語(単語)』の違いはあまりなく,両者はほぼ同じように扱われていることが一般的です.

その次は,文を意味と発音の観点から不自然でない程度に区切った『文節』になります.この『文節』は,国語の時間でも「文節の切れ目を答えなさい」などとテストの問題として良く問われるものですが,定義は非常に曖昧です.小学校の時には「終助詞の「ね」を挿入して自然に聞こえるところ」と習った方も多いのではないでしょうか.言葉の係り受け(修飾‐非修飾の関係)を調べる際にはなくてはならない概念になります.

さらに大きくすると,あるまとまった内容を持った形の上で完結した『文』が構成されます.そして,その文が順序付けされて集めると『文章(テキスト)』となります.

このように,自然言語は階層構造を持っていますので,小さい方から順に解析を進めるということになります.また,コンピュータで扱う自然言語の種類により,その言語の特徴に合わせて処理方法を工夫する必要があります.研究活動は,これまではどうしても欧米が進んでいたという関係で,この自然言語処理という分野においても欧米の研究成果を輸入し,日本語に適用してきたという背景があります.そのため,今回の『形態素』などのように,日本語とは相性が良いとは言えない考え方があったりもします.現在も第三次人工知能ブームにより,多くの言語データを使用して,統計的に処理をしようと試みられており,多くの成果が上がってきています.しかし,大量に言語データを集めようとするとやはり欧米や中国などと比べて人口が少ない日本は不利になります.特に,日本語は独特な言語であったりしますので,日本人でないとうまく扱えない側面もありますので,今後は日本初の技術開発もどんどん行っていく必要があるかと思います.

次回は,この日本語の独自性について書いてみたいと思います.