第28回 『重要って何』
皆様こんにちは,同志社大学の土屋誠司です。.自然言語処理の第28回目の今回は,重要とは何かについて書いてみたいと思います.
自然言語処理の第27回目の自分の言葉を見つめなおすでも文書要約の技術として少し触れましたが,言語で物事を表現した際,その中には必ず重要な言葉が存在しています.ここで,「重要」とはいったい何を基準に「重要」と判断すれば良いのでしょうか.文書要約の技術では,『手がかり語』,『テーマ語』,『位置情報』,『タイトル』の4つを挙げましたが,別の分野である情報検索の技術も役に立つかと思います.
情報検索をする際には,あらかじめ文書の内容を特徴付ける上で重要な単語を『索引語』として抽出しておきます.この処理のことを『索引付け(インデキシング)』と呼びます.この『索引付け(インデキシング)』が情報検索システムの良し悪しを左右することになり,非常に重要な処理になります.
この重要性を考えることはやはり非常に複雑なことであり,その昔は人手で『索引付け』を行っていました.しかし,かなりの労力とコストがかかることから,現在では,人手で行った結果も参考にしながら自動的に『索引付け』を行う仕組みが導入されています.自動的に重要性を算出する際には,『TF』と『DF』という二つの考え方を参考にすることが多くあります.
『TF』とは,1つの文書の中である単語が何回出現するかという頻度のことで,1つの文書の中でどれだけ多く利用されているかの指標になります.つまり,多く利用されているということは重要という考え方に基づいています.
もう一つの『DF』は,複数の文書がある際に,ある単語がいくつの文書で出現するかという頻度のことで,どれだけ少ない文書で利用されているかの指標になります.つまり,特定の文書でしか利用されないということは,その文書にとっては非常に重要という考え方に基づいています.『TF』とは逆の考え方かと思います.
これら,2つの考え方から算出された2つの数値を掛け合わせ,1つの数値にすることで,重要性を数値化します.実際には,数値の大きさなどの関係から『DF』は逆数を取った『IDF』という形に変え,『TF・IDF』とし利用されます.
ちなみに,情報検索では,「重要」と一緒に「不要」という考え方も同時に扱うことが一般的です.使用頻度が著しく高く,必要な文書を絞ることができない単語は,情報を検索するという作業においては何の役にも立ちません.そこで,あらかじめ『不要語リスト』として登録しておき,情報を検索する際には利用しないという処理を行います.日本語であれば,助詞,助動詞などが,英語であれば冠詞や前置詞などが『不要語リスト』に登録されます.
高々「重要」ということを表現するだけではありますが,多くの考え方があることを実感していただけるかと思います.次回は,その重要性を測る方法について書いてみたいと思います.