第29回 『重要性を測る』 

皆様こんにちは.同志社大学の土屋誠司です.自然言語処理の第29回目の今回は,重要性を測る方法について書いてみたいと思います.

いろいろな技術やシステムを開発した場合,開発してそれで終わりというわけではなく,当然ですが,その開発した技術やシステムの良し悪しを評価する必要があります.情報検索の技術では,ユーザが求めている,重要だと思っている情報を得られたかどうかで評価することになります.

では,ユーザは何を求め,重要だと思っているのでしょうか?普通に考えると,そのユーザが目的とする文書を検索できれば良いのですが,これを『適切性』と呼びます.普通のユーザであればこれで問題になることはないのですが,もしそのユーザが普通ではない感性の持ち主で,常識的には考えられないような回答を求めていたとすると,そのユーザにとっては目的とした文書を検索でききていないということになり,評価は低くなります.このような結果が出てしまっては,しっかり作成されたシステムとしては,たまったものではありません.そこで『適合性』という客観的に見て適合する文書を検索できたかどうかも評価基準になります.また,ユーザが思ってもいなかった回答だけれども,いざシステムが出力してみるとユーザが気に入る,ユーザにとって役に立つ文書かもしれません.これを『有用性』と呼びます.このように,いろいろな視点からシステム評価をすることができますが,これらの視点が,いわゆる「重要性」なのかと思います.

また,検索する対象によってもシステムの性能は変わってきます.検索が困難な情報を相手にすると,やはり検索性能は落ちますし,検索が容易な情報を対象にすると,もちろん検索性能は良くなります.そこで,検索システムの精度を客観的に比較するための共通の評価基盤となるデータセットを用意し,それを用いて性能の比較を行います.このデータセットのことを『テストコレクション』と呼びます.この『テストコレクション』には,検索対象となる文書の集合と検索する際の質問文の集合,そして,検索対象となる文書集合中のどの文書が検索結果として適合しているかという適合情報がデータベースとして格納されています.

このようなデータを作成しておくことは,非常に手間暇とコストがかかりますが,これを用いることで,適合する文書を漏れなく検索できているのか,また,適合する文書だけを検索できているのかを簡単に評価することができます.前者のことを『再現率』,後者のことを『適合率』と呼び,それぞれ『完全性』と『正確性』を評価する尺度となります.ちなみに,2つの評価値が算出されることになりますので,システムを比較するには少々不都合が生じます.そこで,この『再現率』と『適合率』の2つの値の調和平均を取り1つの値にした『F尺度』と呼ばれる値で比較することが一般的です.

システムも人もいろいろな重要性を持っていますので,やはり複数の様々な視点から評価することが重要なんだと思います.