第10回 『対話システムの評価手法』

皆様こんにちは,同志社大学の土屋誠司です.今回は,いろいろ工夫して作成した対話システムがうまく動いているのかをどうすれば評価できるのかについて書いてみたいと思います.

人と話をしていても,お話上手な人もいれば,苦手とされている方もおられるかと思います.この上手や下手という評価は,人それぞれの価値観で行われることですので,一概にこれをしていれば良いなどといった基準があるわけではありません.ここが難しいポイントです.対話システムの評価においても同じ事が言えます.

唯一の正解となるべき応答を定めることができないことは,対話システムの評価を難しくしている大きな要因の一つです.また,対話システムの応答を変化させると,今度は,その応答を受け取ったユーザの発言が変化してしまうため,何をもって正しい応答なのかを決めることができません.

よく実施される評価の手法としては,専門家による評価,開発者による評価,ユーザによる評価の大きく3つに分類することができます.

専門家による評価では,専門家がユーザになったつもりでその専門家の経験則から評価を行います.専門家の方に評価をお願いする必要が出てきますので,時間もお金もかかってしまいます.

開発者による評価では,チェックすべき項目をリスト化して,そのチェックリストを参考に評価を行います.開発者ですので,チェックすべき項目を網羅的にピックアップすることはできますが,必ずしもユーザに寄り添ったものとは言えないケースも散見されます.

ユーザによる評価では,ユーザの方に被験者になっていただき,実際に対話システムを使うことでユーザの視点から評価を実施します.また,この評価には,主観評価と客観評価の2種類があります.客観評価では,ユーザの作業時間や作業の正確さ,操作の習得時間や生理的負荷などを計測し,その値から対話システムの良し悪しを評価します.主観評価では,被験者の方にアンケートなどを実施し,満足度のようなものをヒアリングすることで評価を行います.

簡単なのは客観評価ですが,主観評価も併用しなければ,一般的にはユーザに寄り添った評価はできないと考えられます.しかし,ユーザの主観評価や専門家による評価にはコストの問題があります.これらはトレードオフの関係になりますので,上手いバランスで評価の計画を立てる必要があろうかと思います.

2023年に入り,一気に対話型AIが注目され,様々なサービスが展開されるようになってきました.ちょっと前の対話システムと比べて,見違えるほど流暢な言葉を使って応答してくれます.無料のものもありますので,一度試してみてください.そのすごさを実感され,びっくりされるかと思います.それと同時に,その驚くほどの性能のせいで,ちょっとした間違いや対応できないことなどがあると,一気に手のひらを返したかのような批判的なことを言われたりもしています.評価は人それぞれですし,いつ,どこで,誰が,どのように使うのかによっても大きく変わります.また,人間であっても常に正しく対話ができる訳でもありません.一喜一憂することなく,冷静に新しい技術には向かい合っていただけたらと思います.

次回は,気の利いた対話システムという観点から,常識や適切な情報付与について書いてみたいと思います.