データセット

AI検索の評価は、何を問うか(クエリ=問いかけ)の作り方で大きく変わります。GMO AI検索ラボは、日本語の問いかけを中心とした評価用のデータセット(評価に使う問いの一式)を整え、複数のAI検索を同じ条件で比べられるようにしています。

評価用クエリセット

ラボの中心となるのは、10業種にまたがる大量の日本語の問いかけです。EC(ネット通販)、BtoB SaaS(企業向けのクラウドサービス)、金融、メディアといった幅広い業種を対象に、業種ごとの問いと、業種をまたぐ一般的な問いを組み合わせて作っています。

この問いの一式を、複数のAI検索に同じ条件で投げることで、エンジンごとの答えの正確さや引用のされ方を、まとめて比べられます。十分な数をそろえることで、ひとつひとつの問いに左右されない全体の傾向をつかむことを狙っています。

設計の考え方

問いの一式は、次の観点を意識して作ります。

  • 幅広い業種をカバーする — 特定の業界に偏らず、いろいろな業種を入れる。業種ごとの専門用語や慣習に対して、AI検索がどうふるまうかを比べられるようにする。
  • いろいろな種類の問いを入れる — 事実を確かめる、比べる、おすすめを聞く、手順をたずねる、など、性質の違う問いをバランスよく含める。
  • 日本語ならではの表現を入れる — あいまいな言い回し、敬語、漢字とかなの混在など、日本語ならではの要素を評価の対象に取り込む。
  • 同じ手順でやり直せるようにする — 同じ問いの一式をくり返し使えるようにし、時間とともに起きる変化(エンジンの更新で答えが変わる、など)を観察できるようにする。

問いの一式は、決まりきった正解集ではありません。研究テーマに合わせて増やしたり更新したりしていく前提で使います。

データの公開方針

ラボは、研究の中身に応じてデータを公開する範囲を決めます。誰でも使えるAI検索を用いた実験では、できる範囲で生のデータや分析の考え方を公開することを基本とし、同じ手順でやり直せること(再現性)と、過程を見えるようにすること(透明性)を大切にします。一方で、個別の企業に関わるデータなどはきちんと守り、研究成果を広く共有することと、ビジネス上の機密を守ることを両立させます。

この問いの一式を使った具体的な研究は研究テーマ、評価の進め方は方法論をご覧ください。

このページは役に立ちましたか?