AI検索評価 12指標 — 入口
GMO AI検索ラボの ai-search プロジェクトで、ChatGPT Search / Gemini / Google AI Overview / AI Mode / Copilot / Claude の6エンジンを横断比較するために使っている 観測指標 12個(query-set-v1.1: 10業種 × 5 intent × 12 問 = 600 問完全均一)を、仁紀自身の復習用に1枚ずつ解説する。
注意: 12指標は「観測 (operational) 指標」であって、docs/a1-construct-map-2026-05-29.md で定義された 5 つの 構成概念 (latent constructs) とは区別する。構成概念は AI 検索エンジン側の不可視な能力(Citation Fidelity / Source Trustworthiness Bias / Brand Visibility / Agent Task Completion Fidelity / Temporal Freshness)であり、12指標はその影で動く observables。
12指標 一覧
| # | 指標 | 一言定義 | 構成概念との関係 | |---|---|---|---| | 1 | 引用率 | 1回答あたりの平均引用URL数 | C1 Citation Fidelity の量側 | | 2 | ソース多様性 | ユニークドメイン÷総引用 | C2 Source Trustworthiness Bias の反転 | | 3 | 正確性スコア | factual問の正解率 | C1 の質側 | | 4 | 回答長 | 平均文字数 | engine UX 側面、C1/C4 と弱相関 | | 5 | 日本ドメイン比率 | .jp/.co.jp/.go.jp 割合 | C2 のローカリゼーション側 | | 6 | TLD分布 | ドメイン種別構成比 | C2 の構造側 | | 7 | 引用重複率 | エンジン間共通ドメインの割合 | エンジン間合意度、C2 の派生 | | 8 | レイテンシ | 平均応答秒数 | engine UX、C4 の前提条件 | | 9 | ブランド言及率 | brand系クエリでのブランド名出現率 | C3 Brand Visibility 主指標 | | 10 | 引用一貫性 | 週次の引用ドメイン Jaccard 類似度 | C2 の時間安定性 | | 11 | 鮮度 | 引用元コンテンツの経過日数 | C5 Temporal Freshness 主指標 | | 12 | DA相関 | DA と引用頻度の Pearson 相関 | C2 と外部 SEO 信号の交点 |
既存 vs 新規
- 既存 (1-8): 海外の AI 検索評価先行研究で標準。Princeton GEO ベンチ (Aggarwal et al. 2024)、HELM (Liang et al. 2023) などで既出。
- 新規 (9-12): GMO ai-search で新規追加。日本ドメイン特化 + ブランド可視性 + 鮮度 + DA 相関を組み合わせて独自性を出している(先行研究: SparkToro 2024 / MIT Aral 2024 / Yang et al. 2025 / Conductor 2024)。
全体の使い方
- 週次レポート: 全12指標を 6 エンジン × 業種別で集計
- クライアント納品: ブランド言及率(9)+ 引用重複率(7)+ DA相関(12)の3点で「自社が AI 回答に出ているか・出すには何が要るか」を説明
- 学術 preprint: 構成概念 C1-C5 への mapping を通じて nomological network 検証(H1-H6 の 6 仮説)
12指標と構成概念の関係(要約)
C1 Citation Fidelity ← 1 引用率 + 3 正確性
C2 Source Trustworthiness ← 2 多様性 + 5 日本ドメイン + 6 TLD + 10 一貫性 + 12 DA相関
C3 Brand Visibility ← 9 ブランド言及率
C4 Agent Task Completion ← 4 回答長 + 8 レイテンシ(前提条件として)
C5 Temporal Freshness ← 11 鮮度
7 引用重複率は単独指標で、エンジン間のクラスタリング分析に使う(どのエンジン同士が似た情報源を参照しているか)。
関連用語ノート(方法論補足)
12指標の計算式や妥当性論を理解するための周辺概念は別ノートにまとめた:
- Cohen's d — 効果量 — エンジン間比較で「実用的にどれくらい違うか」を判定
- Cohen's κ / Krippendorff's α — 評価者間一致度 — 人手アノテーションの信頼性検証
- Jaccard 類似度 — ⑦ 引用重複率と ⑩ 引用一貫性で直接使用
- Nomological Network — 構成概念妥当性 — C1-C5 と 12 指標の妥当性論
- Ceiling Effect / Floor Effect — ③ 正確性スコアの難易度設計
- バリアント (variant) — 地域だけ変えて1要素を測る設計 — 地域バリアント 106 問 (gv001-gv106) の設計思想。地域感応度を測る独立クエリ群
参考・引用元
- ドキュメント: 「研究グレード AI検索クエリセット DoD フレームワーク v1.0」— GMO ai-search docs/dod-framework-v1-2026-05-28.md
- ドキュメント: 「構成概念 5 つの定義」— GMO ai-search docs/a1-construct-map-2026-05-29.md
- ドキュメント: 「リサーチ戦略・分析指標12項目」— GMO ai-search docs/research-strategy.md
- 論文: 「GEO: Generative Engine Optimization」— Pranjal Aggarwal et al., KDD 2024
- 論文: 「Evaluating Verifiability in Generative Search Engines」— Liu, Zhang, Liang, Findings of EMNLP 2023
- 会話: 仁紀(中村)との復習依頼(2026-05-30)
2026-05-30 作成。AI検索ラボ PM として 12 指標を自分の言葉で言えるようにするための整理。各指標の詳細は個別ページへ。