引用一貫性 (Citation Consistency)
一言定義: 前週と今週で同じクエリに対し引用されたドメインの Jaccard 類似度。
なぜ重要か
- ビジネス側: AI 検索の「ランキング揺らぎ」を捉える指標。一貫性が高いエンジンは施策の効果が読みやすい(安定 SERP に近い)。低いエンジンは打ち手の結果検証が難しい(ノイズが大きい)。
- 学術側: test-retest 信頼性 (Cohen 1988) の応用。Krippendorff's α も併用可能。エンジンの retrieval policy が trait なのか state なのかを判別する材料になる。
計算式
一貫性 = |Domains_週N ∩ Domains_週N+1| ÷ |Domains_週N ∪ Domains_週N+1|
クエリごとに計算して平均化。エンジン × クエリ単位の値も後で見る。
時系列に拡張する場合は連続週の Jaccard 系列を作って variance を見る。
具体例
仮想シナリオ(factual-static の同じ 77 問を 2 週連続で):
- ChatGPT Search: 0.78(高安定)
- Gemini: 0.65
- AI Overview: 0.42(毎週入れ替わりが激しい)
- Copilot: 0.71
AI Overview の 0.42 は「先週引かれていたドメインの 6 割は今週には引かれない」。クライアント施策の効果検証では、AI Overview だけ 4 週連続データを取って分散補正する必要がある。
関連学術文献
- Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences. Lawrence Erlbaum.
- DoD framework v1.0 (GMO 内部) E-1 Reliability 観点。
ai-search プロジェクト内での運用
- 対象クエリ: 毎日 (Daily) 縦断観測の対象クエリ全件。週次でロールアップ
- 集計: エンジン × intent カテゴリ × 週で Jaccard を算出。trend chart で揺らぎ可視化
- 構成概念: C2 Source Trustworthiness Bias の 時間安定性側面。state vs trait の判別にも使う
参考・引用元
- ドキュメント: 「研究グレード AI検索クエリセット DoD フレームワーク」— GMO ai-search docs/dod-framework-v1-2026-05-28.md(E-1 Reliability)
- ドキュメント: 「構成概念 5 つの定義」— GMO ai-search docs/a1-construct-map-2026-05-29.md
- 書名: 「Statistical Power Analysis for the Behavioral Sciences (2nd ed.)」— Jacob Cohen(Lawrence Erlbaum, 1988)
2026-05-30 作成。AI検索評価12指標シリーズ ⑩。