ソース多様性 (Source Diversity)
一言定義: ユニークドメイン数 ÷ 総引用数。0〜1 の値で、1 に近いほど多様。
なぜ重要か
- ビジネス側: 多様性が低い = 特定の情報源(Wikipedia / 大手まとめサイト等)に偏っている、ということ。クライアント側のサイトが引用される可能性が下がる。
- 学術側: エンジンの retrieval policy のバイアスを表す。Yang et al. (2025) はプロバイダ内引用類似度 0.82-0.99(プロバイダごとに「お気に入りドメイン」がある)を報告しており、ソース多様性はその裏返し。
計算式
多様性 = ユニークドメイン数 ÷ 総引用数
例: 100 件引用したうち 80 個がユニーク → 0.8。 50 件引用したうちユニークは 12 ドメインだけ → 0.24(=偏っている)。
具体例
仮想シナリオ:
- Claude (WebSearch): 600 問で 3,600 引用 / ユニーク 1,200 ドメイン → 0.33
- Copilot (Bing): 600 問で 6,600 引用 / ユニーク 800 ドメイン → 0.12(Wikipedia と大手 SEO サイトに集中)
- Gemini: 600 問で 1,800 引用 / ユニーク 900 ドメイン → 0.50
ChatGPT で 0.33 ということは「3 回引用するごとに 1 個は同じドメインから引いている」。つまり同じドメインが平均 3 回登場している。
関連学術文献
- Yang, J. et al. (2025). Citation Convergence within Provider in Generative Search. arXiv preprint.
- Aggarwal, P. et al. (2024). GEO: Generative Engine Optimization. KDD 2024.
ai-search プロジェクト内での運用
- 対象クエリ: 全 600 問
- 集計単位: エンジン × 業種(10業種)でクロス集計。業種ごとの引用集中の偏りを観察
- 構成概念: C2 Source Trustworthiness Bias の逆指標(多様性が低いほど特定ソースに信頼を寄せている)
参考・引用元
- ドキュメント: 「構成概念 5 つの定義」— GMO ai-search docs/a1-construct-map-2026-05-29.md
- ドキュメント: 「リサーチ戦略・分析指標12項目」— GMO ai-search docs/research-strategy.md
- 論文: 「Citation Convergence within Provider」— Yang et al. 2025, arXiv preprint
2026-05-30 作成。AI検索評価12指標シリーズ ②。