回答長 (Answer Length)
一言定義: AI 回答テキストの平均文字数(日本語)。
なぜ重要か
- ビジネス側: 長すぎる回答はユーザーが読まない(クリック離脱)。短すぎる回答は情報密度が低い。エンジンごとの「説明スタンス」を測る指標。
- 学術側: 単独では trait(能力)の指標にはならないが、③ 正確性とのトレードオフ(長く答えるほど誤情報が混じりやすい)や ⑧ レイテンシとの相関で読む。HELM (Liang et al. 2023) も length を補助指標として扱う。
計算式
回答長 = Σ(回答文字数) ÷ (回答数)
文字数はトークン数ではなく 日本語の文字数(コードポイント数) で測る。半角英数も全角と同じ 1 文字でカウント(クライアント向け説明のしやすさ優先)。
具体例
仮想シナリオ:
- ChatGPT Search: 平均 850 文字(中庸)
- Gemini Pro: 平均 1,400 文字(長文派)
- AI Overview: 平均 320 文字(圧縮派)
- Copilot: 平均 1,200 文字
AI Overview が 320 文字ということは、ユーザーが SERP 上で読み切れる短さ。引用も少なくなる傾向(① 引用率と弱い正相関)。
関連学術文献
- Liang, P. et al. (2023). Holistic Evaluation of Language Models (HELM). TMLR.(length は補助指標として記載)
- Aggarwal, P. et al. (2024). GEO: Generative Engine Optimization. KDD 2024.(length は GEO 効果量と弱相関と報告)
ai-search プロジェクト内での運用
- 対象クエリ: 全 600 問
- 集計: エンジン × intent カテゴリで分布も併記(factual は短い・comparison は長い、など intent 依存)
- 構成概念: C4 Agent Task Completion Fidelity の前提条件(出力形式の規定に従えるか)。単独構成概念にはしない
参考・引用元
- ドキュメント: 「リサーチ戦略・分析指標12項目」— GMO ai-search docs/research-strategy.md
- 論文: 「GEO: Generative Engine Optimization」— Pranjal Aggarwal et al., KDD 2024
- 論文: 「Holistic Evaluation of Language Models (HELM)」— Liang et al. 2023, TMLR
2026-05-30 作成。AI検索評価12指標シリーズ ④。