回答長 (Answer Length)

一言定義: AI 回答テキストの平均文字数（日本語）。

なぜ重要か

ビジネス側: 長すぎる回答はユーザーが読まない（クリック離脱）。短すぎる回答は情報密度が低い。エンジンごとの「説明スタンス」を測る指標。
学術側: 単独では trait（能力）の指標にはならないが、③ 正確性とのトレードオフ（長く答えるほど誤情報が混じりやすい）や ⑧ レイテンシとの相関で読む。HELM (Liang et al. 2023) も length を補助指標として扱う。

計算式

回答長 = Σ(回答文字数) ÷ (回答数)

文字数はトークン数ではなく 日本語の文字数（コードポイント数） で測る。半角英数も全角と同じ 1 文字でカウント（クライアント向け説明のしやすさ優先）。

具体例

仮想シナリオ:

ChatGPT Search: 平均 850 文字（中庸）
Gemini Pro: 平均 1,400 文字（長文派）
AI Overview: 平均 320 文字（圧縮派）
Copilot: 平均 1,200 文字

AI Overview が 320 文字ということは、ユーザーが SERP 上で読み切れる短さ。引用も少なくなる傾向（① 引用率と弱い正相関）。

関連学術文献

Liang, P. et al. (2023). Holistic Evaluation of Language Models (HELM). TMLR.（length は補助指標として記載）
Aggarwal, P. et al. (2024). GEO: Generative Engine Optimization. KDD 2024.（length は GEO 効果量と弱相関と報告）

ai-search プロジェクト内での運用

対象クエリ: 全 600 問
集計: エンジン × intent カテゴリで分布も併記（factual は短い・comparison は長い、など intent 依存）
構成概念: C4 Agent Task Completion Fidelity の前提条件（出力形式の規定に従えるか）。単独構成概念にはしない

参考・引用元

ドキュメント: 「リサーチ戦略・分析指標12項目」— GMO ai-search docs/research-strategy.md
論文: 「GEO: Generative Engine Optimization」— Pranjal Aggarwal et al., KDD 2024
論文: 「Holistic Evaluation of Language Models (HELM)」— Liang et al. 2023, TMLR

2026-05-30 作成。AI検索評価12指標シリーズ ④。