レイテンシ (Latency)

一言定義: API リクエストを投げてから最終応答を受け取るまでの平均秒数。

なぜ重要か

ビジネス側: ユーザー体験の直接指標。AI 検索は「秒で答えが返る」ことが SERP に対する優位。10 秒かかると離脱する。
学術側: 単独で trait にはならないが、エージェントタスク（C4）の前提条件。レイテンシが大きいエンジンはマルチホップ・タスクで時間切れ／コスト超過になりやすい。HELM も efficiency 指標として採用。

計算式

Latency = Σ(応答秒数) ÷ (リクエスト数)

p50 / p95 を別途出す（外れ値の影響を見る）。タイムアウト分は別カウント（タイムアウト率も併記）。

具体例

仮想シナリオ:

ChatGPT Search (gpt-4o-mini): 平均 3.2 秒 / p95 5.1 秒
Gemini 2.5 Flash: 2.8 秒 / p95 4.4 秒
Claude Opus 4.6 (WebSearch): 8.5 秒 / p95 14.2 秒
AI Overview (SERP scrape): 4.0 秒（SERP 取得時間込み）

Claude Opus の 8.5 秒は「精度トレードオフ」と読む。③ 正確性が高い場合、ユーザーは待つ価値ありと判断するかもしれない。

関連学術文献

Liang, P. et al. (2023). Holistic Evaluation of Language Models (HELM). TMLR.（efficiency 指標）
Aggarwal, P. et al. (2024). GEO: Generative Engine Optimization. KDD 2024.

ai-search プロジェクト内での運用

対象クエリ: 全 600 問
計測: collector スクリプト内でリクエスト開始から最終 chunk 受信までを ms 単位で記録。SERP scrape 系（AI Overview / AI Mode / Copilot）は Bright Data 経由時間を含む
構成概念: C4 Agent Task Completion Fidelity の前提条件。単独構成概念にはしない

参考・引用元

ドキュメント: 「Collector 仕様」— GMO ai-search docs/collector-spec.md
ドキュメント: 「リサーチ戦略・分析指標12項目」— GMO ai-search docs/research-strategy.md
論文: 「Holistic Evaluation of Language Models (HELM)」— Liang et al. 2023, TMLR

2026-05-30 作成。AI検索評価12指標シリーズ ⑧。