Ceiling Effect / Floor Effect(天井効果・床効果)
一言定義: テスト項目が 全員正解(天井) または 全員不正解(床) に張り付き、被験者間の差が測れなくなる現象。
なぜ重要か
たとえば「日本の首都は?」を AI 検索 6 つに尋ねたら全部 100% 正解。差がつかない。これでは「正確性スコアでどのエンジンが優れているか」を判別できない。逆に「2026年Q3のXX社売上高は?」を全エンジンが回答失敗 → これも差がつかない。
ceiling/floor 項目はテストとしての情報量がゼロ。除外するかフラグを立てる必要がある。
検出の目安
正答率 (p) を見て:
- p ≈ 1.0 → 天井効果(簡単すぎ)
- p ≈ 0.0 → 床効果(難しすぎ)
- p = 0.4 〜 0.6 が情報量最大の項目
IRT (Item Response Theory) では item discrimination(識別力 a パラメータ)も同時に見て、差がつかない項目をさらに弾く。
AI 検索評価での出番
③正確性スコア の信頼性を担保する条件:
- query-set-v1.json 600 問の難易度分布を Phase B-2 で実測
- p ≈ 1 または p ≈ 0 の項目は フラグして集計から除外 または 再設計
- DoD カテゴリ C-3(Difficulty distribution / IRT)が PASS 判定の前提
具体例
仮想シナリオ(factual-static 77 問の難易度実測):
- p = 1.0: 12 問(簡単すぎ)→ 天井効果のため除外候補
- p = 0.0: 3 問(難しすぎ)→ 床効果のため除外候補
- p = 0.4-0.6: 28 問 → 情報量最大、メイン指標として使用
77 問のうち 15 問が天井・床に張り付くと、有効な比較対象は 62 問になる。サンプルサイズ計算をやり直す必要が出てくる。
関連概念
- Cohen's d: 効果量。ceiling/floor だと d を計算する以前に分散がゼロに近づく
- Nomological network: 妥当性の上位概念。難易度設計はその下の信頼性問題
参考・引用元
- 書名: 「Statistical Power Analysis for the Behavioral Sciences (2nd ed.)」— Jacob Cohen(Lawrence Erlbaum, 1988)
- 書名: 「Item Response Theory: Principles and Applications」— Hambleton, Swaminathan, Rogers(Springer, 1991)
- ドキュメント: 「DoD フレームワーク v1.0」C-3 観点 — GMO ai-search docs/dod-framework-v1-2026-05-28.md
2026-05-30 作成。AI検索評価12指標シリーズの方法論補足。③ 正確性の前提条件として頻出する概念。