niki-til

Ceiling Effect / Floor Effect(天井効果・床効果)

一言定義: テスト項目が 全員正解(天井) または 全員不正解(床) に張り付き、被験者間の差が測れなくなる現象。

なぜ重要か

たとえば「日本の首都は?」を AI 検索 6 つに尋ねたら全部 100% 正解。差がつかない。これでは「正確性スコアでどのエンジンが優れているか」を判別できない。逆に「2026年Q3のXX社売上高は?」を全エンジンが回答失敗 → これも差がつかない。

ceiling/floor 項目はテストとしての情報量がゼロ。除外するかフラグを立てる必要がある。

検出の目安

正答率 (p) を見て:

IRT (Item Response Theory) では item discrimination(識別力 a パラメータ)も同時に見て、差がつかない項目をさらに弾く。

AI 検索評価での出番

③正確性スコア の信頼性を担保する条件:

具体例

仮想シナリオ(factual-static 77 問の難易度実測):

77 問のうち 15 問が天井・床に張り付くと、有効な比較対象は 62 問になる。サンプルサイズ計算をやり直す必要が出てくる。

関連概念

参考・引用元


2026-05-30 作成。AI検索評価12指標シリーズの方法論補足。③ 正確性の前提条件として頻出する概念。