niki-til

Cohen's d(効果量)

一言定義: 2 群の平均値の差を、共通の標準偏差で割って「差の大きさ」を無次元で表す指標。

なぜ重要か

p 値だけ見ても「統計的に有意」と「実用的に意味がある」は別物。サンプルサイズが大きければ些細な差でも p < 0.05 になる。Cohen's d は **「差がどれくらい大きいか」**を p 値と独立に示してくれる。

AI検索評価12指標 の研究では、エンジン A とエンジン B の引用率に差があるとき、d=0.2 なら「あるかないか分からない程度」、d=0.8 なら「明らかに違う」と読む。

計算式

d = (M₁ − M₂) ÷ SD_pooled

ここで SD_pooled は 2 群を合算した標準偏差。

慣習的な解釈(Cohen 1988)

| d の絶対値 | 意味 | |---|---| | 0.2 | 小 (small effect) | | 0.5 | 中 (medium) | | 0.8 | 大 (large) |

ただし分野依存。教育・医学では 0.3 でも大きい。LLM 評価では 0.5 でも実装判断には弱い。

具体例

エンジン A の平均引用率 8.0 件、エンジン B が 5.0 件、共通 SD が 3.0 なら:

d = (8.0 − 5.0) ÷ 3.0 = 1.0 → 大

これは「A の方が明らかに引用が多い」と言ってよい大きさ。

ai-search プロジェクト内での運用

参考・引用元


2026-05-30 作成。AI検索評価12指標シリーズの方法論補足。