Cohen's d(効果量)
一言定義: 2 群の平均値の差を、共通の標準偏差で割って「差の大きさ」を無次元で表す指標。
なぜ重要か
p 値だけ見ても「統計的に有意」と「実用的に意味がある」は別物。サンプルサイズが大きければ些細な差でも p < 0.05 になる。Cohen's d は **「差がどれくらい大きいか」**を p 値と独立に示してくれる。
AI検索評価12指標 の研究では、エンジン A とエンジン B の引用率に差があるとき、d=0.2 なら「あるかないか分からない程度」、d=0.8 なら「明らかに違う」と読む。
計算式
d = (M₁ − M₂) ÷ SD_pooled
ここで SD_pooled は 2 群を合算した標準偏差。
慣習的な解釈(Cohen 1988)
| d の絶対値 | 意味 | |---|---| | 0.2 | 小 (small effect) | | 0.5 | 中 (medium) | | 0.8 | 大 (large) |
ただし分野依存。教育・医学では 0.3 でも大きい。LLM 評価では 0.5 でも実装判断には弱い。
具体例
エンジン A の平均引用率 8.0 件、エンジン B が 5.0 件、共通 SD が 3.0 なら:
d = (8.0 − 5.0) ÷ 3.0 = 1.0 → 大
これは「A の方が明らかに引用が多い」と言ってよい大きさ。
ai-search プロジェクト内での運用
- DoD フレームワーク C-1(Statistical power)で 最小サブグループあたり d=0.5 を power 0.80 で検出可能なサンプルサイズを事前計算する根拠。
- 12 指標すべてでエンジン間比較を Cohen's d で報告予定(Phase B-2)。
参考・引用元
- 書名: 「Statistical Power Analysis for the Behavioral Sciences (2nd ed.)」— Jacob Cohen(Lawrence Erlbaum, 1988)
- ドキュメント: 「DoD フレームワーク v1.0」— GMO ai-search docs/dod-framework-v1-2026-05-28.md
2026-05-30 作成。AI検索評価12指標シリーズの方法論補足。