評価者間一致度(κ と α)
一言定義: 複数の評価者が同じものを評価したとき、偶然より上にどれだけ一致しているかを示す指標。
なぜ重要か
人手アノテーション(AI 回答が「正解」「不正解」のどちらか等)では、評価者が変われば結果も変わる。一致率だけだと偶然による一致を過大評価してしまうので、偶然一致を補正した指標が必要。これが揃っていないとそもそも「正確性スコア」の信頼性が崩れる。
Cohen's κ(カッパ)
- 適用: 2 評価者・名義尺度(カテゴリ判定)
- 計算式:
κ = (P_o − P_e) ÷ (1 − P_e)P_o: 観察された一致率P_e: 偶然期待される一致率
- 慣習解釈(Landis & Koch 1977): 0.21-0.40 fair / 0.41-0.60 moderate / 0.61-0.80 substantial / 0.81+ almost perfect
Krippendorff's α(アルファ)
- 適用: 3 人以上の評価者、欠測あり、名義/順序/間隔/比率すべての尺度に対応する汎用版
- 目安: α ≥ 0.80 で「結論を信頼してよい」、0.667 ≥ で「予備的議論用」(Krippendorff 2004)
- ai-search のように尺度が混在する評価では Cohen's κ より α を使う方が安全。
具体例
AI検索評価12指標 の ③正確性スコアで、3 人の評価者が 100 問の「key_facts を含むか」を独立に判定。
- 観察一致率 0.90 / 偶然期待 0.50 → κ = 0.80(substantial)
- これなら採点ロジックは安定していると言える
ai-search プロジェクト内での運用
- DoD カテゴリ E-1(Reliability)で κ ≥ 0.70 または α ≥ 0.667 を最低基準として要求。
- factual / brand mention / freshness 判定のアノテーションは 2-3 人の評価者で並行採点し κ または α を毎週報告。
参考・引用元
- 論文: 「The measurement of observer agreement for categorical data」— Landis & Koch, Biometrics 1977
- 書名: 「Content Analysis: An Introduction to Its Methodology」— Klaus Krippendorff(Sage, 2004)
- ドキュメント: 「DoD フレームワーク v1.0」— GMO ai-search docs/dod-framework-v1-2026-05-28.md
2026-05-30 作成。AI検索評価12指標シリーズの方法論補足。Cohen's d と併せて読むと統計設計の全体像が見える。