niki-til

評価者間一致度(κ と α)

一言定義: 複数の評価者が同じものを評価したとき、偶然より上にどれだけ一致しているかを示す指標。

なぜ重要か

人手アノテーション(AI 回答が「正解」「不正解」のどちらか等)では、評価者が変われば結果も変わる。一致率だけだと偶然による一致を過大評価してしまうので、偶然一致を補正した指標が必要。これが揃っていないとそもそも「正確性スコア」の信頼性が崩れる。

Cohen's κ(カッパ)

Krippendorff's α(アルファ)

具体例

AI検索評価12指標 の ③正確性スコアで、3 人の評価者が 100 問の「key_facts を含むか」を独立に判定。

ai-search プロジェクト内での運用

参考・引用元


2026-05-30 作成。AI検索評価12指標シリーズの方法論補足。Cohen's d と併せて読むと統計設計の全体像が見える。