niki-til

正確性スコア (Accuracy)

一言定義: factual クエリにおける正解率(0-1)。

なぜ重要か

計算式

正確性 = (key_facts を完全に含む回答数) ÷ (factual問数)

ai-search では ground_truth.key_facts を完全に含み、かつ verification_urls ドメインのうち最低 1 件が回答中に引用されたものを「正解」とする。

裏で hallucination rate(key_facts を一切含まない/架空 URL を含む割合)も同時計測。

具体例

仮想シナリオ(factual-static / factoid 68 問 + ymyl 9 問 = 77 問対象):

正確性 0.58 のエンジンは「3 回に 1 回以上は事実誤認 or 引用URL未提示」と読む。YMYL(医療・金融・法律)でこれだと致命的。

関連学術文献

ai-search プロジェクト内での運用

参考・引用元


2026-05-30 作成。AI検索評価12指標シリーズ ③。