Jaccard 類似度
一言定義: 2 つの集合の「共通要素 ÷ 全要素」。0(重なりなし)から 1(完全一致)。
計算式
J(A, B) = |A ∩ B| ÷ |A ∪ B|
A と B の 共通する要素の数を、両方合わせたユニーク要素の数で割る。
具体例
A = {りんご, みかん, バナナ}(3 要素) B = {りんご, バナナ, ぶどう}(3 要素)
- 共通: {りんご, バナナ} → 2 個
- 和集合: {りんご, みかん, バナナ, ぶどう} → 4 個
- J = 2 ÷ 4 = 0.50
なぜ重要か
「順位」ではなく「集合としての一致度」を測りたいときに使う。順序を無視するので、ランキングが入れ替わっても、同じ顔ぶれなら高くなる。
AI 検索評価での出番
AI検索評価12指標 では 2 つの指標で直接使う:
弱点と派生
- 集合サイズの差に弱い: A が 100 要素・B が 10 要素で全要素共通でも J = 0.10。サイズ非対称な比較では Overlap coefficient
|A∩B| ÷ min(|A|, |B|)の方が公平な場合あり。 - 重み付き拡張: 引用頻度の重みを入れた Weighted Jaccard もある(Ioffe 2010)。
- テキスト n-gram: 文章の類似度判定でも shingling + Jaccard が古典的手法。
参考・引用元
- 論文(命名の起源): 「Étude comparative de la distribution florale dans une portion des Alpes et des Jura」— Paul Jaccard, Bulletin de la Société Vaudoise des Sciences Naturelles, 1901
- 書名: 「Mining of Massive Datasets」— Leskovec, Rajaraman, Ullman(Cambridge, 2014)3 章
2026-05-30 作成。AI検索評価12指標シリーズの方法論補足。⑦ ⑩ で直接使用。