Jaccard similarity coefficient 杰卡德相似系数 基础闲话

Jaccard similarity coefficient(杰卡德相似系数)是一种计算相似度的基础算法 。Jaccard距离常用来处理仅包含非对称的二元(0-1)属性的对象. 计算的数据是二进制集合,集合中的元素只有0和1两个值,1表示元素存在,0是不存在该元素。因此,该算法适合一些特征相对稀疏的情况来使用,有限个的特征二进制集合作为输入得到不同事物(如文本相似、数据聚类等)。

基础概念

集合

若存在集合A = {1,2,3} ;B = {2, 3, 4};

并集: AB = {1, 2, 3, 4}

交集:AB = {2, 3}

集合基数

  • 集合论中刻画任意集合大小的一个概念, 数学概念中一般用card表示
  • 表示集合的元素个数, 如a =[1,3,4], card(a) = 3,即基数是3

二进制集合

  • 元素只有0和1两种,分别表示此位置的元素存在与不存在
  • 如果元素是0,则基数计算是不做统计。如card([1,0,0,1]) = 2

杰卡德距离

向量A:(0,0,1,1,1,0,1)

向量B:(1,0,1,0,1,0,0)

A∩B = 2 -- 对应位置都为1
A∪B = 5 -- 1 至少出现一次的位置
Jaccard distance

python实现

a = list('0011101')
b = list('1010100')
c = [1 if (i1 == i2 and i1=='1') else 0 for (i1, i2) in zip(a, b,)]
d = [1 if (i1 == '1' or i2=='1') else 0 for (i1, i2) in zip(a, b,)]

print(c, d)
jc = len([i for i in c if i==1]) / len([i for i in d if i ==1])
js = 1 - jc
print(js)

输出结果为: (c, d) = [0, 0, 1, 0, 1, 0, 0] [1, 0, 1, 1, 1, 0, 1]
js = 0.6