余弦相似性能解决什么问题

余弦相似性可以用来计算两件事物之间相似程度,是接近、无关、相反。

例如:两段文本的相似度,版权判断等等

公式

余弦相似度计算公式

推导过程

  1. 假设需要计算的两个事物转换为数字向量为a、b
  2. 计算a、b的余弦相似度(即余弦夹角)
  3. 根据勾股定理 并代入 余弦定理 可得 推导过程

实例

  1. 假设句子A的向量为a[1,2,2,1,1,1,0]
  2. 句子B的向量为b[1,2,2,1,1,2,1]
  3. 这样句子A和B的余弦相似度代入公式结果为

实例

  1. 余弦相似度越接近1则表示A、B相似度越高,为1的话表示A、B重叠在了一起

向量转换方式

  1. 将句子分别分词,得到每个句子的关键词
  2. 将两个句子的关键词并集,汇总一个全部关键词的数组
  3. 分别计算全部关键词分别在A、B两个句子中出现的次数(即词频),即为A、B的向量(前一个实例中a[1,2,2,1,1,1,0]即表示关键词在A句中出现的次数分别为[1次,2次,2次,1次,1次,1次,0次]