余弦相似性-重读数学之美
文章目录
余弦相似性能解决什么问题
余弦相似性可以用来计算两件事物之间相似程度,是接近、无关、相反。
例如:两段文本的相似度,版权判断等等
公式
推导过程
- 假设需要计算的两个事物转换为数字向量为a、b
- 计算a、b的余弦相似度(即余弦夹角)
- 根据勾股定理 并代入 可得
实例
- 假设句子A的向量为
a[1,2,2,1,1,1,0]
- 句子B的向量为
b[1,2,2,1,1,2,1]
- 这样句子A和B的余弦相似度代入公式结果为
- 余弦相似度越接近1则表示A、B相似度越高,为1的话表示A、B重叠在了一起
向量转换方式
- 将句子分别分词,得到每个句子的关键词
- 将两个句子的关键词并集,汇总一个全部关键词的数组
- 分别计算全部关键词分别在A、B两个句子中出现的次数(即词频),即为A、B的向量(前一个实例中
a[1,2,2,1,1,1,0]
即表示关键词在A句中出现的次数分别为[1次,2次,2次,1次,1次,1次,0次]
文章作者 P.X.C
上次更新 2020-01-11
许可协议 不允许任何形式转载。