Tf IDF-重读数学之美
文章目录
TF-IDF是什么
TF:词频。表示一个单词在若干单词中出现的频率,计算方法为:单词出现的次数/所有单词的个数
IDF: 逆向词频。表示一个单词在若干单词中的可识别性(唯一性或者理解为重要性),计算方法为:Math.log(所有单词的文件总数/包含关键词的文件数+1)
TF-IDF = TF*IDF
如何理解IDF
TF理解的难度非常小,而IDF一般人会比较难理解。
IDF的一般用来表示这个单词在所有文档中的可识别性大小,如果单词在所有文档中只出现过一次,那么这个单词的重要性或者说可识别性就非常高,Math.log(所有单词的文件总数/包含关键词的文件数+1)
计算后的结果也会相对比较高。
这样一个单词出现的次数越多,则TF值越高。
一个单词所出现在的文件数越少,则IDF值越高。
即:一个单词的TF-IDF值和单词的词频(TF),也即单词出现的次数成正比,和单词所在的文档数成反比。
文章作者 P.X.C
上次更新 2020-03-13
许可协议 不允许任何形式转载。