TF-IDF是什么

TF:词频。表示一个单词在若干单词中出现的频率,计算方法为:单词出现的次数/所有单词的个数

IDF: 逆向词频。表示一个单词在若干单词中的可识别性(唯一性或者理解为重要性),计算方法为:Math.log(所有单词的文件总数/包含关键词的文件数+1)

TF-IDF = TF*IDF

如何理解IDF

TF理解的难度非常小,而IDF一般人会比较难理解。

IDF的一般用来表示这个单词在所有文档中的可识别性大小,如果单词在所有文档中只出现过一次,那么这个单词的重要性或者说可识别性就非常高,Math.log(所有单词的文件总数/包含关键词的文件数+1)计算后的结果也会相对比较高。

这样一个单词出现的次数越多,则TF值越高。

一个单词出现在的文件数越少,则IDF值越高。

即:一个单词的TF-IDF值和单词的词频(TF),也即单词出现的次数成正比,和单词所在的文档数成反比。