新闻资讯
看你所看,想你所想

词频

词频

词频

TF-IDF(term frequency–inverse document frequency)词频--反转档案频率,是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个档案或者一个语料库中的一个领域档案集的重複程度。词频统计为学术研究提供了新的方法和视野。

基本介绍

  • 中文名:词频
  • 拼音:cí pín
  • 释义:语言材料中词的使用频率
  • 词性:名词

词义

【词语】:词频

词频统计

TF-IDF(term frequency–inverse document frequency)词频--反转档案频率,是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个档案或者一个语料库中的一个领域档案集的重要程度。字词的重要性随着它在档案中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎套用,作为档案与用户查询之间相关程度的度量或评级。

原理

在一份给定的档案里,词频(term frequency,TF)指的是某一个给定的词语在该档案中出现的次数。这个数字通常会被正规化,以防止它偏向长的档案。(同一个词语在长档案里可能会比短档案有更高的词频,而不管该词语重要与否。)对于在某一特定档案里的词语 ti 来说,它的重要性可表示为:
以上式子中 ni,j 是该词在档案dj中的出现次数,而分母则是在档案dj中所有字词的出现次数之和。
逆向档案频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总档案数目除以包含该词语之档案的数目,再将得到的商取对数得到

例子

有很多不同的数学公式可以用来计算TF-IDF。这边的例子以上述的数学公式来计算。词频 (TF) 是一词语出现的次数除以该档案的总词语数。假如一篇档案的总词语数是100个,而词语“母牛”出现了3次,那幺“母牛”一词在该档案中的词频就是 0.03 (3/100)。一个计算档案频率 (DF) 的方法是测定有多少份档案出现过“母牛”一词,然后除以档案集里包含的档案总数。所以,如果“母牛”一词在1,000份档案出现过,而档案总数是10,000,000份的话,其逆向档案频率就是 9.21=( ln(10,000,000 / 1,000) )。最后的TF-IDF的分数为0.28=( 0.03 * 9.21)。

理论依据

TFIDF算法是建立在这样一个假设之上的:对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特徵空间坐标系取TF词频作为测度,就可以体现同类文本的特点。另外考虑到单词区别不同类别的能力,TFIDF法认为一个单词出现的文本频数越小,它区别不同类别文本的能力就越大。因此引入了逆文本频度IDF的概念,以TF和IDF的乘积作为特徵空间坐标系的取值测度,并用它完成对权值TF的调整,调整权值的目的在于突出重要单词,抑制次要单词。但是在本质上IDF是一种试图抑制噪声的加权 ,并且单纯地认为文本频率小的单词就越重要,文本频率大的单词就越无用,显然这并不是完全正确的。IDF的简单结构并不能有效地反映单词的重要程度和特徵词的分布情况,使其无法很好地完成对权值调整的功能,所以TFIDF法的精度并不是很高。
此外,在TFIDF算法中并没有体现出单词的位置信息,对于Web文档而言,权重的计算方法应该体现出HTML的结构特徵。特徵词在不同的标记符中对文章内容的反映程度不同,其权重的计算方法也应不同。因此应该对于处于网页不同位置的特徵词分别赋予不同的係数,然后乘以特徵词的词频,以提高文本表示的效果。

转载请注明出处海之美文 » 词频

相关推荐

    声明:此文信息来源于网络,登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们:ailianmeng11@163.com