又名瓦房店站长网:TF * IDF算法附子seo怎么用

谷歌已经使用TF * IDF(或TF-IDFTFIDFTF.IDF艺术家,以前称为Prince)作为您的内容的排名因素很长一段时间,因为搜索引擎似乎更关注术语频率而不是而不是计算关键字。虽然算法的视觉复杂性可能会让很多人失望,但重要的是要认识到理解TF * IDF并不像知道它如何工作那么重要。

搜索引擎使用TF * IDF来更好地理解被低估的内容。例如,如果您想在Google上搜索“可口可乐”一词,Google就可以确定标题为“COKE”的页面是关于:

a)可口可乐。
b)可卡因。
c)源自原油蒸馏的固体富碳残余物。
d)德克萨斯州的一个县。

本文的目的是通过TF * IDF的未知主题指导所有内容编写者和SEO专家。通过更好地了解Google如何利用此算法,内容编写者可以对TF * IDF进行逆向工程,从而优化网站内容,使其更好地适用于用户和搜索引擎。并且SEO可以将其用作搜索具有更高搜索量和相对较低竞争的关键字的工具。

 

什么是TF * IDF?

TF * IDF是一种信息检索技术,它对术语的频率(TF)和逆文档频率(IDF)进行加权。每个单词或术语都有其各自的TF和IDF分数。术语的TF和IDF得分的乘积称为该术语的TF * IDF权重。

简而言之,TF * IDF得分(重量)越高,该术语越罕见,反之亦然。

TF * IDF算法用于权衡任何内容中的关键字,并根据该关键字在文档中出现的次数分配该关键字的重要性。更重要的是,它会检查关键字在整个网络中的相关程度,即所谓的语料库

对于术语在文档d,重量重量%,d的文件中术语d t通过下式给出:

Wt,d = TFt,d log(N / DFt)

哪里:

  • TFt,d是文档d中t的出现次数。
  • DFt是包含术语t的文档数。
  • N是语料库中的文档总数。

行。如果您感到头痛,请不要惊慌。

让我们更具体地定义它。

TF * IDF定义

单词的TF(术语频率)是文档中单词的频率(即它出现的次数)。当你知道它时,你就可以看到你使用的术语是太多还是太少。

例如,当一个100字的文档包含12次“cat”这个词时,“cat”这个词的TF就是

TFcat = 12/100即0.12

单词的IDF(逆文档频率)是该术语在整个语料库中的重要程度的度量。

例如,假设术语“猫”在10,000,000,000文档大小的语料库(即web)中出现x次。假设有30万个文档包含术语“cat”,那么IDF(即log {DF})由文档总数(10,000,000)除以包含术语“cat”的文档数量(300,000) )。

IDF(cat)= log(10,000,000 / 300,000)= 1.52

∴Wcat=(TF * IDF)cat = 0.12 * 1.52 = 0.182

既然你想出了这个(对吧?),让我们来看看这对你有什么好处。

如何使用TF * IDF获益

收集话语。写下你的内容。为您的单词运行TF * IDF报告并获取其权重。数值权重值越高,该项越少。重量越小,该术语越常见。比较所有具有高TF * IDF权重的术语与其在Web上的搜索量。选择搜索量较高,竞争较慢的用户。工作聪明。

一个好的经验法则是,您的内容对用户“有意义”越多,搜索引擎分配的权重就越大。对于内容中TF * IDF较高的单词,您的内容将始终位于搜索结果中,因此您可以:

  • 不要担心使用停用词,
  • 成功搜索具有更高搜索量和更低竞争力的词汇,
  • 请确保使用能使您的内容与用户相关且与用户相关的单词等。