TF_内容优化

日期: 栏目:营销推广 浏览:

  谷歌已经使用TF-IDF作为内容排名因素很长一段时间,因为搜索引擎似乎更关注术语频率而不是而不是计算关键字。虽然算法的视觉复杂性可能会让很多人失望,但重要的是要认识到理解TF-IDF并不像知道它如何工作那么重要。

  搜索引擎使用TF-IDF来更好地理解被低估的内容。例如,如果您想在Google上搜索“可口可乐”一词,Google就可以确定标题为“COKE”的页面是关于:

  a)可口可乐。

  b)可卡因

  c)源自原油蒸馏的固体富碳残余物

  d)德克萨斯州的一个县

  本文的目的是通过TF-IDF的未知主题指导所有内容编写者和SEO专家。通过更好地了解Google如何利用此算法,内容编写者可以对TF-IDF进行逆向工程,从而优化网站内容,使其更好地适用于用户和搜索引擎。并且SEO可以将其用作搜索具有更高搜索量和相对较低竞争的关键字的工具。

  TF-IDF是什么?

  TF-IDF是一种信息检索技术,它对术语的频率(TF)和逆文档频率(IDF)进行加权。每个单词或术语都有其各自的TF和IDF分数。术语的TF和IDF得分的乘积称为该术语的TF-IDF权重。

  简而言之,TF-IDF得分(重量)越高,该术语越罕见,反之亦然。

  TF-IDF算法用于权衡任何内容中的关键字,并根据该关键字在文档中出现的次数指定该关键字的重要性。更重要的是,它会检查关键字在整个网络中的相关程度,即所谓的语料库。

  对于术语吨在文档d,重量重量%,d的文件中术语d t通过下式给出:

  Wt,d=TFt,d log(N / DFt)

  哪里:

  TFt,d是文档d中t的出现次数。

  DFt是包含术语t的文档数。

  N是语料库中的文档总数。

  好吧。如果您感到头痛,请不要惊慌。

  让我们更具体地定义它。

  TF-IDF定义

  单词的TF(术语频率)是文档中单词的频率(即它出现的次数)。当你知道它时,你就可以看到你使用的术语是太多还是太少。

  例如,当一个100字的文档包含12次“cat”这个词时,“cat”这个词的TF就是

  TFcat=12/100即0.12

  单词的IDF(逆文档频率)是该术语在整个语料库中的重要程度的度量。

  例如,假设术语“cat”在10,000,000,000文档大小的语料库(即web)中出现x次。假设有30万个文档包含术语“cat”,那么IDF(即log {DF})由文档总数(10,000,000)除以包含术语“cat”的文档数量(300,000) )。

  IDF(cat)=log(10,000,000 / 300,000)=1.52

  ∴Wcat=(TF * IDF)cat=0.12 * 1.52=0.182

  既然你想出了这个(对吧?),让我们来看看这对你有什么好处。

  如何使用TF-IDF获益

  收集话语。写下你的内容,为您的单词运行TF-IDF报告并获取其权重。数值权重值越高,该项越少。重量越小,该术语越常见。比较所有具有高TF-IDF权重的术语与其在Web上的搜索量。选择搜索量较高,竞争较慢的用户。

  一个好的经验法则是,您的内容对用户“有意义”越多,搜索引擎分配的权重就越大。对于内容中TF-IDF较高的单词,您的内容将始终位于搜索结果中,因此您可以:

  不要担心使用停用词,成功搜索具有更高搜索量和更低竞争力的词汇,

  请确保使用能使您的内容与用户相关且与用户相关的单词等。

标签:

热门标签
成都生活发布网 领会推广网 生活发布网 创美瘦身加盟费用 推广频道 知识频道 信息频道 资讯频道 产品频道 两性知识网 pc端是什么意思 zip code是什么意思 女王的圣水能喝吗 喝女王的圣水 小孩晚上喂姐姐吃鸡可以吗 黑色蕾丝女装 小鸟酱 探花七天长沙学院一字马 堕落校花自述经历 男生喜欢射口里应该吃掉么 怎么吃老婆的乳头 怎么吃女朋友的乳头最好 吃女子先吃哪个部位 吃女生先吃哪里 穿着泳衣吃撑大肚子 说一说被女生踩中要害的经历 192.168.233.1登录入口 中国动漫排行榜前十名 mate60pro有5g吗 1988年出生今年多大 三门峡市外国语高级中学 2美金是多少人民币 现在中国时间是几点? 现在几点几分 送你一朵小红花歌曲原唱 美国唯一一个三届总统 win10数字激活工具 广州上下九 小汽车摇号时间 上一任美国总统叫啥 步步惊心插曲 1刀 = 人民币 visualstudio官网 918资料 wpk透视挂是真的吗 阿卡丽得神秘商店 nba挑战规则是什么 高铁票价格为什么有高低 咖啡王子一号店结局 hhpoker德扑圈作弊器真的假的