词库处理流程和思路

一堆屎在你面前展示多久你会吃?

这个问题很可笑吗? 假如没有词库,很可能SEO过程中展示的就是一堆屎。

词库整理的大概流程

词库整理的目的是通过模板把尽可能多的词表示出来。不要在词库这一步掺和进其他乱七八糟的需求,比如这批词如何生成内容,竞争程度怎样等等。

词库处理流程和思路_第1张图片
词库整理的流程

词库流程如图所示,不多说。
词库整理的三个重要点

  • 词根
  • 受控词表
  • 组成模板
    1,词根
    词库最终会被整理成{前缀}+词根+{后缀}(三个未必全部出现)的形式。整个公式中,我们唯一能确定的就是词根,基础也是词根。下面我们会说如何解决词根问题。
    2,受控词表
    受控词表就是某类关键词的聚合组成的表。比如在{城市}+旅游这批关键词中,城市这个大集合包含很多关键词,例如深圳,上海等。受控词表的建立只能通过观察规律加手动修改来完成,比如我们发现,城市+旅游这种逻辑,只需要通过正则把旅游前面的词匹配出来,在替换,去重,正则之后人工删选。
    3,组成模板
    每个词库都不太相同,甚至同样一份词库,两个人操作结果都不同。比如{地区}+{岗位}这种词,有些人会觉得地区重要,有些人会觉得岗位重要。

词库整理的一些细节

  • tf-idf如何计算?
    可以通过jieba分词。
    传送:https://github.com/fxsjy/jieba
    其实就是一行代码,返回一个tags列表
jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
  • 词库划分到什么颗粒停止?
    这个根据自己的需求来定,组成模板的词数量越少,词库划分越精准。

  • 有什么好的工具吗?
    没有。
    我们可以看流程图,词库整理是一个不断循环的过程,这就意味着,每循环一次,我们就需要建立对应的表格(或者叫页面)来存储数据。现在我能想到最好的满足这种需求的东西就是网站,我正在做这个网站。

参考资料
gogo闯:【流量贩子】关键词数据分析| GoGo闯@流量贩子
夜息:夜息:小议SEO数据分析III – 维护词库(完工)

你可能感兴趣的:(词库处理流程和思路)