seo教程：采集内容如何进行“优化”？

　　采集内容对SEO是否有效?

　　有人说采集内容对搜索引擎友好性不高，不容易获得排名，这个是肯定且必然的。

　　对大多站点，上采集内容必定不如UGC、精心编辑过的内容来的效果好。但是，现在搜索引擎能获取到的原创内容量已经不如之前多了，毕竟内容生产平台已经转移了，早就不集中在网站上了。另外几个搜索引擎之间还相互抓，何况小站点呢。

　　所以采集内容依旧是有效的，只不过对采集内容后加工的成本越来越高了。

　　采集内容的后加工

　　担心采集内容效果差，或者容易被K，主要还是看怎么对内容后加工。打个比方：

　　好比从沃尔玛拿了一筐猕猴桃，原封不动的放到家乐福，顶多还只能是原来的售价，因为猕猴桃还是猕猴桃，商品不变。但把猕猴桃榨成汁(形态变化)，加点水分瓶装(粒度变化)，再放到711里卖(平台变化)，售价可以翻几倍(价值增益)

　　为啥?

　　因为形态变了，果汁是不同于水果的商品，且果汁更容易吸收

　　因为平台变了，711定价本身就比沃尔玛家乐福要高一点

　　因为粒度变了，一生二二生三三生万物

　　前三者的变化，导致价值的翻倍

　　如果把“采集内容”比作“猕猴桃”，则对“采集内容”的后加工策略如下：

　　形态

　　组织内容方式无穷多，无论对同一个内容掰开了揉碎了分发到多处、还是多篇相关内容聚合到一处、还是其他方式，都可以让搜索引擎更容易接受。

　　平台

　　术业有专攻，从新浪抓一些垂直行业内容放到对应行业的垂直网站，肯定比放到新浪更合适。把专业化的内容放到专业的网站。

　　粒度

　　同样是抓取的内容，粒度越细，在搜索引擎中的原创度越高。举个极端的例子，星座股票起名八卦算命生辰八字风水算命qq图片动态图….此类型的站，哪个内容不是重复的?

　　增益

　　采集的目的在于补全内容上的漏洞，使同主题的内容比别人更加丰富饱满充实，则产生了页面内容价值上的增益。

　　采集内容完整流程

　　关于“采集内容处理”，从抓取到上线整个流程看，要搞定以下问题：

　　采集内容从哪来?

　　采集内容怎么抓?

　　采集内容如何处理?

　　采集内容从哪来?

　　对于正经做站且做正经站的，定向采集、买专业数据更合适。

　　定向采集，只抓几个特定网站的特定范围，与本站内容漏洞高度相关的。

　　对于不正经做站的，可选择的范围就多很多了，沾点边的内容都可以抓，讲究量大，所以不需要限定某几个站的抓取，有人叫泛采集

　　设置几个主题，直接抓各种大平台的搜索结果便可。大平台指什么?海量内容集中的地方：各类搜索引擎、各类门户、今日头条、微信微博、优酷土豆等等

　　采集内容怎么抓?

　　定向采集：

　　略，平常怎么抓就怎么抓。

　　泛采集：

　　定向爬虫受限于网页模板，在此基础上加上几个内容分析算法来提取内容，改成通用爬虫。

　　好多浏览器插件，如印象笔记之类的，有好多类似“只看正文”的功能，点一下只显示当前浏览网页的正文信息，很多人已经把此类算法移植到python、php、java等编程语言上，搜索下便是。

　　采集内容如何处理?

　　两个先后过程：

　　对原始内容的处理

　　对处理后内容进行组织

　　对原始内容的处理

　　百度专利说过，搜索引擎除了根据正文判断内容相似性，也会根据html的dom节点的位置和顺序来判断，如果两个网页正文的html的结构相似，也可能当做重复内容来处理。

　　所以，采集的内容不能直接拿来就上，要对源码清洗一下。每个人方式各异，个人一般做如下处理：

　　html清洗

　　保留主要标签：p、img

　　删除标签中不重要的属性

　　a = re.sub(r'<(?!p|img|/p)[^<>]*?>','',content).strip()

　　b = re.sub(r']*?>','

　　',a)

　　newcontent = re.sub(r'alt="[^"]*?"','alt="%s"' % title,b).lower()

　　删除中文字数 < 100字的

　　text =

re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!，:：。?、~@#￥%……&*()“”《》]+".decode("utf8"),

"".decode("utf8"),newcontent)

　　text2 = re.sub('<[^>]*?>','',text)

　　words_number = len(text2)

　　去除垃圾信息

　　如“XXX网小编：XXX”、邮箱网址等。。。

更多干货点击前往：www.cqzyseo.com

seo教程：采集内容如何进行“优化”？

你可能感兴趣的:(seo教程：采集内容如何进行“优化”？)