网络爬虫与舆情分析

舆情分析是一个比较久的行业,算是数据分析比较早的一个应用,对舆情重视是因为互联网时代,信息的复杂性多样性和不可控性,另一方面又想有效的掌控这些信息,开始诉求也比较简单,当互联网媒体中出现跟我有关系的信息的时候,请及时通知我,现在的舆情信息监控系统做的比较复杂和完善了,有事件跟踪、统计报表、事件引导、各种形式提醒功能。我记得在10年前就有公司在做舆情这方面的了,当时我们几个小伙伴还曾经犹豫要不要做这个方向,最后还是放弃了。
舆情分析是大数据分析,那么分析的基础是数据,数据从哪里来,通过网络爬虫从互联网上抓各个媒体的数据,然后做相关的分析。网络爬虫就成了每个舆情分析公司必备的武器,舆情爬虫与其他的爬虫采集在范围上有点差异,舆情采集只关心媒体数据,这算是网络爬虫的一个垂直领域,媒体数据包括新闻、论坛、博客、微博、微信、贴吧、天涯等。
除了范围不同,舆情网络爬虫另一个特点是需要更新及时,就是爬虫的周期的小,否则结果就没有意义了,我有一个做舆情的客户要求新闻的爬虫更新周期要小于10分钟,微博2万个关键词的周期要在20分钟。新闻更新小于10分钟起始没什么,但是微博就不一样了,防采集的机制很完善,20分钟2万关键词搜索是一个有挑战的工作,最后使用我们的解决方案还是按要求完成了。
从专业分工角度来讲舆情的网络爬虫采集交给专业的人来做效率更高,成本更低,因为如果每个舆情公司都招聘自己的爬虫团队再加上服务器费用和维护费用其实成本是挺高了,如果将爬虫部分外包每月付的费用要远远低于自己组建团队,外包爬虫唯一让人不放心的是,貌似东西不在自己手里心里不踏实,其实可以外包技术服务,服务器使用自己的,分布式爬虫系统也部署到自己服务器上,只不过所有的技术问题都交给外包爬虫团队去做了,我们的很多客户都是这么做的。

转载请注明出处 数荟集(专业数据提供) http://www.shuhuiji.com/detail.jsp?id=6

 

转载于:https://www.cnblogs.com/shuhuiji/p/5626021.html

你可能感兴趣的:(网络爬虫与舆情分析)