======天亮微博采集器---共享版===============================================================================
1、共享版主要资料包括:采集器源码、数据库脚本、redis的window版。
2、开发环境:myeclipse8.5+jdk1.6+mysql5.x+redis2.x+tomcat6.x,在使用时,建议先原版使用或布署。
3、关键性配置文件:
*application.properties :主要配置数据库的IP、端口、用户名、密码,其它参数暂不用管。
*crawl_config.properties :采集器的采集参数,主要是修改redis_host、redis_port、redis_password这三个redis的参数,其它的暂不用管。
4、共享版的开放功能:
*博主信息采集
*博文信息采集
*关键词信息采集
*关注信息、粉丝信息、前两者的互粉计算
暂未开放功能:单条微博的评论采集、微话题采集,该两项功能会择日完善后开放。
5、任务交互界面,以web page方式。
* 布署成功后访问:http://localhost:8080/WeiBoGatherEngine_v4,中间的ip和port选择自己的即可。
* 在提交任务时,帐户信息、微博内容、关注抓取的任务提交的格式为一行一个URL地址,一个URL地址格式为:http://www.weibo.com/${uid}。
如要采集姚晨的个人信息,可以将串http://www.weibo.com/yaochen加入txt box后,提交即可,此时可以看后台的日志输出,或直接查看数据库中表的变化。
========开发和布署说明=======================================================================================
6、导入数据库的 sql脚本。
7、布署成功redis,window或是linux无所谓,2.x版本为好,之上的版本暂未测试。
8、导入源码至myeclipse8.5+jdk1.6+tomcat6.x,再修改下配置文件中的数据库、redis配置即可运行。
========数据库表说明=======================================================================================
9、weibo_account:抓取微博时的种子帐户列表,status和type都置为1即可,其它字段是见名知义的,填写之即可。
sina_person: 采集下来的新浪微博的数据列表。
doc :博文列表,包括博文和元搜索采集到的博文
comments :评论列表
mutualfans :互粉列表
personattention: 关注列表
personfans :粉丝列表
sina_keysearchinfo: 元搜索采集的元数据表,记录了每个关键词采集完成后的元搜索信息。
========附录=======================================================================================
10、本采集器由天亮工作室开源,如有问题欢迎加入网络爬虫、nlp群320349384,欢迎纠正错误与交流。
加入网络爬虫、nlp群320349384,进入到群共享,可以自由下载开源的天亮微博采集器。