天亮微博采集器-共享版-说明文档

======天亮微博采集器---共享版===============================================================================

1、共享版主要资料包括:采集器源码、数据库脚本、redis的window版。

2、开发环境:myeclipse8.5+jdk1.6+mysql5.x+redis2.x+tomcat6.x,在使用时,建议先原版使用或布署。

3、关键性配置文件:

   *application.properties  :主要配置数据库的IP、端口、用户名、密码,其它参数暂不用管。

   *crawl_config.properties :采集器的采集参数,主要是修改redis_host、redis_port、redis_password这三个redis的参数,其它的暂不用管。

4、共享版的开放功能:

    *博主信息采集

    *博文信息采集

    *关键词信息采集

    *关注信息、粉丝信息、前两者的互粉计算

    暂未开放功能:单条微博的评论采集、微话题采集,该两项功能会择日完善后开放。

5、任务交互界面,以web page方式。

        * 布署成功后访问:http://localhost:8080/WeiBoGatherEngine_v4,中间的ip和port选择自己的即可。

        * 在提交任务时,帐户信息、微博内容、关注抓取的任务提交的格式为一行一个URL地址,一个URL地址格式为:http://www.weibo.com/${uid}。

        如要采集姚晨的个人信息,可以将串http://www.weibo.com/yaochen加入txt box后,提交即可,此时可以看后台的日志输出,或直接查看数据库中表的变化。


========开发和布署说明=======================================================================================

6、导入数据库的 sql脚本。

7、布署成功redis,window或是linux无所谓,2.x版本为好,之上的版本暂未测试。

8、导入源码至myeclipse8.5+jdk1.6+tomcat6.x,再修改下配置文件中的数据库、redis配置即可运行。


========数据库表说明=======================================================================================

9、weibo_account:抓取微博时的种子帐户列表,status和type都置为1即可,其它字段是见名知义的,填写之即可。

   sina_person: 采集下来的新浪微博的数据列表。

   doc        :博文列表,包括博文和元搜索采集到的博文

   comments   :评论列表

   mutualfans :互粉列表

   personattention: 关注列表

   personfans     :粉丝列表

   sina_keysearchinfo: 元搜索采集的元数据表,记录了每个关键词采集完成后的元搜索信息。


========附录=======================================================================================

10、本采集器由天亮工作室开源,如有问题欢迎加入网络爬虫、nlp群320349384,欢迎纠正错误与交流。


加入网络爬虫、nlp群320349384,进入到群共享,可以自由下载开源的天亮微博采集器。

你可能感兴趣的:(java,微博,新浪微博,网络爬虫,开放)