爬虫功能:
环境、架构:
Python资源共享群:626017123
开发语言:Python2.7
开发环境:64位Windows8系统,4G内存,i7-3612QM处理器。
数据库:MongoDB 3.2.0
(Python编辑器:Pycharm 5.0.4;MongoDB管理工具:MongoBooster 1.1.1)
启动前配置:
运行截图:
数据库说明:
SinaSpider主要爬取新浪微博的个人信息、微博数据、关注和粉丝。
数据库设置 Information、Tweets、Follows、Fans四张表,此处仅介绍前面两张表的字段。
Information 表: _id:采用 “用户ID” 作为唯一标识。 Birthday:出生日期。 City:所在城市。 Gender:性别。 Marriage:婚姻状况。 NickName:微博昵称。 Num_Fans:粉丝数量。 Num_Follows:关注数量。 Num_Tweets:已发微博数量。 Province:所在省份。 Signature:个性签名。 URL:微博的个人首页。
Tweets 表: _id:采用 “用户ID-微博ID” 的形式作为一条微博的唯一标识。 Co_oridinates:发微博时的定位坐标(经纬度),调用地图API可直接查看具体方位,可识别到在哪一栋楼。 Comment:微博被评论的数量。 Content:微博的内容。 ID:用户ID。 Like:微博被点赞的数量。 PubTime:微博发表时间。 Tools:发微博的工具(手机类型或者平台) Transfer:微博被转发的数量。