开发语言:Python2.7
开发环境:64位Windows8系统,4G内存,i7-3612QM处理器。
数据库:MongoDB 3.2.0
(Python编辑器:Pycharm 5.0.4;MongoDB管理工具:MongoBooster 1.1.1)
启动前配置:
SinaSpider主要爬取新浪微博的个人信息、微博数据、关注和粉丝。
数据库设置 Information、Tweets、Follows、Fans四张表,此处仅介绍前面两张表的字段。
Information 表:
_id:采用 “用户ID” 作为唯一标识。
Birthday:出生日期。
City:所在城市。
Gender:性别。
Marriage:婚姻状况。
NickName:微博昵称。
Num_Fans:粉丝数量。
Num_Follows:关注数量。
Num_Tweets:已发微博数量。
Province:所在省份。
Signature:个性签名。
URL:微博的个人首页。
Tweets 表:
_id:采用 “用户ID-微博ID” 的形式作为一条微博的唯一标识。
Co_oridinates:发微博时的定位坐标(经纬度),调用地图API可直接查看具体方位,可识别到在哪一栋楼。
Comment:微博被评论的数量。
Content:微博的内容。
ID:用户ID。
Like:微博被点赞的数量。
PubTime:微博发表时间。
Tools:发微博的工具(手机类型或者平台)
Transfer:微博被转发的数量。
转载请注明出处,谢谢!(原文链接:http://blog.csdn.net/bone_ace/article/details/50903178)