网络爬虫终篇:向10万级网易云用户发送定向消息

本文目标:

上篇我们获得了评论用户ID及主页地址。本篇就可以基于这些数据进行一些数据分析和市场操作。理论上学会了本文的方法,你可以在任何一个网页发送广告信息,本文具有被坏人利用的可能性,因此设置了收费,而这一套爬虫教程,如果在网易云课堂找网课教,学费要1200元左右。网课的暴利还是巨大的。

终极目标达成:

1、通过热门歌手,抓取歌曲ID。
2、通过歌曲ID,抓取评论用户ID。
3、通过评论用户ID,发送定向推送消息。
上两篇完成了步骤1、步骤2,本文完成步骤3.
总结篇:requests和selenium的区别:requests无页面的方法获取歌曲ID,速度比较快,但是只能获取一些无需登录的公开网页,如果需要用户登录和验证,requests将无法做到。
selenium的优势在于完全模仿人打开网页的操作,就好像你雇佣了一个助手帮你做事一样,非常直观,也不会被禁止访问。而且对于需要用户登录的界面(如微博等),用selenium能轻松跳过验证的麻烦环节。
上篇我们用MYSQL存储爬取用户的主页信息,本篇将支持错误重做,每处理完一条记录就打一个处理标志位Y,和我们生产系统的做法类似。


步骤1:查询用户lD和主页的表

这里需要查询u

你可能感兴趣的:(python付费专栏,数据库,mysql,爬虫,数据分析,数据挖掘)