爬虫--大数据时代

       数据从哪来? 分析用户行为,制作用户画像,这需要海量的数据支撑;当然少不了爬虫。

       爬哪些数据?电商数据:淘宝,京东,苏宁.... ;运营商数:移动,联通,电信 ;信用数据:信用卡,人行征信,芝麻分;金融数据:网银,公积金,社保...;出行数据:12306,滴滴打车,去哪儿,携程.....

        如今爬虫横行的年代,互联网大佬也与时俱进, 各种反爬机制往上堆。HTTP Header检测,IP检测,设备指纹技术,用户行为侦测,IP账号绑定,图片验证码,手机短信验证码,登录安全控件等等,

       怎么爬 ?说白了也就是针对各种反爬机制做相应的处理。

       主要的技术:打码服务、IP代理池、模拟键盘输入、模拟用户点击。

  • 打码服务

        最省事的方式无非是找相关的服务商,有偿接入;若有足够的技术储备,可以使用TensorFlow利用机器学习,识别率也能达到90%;

  • IP代理池    
  • 模拟键盘技术 
  • 模拟用户点击

你可能感兴趣的:(爬虫--大数据时代)