爬虫用于爬取数据,又称之为数据采集程序
爬取数据来源于网络,网络中数据可以是有web服务器、数据库服务器、索引库、大数据等等提供
爬取数据是公开的、非盈利。
使用python编写的爬虫脚本可以完成定时、定量、指定目标的数据爬取。主要使用多(单)线程/进程、网络请求库、数据解析、数据储存、任务调度等相关技术。
爬虫使用网络请求库,相当于客户端请求,web后端服务根据请求响应数据。即想web服务器发起http请i去,正确地接收响应数据,然后根据数据地类型进行数据地解析及存储。
爬虫程序再发起请求前,需要伪造浏览器(User-Agent指定请求头),然后再发起请求,这样响应地成功率比较高。
urllib
requests
selenium(UI自动测试,动态js渲染)
appnium用于手机app爬虫或UI测试
re正则
xpath
bs4
json
pymysql
mongodb
elasticsearch
多线程(threading)
线程队列(queue)
协程(asynio、gevent/eventlet)
scrapy
scrapy-redis分布式(多机爬虫)
UA(User-Agent)策略
登陆限制(Cookie)策略
请求频次(IP代理)策略
验证码(图片-云打码,图片验证,滑块验证)
动态js(Selenium/Splash/api接口)策略
不嫌弃的点点关注,点点赞 ଘ(੭ˊᵕˋ)੭* ੈ✩‧₊˚