如果是静态网站可以在分析好url之后进行数据的匹配获取,可以用正则re,xpath,bs4,pyquery等;另外某些网站会对html文件进行压缩,这时会遇到一个解压缩的问题,不然获取到的静态页面数据是乱码。这里我用的是谷歌浏览器,按F12检查,找到network,在主页的html页面接口处查看请求头参数是否有Accept-Encoding,一般的压缩格式都有gzip,那么在发起请求的时候需要把这些参数加到headers里面,这时请求成功之后拿到的数据就是正常的了。
剩下的则是动态网站,一般都是ajax请求的数据,也就是返回的json数据,在拿到目标url之后发起请求,进行一系列的编码解码操作,再用正则re进行匹配需要的字段和内容。
数据持久化也就是将获取到的数据存储到本地,可以是存储为txt,csv,html,xlse等文件格式。另外就是数据库存储,可以选择mysql,redis,mongodb,这三个数据库也是我们必须会用的。