《python网络数据采集》——第六天

7-20

OCR库

Pillow和Tesseract
Twsseract是一个python的命令行工具,不是通过import语句导入库,安装之后,要用tesseract命令在python外面运行

NumPy
numpy可以用数学方法把图片表示成巨大的像素数组,配合tesseract完成任务

遇到背景色渐变,可以用python脚本对图片进行清理,利用pillow库,创建一个阈值过滤器去掉渐变背景色,只把文字保留下来

训练Tesseract

首先把大量的验证码下载到一个文件夹里,第二步是准确的告诉Tesseract一张图片中的每个字符是什么,以及每个字符的具体位置,这里需要创建一些矩形定位文件,在线工具teaaeract ocr chopper可以帮你完成

修改请求头

请求头可以通过requests模块进行自定义,网站会对HTTP请求头的每个属性进行是否具有人性检查,但是通常真正重要的参数就是User-agent

处理cookie

在一个网站上持续的保持登陆状态,需要在多个页面中保存一个cookie,一些网站不要求每次登陆都获得一个新的cookie,所以保存一个旧的cookie就可以访问网站

隐含输入字段

有些表单源代码会向服务器传送大量数据,虽然表单只有三个可见字段,如果机器人直接提交,这样就会中服务器的蜜罐圈套

单元测试

最后很粗糙的把这本书《python网络数据采集》差不多看完了,里面确实看了有很多非常需要深入研究的内容,接下来打算先找几个实践项目做一做

你可能感兴趣的:(《python网络数据采集》——第六天)