2019独角兽企业重金招聘Python工程师标准>>>
过年了,抢票不容易,突然想起来,如果用技术手段抢票,那么最难的部分应该是确认订单时的图片验证码要能够自动通过。不然怎么能提的起速度。于是就想着12306的图片识别问题。幸好,在gitHub上面找到了这个识别的开源代码,是用python写的。于是想办法把这段代码跑起来。经过一系列的资料的阅读和调错。终于让这段代码跑了起来:
12306图片识别的开源代码地址:https://github.com/andelf/fuck12306
python环境配置:
版本:2.7.12
需要使用的库,以及安装文件:
Pillow-2.1.0.win-amd64-py2.7:
https://pypi.python.org/packages/2.7/P/Pillow/Pillow-2.1.0.win-amd64-py2.7.exe#md5=3abe747fbbcdba151e48255b96639b69
tesseract-ocr-setup-3.02.02.exe:
https://pilotfiber.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-setup-3.02.02.exe
安装 pytesseract库 :
首先,在 cmd命令行中 cd 到 python27的安装目录的scripts:C:\Python27\Scripts
然后使用:pip install pytesseract 命令 安装
完成上述步骤后,就可以点击开源代码里面的 fuck12306.py 这个文件,运行出开源作者所说的那种识别的效果了。需要注意的是 在这个文件所在的文件夹里面的 temp.jpg文件,是每次从12306抓取来的图片文件,是根据这个图片文件来进行识别的。
这个时候就应当研究里面的 图片识别逻辑了。 研究过的朋友,欢迎一起讨论!