jessicaiu

常用验证码的识别方法

此文已由作者杨杰授权网易云社区发布。

欢迎访问网易云社区，了解更多网易技术产品运营经验。

全自动区分计算机和人类的图灵测试（Completely Automated Public Turing test to tell Computers and Humans Apart，简称CAPTCHA），俗称验证码，是一种区分用户是计算机和人的公共全自动程序。验证码的主要目的是强制人机交互来抵御机器自动化攻击，为了确保服务器系统的稳定和用户信息的安全，越来越多的网站采用了验证码技术。图片验证码是目前最常用的一种，本文也主要讨论这种验证码的识别。
最近在一个爬虫项目中遇到了验证码，需要机器自动识别绕过。这些验证码大都分辨率都较低，本身信息量不大。通常被加入一种或多种干扰因素：各种背景干扰，噪声点像素，字体形变和累叠，字符位置随机及个数不定，反色等情况。在网上调研了资料和文献后，分别采用OCR识别和模板库匹配方法对不同类型验证码进行了识别。主要过程可以分解为三个步骤：1.图片清理，2.字符切分，3.字符识别。以下结合工作经验和调研内容讲解一些常用的验证码识别方法和过程。

1.图片清理
图片清理是为接下来的机器学习或模板匹配阶段做准备的，指通过灰度化、二值化、干扰点清理等过程，得到比较干净的图片数据，具体样例见下表。

1.1 彩色去噪
在计算机中使用最多的 RGB色彩空间，分别对应红、绿、蓝三种颜色，通过调配三个分量的比例来组成各种颜色。以最常见的32位颜色为例，一个分量是用8位来表示，最大值是255，灰度图是指组成颜色的三个分量相等。原始彩色图片包含的信息量是最大的，如果验证码图片中有一些利用颜色反差加的干扰点或者线条，最好能在该阶段做初步清理。比较简单的一种处理方法是采用3*3矩阵对图像进行平滑处理，即对每个像素取他所在3*3矩阵所有点的RGB均值，分别作为新的RGB值。稍微做点优化，取3*3矩阵中RGB三维欧式距离最接近均值的点作为新值。
1.2 灰度化
在彩色电视机系统中，通常使用一种叫 YUV 的色彩空间，其中Y表示亮度信号，对于人眼来说，亮度信号（Y）是最敏感的，如果将彩色图像转换为灰度图像，仅仅需要转换并保存亮度信号就可以。从RGB到YUV空间的Y转换有一个很著名的心理学公式：Y = 0.299R + 0.587G + 0.114B。
而实际应用时，将系数缩放1000倍来实现整数运算：Gray = (R*299 + G*587 + B*114 + 500) / 1000 。注意后面那个除法是整数除法，所以需要加上500来实现四舍五入。该公式的另一个简化变种也很流行：Gray = (R*30 + G*59 + B*11 + 50) / 100。更快的算法是采用移位代替除法，所以可以将系数缩放成 2的整数幂，再做右移操作。该整数取7从精度和速度上最合适：Gray = (R*0.299*2^7 + G*0.587*2^7 + B*0.114*2^7)>>7 = (R*38 + G*75 + B*15)>>7
1.3 二值化
为了简化接下来的计算，需要把灰度图片转化成黑白二值图。默认情况下值大于127的像素点被设置为白色，其余像素点设置为黑色。当然，这个阈值也需要根据图片的实际情况计算调整。一般采用直方图统计确定动态阈值的方法比较靠谱，白底黑字的取直方图靠左边的波谷位置作为阈值，黑底白字则取直方图右边的波谷位置作为阈值，将背景和字符作很好的区分。

以（图A），和（图B）为例，对应直方图分别为直方图A和直方图B，图A对应的动态阈值取127，而图B的动态阈值则取241比较合适。

1.4 底色统一
如果是黑底白字的图片，需要转换成白底黑字，如以上图B。

1.5 干扰点清理
在黑白二值图片去噪阶段，常用的去噪方法为联通性去噪，通常采用8向联通来计算连通点个数，若某个点的连通点数目小于预设的阀值，则认为这些点都是噪声点。这一简单粗暴的清理方法，通常情况下是非常有效的。

2 字符切分
该阶段对前期预处理后的图片进行切割处理，定位和分离出整幅图片中的每个孤立的字符主体部分。主要采用X轴和Y轴投影的方法，即统计对应坐标上黑色像素点的个数。对于图片得到的X轴和Y轴投影分别如下。利用X轴投影可以切割出单独的字符，再分别利用Y轴投影，裁剪掉顶部和底部的空白部分。

3. OCR软件识别
我们使用的是开源的OCR识别引擎Tesseract，初期由HP实验室研发，后来贡献给了开源软件业，后经由Google进行优化并重新发布。调用代码以及识别效果如下：

api = tesseract.TessBaseAPI()
api.Init(".","eng",tesseract.OEM_TESSERACT_ONLY) #初始化api.SetPageSegMode(tesseract.PSM_SINGLE_LINE) #设置为单行字符串模式api.SetVariable("tessedit_char_whitelist", whitelist) #设置白名单stringOCR = tesseract.ProcessPagesBuffer(mBuffer, len(mBuffer), api)

该方法的优点是：开发量少；比较通用，适合于各种变形较少的验证码；对于扭曲不严重的字母和数字识别率高。缺点也很明显：对于扭曲的字母和数字识别率大大降低；对于字符间有粘连的验证码几乎难以正确识别；很难针对特定网站的验证码做定制开发。

4.模板库匹配
4.1 建立字符模板库
首先需要针对目标网站收集大量的验证码；然后根据上一章节的方法，进行图片清理；最后按照固定的长宽值切分出字符模板图，保存文件名带上对应字符的标记。

4.2 字符匹配
首先，把目标验证码图片按字符个数切分，这里的图片切分方法必须与模板制作时的切分方法一致，得到与模板图同样大小的字符图。接下来通常的做法是使用汉明距离或编辑距离定义相似度，并用KNN方法得到K个最相似的字符，最后从K个字符中选取出现次数最多的那个作为匹配结果。参考了文献[1]中K取值和字符识别率的变化关系（如下图）。

然后，我们把K取值为5。并且把相似度重新定义为：matchScore = dotMatch^2 / (dotCaptcha * dotTemplate)，其中dotMatch为验证码字符图与模板图对应位置都是黑色点的个数，dotCaptcha为验证码字符图中黑色点个数，而dotTemplate为模板图中黑色点个数。取这个分母是为了防止某些黑色点较多的模板图在匹配度计算中始终得到较大值。识别效果如下表：

该方法的优点是：原理简单直观；可以针对不同网站定制优化；对于扭曲的字母和数字识别率较高。缺点是：开发量大，需要定制开发；需要收集大量的字符图片库；字符变化很多的情况，匹配次数增加速度下降；对于字符有粘连的图片识别率低；

5. 支持向量机
支持向量机通俗来讲是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。实际应用上，往往遇到的是非线性可分得情况，因此通过核函数把低维向量映射到更高维空间，使得样本满足线性可分。
验证码识别问题实际上是其中单个字符识别问题，而在字符可穷举的情况下，比如只有英文字符和数字，单个字符识别问题其实是一个分类问题。一个英文字母或数字表示一类，而验证码中切分后得到的单个字符需要被机器自动分到某一类。一般情况下，把单个字符的灰度图片转成整形数组，数组的每一个元素表示图片的一个像素，即一个特征维度。我们切分得到的图片大小为10x16=160像素，即有160个特征，当特征数量多且特征之间关系不明确时，采用支持向量机分类比较合适。
LIBSVM 是台湾大学林智仁(Lin Chih-Jen)副教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包，他不但提供了编译好的可在Windows系统的执行文件，还提供了源代码，方便改进、修改以及在其它操作系统上应用。该软件还有一个特点，就是对SVM所涉及的参数调节相对比较少，提供了很多的默认参数，利用这些默认参数就可以解决很多问题；并且提供了交互检验(Cross Validation)的功能。主要参数使用：多类别（C-SVC=0），radial basis function（kernel_type=2），训练和预测代码如下。对于这样轻微变形的验证码，有字母和数字共36个类别，收集训练样本共778个字符图的情况下，单字符预测准确率接近100%：

labels = []
samples = []for ch in captchaTemplate.keys():    for table in captchaTemplate[ch]:
        labels.append(ord(ch))
        samples.append(map(lambda e:e/255., table))
problem = svm_problem(labels, samples)
model = svm_train(problem, '-t 2 -c 500')print len(samples)
data = map(lambda e:e/255., list(Image.open(TESTFILE).getdata(TESTFILE)))
y = ord('z')

prediction = svm_predict([y,], [data,], model)print prediction

该方法的优点是：无需设计快速的图像匹配算法；只要图片切分方法合适，对于扭曲倾斜的字母和数字识别率也较高；并且可以针对不同类型的验证码做定制优化。缺点是：支持向量机原理比较复杂，无法直观解释，需要了解支持向量机等机器学习方法。

6. 神经网络
以上验证码识别都依赖于字符切分，切分的好坏几乎直接决定识别的准确程度。而对于有字符粘连的图片，往往识别率就会低很多。目前验证码识别最先进的是谷歌在识别“街景”图像中门牌号码中使用的一套的算法。该算法将定位、分割和识别等几个步骤统一起来，采用一种“深度卷积神经网络”（deep convolutional neural network）方法进行识别，准确率可以达到99%以上。谷歌拿自有的reCAPTCHA验证码做了测试，结果发现，对于难度最大的reCAPTCHA验证码，新算法的准确率都达到 99.8%，这可能也好于大多数人为验证。
验证码作为一种辅助安全手段在Web安全中有着特殊的地位，了解验证码识别的方法和原理，不仅有利于绕过验证码抓取网站内容，而且有利于设计更安全合理的验证码。

网易云安全（易盾）行为式验证码超10亿次完美验证，坚固守卫网站安全第一道防线。网易云易盾提供新一代网站验证码，包括智能验证码、滑动验证码等形式，验证码接口稳定性 99.9%，感知威胁可智能切换验证难度，告别繁琐验证，保护业务安全，点击可免费试用。

参考资料：

[1] 《高效的验证码识别技术与验证码分类思想》

[2] 《验证码的识别与改进》

[3] Tesseract项目：http://code.google.com/p/tesseract-ocr

[4] 常见验证码的弱点与验证码识别：http://drops.wooyun.org/tips/141

[5] http://blog.csdn.net/v_july_v/article/details/7624837

[6] http://www.codeproject.com/Articles/106583/Handwriting-Recognition-Revisited-Kernel-Support-V

[7] http://www.csie.ntu.edu.tw/~cjlin/libsvm/index.html

相关文章：
【推荐】 Puppeteer入门初探
【推荐】 MongoDB复制集与Raft协议异同点分析

网络爬虫-07 YEGE学AI算法 Python-网络爬虫
网络爬虫-07）**Spider06回顾****scrapy框架****完成scrapy项目完整流程****我们必须记住****爬虫项目启动方式****数据持久化存储****Spider07笔记****分布式爬虫****scrapy_redis详解****腾讯招聘分布式改写****机器视觉与tesseract****补充-滑块缺口验证码案例****豆瓣网登录****Fiddler抓包工具****移
PYTHON对接第三方验证码短信接口短信接口开发
PYTHON短信接口对接demo#接口类型：互亿无线触发短信接口，支持发送验证码短信、订单通知短信等。#账户注册：请通过该地址开通账户http://user.ihuyi.com/?DKimmu#注意事项：#（1）调试期间，请使用用系统默认的短信内容：您的验证码是：【变量】。请不要把验证码泄露给其他人。#（2）请使用APIID及APIKEY来调用接口，可在会员中心获取；#（3）该代码仅供接入互亿无线
Apple设备双重认证-获取验证码 fb69e982796d
方式1.在新设备上登录appleid和密码登录，在其他信任的设备上会出现登录通知，轻点”允许“以接受验证码，在这台新设备上输入这个验证码登录即可方式2.若身边无可信任设备，点按登录屏幕上的”没有收到验证码吗“，选择将验证码发送到受信任的电话号码，apple将通过短信或者电话向您提供验证码。新设备输入此验证码以完成登录。方式3.从受信任设备上的“设置”获取验证码。如果无法在受信任设备上自动收到验证码
Julia视频教程 Bounce_aaba
在网易云课堂上直接搜索：Julia教程，就可以找到，教程的全名是：Julia教程从入门到进阶这是国内第一个免费的完整的Julia视频教程，非常适合Julia的入门。有兴趣的朋友可以去学习一下。教程链接：https://study.163.com/course/courseMain.htm?share=2&shareId=480000001854445&courseId=1208959805&_tr
网易云音乐会员优惠大揭秘，网友：太值了！氧惠佣金真的高
在数字音乐时代，拥有一款高品质的音乐APP是音乐爱好者的必备之选。作为中国音乐市场的佼佼者，网易云音乐凭借其丰富的曲库、出色的推荐算法以及浓厚的社区氛围，吸引了大量用户。近日，网易云音乐推出了一系列会员优惠活动，让我们一起来了解一下吧！大家好，我是氧惠联合创始人七言导师，给大家推荐一款省钱更加赚钱的app——氧惠。氧惠是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。主
零信任落地难题：安全性与用户体验如何两全？粤海科技君安全零信任终端安全网络安全 iOA
在零信任架构的实施过程中，平衡安全性与用户体验是企业数字化转型的核心命题。这一挑战的本质在于：既要通过「永不信任，持续验证」的安全机制抵御新型攻击，又要避免过度验证导致的效率损耗。一、矛盾根源：安全与体验的天然张力零信任的“永不信任”原则，本质上要求对每一次访问都进行动态评估，但这与用户对“便捷、流畅”的诉求存在天然冲突。例如：频繁的身份验证（如每次登录都需短信验证码）会打断工作节奏，某制造企业统
Python爬虫实战：基于最新技术的定时签到系统开发全解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言人工智能自动化知识图谱
摘要本文详细介绍了如何使用Python开发一个功能完善的定时签到爬虫系统。文章从爬虫基础知识讲起，逐步深入到高级技巧，包括异步请求处理、浏览器自动化、验证码破解、分布式架构等最新技术。我们将通过一个完整的定时签到项目案例，展示如何构建一个稳定、高效且具有良好扩展性的爬虫系统。文中提供了大量可运行的代码示例，涵盖requests、aiohttp、selenium、playwright等多种技术方案，
新手向:实现验证码程序 nightunderblackcat Java新手开发语言 java maven spring intellij-idea spring boot spring cloud
本文将从零开始，通过一个简单的验证码程序。即使你没有任何编程基础，也能跟着这篇文章一步步学习。第一章：Java开发环境搭建1.1安装JDK要开始Java编程，首先需要安装Java开发工具包(JDK)。JDK是Java开发的核心，包含了运行Java程序所需的工具和库。访问Oracle官网下载适合你操作系统的JDK运行安装程序，按照提示完成安装配置环境变量（这一步很重要，确保你可以在任何目录下运行Ja
Python爬虫实战：爬取网易云音乐热评的完整教程 Python爬虫项目 python 爬虫开发语言能源 selenium
1.背景介绍：为什么爬网易云音乐热评？网易云音乐是中国最受欢迎的音乐平台之一，其用户活跃度极高。评论区往往蕴含丰富的情感表达和用户反馈，是音乐数据分析、情感分析、推荐算法等领域的宝贵数据源。爬取热评可以用于：歌曲口碑分析用户情绪挖掘热门歌曲趋势追踪机器学习训练数据准备但网易云音乐对评论接口进行了加密，直接请求很难成功。本文将帮你攻克这一难点。2.网易云音乐热评接口分析我们首先用浏览器开发者工具（C
【taro react】 ---- RuiVerifySlider 行为验证码之滑动拼图使用【天爱验证码 tianai-captcha 】实现 Rattenking Taro React 入门到实战系列 taro react.js 前端
1.前言之前使用【AJ-Captcha行为验证码】实现过一个【TaroReact组件开发——RuiVerifySlider行为验证码之滑动拼图】，但是现在AI很火，所以就出现需要检测滑动验证码的是不是人机。其实检测条件也很简单，就是人不会匀速画直线。之前的滑动验证码基本都是检验一下终点坐标，现在需要检测人机，就需要检测滑动的时间和Y轴的坐标了。滑动验证码本来开源的项目也比较多，所以后端最后选择了【
软考高项：信息网络安全知识模拟题立志成为网安大牛 web安全网络安全
620、以下哪个场景属于身份鉴别过程()。A.用户依照提示输入用户名、口令和短信验证码，成功登录该应用。B.用户在网络上共享了的一份加密的pdf文档，以阻止其他人下载查看文档中的内容。C.用户给自己编写的文档加上水印。D.用户在网上下载了一份带水印的文档，去掉了水印。正确答案:A解析:A选项属于身份鉴别的过程。621、公钥密码的应用不包括()A.数字签名B.身份认证C.消息认证码D.非安全信道的密
实测有效！夸克网盘1TB免费扩容的3种正确姿势! 遇见火星网盘夸克网盘网盘扩容
最新方法是转存这个文件实现免费扩容到1T：未用手机号注册过夸克账号、仅安装APP但未注册、曾用QQ、微信等非手机号注册的老用户以及24小时内新注册的账号皆可参与。已有账号用户需更换未注册过的手机号和新设备参与。1TB空间领取步骤：打开手机浏览器，私信获取活动专属链接，电脑端无法参与。1TB容量领取链接1TB容量领取链接1TB容量领取链接点击“保存到网盘”按钮，跳转至登录页面，选择“短信验证码登录”
python规划 t_hj python
-----------动态内容与反爬策略----------动态页面处理Selenium：自动化浏览器（点击、滚动、表单提交）Playwright（更现代的替代方案）API逆向工程分析Ajax请求（ChromeDevTools）直接调用API接口（如知乎热榜API）反爬应对User-Agent轮换、IP代理（免费/付费代理池）验证码处理（简单验证码用OCR，复杂验证码需打码平台）请求频率控制（ti
《密码爆破漏洞详解》——黑客必修的入门操作( 建议收藏 ) 2401_84573531 2024年程序员学习 python
隔壁老张:“狗剩啊,隔壁xx村的王姐家的女娃好漂亮,我想盗她qq啊,你帮我把”狗剩:“我不会呀”村里大妈:“那个狗剩啊,盗个qq号都不会,他妈妈还好意思说他是学网络安全当黑客的”密码爆破漏洞详解密码爆破介绍密码爆破使用场景密码爆破利用思路防范密码爆破密码的复杂性密码加密登录逻辑验证码登录次数限制密码爆破介绍密码爆破又叫暴力猜解,简单来说就是将密码逐个尝试,直到找出真正的密码为止,本质上是利用了穷举
Pillow 安装使用教程小奇JAVA面试安装使用教程 pillow microsoft 深度学习
一、Pillow简介Pillow是Python图像处理库PIL（PythonImagingLibrary）的友好分支，是图像处理的事实标准。它支持打开、编辑、转换、保存多种图像格式，常用于图像批量处理、验证码识别、缩略图生成等应用场景。二、安装Pillow2.1使用pip安装（推荐）pipinstallPillow2.2验证安装importPILprint(PIL.__version__)若无报错
25年最新Java后端社招场景项目题总结！（附100w字面试题）小凡敲代码 java java面试 Java面试题 Java场景题程序员互联网大厂计算机
一、高并发与分布式系统设计百万级QPS秒杀系统核心问题：如何解决超卖、库存一致性、高并发请求？技术方案：Redis预减库存+异步扣减（Kafka/RocketMQ）分布式锁（Redisson）或乐观锁（CAS）限流策略（Nginx/Sentinel）扩展：热点数据隔离（独立Redis集群）、风控防刷（IP限流、验证码）。分布式文件存储系统（类似GFS）需求：支持海量文件存储、高可用、快速检索。关键
验证码破解的可能与不可能：用Python处理图片验证码的原理与限制程序员威哥 python 开发语言
前言验证码（CAPTCHA）是当前互联网防护机制中的重要组成部分，用于区分真人与自动程序。近年来，随着自动化技术发展，验证码破解成为自动化测试、爬虫及安全研究领域的热点。然而，从技术层面来看，验证码破解既有可行之处，也存在根本限制。本文将结合Python图像处理与机器学习技术，深度剖析图片验证码破解的原理、实践与瓶颈。一、验证码的分类及破解难点1.验证码类型字符型验证码纯数字、字母或混合，最常见。
脉脉模拟登陆
说明最近弄得最热的就是什么互联网寒冬，裁员等关键字，于是脉脉，领英的平台的热度就上去了，我就做了脉脉，领英的爬虫。操作脉脉模拟登陆难度不大，只是需要验证码处理我用的云打码，数字的加减法1、通过抓包分析，登陆的地址为https://acc.maimai.cn/login，一个post请求。其中包含用户名，密码，验证码。其中验证码是有时候需要，有时候不需要。data={"m":self.usernam
验证码(三)快速使用滑块验证码.
滑块验证码类似于滑动验证码，通常是将一个滑块从初始位置拖动到与背景图匹配的缺口位置，以验证用户的身份。优点视觉效果好：以图形化的方式呈现，更加直观和美观，给用户带来较好的视觉体验。安全性较强：通过对滑块的位置、拖动轨迹等进行精确检测和分析，能够有效防范自动化攻击，保障系统安全。缺点对网络要求较高：如果网络环境不佳，验证码图片可能加载缓慢，影响用户验证的速度和体验。可能被绕过：虽然安全性较高，但一些
selenium如何识别条形验证码，自动输入验证码老叶爱吃鱼（软件） UI自动化测试 python 开发语言
在自动化测试或网页爬取中，识别验证码是常见的难点。Selenium本身不具备直接识别验证码的能力，但可以通过结合第三方工具、OCR技术或人工介入等方式解决。以下是多种可行方案的详细实现思路及代码示例：一、方案一：使用第三方验证码识别服务（最推荐）原理通过API将验证码图片发送给专业识别平台，平台返回识别结果，适用于复杂验证码（如扭曲文字、点选式等）。常用平台打码平台：超级鹰、云打码、快识别等（需注
Python 爬虫实战：12306 登录与余票监控（图形验证码识别 + 并发请求） Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、引言12306作为中国铁路客户服务中心的官方网站，承载着海量的火车票预订业务。在春运、节假日等高峰期，票源紧张，及时获取余票信息对于抢票来说至关重要。本文将详细讲解如何使用Python爬虫技术实现12306的模拟登录，并监控余票信息，包括图形验证码的识别和并发请求的处理。二、环境搭建在开始之前，首先需要搭建好Python爬虫环境，确保已安装Python解释器，并安装以下必要的库：pipinst
探索《非官方知乎 API》：解锁知乎数据潜能指南
探索《非官方知乎API》：解锁知乎数据潜能指南Unofficial-Zhihu-API深度学习模型自动识别验证码，python爬虫库自动管理会话，通过简单易用的API，实现知乎数据的爬取项目地址:https://gitcode.com/gh_mirrors/un/Unofficial-Zhihu-API项目介绍非官方知乎API是一个由社区贡献的开源工具，位于https://github.com/l
发送Email验证码信息注册账号，并存入Redis中（SpringBoot实现发送Email验证信息） IT莫染 Spring Boot Demo java redis 编程语言 spring boot
项目中使用Java发送Email验证码信息注册账号，并存入Redis中（SpringBoot实现发送Email验证信息）》》》插件、部分依赖需的自行查找：》》》前端页面：$(function(){$("#sendBtn").click(function(){//获取接收短信的邮箱varemail=$.trim($("[name=email]").val());//发送请求$.ajax({"url"
短信验证码注册登录的Python实现：http.client与Requests实战仰望尾迹云
本文还有配套的精品资源，点击获取简介：短信验证码是用户注册和登录的常用安全措施。在Python中，http.client和Requests是两个关键模块，分别用于处理HTTP请求。http.client是Python标准库的一部分，适用于低级HTTP操作，而Requests是一个第三方库，提供了更简洁的HTTP请求处理方式。本课程将通过http.client.py和Requests.py两个文件的
Python 爬虫实战：网易云音乐登录解密（加密参数逆向 + 音乐数据采集） Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、前言网易云音乐作为国内流行的音乐平台，拥有海量的音乐资源和用户数据。通过爬取网易云音乐的数据，我们可以进行音乐推荐、用户行为分析等。本文将详细介绍如何使用Python爬取网易云音乐的数据，包括登录解密和音乐数据采集。二、准备工作1.环境搭建确保已安装Python3.7或以上版本，推荐使用VisualStudioCode作为开发工具。2.安装依赖库在命令行中安装爬虫和数据分析所需的库：pipin
【验证码注册和登录表设计以及流程】岁月玲珑数据库微服务数据库
验证码登录注册功能表设计针对手机/邮箱验证码登录和注册功能，我设计了以下表结构：--验证码表(love_auth_code_t)CREATETABLElove_auth_code_t(idBIGINTAUTO_INCREMENTPRIMARYKEYCOMMENT'验证码ID，主键',accountVARCHAR(100)NOTNULLCOMMENT'账号（手机号或邮箱）',codeVARCHAR(
Flutter基础（Children|Actions|Container|decoration|child） aaiier flutter 前端 javascript
代码showDialog(context:context,builder:(BuildContextcontext){returnAlertDialog(title:constText('请输入图形验证码'),content:Column(mainAxisSize:MainAxisSize.min,children:[//显示验证码图片Container(width:double.infinity
批量下载网易云音乐歌单的Python脚本木觞清 7天熟练Python python 开发语言
在日常的音乐收藏和整理中，有时候我们希望能够快速地备份或下载网易云音乐中的歌曲，以便在没有网络连接的情况下也能随时听到自己喜欢的音乐。这时候，Python可以提供一种便捷的解决方案，让我们能够轻松地实现这一目标。技术背景本文介绍的Python脚本利用了Requests库和BeautifulSoup库，能够模拟浏览器行为，访问网易云音乐的歌单页面，并将歌曲信息提取出来。通过简单的配置，可以实现歌曲的
Python批量下载网易云音乐飙升榜所有音乐文件 Python_小屋 graphviz netty gpu ai webgl
Python小屋刷题神器最近升级的新功能介绍推荐教材：《Python程序设计基础与应用》（ISBN：9787111606178），董付国，机械工业出版社，2018.8出版，2021.3第11次印刷作者荣誉：机械工业出版社计算机分社成立20周年本科教材”金牌作者“，机械工业出版社高等教育教材专家咨询委员会委员，机械工业出版社”面向新工科高等院校大数据专业系列教材“编审委员会委员，全国高等院校计算机基
python爬虫登录校验之滑块验证、图形验证码（OCR） yuwinter Python python 爬虫 ocr 滑块验证
在爬虫过程中，验证码和滑块验证是常见的反爬措施。针对这些挑战，通常采用OCR识别图形验证码和模拟滑块拖动来处理滑块验证。以下是如何处理这两种类型验证的详细方法。1.图形验证码（OCR）a.使用tesserocr和Pillow处理图形验证码tesserocr是基于TesseractOCR引擎的Python封装，常用来识别简单的图形验证码。如果验证码不太复杂，可以用它来识别文本。步骤：安装依赖：pip
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

常用验证码的识别方法

你可能感兴趣的:(验证码,网易云)