weixin_39831001

python 滑动验证码_python:TX滑动验证码识别方案一

一.介绍：

本内容只做技术交流使用，请勿做商业用途。本方法验证采用本地自建服务器的形式来对所介绍的算法做验证

滑动验证码如下图所示：

复制代码

二.本地测试环境构建

本地测试环境的构建CSDN已有文章做了详细的介绍，详细参见[博客地址](https://blog.csdn.net/mouday/article/details/83384633)

[demo地址](https://github.com/mouday/TencentCaptcha)

复制代码

三.识别思路介绍

** 滑动验证需要解决的问题：滑动距离的计算、滑动轨迹模拟、模拟滑动 **

复制代码

1.滑动距离计算

通过抓包获取验证码发现，此验证码会返回如下两张图片：

针对可获取到的图片信息，要计算滑块滑动距离，可以采用OpenCV库，结合图像处理算法，获取滑块距离。但是通过多次刷新可以观察缺口图片只有有限的10张，如果我们能找到对应的10张无缺口的完整背景图片，每次通过获取到的有缺口的图片在10张完整图片中找到对应无缺口图片，直接做对应像素相减，判断差值大于阈值的第一个像素点的x的坐标位置即为滑块左侧距离图片边缘的距离。

2.无缺口完整背景图片获取：

完整背景图片的获取除了网上文章已提到的通过大量有缺口图片切分重组构造完整背景图和滑动完成验证之后截图两种方案外，其实还可以直接通过接口获取到完整背景图片，由于涉及相关平台利益，所以此处对通过接口直接获取完整背景图片的方法不做详细介绍。但是会把涉及到的10张背景图片给出：

3.拿到有缺口图片后如何从10张背景图中找到对应的无缺口图：

算法1：直接用有缺口图片和10张背景图片做减法，统计差值大于阈值的像素点的个数，阈值设置60，像素点个数设置为缺口大小，大概6000个点，如果差值大于60的点个数超过6000则认为图片不是对应的完整背景图，与10张背景图循环遍历，找到对应的背景图返回对应目标图路径

def get_full_pic(bg_image):

'''

:param gap_pic: 缺口图片

:return: (str)背景图片路径

'''

#转换图像到灰度

img1 = bg_image.convert('L')

distance = 68 #由于缺口位置都在图片的后边，为减少计算，可以减少一部分比较

threshold = 60

dir = ""

for k in range(1,11):

dir = "../background/"+str(k)+".jpg"

fullbg_image = Image.open(dir)

img2 = fullbg_image.convert('L')

diff = 0

for i in range(distance, img1.size[0]):

# 遍历像素点纵坐标

for j in range(img1.size[1]):

# 如果不是相同像素

img1_pixe = img1.load()[i,j]

img2_pixe = img2.load()[i,j]

if abs(img1_pixe - img2_pixe) > threshold:

diff = diff + 1

if diff > 6000:

break

# 不同的像素超过一定值直接认为不匹配，

# 后期计算时可以优化一下结合图片验证码返回初始位置数据，

# 比较图片时可以去除图片部分区域数据

elif i == img1.size[0]-1 and j == img1.size[1]-1:

print("Find the target")

return dir

复制代码

算法2：由于算法1需要的计算量比较大，测试时发现找目标大概需要花费1s时间。所以改成只需要比对图片上的四个点，这四个点的选择原则是，尽量分散(相邻点像素值比较接近)。

代码如下：选择图片上的(50，50)(50，250)，(250，50)，(250，250)四点的像素作为比较点，改进算法比算法1节省1s时间

#寻找背景目标图片

def get_full_pic_new(bg_image):

img1 = bg_image.convert("L")

dir = ""

threshold = 60

for k in range(1,11):

dir = "../background/"+str(k)+".jpg" #10张背景图对应的路径

fullbg_image = Image.open(dir)

img2 = fullbg_image.convert('L') #不需要三个通道做比较

pix11 = img1.load()[50, 50]

pix12 = img1.load()[50, 250]

pix13 = img1.load()[250, 50]

pix14 = img1.load()[250, 250]

pix21 = img2.load()[50, 50]

pix22 = img2.load()[50, 250]

pix23 = img2.load()[250, 50]

pix24 = img2.load()[250, 250]

if abs(pix11 - pix21)>threshold or abs(pix12 - pix22)>threshold or abs(pix13 - pix23)>threshold or abs(pix14 - pix24)>threshold:

continue

else:

if abs(pix11 - pix21)

print("Find the target:", dir)

break

else:

print("Not found")

dir = None

return dir

复制代码

找到对应背景图片之后，计算距离的算法和极验验证码计算方法一致，此处不做详细介绍，完整的距离计算模块如下：

#!/usr/bin/env python

# -*- coding: utf-8 -*-

# @Time : 2019/3/22 13:25

# @File : get_distance.py

from PIL import Image

def is_pixel_equal(img1, img2, x, y):

"""

判断两个像素是否相同

:param image1: 图片1

:param image2: 图片2

:param x: 位置x

:param y: 位置y

:return: 像素是否相同

"""

# 取两个图片的像素点

pix1 = img1.load()[x, y]

pix2 = img2.load()[x, y]

threshold = 68

if (abs(pix1[0] - pix2[0] < threshold) and abs(pix1[1] - pix2[1] < threshold) and abs(pix1[2] - pix2[2] < threshold )):

return True

else:

return False

def get_gap(img1, img2):

"""

获取缺口偏移量

:param img1: 不带缺口图片

:param img2: 带缺口图片

:return:

"""

left = 68

for i in range(left, img1.size[0]):

for j in range(img1.size[1]):

if not is_pixel_equal(img1, img2, i, j):

left = i

print(i)

return left

def get_full_pic_new(bg_image):

img1 = bg_image.convert("L")

dir = ""

threshold = 60

for k in range(1,11):

dir = "../background/"+str(k)+".jpg"

fullbg_image = Image.open(dir)

img2 = fullbg_image.convert('L')

pix11 = img1.load()[50, 50]

pix12 = img1.load()[50, 250]

pix13 = img1.load()[250, 50]

pix14 = img1.load()[250, 250]

pix21 = img2.load()[50, 50]

pix22 = img2.load()[50, 250]

pix23 = img2.load()[250, 50]

pix24 = img2.load()[250, 250]

if abs(pix11 - pix21)>threshold or abs(pix12 - pix22)>threshold or abs(pix13 - pix23)>threshold or abs(pix14 - pix24)>threshold:

continue

else:

if abs(pix11 - pix21)

print("Find the target:", dir)

break

else:

print("Not found")

dir = None

return dir

def get_full_pic(bg_image):

'''

:param gap_pic: 缺口图片

:return: (str)背景图片路径

'''

#转换图像到灰度

img1 = bg_image.convert('L')

distance = 68

threshold = 60

dir = ""

for k in range(1,11):

dir = "../background/"+str(k)+".jpg"

fullbg_image = Image.open(dir)

img2 = fullbg_image.convert('L')

diff = 0

for i in range(distance, img1.size[0]):

# 遍历像素点纵坐标

for j in range(img1.size[1]):

# 如果不是相同像素

img1_pixe = img1.load()[i,j]

img2_pixe = img2.load()[i,j]

if abs(img1_pixe - img2_pixe) > threshold:

diff = diff + 1

if diff > 6000:

break

# 不同的像素超过一定值直接认为不匹配，

# 后期计算时可以优化一下结合图片验证码返回初始位置数据，

# 比较图片时可以去图片部分区域数据

elif i == img1.size[0]-1 and j == img1.size[1]-1:

print("Find the target")

return dir

def get_distanct(bg_image):

bg_img = Image.open(bg_image)

full_dir = get_full_pic_new(bg_img)

full_img = Image.open(full_dir)

return get_gap(full_img, bg_img)

if __name__=="__main__":

import time

time_start = time.time()

print("--"*20+"run"+"--"*20)

dir = "../gap_pic/8.jpg"

distanct = get_distanct(dir)

time_end = time.time()

print('totally cost', time_end - time_start)

print(distanct)

复制代码

四.滑动验证完整demo

#!/usr/bin/env python

# -*- coding: utf-8 -*-

# @Time : 2019/4/1 11:12

# @File : tx_test.py

import json

from selenium import webdriver

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from selenium.common.exceptions import TimeoutException

from selenium.webdriver.common.action_chains import ActionChains

from lxml import etree

from get_distanct import get_distanct

import time

import requests

import random

import numpy as np

from scipy import stats

import math

class tx_test(object):

def __init__(self):

self.driver = webdriver.Chrome()

self.driver.maximize_window()

# 设置一个智能等待

self.wait = WebDriverWait(self.driver, 5)

self.url = "http://127.0.0.1:8080/"

def get_track(self, distance):

"""

根据偏移量获取移动轨迹

:param distance: 偏移量

:return: 移动轨迹

"""

# 移动轨迹

track = []

# 当前位移

current = 0

# 减速阈值

mid = distance * 4 / 5

# 计算间隔

t = 0.2

# 初速度

v = 0.1

r = [1.1, 1.2, 1.3, 1.4, 1.5]

p = [2, 2.5, 2.8, 3, 3.5, 3.6]

q = 5.0

i = 0

while current < distance:

if current < mid:

# 加速度为正2

a = 2

q = q * 0.9

else:

# 加速度为负3

q = 1.0

a = -3

# 初速度v0

v0 = v

# 当前速度v = v0 + at

v = v0 + a * t

# 移动距离x = v0t + 1/2 * a * t^2

r1 = random.choice(r)

p1 = random.choice(p)

move = r1 * v0 * t + 1 / p1 * a * t * t * q

# 当前位移

if i == 2:

currentdis = (distance - current) / random.choice([3.5, 4.0, 4.5, 5.0])

current += currentdis

track.append(round(currentdis))

elif i == 4:

currentdis = (distance - current) / random.choice([4.0, 5.0, 6.0, 7.0])

current += currentdis

track.append(round(currentdis))

else:

current += move

track.append(round(move))

# 加入轨迹

i = i + 1

return track

def get_slider(self, browser):

"""

获取滑块

:return: 滑块对象

"""

slider = None

while True:

try:

slider = self.wait.until(EC.presence_of_element_located((By.XPATH,'//*[@id="tcaptcha_drag_thumb"]')))

break

except:

break

return slider

def move_to_gap(self, browser, slider, track):

"""

拖动滑块到缺口处

:param slider: 滑块

:param track: 轨迹

:return:

"""

ActionChains(browser).click_and_hold(slider).perform()

time.sleep(0.5)

while track:

x = random.choice(track)

y = random.choice([-2, -1, 0, 1, 2])

ActionChains(browser).move_by_offset(xoffset=x, yoffset=y).perform()

track.remove(x)

t = random.choice([0.002,0.003,0.004,0.005,0.006])

time.sleep(t)

time.sleep(1)

ActionChains(browser).release(on_element=slider).perform()

def login(self):

while True:

self.driver.get(self.url)

self.driver.delete_all_cookies()

currhandle = self.driver.current_window_handle

while True:

try:

self.driver.switch_to_window(currhandle)

except Exception as e:

print(e)

try:

verify_Bt = self.wait.until(EC.element_to_be_clickable((By.XPATH,'//*[@id="TencentCaptcha"]'))) #按钮是否可点击

verify_Bt.click()

except Exception as e:

self.driver.refresh()

continue

try:

# if flag is not 0:

iframe = self.wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="tcaptcha_iframe"]')))

time.sleep(5)

self.driver.switch_to.frame(iframe) #切换到iframe失败

#检测是否有滑动验证码,有滑动验证码就滑动

Sliding_Pic = self.wait.until(EC.presence_of_element_located((By.XPATH,'//*[@id="slideBgWrap"]/img')))

for i in range(5):

page = self.driver.page_source

selector = etree.HTML(page)

bg_imgSrc = selector.xpath('//*[@id="slideBgWrap"]/img/@src')[0]

res = requests.get(bg_imgSrc)

with open("./bg_img.jpg","wb") as fp:

fp.write(res.content)

#计算滑块滑动距离

dist = get_distanct("./bg_img.jpg")

print("打印滑动距离:",dist)

dist = int((dist)/2-34)

#获取滑动轨迹

print(dist)

track = self.get_track(dist)

print(track)

print(sum(track))

err = (dist-sum(track)) #距离修正值

print(err)

#获取滑块

track.append(err)

slide = self.get_slider(self.driver)

#滑动滑块

self.move_to_gap(self.driver,slide,track)

time.sleep(2)

slide = self.get_slider(self.driver)

if slide:

continue

else:

print("滑动验证通过")

break

except Exception as e:

print("滑动异常")

time.sleep(5)

break

if __name__=="__main__":

print("test\n")

复制代码

总结及说明

代码只需要把tx_test.py、get_distance.py及创建背景图片文件夹background(内存放10张背景图片，图片命名为1.jpg~10.jpg即可，然后启动本地滑动测试环境，ip端口配置自己实际服务器地址端口即可，启动tx_test.py模块即可验证整个滑动识别模块)滑动完成之后截图如下：轨迹算法是在参考其他极验轨迹模拟算法的基础上增加了一些调整，具体参看代码。

滑动验证码除了通过selenium直接模拟滑动实现自动识别以外，还可以通过直接构造提交参数的方式来识别。具体的原理和分析会在下一篇文章做详细介绍，同时下一篇文章会给出另外一种轨迹模拟算法(基于正态分布曲线轨迹模拟算法)

你可能感兴趣的:(python,滑动验证码)

Python读取nc文件的几种方式请一直在路上 python
在Python中，有多种方式可以读取NetCDF(.nc)文件。常见的方法包括使用以下库：1.netCDF4这是最常用的库之一，提供了直接读取、写入和处理NetCDF文件的功能。它支持版本3和版本4的NetCDF文件格式。安装：pipinstallnetCDF4用法：importnetCDF4asnc#打开文件dataset=nc.Dataset('example.nc')#查看文件的维度prin
UV - Python 包管理丽英y Python uv python 开发语言
文章目录创建uv项目已有项目已有uv项目创建uv项目#创建项目uvinitm3#创建环境cdm3uvvenv--python3.11#激活环境source.venv/bin/activate#添加库uvaddflask如果创建项目后，给库取别的名字，add的时候，会自动创建.venv文件夹>uvvenv--python3.12e312[0]UsingCPython3.12.8interpreter
漫谈JVM weixin_34111790 运维 java python
2019独角兽企业重金招聘Python工程师标准>>>背景介绍创建了一个技术类公众号:一起源码分析，里面会分享最新的开源代码、源码解读、开发技巧等，欢迎大家关注。JVM已经是Java开发的必备技能了，JVM相当于Java的操作系统。JVM,javavirtualmachine,即Java虚拟机，是运行javaclass文件的程序。Java代码经过Java编译器编译，会编译成class文件，一种平台
开发语言漫谈-脚本语言大道不孤,众行致远技术杂谈开发语言
前面讲的都称之为编程语言，就是做系统用的。还有一大类称之为脚本语言的语言，这类语言数量极多，大部分程序员用不上，也不关心，这是系统维护人员专用的邻域。这个定义其实也很不准确，不必较真。更准确的来讲，能直接运行的文本都可以称之为脚本语言，按这个标准，python也是。但是python同样用于做系统。我们今天讲的脚本语言纯粹用于系统维护邻域。我们重点将编程语言，对这些脚本语言就打包一起介绍了bash：
Python环境管理新利器：UV工具详解云水木石 python uv 开发语言
Python包和环境管理最好的工具无疑是Anaconda，但我在之前的一篇文章《注意，使用这款Python软件可能会带来麻烦》写过，个人使用完全没有问题。如果在公司内使用，就需要格外小心，可能会招来官司。在我们公司，Anaconda（包括Miniconda）就是禁止安装的软件之一。但是在工作中，确实又存在需要切换不同Python版本的需求，比如编译Chromium需要Python3.8以上的版本，
Python新手入门 python流程控制基础1——条件语句if~~else；if~elif~else；不爱纸片人 python
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、条件语句是什么？二、语句使用方法1.if.....2.if.......elif......3.if.......elif......else.......总结一、条件语句是什么？在Python中，条件语句用于根据不同的条件执行不同的代码块二、语句使用方法一共有三种if…if’…elif…if…elif…else…1.if
使用 NetworkX 进行图论分析与可视化 aiweker 跟我学python 图论 python
使用NetworkX进行图论分析与可视化NetworkX是一个用于创建、操作和研究复杂网络的Python库。它提供了丰富的图论算法和数据结构，适用于各种网络分析任务。本文将分点介绍NetworkX的主要功能，并通过代码示例进行详细说明。1.安装NetworkX在开始使用NetworkX之前，首先需要安装它。可以通过pip进行安装：pipinstallnetworkx2.创建图NetworkX支持多
使用 UV 管理 Python 项目 | python小知识 aiweker 跟我学python uv python 人工智能
使用UV管理Python项目|python小知识1.引言在Python开发中，项目管理工具是必不可少的。常见的工具如pip、pipenv、poetry等，它们各有优缺点。近年来，uv作为一个新兴的Python项目管理工具，逐渐受到开发者的关注。uv旨在提供更快的依赖解析和安装速度，同时保持与现有工具的兼容性。本文将详细介绍uv的功能和应用场景，并通过代码示例展示其使用方法。最后，我们将对比uv与其
Python 常用内建模块-HTMLParser 赔罪 Python 系统学习 python 开发语言
目录HTMLParser小结练习HTMLParser如果我们要编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓下来，第二步就是解析该HTML页面，看看里面的内容到底是新闻、图片还是视频。假设第一步已经完成了，第二步应该如何解析HTML呢？HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。好在Python提供了HTMLParser来非
Python 常用内建模块-venv 赔罪 Python 系统学习 python 开发语言
目录venv小结venv在开发Python应用程序的时候，系统安装的Python3只有一个版本：3.x。所有第三方的包都会被pip安装到Python3的site-packages目录下。如果我们要同时开发多个应用程序，那这些应用程序都会共用一个Python，就是安装在系统的Python3。如果应用A需要jinja2.7，而应用B需要jinja2.6怎么办？这种情况下，每个应用可能需要各自拥有一套“
python Qt Solkatt's
最近帮朋友做了一个将文本文件按条件导出到excel里面的小程序。使用了PyQT，发现Python真是一门强大的脚本语言，开发效率极高。首先需要引用fromPyQt4importQtGui,uic,QtCore很多控件像QPushButton是从QtGui的空间中得来的，下面def__init__(self,parent=None)中定义了界面的设计及与控件相互联系的方法。classAddressB
TCP三次握手与四次挥手（全网最易懂保姆级教程）秋‍. JAVA 网络服务器运维 java tcp/ip 三次握手
一、前置知识准备1.TCP协议特性-面向连接：通信前需要建立专用通道-可靠传输：通过确认机制保证数据可达-全双工通信：双方可同时发送数据-流量控制：滑动窗口机制-拥塞控制：慢启动算法2.关键概念说明|术语|说明||------------|----------------------------------------------------------------------||**SYN**|
pyspark学习rdd处理数据方法——学习记录亭午学习
python黑马程序员"""文件，按JSON字符串存储1.城市按销售额排名2.全部城市有哪些商品类别在售卖3.上海市有哪些商品类别在售卖"""frompysparkimportSparkConf,SparkContextimportosimportjsonos.environ['PYSPARK_PYTHON']=r"D:\anaconda\envs\py10\python.exe"#创建Spark
实时光线追踪技术：Ray Tracing_2024-07-21_02-55-16.Tex chenjj4003 游戏开发 python 算法人工智能矩阵线性代数骨骼绑定开发语言
实时光线追踪技术：RayTracing实时光线追踪技术教程基础知识光线追踪原理光线追踪是一种渲染技术，它通过模拟光线在场景中的传播和反射来生成图像。在实时光线追踪中，这一过程被优化以在有限的时间内完成，通常用于游戏和实时动画。其核心原理是逆向追踪，即从观察者（摄像机）发出光线，而不是从光源发出，这样可以减少计算量。示例：光线追踪的基本算法#Python示例代码，展示如何计算光线与场景中物体的交点c
PyQt和PySide的区别和比较 PgosOcaml pyqt mfc c++
PyQt和PySide的区别和比较PyQt和PySide是两个用于创建图形用户界面(GUI)的Python库。它们都是基于Qt框架，Qt是一个跨平台的应用程序和UI开发框架。本文将介绍PyQt和PySide之间的区别和比较，并提供相应的源代码示例。开发者许可证：PyQt的开发者许可证是商业许可证，因此如果您想在商业项目中业项目中使用PyQt，您需要购买相应的许可证。而Py业项目中使用PyQt，您需
Python 错误处理赔罪 Python 系统学习 python 开发语言
目录try调用栈记录错误抛出错误练习小结在程序运行的过程中，如果发生了错误，可以事先约定返回一个错误代码，这样，就可以知道是否有错，以及出错的原因。在操作系统提供的调用中，返回错误码非常常见。比如打开文件的函数open()，成功时返回文件描述符（就是一个整数），出错时返回-1。用错误码来表示是否出错十分不便，因为函数本身应该返回的正常结果和错误码混在一起，造成调用者必须用大量的代码来判断是否出错：
【Python Qt 基本概念】深入探讨 PySide6 与 PyQt6：选择、共存与最佳实践泡沫o0 Qt应用开发 -探索Qt的魅力与实践 Python 基础教程 mfc c++qt 开发语言 python 嵌入式 linux
目录标题第一章:Python绑定的Qt库——PySide6与PyQt6的比较1.1PySide6与PyQt6的基本介绍1.1.1PySide6：Qt官方推荐的Python绑定1.1.2PyQt6：成熟的第三方Python绑定1.1.3主要差异：许可证1.2两者的相似性与差异性1.2.1功能和性能差异1.2.2API差异与兼容性1.3总结：选择的自由与责任第二章:在VSCode中使用PySide6与
《AI大模型趣味实战》第8集：多端适配个人新闻头条基于大模型和RSS聚合打造个人新闻电台(Flask WEB版) 2 带娃的IT创业者 AI大模型趣味实战人工智能 flask 前端
《AI大模型趣味实战》第8集：多端适配个人新闻头条基于大模型和RSS聚合打造个人新闻电台(FlaskWEB版)2摘要本文末尾介绍了如何实现新闻智能体的方法。在信息爆炸的时代，如何高效获取和筛选感兴趣的新闻内容成为一个现实问题。本文将带领读者通过Python和Flask框架，结合大模型的强大能力，构建一个个性化的新闻聚合平台，不仅能够自动收集整理各类RSS源的新闻，还能以语音播报的形式提供"新闻电台
LeetCode剑指offer题目记录3 t.y.Tang LeetCode记录学语言 c++leetcode 哈希算法
leetcode刷题开始啦,每天记录几道题.目录剑指offer05.替换空格题目描述思路pythonC++剑指offer06.从尾到头打印链表题目描述思路1python思路2pythonC++剑指offer05.替换空格题目描述让我们实现一个函数,把字符串s中的每个空格替换为%20.思路这个题目我只能想到遍历,在空间控制上应该有原地修改的办法会省一些.python如果用python,那直接用spl
Python 中的 Iterable、Iterator 与生成器 CavenWang python python 开发语言
Python中的Iterable、Iterator与生成器Iterable（可迭代对象）Iterator（迭代器）生成器（Generator）Iterable、Iterator与生成器的关系实际应用生成器的高级用法（send()）总结在Python中，Iterable、Iterator和生成器是三个密切相关的概念，它们都与迭代操作有关，但各自扮演不同的角色。本文将深入探讨它们的定义、区别以及实际应
Python Lambda 函数详解 2201_75491841 python 开发语言 lambda函数
一、引言在Python编程中，我们经常会遇到一些简单的函数，这些函数可能只在某个特定的地方使用一次，而且逻辑非常简单。如果为了这些简单的功能定义一个常规的函数，不仅会增加代码的冗余，还会使代码结构变得不够简洁。这时，lambda函数就派上用场了。lambda函数也被称为匿名函数，它为我们提供了一种简洁的方式来定义小型的、一次性使用的函数。在本文中，我们将深入探讨Python中的lambda函数，包
小白学AI量化：DeepSeek+Python构建强大的金融数据挖掘与多维分析机器人老余捞鱼 AI顾投高级策略 AI探讨与学习人工智能 python 金融 deepseek
作者：老余捞鱼原创不易，转载请标明出处及原作者。写在前面的话：在机构主导的量化交易时代，普通投资者如何用一杯奶茶的钱（15元/天）打造专业级智能量化产品？本文将为您揭秘一个革命性的解决方案——基于国产大模型DeepSeek和Python构建的智能数据挖掘分析机器人。它不仅适用于通用网页数据抓取，更能深度应用于金融领域，精准捕捉市场信号。本文“干货”很多，请务必耐心读完。一、颠覆认知的性价比革命1.
python processpoolexecutor_Python多进程解决方案multiprocessing ProcessPoolExecutor weixin_39599046 python
大多数编程语言都会有多线程和多进程的概念，至于线程和进程的概念，大家可以百度一下。作为一门胶水语言，Python毫不意外，也可以利用多线程和多进程处理并发问题，但是多线程由于GIL的存在，起作用范围大打折扣，仅限于在IO等场景可以发挥点作用。所以，今天要跟大家分享的是Python多进程方案，更好地利用系统多核，从而提升性能。基础方案一：利用Process新建一个子进程，在子进程执行任务。我们写一个
python processpoolexecutor_Python线程和进程池并行编程三千香蕉三千 python
Python3.2版本之后发布了concurrent.futures模块，用以支持和管理并发编程，内容涵盖了进程和线程池(ThreadandProcessPooling)、非确定性执行流(NondeterministicExecutionFlows)以及进程和线程同步。本文通过将带有可选参数的任务提交(Submit)给执行器(Executor)来实例化futures对象。执行器是线程或者进程执行池
python 底层原理processpoolexecutor_Python 并发编程：PoolExecutor 篇风投小虾 python
个人笔记，如有疏漏，还请指正。使用多线程(threading)和多进程(multiprocessing)完成常规的并发需求，在启动的时候start、join等步骤不能省，复杂的需要还要用1-2个队列。随着需求越来越复杂，如果没有良好的设计和抽象这部分的功能层次，代码量越多调试的难度就越大。对于需要并发执行、但是对实时性要求不高的任务，我们可以使用concurrent.futures包中的PoolE
机器学习实战第一章机器学习基础 LuoY、 Machine Learning 机器学习算法人工智能
第一章机器学习1.1何谓机器学习1.2关键术语1.3机器学习的主要任务1.4如何选择合适的算法1.5开发机器学习应用程序的步骤1.6Python语言的优势1.1何谓机器学习 1、简单地说，机器学习就是把无序的数据转换成有用的信息； 2、机器学习能让我们自数据集中受启发，我们会利用计算机来彰显数据背后的真实含义； 3、机器学习横跨计算机科学、工程技术和统计学等多个学科，需要多学科的
数据挖掘实战-基于机器学习的垃圾邮件检测模型艾派森数据挖掘实战合集数据挖掘机器学习人工智能 python
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
conda篇----在已有conda环境的基础上升级python包心惠天意 conda python jvm
conda篇----在已有conda环境的基础上升级python包原先的python版本第一步：condaupdate--all(py11)[xxx@aivrs01xxx]$condaupdate--allCollectingpackagemetadata(current_repodata.json):doneSolvingenvironment:done==>WARNING:Anewervers
conda：一个当下最流行的Python虚拟环境工具 Wang_AI
点击上方“AI派”，选择“设为星标”最新分享，第一时间送达！作者：LeonWang，现为中科院特别研究助理(博士后)，在AI、数据科学和科学计算等方面相关的工程实践上积累了丰富的经验。编辑：王老湿前面的文章中，为大家介绍过Python下的虚拟环境和包管理。在实际中，更为流行的是用Conda来管理Python环境。今天这篇文章就为大家介绍这方面的相关内容。Conda环境Conda简介Conda是目前
轻松上手：Matplotlib的基本用法全知道大数据方向陪跑私教 python
《轻松上手：Matplotlib的基本用法全知道》嗨，小伙伴们！之前咱们了解了好多厉害的Python包，今天咱们来好好讲讲Matplotlib这个在数据可视化方面超棒的包。**Matplotlib到底该怎么用呢？**这就像是探索一个新的游乐场，每个功能都是一样好玩的项目。一、安装Matplotlib在开始使用Matplotlib之前，得先把它安装好。如果你已经安装了Python的包管理工具pip，
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end