la_vie_est_belle

用sklearn+opencv-python过简单的4位数字验证码

生成验证码图片

用opencv-python处理图片

制作训练数据集

训练模型

识别验证码

总结与提高

源码下载

在本节我们将使用sklearn和opencv-python这两个库过掉简单的4位数字验证码，验证码风格如下所示。

生成验证码图片

要识别验证码，我们就需要大量验证码图片用于机器学习，以下是生成验证码图片的完整代码。

# captcha.py
from PIL import Image, ImageDraw, ImageFont
import concurrent.futures
from pathlib import Path
import random


IMG_WIDTH = 160             # 图片宽度
IMG_HEIGHT = 60             # 图片高度
FONT_SIZE = 40              # 字体大小


def get_random_point():
    """获取随机点坐标"""
    x = random.randint(0, IMG_WIDTH)
    y = random.randint(0, IMG_HEIGHT)
    return x, y


def get_random_color(min_val=0, max_val=255):
    """获取随机颜色"""
    r = random.randint(min_val, max_val)
    g = random.randint(min_val, max_val)
    b = random.randint(min_val, max_val)
    return r, g, b


def draw_bg_noise(img, pen):
    """制造背景噪点"""
    noise_num = IMG_WIDTH * IMG_HEIGHT // 8 # 要绘制的噪点数量
    for i in range(noise_num):
        x, y = get_random_point()
        color = get_random_color(min_val=150, max_val=255)
        pen.point((x, y), color)
    return img


def draw_lines(img, pen):
    """绘制线条"""
    for i in range(5):
        x1, y1 = get_random_point()
        x2, y2 = get_random_point()
        color = get_random_color()
        line_width = random.randint(1, 2)
        pen.line(((x1, y1), (x2, y2)), fill=color, width=line_width)
    return img


def draw_texts(img, pen):
    """绘制文本"""
    total = 4                   # 要绘制的字符总数
    char_list = []              # 字符列表
    seed = "0123456789"         # 字符池

    x_gap = IMG_WIDTH // (total + 2)
    y_gap = (IMG_HEIGHT - FONT_SIZE) // 2
    for i in range(total):
        char = random.choice(seed)
        char_list.append(char)
        x = x_gap * (i + 1)
        y = y_gap
        color = get_random_color()
        font = ImageFont.truetype("Arial", size=random.randint(FONT_SIZE - 5, FONT_SIZE + 5))
        pen.text((x, y), char, color, font)

    return img, "".join(char_list)


def generate_captcha(num, output_dir, thread_name=0):
    """
    生成一定数量的验证码图片
    :param num: 生成数量
    :param output_dir: 存放验证码图片的文件夹路径
    :param thread_name: 线程名称
    :return: 正确数字列表
    """
    Path(output_dir).mkdir(exist_ok=True)   # 创建目录

    for i in range(num):
        img = Image.new("RGB", size=(IMG_WIDTH, IMG_HEIGHT), color="white")
        pen = ImageDraw.Draw(img, mode="RGB")

        img, text = draw_texts(img, pen)
        img = draw_bg_noise(img, pen)
        img = draw_lines(img, pen)

        save_path = f"{output_dir}/{i+1}-{text}.png"
        img.save(save_path, format="png")
        print(f"Thread {thread_name}: 已生成{i+1}张验证码")

    print(f"Thread {thread_name}: 验证码图片生成完毕")


def main():
    with concurrent.futures.ThreadPoolExecutor(max_workers=10) as executor:
        for i in range(3):
            executor.submit(generate_captcha, 10000, f"./captcha{i}", i)


if __name__ == "__main__":
    main()

该程序使用Pillow库生成随机4位数字类型的验证码图片，像素为160px*60px，图片上还设置了噪点和线条，可以加大识别难度。在main()函数中，我们开启了3个子线程，每一个子线程负责生成10000张验证码并保存在各自的文件夹中。

用opencv-python处理图片

将验证码图片交给模型识别前的一个重要操作就是图像处理。为了提高识别精读，我们应该将验证码上的图片噪点尽可能去除。下方的adjust_img会返回一个二值化后的验证码图片。

# process.py
def adjust_img(img):
    """调整图像"""
    # 图片灰度化
    img_gray = cv.cvtColor(img, cv.COLOR_BGR2GRAY)

    # 高斯模糊
    img_gaussian = cv.GaussianBlur(img_gray, (9, 9), 0)

    # 二值化
    ret, img_threshold = cv.threshold(img_gaussian, 0, 255,
                                      cv.THRESH_BINARY_INV + cv.THRESH_OTSU)

    # 腐蚀处理
    kernel = np.ones((3, 3), np.float32)
    img_erode = cv.erode(img_threshold, kernel)

    return img_erode

高斯模糊可以有效去除图像中的噪点，腐蚀处理可以去除较细的线条，处理后的效果显示如下。

我们要用sklearn识别单个数字（这样识别难度会小一些），而验证码上是4个数字，所以我们应该将验证码图片进行切割，切割后的每张图片只包含一个数字。下方的split_img()函数实现了这个功能。

# process.py
def split_img(img):
    """分割图像"""
    height, width = img.shape
    x_gap = width // (4 + 2)

    roi_list = []
    for i in range(1, 5):
        roi = img[0:height, i*x_gap:(i+1)*x_gap]
        roi = cv.resize(roi, (28, 28))
        roi[roi < 125] = 0
        roi[roi >= 125] = 1

        if roi.sum() > 0:
            roi_list.append(roi)

    if len(roi_list) == 4:
        return True, roi_list
    else:
        return False, None

通过adjust_img()函数我们得到的是二值化图像，也就是说图像各像素的值只会是0或255，但是在split_img()函数中，我们调用了cv.resize()方法将单个数字图像调整成了28*28像素大小，该操作会让图像各像素的值改变，值是[0-255]区间中的任意一个值，所以笔者这里通过以下两行代码再次将图像二值化。那为什么不是0和255而是0和1呢，因为后者更有利于机器学习。

roi[roi < 125] = 0
roi[roi >= 125] = 1

分割结果如下所示：

由于有些数字颜色比较浅，所以在adjust_img()函数中二值化时就有可能变成全黑了，像素值为0。那在split_img()函数中，我们要先判断分割出来的单个数字图像是不是全黑的（图像值总和为0），如果是的话就不会被添加到roi_list中。如果roi_list的长度为4，说明成功分割到了4个数字的单独图像（图像质量好坏不一定）。

我们要知道的一点是，在图像处理这一步骤中，有少部分验证码图片肯定会不合格，不能拿来放进机器学习数据集中，也无法被正常识别。图像处理的好坏跟识别准确度高低有很大关系。图像处理的完整代码如下所示。

# process.py
import cv2 as cv
import numpy as np
import matplotlib.pyplot as plt


def adjust_img(img):
    """调整图像"""
    # 图片灰度化
    img_gray = cv.cvtColor(img, cv.COLOR_BGR2GRAY)

    # 高斯模糊
    img_gaussian = cv.GaussianBlur(img_gray, (9, 9), 0)

    # 二值化
    ret, img_threshold = cv.threshold(img_gaussian, 0, 255,
                                      cv.THRESH_BINARY_INV + cv.THRESH_OTSU)

    # 腐蚀处理
    kernel = np.ones((3, 3), np.float32)
    img_erode = cv.erode(img_threshold, kernel)

    return img_erode


def split_img(img):
    """分割图像"""
    height, width = img.shape
    x_gap = width // (4 + 2)

    roi_list = []
    for i in range(1, 5):
        roi = img[0:height, i*x_gap:(i+1)*x_gap]
        roi = cv.resize(roi, (28, 28))
        roi[roi < 125] = 0
        roi[roi >= 125] = 1

        if roi.sum() > 0:
            roi_list.append(roi)

    if len(roi_list) == 4:
        return True, roi_list
    else:
        return False, None


def main():
    img = cv.imread("./captcha0/8-3976.png")
    img = adjust_img(img)

    is_ok, roi_list = split_img(img)
    if not is_ok:
        return

    for i, roi in enumerate(roi_list):
        plt.subplot(1, 4, i+1)
        plt.axis("off")
        plt.imshow(roi, cmap="gray")
    plt.show()


if __name__ == "__main__":
    main()

制作训练数据集

验证码图片有了，图像处理也好了，接下来就是把所有单个数字图像保存为训练数据集，完整代码如下所示。

# data.py
import os
import cv2 as cv
import numpy as np
import concurrent.futures
from process import adjust_img, split_img


def make_data(captcha_dir, thread_name):
    """制作训练数据集"""
    data = []           # 特征数据
    target = []         # 数据标签

    for i, filename in enumerate(os.listdir(captcha_dir)):
        print(f"Thread {thread_name}: 正在处理第{i+1}张图片")
        file_path = f"{captcha_dir}/{filename}"

        img = cv.imread(file_path)
        img = adjust_img(img)

        is_ok, roi_list = split_img(img)
        if not is_ok:
            continue

        # 从图片名称中获取真实验证码
        captcha = filename.split("-")[-1].replace(".png", "")
        for i, roi in enumerate(roi_list):
            data.append(roi.ravel())
            target.append(int(captcha[i]))

    data = np.array(data)
    target = np.array(target)
    np.save(f"data{thread_name}.npy", data)
    np.save(f"target{thread_name}.npy", target)

    print(f"Thread {thread_name}: 已保存数据和标签")


def main():
    with concurrent.futures.ThreadPoolExecutor(max_workers=10) as executor:
        for i in range(3):
            executor.submit(make_data, f"./captcha{i}", i)


if __name__ == "__main__":
    main()

该程序开启了3个子线程，每个线程负责一个验证码文件夹中的所有图片。最终结果是将所有单个图片数据以及对应的标签保存在npy格式的文件中。

训练模型

有了数据之后就可以开始训练了。首先，我们应该把各个npy数据加载进来，并正进行整合，请看以下代码。

# train.py
def load_data():
    """加载各个npy数据，返回整合后的数据"""
    data0 = np.load("data0.npy")
    target0 = np.load("target0.npy")
    data1 = np.load("data1.npy")
    target1 = np.load("target1.npy")
    data2 = np.load("data2.npy")
    target2 = np.load("target2.npy")

    X = np.vstack([data0, data1, data2])
    y = np.hstack([target0, target1, target2])
    print(X.shape)
    print(y.shape)

    return X, y

如果在图像处理部分完全没问题的话，那结果总数应该是4*30000 = 120000条数据。从打印结果看，数据数量还是可以的。

接下来，选择最合适的模型，不断调参（这里其实会花费很多时间）。出于演示目的，笔者这里就选择KNN了，请看以下代码。

# train.py
def get_best_estimator(X, y):
    """调整参数，获取最佳的KNN模型"""
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
    param_grid = {
        "n_neighbors": [i for i in range(5, 13, 2)]
    }
    grid_search = GridSearchCV(KNeighborsClassifier(), param_grid, cv=5)
    grid_search.fit(X_train, y_train)
    print(grid_search.score(X_test, y_test))

    pred = grid_search.predict(X_test)
    print(classification_report(y_test, pred))

    return grid_search.best_estimator_

在get_best_estimator()函数中，我们用GridSearchCV进行参数选择与模型评估，评分和报告如下所示。

0.9287502845435921

precision    recall  f1-score   support

       0       0.92      0.91      0.92      2146
       1       0.91      0.95      0.93      2176
       2       0.90      0.94      0.92      2178
       3       0.91      0.92      0.91      2218
       4       0.95      0.94      0.95      2319
       5       0.94      0.92      0.93      2168
       6       0.92      0.93      0.93      2207
       7       0.93      0.94      0.94      2235
       8       0.95      0.91      0.93      2217
       9       0.95      0.92      0.93      2101

    accuracy                       0.93     21965
   macro avg   0.93      0.93      0.93     21965
weighted avg   0.93      0.93      0.93     21965

准确度有93%左右，还是不错的，但是真正的泛化能力不可能这么高，我们待会实战看下。

模型训练好了之后，我们就可以将它进行保存，请看以下代码。

# train.py
def save_model(best_estimator):
    """保存模型"""
    with open("./model.pkl", "wb") as f:
        pickle.dump(best_estimator, f)

训练部分的完整代码所示如下：

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report
import numpy as np
import pickle


def load_data():
    """加载各个npy数据，返回整合后的数据"""
    data0 = np.load("data0.npy")
    target0 = np.load("target0.npy")
    data1 = np.load("data1.npy")
    target1 = np.load("target1.npy")
    data2 = np.load("data2.npy")
    target2 = np.load("target2.npy")

    X = np.vstack([data0, data1, data2])
    y = np.hstack([target0, target1, target2])
    print(X.shape)
    print(y.shape)

    return X, y


def get_best_estimator(X, y):
    """调整参数，获取最佳的KNN模型"""
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
    param_grid = {
        "n_neighbors": [i for i in range(5, 13, 2)]
    }
    grid_search = GridSearchCV(KNeighborsClassifier(), param_grid, cv=5)
    grid_search.fit(X_train, y_train)
    print(grid_search.score(X_test, y_test))

    pred = grid_search.predict(X_test)
    print(classification_report(y_test, pred))

    return grid_search.best_estimator_


def save_model(best_estimator):
    """保存模型"""
    with open("./model.pkl", "wb") as f:
        pickle.dump(best_estimator, f)


def main():
    X, y = load_data()
    best_estimator = get_best_estimator(X, y)
    save_model(best_estimator)


if __name__ == "__main__":
    main()

识别验证码

最后一步就是实战验证，看看这个KNN模型的泛化能力如何。首先应该调用captcha.py中的generate_captcha()函数生成一定数量的验证码。

# predict.py
from captcha import generate_captcha

generate_captcha(1000, "./captcha3")    # 生成1000张验证码保存在captcha3文件夹中

接着加载模型。

def load_model(mode_path):
    """加载模型"""
    with open(mode_path, "rb") as f:
        model = pickle.load(f)
    return model

然后是编写预测代码。

# predict.py
def predict(model, img_path):
    img = cv.imread(img_path)
    img = adjust_img(img)

    # 预测结果和真实结果
    predict_result = ""
    real_result = img_path.split("-")[-1].replace(".png", "")

    # 如果图像处理成功，则返回单个数字图像的预测结果和真实结果
    # 如果没成功，则返回0000和真实结果
    is_ok, roi_list = split_img(img)
    if is_ok:
        for i, roi in enumerate(roi_list):
            predict_result += str(model.predict(roi.reshape(1, -1))[0])
        print(f"{img_path}的识别结果为{predict_result}")
        return predict_result, real_result
    else:
        print(f"{img_path}图片处理失败")
        return "0000", real_result

在predict()函数中，我们首先读取了图片并对图像进行处理和分割，然后调用model.predict()方法进行预测。

预测结果要和真实结果比对后就可以得到准确度了，请看以下代码。

# predict.py
def get_accuracy(model):
    """获取验证准确度"""
    all_predict_result = []
    all_real_result = []

    for filename in sorted(os.listdir("./captcha3")):
        predict_result, real_result = predict(model, f"./captcha3/{filename}")
        all_predict_result.append(predict_result)
        all_real_result.append(real_result)

    accuracy = (np.array(all_predict_result) == np.array(all_real_result)).sum() / len(all_predict_result)
    return accuracy

经笔者测试，accuracy的值在0.7左右，也就是说1000张图片中，大概有700张识别对了，剩下的300张要么是识别错误，要么是图像处理不过关直接返回0000了。这个泛化能力稍微偏弱，不过还算是可以用的。

完整代码如下所示：

# predict.py
import os
import pickle
import cv2 as cv
import numpy as np
from captcha import generate_captcha
from process import adjust_img, split_img


def load_model(mode_path):
    """加载模型"""
    with open(mode_path, "rb") as f:
        model = pickle.load(f)
    return model


def predict(model, img_path):
    img = cv.imread(img_path)
    img = adjust_img(img)

    # 预测结果和真实结果
    predict_result = ""
    real_result = img_path.split("-")[-1].replace(".png", "")

    # 如果图像处理成功，则返回单个数字图像的预测结果和真实结果
    # 如果没成功，则返回0000和真实结果
    is_ok, roi_list = split_img(img)
    if is_ok:
        for i, roi in enumerate(roi_list):
            predict_result += str(model.predict(roi.reshape(1, -1))[0])
        print(f"{img_path}的识别结果为{predict_result}")
        return predict_result, real_result
    else:
        print(f"{img_path}图片处理失败")
        return "0000", real_result


def get_accuracy(model):
    """获取验证准确度"""
    all_predict_result = []
    all_real_result = []

    for filename in sorted(os.listdir("./captcha3")):
        predict_result, real_result = predict(model, f"./captcha3/{filename}")
        all_predict_result.append(predict_result)
        all_real_result.append(real_result)

    accuracy = (np.array(all_predict_result) == np.array(all_real_result)).sum() / len(all_predict_result)
    return accuracy


def main():
    generate_captcha(1000, "./captcha3")
    model = load_model("./model.pkl")
    accuracy = get_accuracy(model)
    print(accuracy)


if __name__ == "__main__":
    main()

总结与提高

通过以上内容我们得知，卡住识别精读的难点主要有两个：图像处理和模型训练。

如果要提高识别精读，可以在图像处理这一环节多下点功夫，尽量能够获取到好的分割图像。这样的话数据集质量会提高，训练精读就会上去，而且在真实识别过程中，被抛弃掉的（图像处理不过关的）验证码数量也会变少。

在本次训练过程中，笔者只选用了KNN模型，而且并没有对数据进行过多的预处理。读者完全可以通过尝试其他更强大的模型去获得更高的识别精读。

当然，训练数据如果能多一些的话那对精读提高也是有帮助的。

源码下载

链接:https://pan.baidu.com/s/1-0JlmyAZoY8MIBHhlqeKIA

密码:tw8a

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
30天风格练习-DAY2 黄希夷
Day2（重义）在一个周日/一周的最后一天，我来到位于市中心/市区繁华地带的一家购物中心/商场，中心内人很多/熙熙攘攘。我注意到/看见一个独行/孤身一人的年轻女孩/，留着一头引人注目/长过腰际的头发，上身穿一件暗红色/比正红色更深的衣服/穿在身体上的东西。走下扶梯的时候，她摔倒了/跌向地面，在她正要站起来/让身体离开地面的时候，过长/超过一般人长度的头发被支撑身体/躯干的手掌压/按在下面，她赶紧用
每日一题——第八十四题互联网打工人no1 C语言程序设计每日一练 c语言
题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
直抒《紫罗兰永恒花园外传》雷姆的黑色童话
没看过《紫罗兰永恒花园》的我莫名的看完了《紫罗兰永恒花园外传》，又莫名的被故事中的姐妹之情狠狠地感动了的一把。感动何在：困苦中相依为命的姐妹二人被迫分离，用一个人的自由换取另一个人的幸福。之后，虽相隔不知几许依旧心心念念彼此牵挂。这种深深的姐妹情谊就是令我为之动容的所在。贝拉和泰勒分别影片开始，海天之间一个孩童凭栏眺望，手中拿着折旧的信纸。镜头一转，挑灯伏案的薇尔莉特正在打字机前奋笔疾书。这些片段
linux中sdl的使用教程,sdl使用入门 Melissa Corvinus linux中sdl的使用教程
本文通过一个简单示例讲解SDL的基本使用流程。示例中展示一个窗口，窗口里面有个随机颜色快随机移动。当我们鼠标点击关闭按钮时间窗口关闭。基本步骤如下：1.初始化SDL并创建一个窗口。SDL_Init()初始化SDL_CreateWindow()创建窗口2.纹理渲染存储RGB和存储纹理的区别：比如一个从左到右由红色渐变到蓝色的矩形，用存储RGB的话就需要把矩形中每个点的具体颜色值存储下来；而纹理只是一
今天我破防了 sin信仰
今天本来是大年初一，新年的第一天，应该是高高兴兴的一天，但是我怎么也高兴不起来。具体原因很简单，原本计划年后去县城找了一份会计的工作，被公公婆婆否定了，我心里立马就不舒服了，但是当时刚好肚子疼，我去了厕所，等我上完厕所，公公由于喝了酒还在那里和婆婆唠叨个没完。然后我就在心情极度压抑的情况下把午饭吃完的碗筷和锅给刷了。边刷碗筷和锅，边在那里难受，感觉自己在这个家里真的是过的憋屈死了，公婆不让我去上班
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
《人世间》南询yi
今日分享十点推文，《人世间》有感苏格拉底说：“天地只有三尺，而人在五尺开外，所以人人都要懂得低头。”深以为然。懂得低头，不是认输。而是于人世间找寻温存的成熟，于困境中寻觅柳暗花明的智慧，于争执中展示屈伸自如的格局。正如仰头不是骄傲，是要看见自己的天空；低头也不是认输，而是要看清自己的路。成大事者，不仅要抬头挺胸，还得低头看路。懂得低头，进退有度，不是认输，而是竭尽全力过好这一生。宫崎骏说过：“所有
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
有舍才有得 _清净_
为什么经常讲放下？放下就是让你要舍得、舍去。喜舍心就是把自己喜欢的，用慈悲心喜舍出去。这就锻炼了你们在人间，学会放下原本不舍得的东西或一些事物，学会舍出去，学会帮助别人，学会多付出。你今天付出了慈悲心、喜舍心，以后会得到更多的缘助力。缘助力是什么？——贵人缘啊。今天没有付出，不懂得付出，什么都只会想到自己，那你也得不到缘助力。慈悲喜舍就是用慈悲心去帮助别人，用喜舍心去付出，最后也会得到别人回报。别
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
libyuv之linux编译 jaronho Linux linux 运维服务器
文章目录一、下载源码二、编译源码三、注意事项1、银河麒麟系统（aarch64）（1）解决armv8-a+dotprod+i8mm指令集支持问题（2）解决armv9-a+sve2指令集支持问题一、下载源码到GitHub网站下载https://github.com/lemenkov/libyuv源码，或者用直接用git克隆到本地，如：gitclonehttps://github.com/lemenko
没有邀请码怎么注册买手妈妈? 氧惠评测
买手妈妈怎么注册小编为大家带来买手妈妈没有邀请码怎么注册。打开买手妈妈APP，点击“马上注册”，输入邀请信息“邀请码”点击下一步，没有邀请码是登录不上的，所以这个必须要填写，那我们没有怎么办？填写成功就可以登录下一步。这里面有手机登录和淘宝登录，手机登录以后也需要用淘宝授权的，所以基本上都是淘宝登录。购物、看电影、点外卖、用氧惠APP！更优惠！氧惠（全网优惠上氧惠）——是与以往完全不同的抖客+淘客
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
嘿，谢谢你小小玛拉沁
突然想对一个女孩子说，谢谢你！很久很久以前，总是觉得和你不会有太多交集，充其量也只是普通的舍友吧，毕竟有很多习惯，性格等方面相差甚远。其实特别感谢2017这一段经历和我遇见的人，只会慢吞吞的过自己生活的安小蜗是不会主动去结交朋友的，所以她来到了我的世界，让我在不知不觉中发现了自己太多太多的问题，而我正在逐渐去改变这些的习惯，成为更好的自己！我总是超级佩服她不管什么时候精力都超级旺盛，可以在上了一天
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
烟花美，但瞬间即逝的样子像极了爱情。胡萝卜很甜
我见过烟花在天上绽放时绚烂的模样也目睹过爱情消逝曾经相爱的两人变冷漠的样子其实我特别喜欢烟花绽放的艳丽大年初一凌晨的烟花手机拍的没有眼睛看到的美但是烟花虽美，稍纵即逝，眼睛刚记录下它的美好，就转眼消失不见。天空又恢复一片黑。烟花的样子像极了爱情啊……不论曾经多么山盟海誓，海枯石烂。只要吵架或者分手。就变得那么冷漠，那么陌生。你甚至开始怀疑你有过爱情么？真正的爱情到底是什么样子。来的快去的也快么？对
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
心有蓝天白云，爱情便会晴空万里，然后有花香有鸟鸣有美好的未来曹十二吖
丁南的婚姻，来自于一场她对生命的对比。她曾经说过，当她最爱的母亲用生命去逼迫她结婚的时候，她曾一度不理解到愤怒，甚至于想过用轻生来对抗母亲的不理智。庆幸的是，丁南是一个自我调节能力非常强的人，她想如果我连死亡都不怕，还怕不能经营好一段婚姻吗？抱着这样的念头，24年没有谈过恋爱的她，用短短三个月的时间，完成了少女到女人的蜕变。她曾经说过：“我要把自己最珍贵的东西留给自己命中注定的那个人。”闺蜜几人中
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Redis系列：Geo 类型赋能亿级地图位置计算 Ly768768 redis bootstrap 数据库
1前言我们在篇深刻理解高性能Redis的本质的时候就介绍过Redis的几种基本数据结构，它是基于不同业务场景而设计的：动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)双端列表(REDIS_ENCODING_LINKEDLIST)压缩列表(REDIS_ENCODING_ZIPLIST)跳跃表(REDIS_ENCODI
对于写作者最重要的两点：热情和分享鱼和熊掌兼得
【热情】在开头，塔奇曼提到光有热情是不够的。但是，要想长期的坚持写作，没有热情是不行的。很多人都说，这是一个对写作者很优待的时代，也有很多人前仆后继的写作。在写作这条路上的人，始终很多，一些人来了，一些人走了，但是能坚持下来的却只有那么几个。不知道什么时候开始，写作变现这个词火了起来。不管是谁，都想来分一杯羹。可是写作变现真的没有这么容易，鱼哥说过，写作的人千千万万，能变现的也不过是其中的千分之一
这个世界为何对女性这么苛刻遇见知见
图片发自App当今社会的女性，简直用金刚侠来形容都不为过。虽然早已过了男尊女卑的时代，但是这个世界并没有平等的对待女性。新时代的女性标准：上得了厅堂，下得了厨房，杀得了木马，翻得了围墙，开得起好车，买得起新房，斗得过二奶，打得过流氓，生得了孩子，养得了家庭。这个社会对女性有太多的不公平，既要求女性经济独立，又要求女性贤良淑德。所有的女性的在成长过程中没有任何一项是因为你是女性而给你开绿灯的。图片发
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

用sklearn+opencv-python过简单的4位数字验证码

生成验证码图片

用opencv-python处理图片

制作训练数据集

训练模型

识别验证码

总结与提高

源码下载

你可能感兴趣的:(《用机器学习过爬虫验证码》,sklearn,scikit-learn,opencv-python,cv,人工智能)