XYZ_UVT

tensorflow 用cnn训练识别验证码(svm+ocr )

环境是python3.6+win10x64+tensorflow-gpu 1.11.0

用厦大嘉庚的教务系统的验证码作为案例
样例：

图像预处理

使用OpenCV-python直接以灰度读取图像
进行全局大津二值化
使用dfs算法去除噪点
通过投影法切割字母
用cv2.copyMakeBorder把图像扩充到统一规格16*16

import cv2

word_num = 'ABCDEFGHJKLMNPRSTUVWXYZ'
word_num = list(word_num)
word_number = {}
for i in range(len(word_num)):
    word_number[i] = word_num[i]
    
def process(img, min_area):
    _, img = cv2.threshold(img, 0, 255, cv2.THRESH_OTSU)  # 全局大津二值化
    img = clear_background(img, min_area)  # 去除噪点
    return img


def mark_clear_area(img, data, col, row, dire, flag):  # dfs深度搜索 dire为记录搜索的方向
    if row >= img.shape[0] or col >= img.shape[1] or col < 0 or row < 0:
        return data
    if not flag:
        if img[row, col] == 0:
            img[row, col] = 127  # 标记像素
            data += 1  # 连通像素点数量
            # dire = 1 = 0001为上
            # dire = 2 = 0010为下
            # dire = 4 = 0100为左
            # dire = 8 = 1000为右
            if dire & 1 != 1:
                data = mark_clear_area(img, data, col, row + 1, 2, flag)  # 向上搜索
            if dire & 8 != 8:
                data = mark_clear_area(img, data, col + 1, row, 4, flag)  # 向右搜索
            if dire & 2 != 2:
                data = mark_clear_area(img, data, col, row - 1, 1, flag)  # 向下搜索
            if dire & 4 != 4:
                data = mark_clear_area(img, data, col - 1, row, 8, flag)  # 向左搜索
    else:
        if img[row, col] == 127:
            img[row, col] = 255  # 设置为背景色
            if dire & 1 != 1:
                data = mark_clear_area(img, data, col, row + 1, 2, flag)  # 向上搜索
            if dire & 8 != 8:
                data = mark_clear_area(img, data, col + 1, row, 4, flag)  # 向右搜索
            if dire & 2 != 2:
                data = mark_clear_area(img, data, col, row - 1, 1, flag)  # 向下搜索
            if dire & 4 != 4:
                data = mark_clear_area(img, data, col - 1, row, 8, flag)
    return data


def clear_background(image, num):  # 去除噪点
    for row in range(0, image.shape[0]):
        for col in range(0, image.shape[1]):
            if image[row, col] == 0:
                number = mark_clear_area(image, 0, col, row, 0, False)  # 连通数量
                # print(number)
                if number < num:
                    mark_clear_area(image, 0, col, row, 0, True)  # 消除连通区域
    for row in range(0, image.shape[0]):
        for col in range(0, image.shape[1]):
            if image[row, col] == 127:
                image[row, col] = 0
    return image


def horizontal(image, hor_num):  # 水平投影
    img = image.copy()
    (h, w) = img.shape  # 返回高和宽
    # print(h,w)#s输出高和宽
    H = [0 for z in range(0, h)]
    # 记录每一行的波峰
    for i in range(0, h):  # 遍历一行
        for j in range(0, w):  # 遍历一列
            if img[i, j] != 255:  # 如果改点为黑点
                H[i] += 1  # 该列的计数器加一计数
    Hei = []
    i = 0
    while i != h:  # 标记水平投影非0点的起始点和长度
        if H[i] != 0:
            start = i
            count = 0
            while i != h:
                if H[i] == 0:
                    break
                else:
                    count += 1
                i += 1
            Hei.append([start, count])
        else:
            i += 1
    index = 0
    while index < len(Hei):  # 去除长度小于阈值的标记
        if Hei[index][1] < hor_num:
            del Hei[index]
            index -= 1
        index += 1
    return H, Hei


def vertical(image, ver_num):  # 垂直投影
    img = image.copy()
    (h, w) = img.shape  # 返回高和宽
    # print(h,w)#s输出高和宽
    W = [0 for z in range(0, w)]
    # 记录每一列的波峰
    for j in range(0, w):  # 遍历一列
        for i in range(0, h):  # 遍历一行
            if img[i, j] != 255:  # 如果改点为黑点
                W[j] += 1  # 该列的计数器加一计数
    Wid = []
    i = 0
    while i != w:  # 标记垂直投影非0点的起始点和长度
        if W[i] != 0:
            start = i
            count = 0
            while i != w:
                if W[i] == 0:
                    break
                else:
                    count += 1
                i += 1
            Wid.append([start, count])
        else:
            i += 1
    index = 0
    while index < len(Wid):  # 去除长度小于阈值的标记
        if Wid[index][1] < ver_num:
            del Wid[index]
            index -= 1
        index += 1
    return W, Wid

if __name__ == '__main__':
    import os
    import matplotlib.pyplot as plt
    from matplotlib import animation
    import seaborn as sns
    import cv2

    dir_path = './imgcode2'
    image = cv2.imread(dir_path + '\\' + os.listdir(dir_path)[2], 0)  # 读取图片[0]为第一张图片
    _, image = cv2.threshold(image, 0, 255, cv2.THRESH_OTSU)  # 全局大津二值化
    sns.set_style("whitegrid")  # 设置图形主图
    # 创建画布
    fig = plt.figure()
    im = plt.imshow(image, cmap='gray')
    plt.grid(False)


    def animate(i):
        for row in range(0, image.shape[0]):
            for col in range(0, image.shape[1]):
                if image[row, col] == 0:
                    number = mark_clear_area(image, 0, col, row, 0, False)  # 连通数量
                    if number < 5:
                        mark_clear_area(image, 0, col, row, 0, True)  # 消除连通区域
                    im.set_array(image)
                    return [im]


    ani = animation.FuncAnimation(fig, animate, frames=50, interval=500, blit=False)
    plt.show()
    image = clear_background(image, 5)

    w, wid = vertical(image, 5)
    plt.bar([i + 1 for i in range(len(w))], w)
    plt.show()
    error_img = 0
    fig = plt.figure()
    ax = []
    for i in range(3):
        ax_ = []
        for j in range(1, 5):
            ax_.append(fig.add_subplot(3, 4, i*4+j))
        ax.append(ax_)
    for i in range(len(wid)):
        pic = image[:, wid[i][0]:wid[i][0] + 9]
        ax[0][i].imshow(pic)
        ax[0][i].grid(False)
        h, hei = horizontal(pic, 8)
        h = h[::-1]
        ax[1][i].barh([i + 1 for i in range(len(h))], h)
        ax[1][i].grid(False)
        cut_img = pic[hei[0][0]:hei[0][0] + 11, :]
        cut_img = cv2.copyMakeBorder(cut_img, 3, 2, 4, 3, cv2.BORDER_CONSTANT,
                              value=[255, 255, 255])
        ax[2][i].imshow(cut_img)
        ax[2][i].grid(False)
    plt.show()

创建训练集

事先用pytesseract + tesseract-ocr 识别后再手动修改，建立训练集

import cv2
import os
import improcessing as im
import numpy as np
import matplotlib.pyplot as plt

method = 1
method_name = ['svm', 'ocr']
if method_name[method] == 'svm':
    import pic_svm
elif method_name[method] == 'ocr':
    from PIL import Image
    import re
    try:
        import pytesseract as ocr
    except ImportError:
        method = 0
        import pic_svm

word_count = {}


def img_pro(dir_path, file_path, save_path):
    ver_num = 5
    hor_num = 8
    min_area = 5
    img = cv2.imread(dir_path + '\\' + file_path, flags=0)
    img = im.process(img, min_area)
    word =[]
    if method_name[method] == 'ocr':
        word_list = ocr.image_to_string(Image.fromarray(img), lang='eng', config='digits')  # ocr识别图像
        word_list = ''.join(re.split(r'[^A-Za-z]', word_list))  # 正则表达式提取字母
        word_list = word_list.upper()  # 转大写字母
        word_list = list(word_list)
        word = word_list

    __, wid = im.vertical(img, ver_num)
    pic = []
    cut_img = []
    error_img = 0
    for i in range(len(wid)):
        try:
            pic.append(img[:, wid[i][0]:wid[i][0] + 9])
            ___, hei = im.horizontal(pic[i], hor_num)
            # print(hei)
            cut_img.append(pic[i][hei[0][0]:hei[0][0] + 11, :])
            save_img = cv2.copyMakeBorder(cut_img[i], 3, 2, 4, 3, cv2.BORDER_CONSTANT, value=[255, 255, 255])
            error_img = save_img
            if method_name[method] == 'ocr':
                count = word_count[word_list[i]]
                count += 1
                word_count[word_list[i]] = count  # 计数
                cv2.imwrite(save_path + '/' + word_list[i] + '/' + str(word_count[word_list[i]]) + '.bmp', save_img)
            elif method_name[method] == 'svm':
                x = np.array(np.mat(pic_svm.get_feature(save_img)))  # 提取图像特征点
                number = int(pic_svm.predict(x)[0])  # 使用svm支持向量机识别
                simple_word = im.word_number[number]   # 将结果转为字母
                word.append(simple_word)
                count = word_count[simple_word]
                count += 1
                word_count[simple_word] = count  # 计数
                cv2.imwrite(save_path + '/' + simple_word + '/' + str(word_count[simple_word]) + '.bmp', save_img)  # 保存图片
        except IndexError:
            print(hei)
            word_count[26] += 1
            cv2.imwrite(save_path + '/error/' + str(word_count[26]) + '.bmp', error_img)
    print(''.join(word) + '\t', end='')
    print(word_count)


if __name__ == '__main__':
    dir_path = './imgcode'
    save_path = './pic'
    if not os.path.exists(save_path):  # 创建文件夹
        os.mkdir(save_path)
    for ch, i in zip(range(ord('A'), ord('Z') + 1), range(26)):  # 创建分类文件夹
        word_count[chr(ch)] = 0
        path = save_path + '/' + chr(ch)
        if not os.path.exists(path):
            os.mkdir(path)
    error_path = save_path + '/error'
    if not os.path.exists(error_path):  # 创建错误文件夹
        os.mkdir(error_path)
    for file_path in os.listdir(dir_path):  # 遍历文件夹
        print(file_path + '\t->\t', end='')
        img_pro(dir_path, file_path, save_path)

初步获得训练集之后，可以用svm训练，之后可批量生成验证码
这里也给出svm的训练，想看tensorflow的直接略过吧

训练svm

导入sklearn.svm的svm
特征点设为每列的黑点数，每行的黑点数

def get_feature(img):  # 提取图像特征点
    width, height = img.shape
    pixel_cnt_list = []
    for y in range(height):
        pix_cnt_x = 0
        for x in range(width):
            if img[y, x] != 255:  # 黑色点
                pix_cnt_x += 1
        pixel_cnt_list.append(pix_cnt_x)
    for x in range(width):
        pix_cnt_y = 0
        for y in range(height):
            if img[y, x] != 255:  # 黑色点
                pix_cnt_y += 1
        pixel_cnt_list.append(pix_cnt_y)
    return pixel_cnt_list

将训练集转换成svm的标签数据

def get_files(filename):  # 提取文件夹下文件名、目录
    class_train = []
    label_train = []
    word = 'ABCDEFGHJKLMNPRSTUVWXYZ'
    word = list(word)
    word_dirt = {}
    for i in range(len(word)):
        word_dirt[word[i]] = i
    for train_class in os.listdir(filename):
        for pic in os.listdir(filename + '/' + train_class):
            class_train.append(filename + '/' + train_class + '/' + pic)
            label_train.append(train_class)
    temp = np.array([class_train, label_train])
    temp = temp.transpose()
    # after transpose, images is in dimension 0 and label in dimension 1
    image_list = list(temp[:, 0])
    label_list = list(temp[:, 1])
    label_list = [word_dirt[i] for i in label_list]
    # print(label_list)
    return image_list, label_list


def batches(image_path, label):  # 生成svm标签数据
    x = []
    y = []
    for path, i in zip(image_path, label):
        image = cv2.imread(path, flags=0)
        datalist = get_feature(image)
        x.append(datalist)
        y.append(i)
    return np.array(y), np.array(x)

进行svm训练并保存模型

import numpy as np
import cv2
import os
from sklearn.svm import SVC  # 导入svm
from sklearn.externals import joblib

def trainSVM(y, x):
    clf = SVC(kernel='linear')
    rf = clf.fit(x, y)
    score_linear = clf.score(x, y)
    print("The score of linear is : %f" % score_linear)
    joblib.dump(rf, 'word_svm.model')


def predict(x):
    RF = joblib.load('word_svm.model')
    return RF.predict(x)


if __name__ == '__main__':
    array = get_files('./train_data')
    array = batches(array[0], array[1])
    trainSVM(array[0], array[1])

训练完成后，直接将特征点输入predict(x)就会返回判断值

tensorflow训练cnn

建立一个卷积神经网络
可以使用tensorflow中文官网的http://www.tensorfly.cn/tfdoc/tutorials/mnist_pros.html深入MNIST的模型
本质上就是用python把流程图画出来，设置好评价函数、反向传播函数。设置完成后建立session与C++后台对话。sess.run()开始，后台将实际的参数填充，运行。

因为验证码没有I、O、Q字母所以输出只设置为23维向量

import time
import tensorflow as tf
import os
import numpy as np
from PIL import Image
import random


def weight_variable(shape):
    initial = tf.truncated_normal(shape, stddev=0.1)
    return tf.Variable(initial)


def bias_variable(shape):
    initial = tf.constant(0.1, shape=shape)
    return tf.Variable(initial)


def conv_2d(x, w):
    return tf.nn.conv2d(x, w, strides=[1, 1, 1, 1], padding='SAME')


def max_pool_2x2(x):
    return tf.nn.max_pool(x, ksize=[1, 2, 2, 1],
                          strides=[1, 2, 2, 1], padding='SAME')


def get_files(filename):  # 提取文件夹下文件名、目录
    class_train = []
    label_train = []
    word = 'ABCDEFGHJKLMNPRSTUVWXYZ'
    word = list(word)
    word_dirt = {}
    for i in range(len(word)):
        word_dirt[word[i]] = i
    for train_class in os.listdir(filename):
        for pic in os.listdir(filename + '/' + train_class):
            class_train.append(filename + '/' + train_class + '/' + pic)
            label_train.append(train_class)
    temp = np.array([class_train, label_train])
    temp = temp.transpose()
    # after transpose, images is in dimension 0 and label in dimension 1
    image_list = list(temp[:, 0])
    label_list = list(temp[:, 1])
    label_list = [word_dirt[i] for i in label_list]
    # print(label_list)
    return image_list, label_list


def batches(image_path, label):  # 生成cnn标签数据
    x = []
    for path, i in zip(image_path, label):
        image = np.array(Image.open(path).convert('L'))
        image_list = []
        rows = image.shape[0]
        cols = image.shape[1]
        image = abs(255 - image)
        max_px = np.max(image)
        for row in range(rows):
            for col in range(cols):
                image_list.append(image[row, col] / max_px)
        image_list.insert(0, i)
        x.append(image_list)
    return x


def get_batches(batches):
    x = []
    y = []
    for iter in batches:
        out = [0 for i in range(23)]
        out[iter[0]] = 1
        y.append(out)
        x.append(iter[1:])
    return np.array(x), np.array(y)


def get_batche(batches, num):
    batch = random.sample(batches, num)
    x = []
    y = []
    for iter in batch:
        out = [0 for i in range(23)]
        out[iter[0]] = 1
        y.append(out)
        x.append(iter[1:])
    return np.array(x), np.array(y)


if __name__ == '__main__':

    # Create the model
    # placeholder
    x = tf.placeholder(tf.float32, shape=[None, 16*16], name='input_x')
    y_ = tf.placeholder(tf.float32, shape=[None, 23], name='input_y')

    # first

    W_conv1 = weight_variable([5, 5, 1, 32])
    b_conv1 = bias_variable([32])
    x_image = tf.reshape(x, [-1, 16, 16, 1])
    h_conv1 = tf.nn.relu(tf_tools.conv_2d(x_image, W_conv1) + b_conv1)
    h_pool1 = max_pool_2x2(h_conv1)

    # second
    W_conv2 = weight_variable([5, 5, 32, 64])
    b_conv2 = bias_variable([64])
    h_conv2 = tf.nn.relu(tf_tools.conv_2d(h_pool1, W_conv2) + b_conv2)
    h_pool2 = max_pool_2x2(h_conv2)

    W_fc1 = weight_variable([4 * 4 * 64, 1024])
    b_fc1 = bias_variable([1024])
    h_pool2_flat = tf.reshape(h_pool2, [-1, 4 * 4 * 64])
    h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1)

    # dropout
    keep_prob = tf.placeholder(tf.float32, name='keep_prob')
    h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)

    # softmax
    W_fc2 = weight_variable([1024, 23])
    b_fc2 = bias_variable([23])

    y_conv = tf.nn.softmax(tf.matmul(h_fc1_drop, W_fc2) + b_fc2)

    cross_entropy = -tf.reduce_sum(y_*tf.log(y_conv))
    train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)
    correct_prediction = tf.equal(tf.argmax(y_conv, 1), tf.argmax(y_, 1))
    accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
    tf.add_to_collection('pred_network', y_conv)

    array = get_files('./train_data')
    array = batches(array[0], array[1])
    with tf.Session() as sess:
        sess.run(tf.global_variables_initializer())
        saver = tf.train.Saver(max_to_keep=1)
        time_start = time.time()
        for i in range(2000):
            batch = get_batche(array, 50)  # 样本数量
            if i % 100 == 0:
                train_accuracy = accuracy.eval(feed_dict={
                    x: batch[0], y_: batch[1], keep_prob: 1.0})
                print("step %d, training accuracy %f" % (i, train_accuracy))
            train_step.run(feed_dict={x: batch[0], y_: batch[1], keep_prob: 0.5})  # 训练模型
        x_data, y_data = tf_tools.get_batches(array)  
        print("test accuracy %g" % accuracy.eval(feed_dict={x: x_data, y_: y_data, keep_prob: 1.0}))

        time_end = time.time()
        print('totally cost ' + str(time_end-time_start) + 's')
        saver.save(sess, './ckpt/mnist.ckpt', global_step=0)  # 保存模型

百分之百的准确率！(cnn牛逼！)
训练完成后就可以测试数据啦
用saver.restore导入模型

ckpt = tf.train.get_checkpoint_state('./ckpt/')
saver = tf.train.import_meta_graph(ckpt.model_checkpoint_path + '.meta')
print(ckpt.model_checkpoint_path)
with tf.Session() as sess:
    saver.restore(sess, ckpt.model_checkpoint_path)

测试代码

import cv2
import os
import tensorflow as tf
import tf_tools as tf_t
import improcessing as im
import numpy as np


if __name__ == '__main__':
    dir_path = './imgcode2'
    save_path = './pic2'
    if not os.path.exists(save_path):
        os.mkdir(save_path)
    ckpt = tf.train.get_checkpoint_state('./ckpt/')
    saver = tf.train.import_meta_graph(ckpt.model_checkpoint_path + '.meta')
    print(ckpt.model_checkpoint_path)
    array = tf_t.get_files('./train_data')
    array = tf_t.batches(array[0], array[1])

    with tf.Session() as sess:
        saver.restore(sess, ckpt.model_checkpoint_path)
        y = tf.get_collection('pred_network')[0]
        graph = tf.get_default_graph()
        input_x = graph.get_operation_by_name('input_x').outputs[0]
        keep_prob = graph.get_operation_by_name('keep_prob').outputs[0]

        ver_num = 5  # 垂直投影阈值
        hor_num = 8  # 水平投影阈值
        min_area = 5  # 连通域面积阈值
        for file_path in os.listdir(dir_path):  # 遍历文件夹
            print(file_path + '\t->\t', end='')
            img = cv2.imread(dir_path + '\\' + file_path, flags=0)  # 读取图片
            img = im.process(img, min_area)

            __, wid = im.vertical(img, ver_num)  # 得到垂直投影标记
            pic = []
            cut_img = []
            test_word = ''
            datalist = []
            for i in range(len(wid)):  # 提取验证码四个字母特征点
                pic.append(img[:, wid[i][0]:wid[i][0] + 9])  # 垂直切割图像
                ___, hei = im.horizontal(pic[i], hor_num)  # 得到水平投影标记
                # print(hei)
                cut_img.append(pic[i][hei[0][0]:hei[0][0] + 11, :])  # 水平切割图像
                save_img = cv2.copyMakeBorder(cut_img[i], 3, 2, 4, 3, cv2.BORDER_CONSTANT,
                                              value=[255, 255, 255])  # 将图像大小扩充到16*16
                save_img = np.abs(255 - save_img)
                data = save_img / np.max(save_img)
                xt = []
                for row in range(data.shape[0]):
                    for col in range(data.shape[1]):
                        xt.append(data[row, col])
                datalist.append(xt)
            x = np.array(datalist)
            result = sess.run(y, feed_dict={input_x: x, keep_prob: 1.0})
            for iter in result:
                i = np.where(iter == np.max(iter))[0][0]
                test_word += im.word_number[i]  # 将结果转为字母
            print(test_word)
            cv2.imwrite(save_path + '/' + test_word + '.bmp', img)  # 保存结果

大功告成！

使用 certbot 在centos7 搭建ssl证书自动并且续约 TwoSs110 ssl https
第一步，确定服务器适合安装的certbot版本sudoyuminstallpython27如果上述方法不起作用，你可以尝试编译安装。首先，你需要安装编译Python所需的依赖包。sudoyuminstallgccmakeopenssl-develsqlite-develreadline-develzlib-develbzip2-devel接下来，下载Python2.7.5的源代码，并进行编译安装。
Assembly语言的自然语言处理花韵婷包罗万象 golang 开发语言后端
Assembly语言在自然语言处理中的应用引言自然语言处理（NaturalLanguageProcessing,NLP）作为人工智能的一个重要分支，致力于实现计算机与人类语言之间的互动。随着计算能力的提升以及大数据的蓬勃发展，NLP在各个领域的应用如火如荼。从语音识别、机器翻译到情感分析等，NLP正在改变我们与信息之间的互动方式。不过，当前主流的NLP研究通常是用高级编程语言（如Python、Ja
Groovy语言的漏洞扫描花韵婷包罗万象 golang 开发语言后端
Groovy语言漏洞扫描：深入分析与实践引言Groovy是一种基于Java虚拟机（JVM）的动态编程语言，它结合了Python、Ruby和Smalltalk等语言的特性，提供了简洁的语法和强大的功能。Groovy广泛应用于脚本编写、自动化测试、构建工具（如Gradle）以及Web开发等领域。然而，随着Groovy的广泛应用，其安全性问题也逐渐显现出来。本文将深入探讨Groovy语言中的常见漏洞类型
大模型的webui Zain Lau 人工智能 python 昇腾 Ascend 天数
exportXXX_LLM_C=~/xcore-llm/build/ReleaseexportCUDA_VISIBLE_DEVICES=2,3exportCUDACXX=/usr/local/cuda-12.3/bin/nvccnohup/usr/bin/python3/home/src/api_server/api_server.py--modelLLama2:7b-chat-hf_A800--
Tornado 初识 Wu_Candy Web服务器
一、什么是tornadoTornado是使用Python编写的一个强大的、可扩展的Web服务器。它在处理严峻的网络流量时表现得足够强健，但却在创建和编写时有着足够的轻量级，并能够被用在大量的应用和工具中。二、tornado有什么优势Tornado和现在的主流baiduWeb服务器框架（包括大多数Python的框架）有着明显的区别：它是非阻塞式服务器，而且速度相当快，得利于其非阻塞的方式和对epol
python高并发访问mysql_Python访问MySQL 阿廖林诺
Python访问数据库作为Python开发工程师，选择哪个数据库呢？当然是MySQL。因为MySQL不仅免费，普及率最高，出了错，可以很容易找到解决方法。而且，围绕MySQL有一大堆监控和运维的工具，安装和使用很方便。使用MySQLMySQL是Web世界中使用最广泛的数据库服务器。SQLite的特点是轻量级、可嵌入，但不能承受高并发访问，适合桌面和移动应用。而MySQL是为服务器端设计的数据库，能
Python 爬取大量数据如何并发抓取与性能优化 chusheng1840 Python 教程 python 性能优化开发语言
Python并发抓取与性能优化在进行网络爬虫开发时，爬取大量数据可能非常耗时。尤其是在处理许多网页或API请求时，逐个请求速度会非常慢。为了解决这个问题，我们可以通过并发抓取提高爬取效率。同时，通过性能优化来进一步减少耗时和资源占用，使爬虫更高效。本篇文章将带大家了解Python中常用的并发抓取方法，并介绍如何进行性能优化。1.并发抓取的基本概念并发抓取指的是同时发出多个请求的技术，而不是顺序地等
【机器学习】基于t-SNE数据可视化工程无水先生 AI原理和python实现人工智能综合人工智能算法
一、说明t-SNE(t-DistributedStochasticNeighborEmbedding)是一种常用的非线性降维技术。它可以将高维数据映射到一个低维空间（通常是2D或3D）来便于可视化。Scikit-learnAPI提供TSNE类，以使用T-SNE方法可视化数据。在本教程中，我们将简要学习如何在Python中使用TSNE拟合和可视化数据。二、t-SNE是个什么？2.1什么是t-SNE？
Conda报错解决：ProxyError: Conda cannot proceed due to an error in your proxy configuration. 三采 Linux Conda 代理
目录原因一：源配置有误原因二：代理配置有误原因三：路由配置有误在需要使用代理的服务器下，创建新conda环境时报错：condacreate-nopencompasspython=3.8/usr/lib/python3/dist-packages/requests/__init__.py:89:RequestsDependencyWarning:urllib3(1.26.9)orchardet(3.
基于asp.NET的病历管理系统 (源码+net+vue+部署文档+讲解等) qq_1406299528 计算机毕业设计 asp asp.net vue.js 后端
收藏关注不迷路！！文末获取源码+数据库感兴趣的可以先收藏起来，还有大家在毕设选题（免费咨询指导选题），项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人文章目录前言程序资料获取一、项目技术二、项目内容和功能介绍三、核心代码数据库参考四、效果图五、资料获取前言博主介绍：✨全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师，专注于Java/Python/小程序app/深度学
爬取电影标题、评论、评分（21-11-4）穆桥 Python爬虫 XPath解析 MySQL数据库电影信息疾病数据
功能描述：1、爬取网页1中的电影名称、评分、简介到mysql数据库中。2、爬取网页2中的标题、时间、正文、采集时间到mysql数据库中。使用的技术:requests请求、xpath解析、mysqlxpath解析语法//子孙节点/直接子节点.选取当前节点…选取当前节点的父节点@选取属性通过Python的lxml库，利用XPath进行HTML的解析。scrapy封装了lxml也可以导入scrapy任务
Python 爬虫实战：电影评论数据抓取与自然语言处理西攻城狮北 python 爬虫开发语言
引言作为一名对电影数据和自然语言处理感兴趣的内容创作者，我决定利用Python爬虫技术抓取IMDb上的电影评论数据，并进行自然语言处理分析。这不仅可以帮助我们了解观众对电影的反馈，还能为电影制作方提供有价值的参考。一、项目背景IMDb（互联网电影数据库）是全球最大的电影数据库，用户可以在上面查看电影信息和用户评论。本项目旨在爬取IMDb上的电影评论，并对评论进行自然语言处理（NLP），以提取情感、
linux（ubuntu）中Conda、CUDA安装Xinference报错ERROR: Failed to build (llama-cpp-python) 小胡说技书杂谈/设计模式/报错 Data/Python/大模型 linux ubuntu conda 大模型 python Xinference
文章目录一、常规办法二、继续三、继续四、缺少libgomp库（最终解决）在Conda环境中安装libgomp如果符合标题情况执行的：pipinstall"xinference[all]"大概率是最终解决的情况。一、常规办法llama-cpp-python依赖CMake、Make和g++来编译，所以可能是缺少依赖或者环境配置不对。按照以下步骤排查问题并解决：1.确保Python版本符合要求llama
基于Asp.net的汽车租赁管理系统计算机学姐 Asp精选实战项目源码 asp.net 汽车后端 mysql sqlserver vue.js c#
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示【2025最新】基于Asp.net的汽车租赁管理系统开发
使用yolo训练自己的模型数据遇到的问题次次皮 YOLO 深度学习人工智能
1、报错：NolabelsfoundinD:\xxx\valid\labels.cache查找网上的文章大多都是说文件目录没按规定创建，但我检查了我的目录没问题，后来发现是labels文件夹里的txt文件和images文件夹的图片没有一一对应，对应好之后问题解决2、解决完上个问题之后还是不报上面的错了但还是FatalPythonerror:Aborted；Restartingkernel...检查
Python——文件读取一颗小松松 python 开发语言
Python可以读取不同格式的文件，下面简单来介绍一下：1、使用read_excel或read_csv读取文件，若在路径前加r，使用“\”importpandasaspd#在路径前加r,使用“\”df=pd.read_excel(r'C:\Users\merit\Desktop\测试.xlsx')#导入.csv文件，以“，”为分隔符data=pd.read_csv(r'C:\Users\merit
给接口自动化测试框架增色，实现企业微信测试报告编程简单学软件测试 python python 单元测试压力测试 postman 功能测试
作者在新项目中搭建了python+requests+unittest+HTMLTestRunner接口自动化测试框架，通过修改配置文件实现环境隔离，一份脚本即可在不同的环境执行接口测试用例。但是没有实现任何形式的消息通知，也没有集成到jenkins，原因很简单，因为还没做到很大，而且用户活跃不够，问题也相对较少，只在上线前后执行一次uat和prod环境。那这几天想完善一下消息通知功能，让它具备发送
轻松管理CSV数据，Python csv库全解析嘎啦AGI实验室 Python python android 数据库 Python csv
文章目录轻松管理CSV数据，Pythoncsv库全解析背景介绍csv库是什么？如何安装csv库？五个简单的库函数使用方法1.读取CSV文件2.写入CSV文件3.使用DictReader读取CSV4.使用DictWriter写入CSV5.指定分隔符五个场景使用代码说明场景1：读取CSV并统计数据场景2：将查询结果写入CSV场景3：读取CSV并过滤数据场景4：读取CSV并排序数据场景5：读取CSV并合
#PyCharm 2024.1新增功能 Dingdangr pycharm ide python
PyCharm2024.1作为JetBrains专为Python开发者设计的集成开发环境（IDE）的最新版本，带来了众多令人兴奋的新增功能，旨在提升开发者的编程效率和体验。以下是对这些新增功能的详细解析：一、智能编码辅助HuggingFace模型和数据集文档预览PyCharm2024.1引入了HuggingFace模型和数据集的快速文档预览功能。开发者可以直接在PyCharm内部快速获取Huggi
2025年Python生态全景：从AI霸主到量子计算，揭秘其不可替代的技术魅力南玖yy python 人工智能量子计算
在2025年的技术浪潮中，Python凭借其极简的语法、庞大的生态系统以及跨领域融合能力，依然稳坐编程语言界的“头把交椅”。尽管Java等语言在AI领域发起挑战，但Python通过持续的技术革新和生态扩展，展现出不可撼动的生命力。本文将从技术趋势、行业应用与未来挑战三个维度，解析Python的“常青”密码。一、AI领域的持续主导：生态优势与工具革新Python在AI领域的统治地位仍未动摇。尽管有观
使用Python爬取豆瓣用户信息：从入门到实战 Python爬虫项目 2025年爬虫实战项目 python 开发语言人工智能爬虫大数据
引言豆瓣作为一个知名的社交平台，拥有丰富的用户信息。对于数据分析师、研究人员或普通用户来说，获取豆瓣用户信息具有重要的价值。本文将详细介绍如何使用Python及其相关库来爬取豆瓣用户信息，并展示如何利用最新的技术手段来实现这一目标。1.准备工作在开始编写爬虫之前，我们需要准备一些工具和环境：Python3.x：确保你已经安装了Python3.x版本。Requests库：用于发送HTTP请求。Bea
深入 Python 网络爬虫开发：从入门到实战南玖yy python python爬虫
一、为什么需要爬虫？在数据驱动的时代，网络爬虫是获取公开数据的重要工具。它可以帮助我们：监控电商价格变化抓取学术文献构建数据分析样本自动化信息收集二、基础环境搭建1.核心库安装pipinstallrequestsbeautifulsoup4lxmlseleniumscrapy2.开发工具推荐PyCharm（专业版）VSCode+Python扩展JupyterNotebook（适合调试）三、爬虫开发
python中三元运算符使用总结上趣工作室 python python 开发语言
在Python中，三元运算符通常被称为条件表达式，它的语法为：value_if_trueifconditionelsevalue_if_false这个条件表达式的含义是：如果condition为True，则返回value_if_true，否则返回value_if_false。示例以下是一些使用三元运算符的示例：1、基本使用:x=10result="Greaterthan5"ifx>5else"5o
python中将字符串转换成数字，并且保留两位小数上趣工作室 python python 后端
在Python中，你可以使用float()函数将字符串转换为数字，并使用字符串格式化来保留小数点后两位。下面是一个示例代码：defconvert_to_float(string):try:number=float(string)formatted_number="{:.2f}".format(number)returnformatted_numberexceptValueError:return"
使用 Python 编写网络爬虫：从入门到实战 Manaaaaaaa python 爬虫开发语言
网络爬虫是一种自动化获取网页信息的程序，通常用于数据采集、信息监控等领域。Python是一种广泛应用于网络爬虫开发的编程语言，具有丰富的库和框架来简化爬虫的编写和执行过程。本文将介绍如何使用Python编写网络爬虫，包括基本原理、常用库和实战案例。一、原理介绍网络爬虫是一种自动化程序，通过模拟浏览器的行为向网络服务器发送HTTP请求，获取网页内容并进一步提取所需信息的过程。网络爬虫主要用于数据采集
列表推导式_Python教程曹操贪慕小乔 python基础 python numpy 算法
内容摘要Python中存在一种特殊的表达式，名为推导式，它的作用是将一种数据结构作为输入，再经过过滤计算等处理，最后输出另一种数据结构。根据数据结构的不同会被分为列表推导式、文章正文Python中存在一种特殊的表达式，名为推导式，它的作用是将一种数据结构作为输入，再经过过滤计算等处理，最后输出另一种数据结构。根据数据结构的不同会被分为列表推导式、集合推导式和字典推导式。我们先着重来介绍最常使用的列
【数字IC验证】博客内容全览 MoorePlus 数字IC验证百宝箱经验分享面试数字IC 芯片验证 SV
【导读】：数字IC验证百宝箱涵盖博主在实际工作中常用的技能与工具，包括但不限于SV、UVM、Formal、脚本(perl/python/shell)及EDA工具快速上手使用等。无论你是刚踏入职场的验证小白，还是希望回顾基础寻找跳槽机会的从业者，本专栏都能为你提供实用的技术支持，在达成目标的路上，助你一臂之力。“凡是能用钱买来的时间就是便宜的；凡是能用时间换来的注意力持续就是有价值的。”（附上超链接
[LeetCode]46.全排列（python） xyhaaab leetcode python 算法
1.代码fromtypingimportListclassSolution:defpermute(self,nums:List[int])->List[List[int]]:result:List[List[int]]=[]length=len(nums)deffill(n:int,nums:List[int]):ifn==length:result.append(nums[:])returnfo
rapidocr-onnxruntime库及在open-webui上传PDF 图像处理 (使用 OCR)应用原野AI 大模型部署 pdf ocr 深度学习 open-webui
背景rapidocr-onnxruntime是一个跨平台的OCR库，基于ONNXRuntime推理框架。目前已知运行速度最快、支持最广，完全开源免费并支持离线快速部署的多平台多语言OCR。缘起：百度paddle工程化不是太好，为了方便大家在各种端上进行ocr推理，我们将它转换为onnx格式，使用Python/C++/Java/Swift/C#将它移植到各个平台。名称来源：轻快好省并智能。基于深度学
关于scipy中uniform_filter函数的注意事项明·煜 scipy
关于scipy中uniform_filter函数的注意事项在处理分组聚合问题时，有时需要使用均值作为统计量。那其实就是一个均值滤波问题。我不希望使用for循环和均值卷积核来对二维数组进行滤波，因为这个线性运算且可用通过数字搬移来实现。在使用uniform_filter时在边界处会出现难以解释的值，不过后来发现是我对python语法不够熟悉导致的。例如以下代码：importnumpyasnpx=np
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round