gman344

【AI实战】手把手教你文字识别（识别篇：LSTM+CTC, CRNN, chineseocr方法）

文字识别是AI的一个重要应用场景，文字识别过程一般由图像输入、预处理、文本检测、文本识别、结果输出等环节组成。

其中，文本检测、文本识别是最核心的环节。文本检测方面，在前面的文章中已介绍过了多种基于深度学习的方法，可针对各种场景实现对文字的检测，详见以下文章：

【AI实战】手把手教你文字识别（检测篇：MSER、CTPN、SegLink、EAST等方法）

【AI实战】手把手教你文字识别（检测篇：AdvancedEAST、PixelLink方法）

而本文主要就是介绍在“文本识别”方面的实战方法，只要掌握了这些方法，那么跟前面介绍的文本检测方法结合起来，就可以轻松应对各种文字识别的任务了。话不多说，马上来学习“文本识别”的方法。

文字识别可根据待识别的文字特点采用不同的识别方法，一般分为定长文字、不定长文字两大类别。

定长文字（例如验证码），由于字符数量固定，采用的网络结构相对简单，识别也比较容易；
不定长文字（例如印刷文字、广告牌文字等），由于字符数量是不固定的，因此需要采用比较复杂的网络结构和后处理环节，识别也具有一定的难度。

下面按照定长文字、不定长文字分别介绍识别方法。

一、定长文字识别
定长文字的识别相对简单，应用场景也比较局限，最典型的场景就是验证码的识别了。由于字符数量是已知的、固定的，因此，网络结构比较简单，一般构建3层卷积层，2层全连接层便能满足“定长文字”的识别。
具体方法在之前介绍验证码识别的文章中已详细介绍，在此不再赘述。详见文章：

【AI实战】文字识别（验证码识别）

二、不定长文字识别
不定长文字在现实中大量存在，例如印刷文字、广告牌文字等，由于字符数量不固定、不可预知，因此，识别的难度也较大，这也是目前研究文字识别的主要方向。下面介绍不定长文字识别的常用方法：LSTM+CTC、CRNN、chinsesocr。
1、LSTM+CTC 方法
（1）什么是LSTM
为了实现对不定长文字的识别，就需要有一种能力更强的模型，该模型具有一定的记忆能力，能够按时序依次处理任意长度的信息，这种模型就是“循环神经网络”（Recurrent Neural Networks，简称RNN）。
LSTM（Long Short Term Memory，长短期记忆网络）是一种特殊结构的RNN（循环神经网络），用于解决RNN的长期依赖问题，也即随着输入RNN网络的信息的时间间隔不断增大，普通RNN就会出现“梯度消失”或“梯度爆炸”的现象，这就是RNN的长期依赖问题，而引入LSTM即可以解决这个问题。LSTM单元由输入门（Input Gate）、遗忘门（Forget Gate）和输出门（Output Gate）组成，具体的技术原理的工作过程详见之前的文章（文章：白话循环神经网络（RNN）），LSTM的结构如下图所示。

（2）什么是CTC
CTC（Connectionist Temporal Classifier，联接时间分类器），主要用于解决输入特征与输出标签的对齐问题。例如下图，由于文字的不同间隔或变形等问题，导致同个文字有不同的表现形式，但实际上都是同一个文字。在识别时会将输入图像分块后再去识别，得出每块属于某个字符的概率（无法识别的标记为特殊字符”-”），如下图：

由于字符变形等原因，导致对输入图像分块识别时，相邻块可能会识别为同个结果，字符重复出现。因此，通过CTC来解决对齐问题，模型训练后，对结果中去掉间隔字符、去掉重复字符（如果同个字符连续出现，则表示只有1个字符，如果中间有间隔字符，则表示该字符出现多次），如下图所示

（3）LSTM+CTC实现：常量定义
定义一些常量，在模型训练和预测中使用，定义如下：

# 数据集，可根据需要增加英文或其它字符
DIGITS = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

# 分类数量
num_classes = len(DIGITS) + 1     # 数据集字符数+特殊标识符

# 图片大小，32 x 256
OUTPUT_SHAPE = (32, 256)

# 学习率
INITIAL_LEARNING_RATE = 1e-3
DECAY_STEPS = 5000
REPORT_STEPS = 100
LEARNING_RATE_DECAY_FACTOR = 0.9
MOMENTUM = 0.9

# LSTM网络层次
num_hidden = 128
num_layers = 2

# 训练轮次、批量大小
num_epochs = 50000
BATCHES = 10
BATCH_SIZE = 32
TRAIN_SIZE = BATCHES * BATCH_SIZE

# 数据集目录、模型目录
data_dir = '/tmp/lstm_ctc_data/'
model_dir = '/tmp/lstm_ctc_model/'

（4）LSTM+CTC实现：随机生成不定长图片数据
为了训练和测试LSTM+CTC识别模型，先要准备好基础数据，可根据需要准备好已标注的文本图片集。在这里，为了方便训练和测试模型，随机生成10000张不定长的图片数据集。通过使用Pillow生成图片和绘上文字，并对图片随机叠加椒盐噪声，以更加贴近现实场景。核心代码如下：

# 生成椒盐噪声
def img_salt_pepper_noise(src,percetage):
    NoiseImg=src
    NoiseNum=int(percetage*src.shape[0]*src.shape[1])
    for i in range(NoiseNum):
        randX=random.randint(0,src.shape[0]-1)
        randY=random.randint(0,src.shape[1]-1)
        if random.randint(0,1)==0:
            NoiseImg[randX,randY]=0
        else:
            NoiseImg[randX,randY]=255
    return NoiseImg

# 随机生成不定长图片集
def gen_text(cnt):
    # 设置文字字体和大小
    font_path = '/data/work/tensorflow/fonts/arial.ttf'
    font_size = 30
    font=ImageFont.truetype(font_path,font_size)

for i in range(cnt):
        # 随机生成1到10位的不定长数字
        rnd = random.randint(1, 10)
        text = ''
        for j in range(rnd):
            text = text + DIGITS[random.randint(0, len(DIGITS) - 1)]

# 生成图片并绘上文字
        img=Image.new("RGB",(256,32))
        draw=ImageDraw.Draw(img)
        draw.text((1,1),text,font=font,fill='white')
        img=np.array(img)

# 随机叠加椒盐噪声并保存图像
        img = img_salt_pepper_noise(img, float(random.randint(1,10)/100.0))
        cv2.imwrite(data_dir + text + '_' + str(i+1) + '.jpg',img)

随机生成的不定长数据效果如下：

执行 gen_text(10000) 后生成的图片集如下，文件名由序号和文字标签组成：

（5）LSTM+CTC实现：标签向量化（稀疏矩阵）
由于文字是不定长的，因此，如果读取图片并获取标签，然后将标签存放在一个紧密矩阵中进行向量化，那将会出现大量的零元素，很浪费空间。因此，使用稀疏矩阵对标签进行向量化。所谓“稀疏矩阵”就是矩阵中的零元素远远多于非零元素，采用这种方式存储可有效节约空间。
稀疏矩阵有3个属性，分别是：

indices：二维矩阵，代表非零的坐标点
values：二维tensor，代表indice位置的数据值
dense_shape：一维，代表稀疏矩阵的大小（取行数和列的最大长度）

例如读取了以下图片和相应的标签，那么存储为稀疏矩阵的结果如下：

将标签转为稀疏矩阵，对标签进行向量化，核心代码如下：

# 序列转为稀疏矩阵
# 输入：序列
# 输出：indices非零坐标点，values数据值，shape稀疏矩阵大小
def sparse_tuple_from(sequences, dtype=np.int32):
    indices = []
    values = []

for n, seq in enumerate(sequences):
        indices.extend(zip([n] * len(seq), range(len(seq))))
        values.extend(seq)

indices = np.asarray(indices, dtype=np.int64)
    values = np.asarray(values, dtype=dtype)
    shape = np.asarray([len(sequences), np.asarray(indices).max(0)[1] + 1], dtype=np.int64)

return indices, values, shape

将稀疏矩阵转为标签，用于输出结果，核心代码如下：

# 稀疏矩阵转为序列
# 输入：稀疏矩阵
# 输出：序列
def decode_sparse_tensor(sparse_tensor):
    decoded_indexes = list()
    current_i = 0
    current_seq = []

for offset, i_and_index in enumerate(sparse_tensor[0]):
        i = i_and_index[0]
        if i != current_i:
            decoded_indexes.append(current_seq)
            current_i = i
            current_seq = list()
        current_seq.append(offset)
    decoded_indexes.append(current_seq)

result = []
    for index in decoded_indexes:
        result.append(decode_a_seq(index, sparse_tensor))
    return result

# 序列编码转换
def decode_a_seq(indexes, spars_tensor):
    decoded = []
    for m in indexes:
        str = DIGITS[spars_tensor[1][m]]
        decoded.append(str)
    return decoded

（6）LSTM+CTC实现：读取数据
读取图像数据以及进行标签向量化，以便于输入到模型进行训练，核心代码如下：

# 将文件和标签读到内存，减少磁盘IO
def get_file_text_array():
    file_name_array=[]
    text_array=[]

for parent, dirnames, filenames in os.walk(data_dir):
        file_name_array=filenames

for f in file_name_array:
        text = f.split('_')[0]
        text_array.append(text)

return file_name_array,text_array

# 获取训练的批量数据
def get_next_batch(file_name_array,text_array,batch_size=64):
    inputs = np.zeros([batch_size, OUTPUT_SHAPE[1], OUTPUT_SHAPE[0]])
    codes = []

# 获取训练样本
    for i in range(batch_size):
        index = random.randint(0, len(file_name_array) - 1)
        image = cv2.imread(data_dir + file_name_array[index])
        image = cv2.resize(image, (OUTPUT_SHAPE[1], OUTPUT_SHAPE[0]), 3)
        image = cv2.cvtColor(image,cv2.COLOR_RGB2GRAY)
        text = text_array[index]

# 矩阵转置
        inputs[i, :] = np.transpose(image.reshape((OUTPUT_SHAPE[0], OUTPUT_SHAPE[1])))
        # 标签转成列表
        codes.append(list(text))

# 标签转成稀疏矩阵
    targets = [np.asarray(i) for i in codes]
    sparse_targets = sparse_tuple_from(targets)
    seq_len = np.ones(inputs.shape[0]) * OUTPUT_SHAPE[1]

return inputs, sparse_targets, seq_len

（7）LSTM+CTC实现：构建网络
利用tensorflow内置的LSTM单元构建网络，核心代码如下：

def get_train_model():
    # 输入
    inputs = tf.placeholder(tf.float32, [None, None, OUTPUT_SHAPE[0]]) 

# 稀疏矩阵
    targets = tf.sparse_placeholder(tf.int32)

# 序列长度 [batch_size,]
    seq_len = tf.placeholder(tf.int32, [None])

# 定义LSTM网络
    cell = tf.contrib.rnn.LSTMCell(num_hidden, state_is_tuple=True)
    stack = tf.contrib.rnn.MultiRNNCell([cell] * num_layers, state_is_tuple=True)      # old
    outputs, _ = tf.nn.dynamic_rnn(cell, inputs, seq_len, dtype=tf.float32)
    shape = tf.shape(inputs)
    batch_s, max_timesteps = shape[0], shape[1]

outputs = tf.reshape(outputs, [-1, num_hidden])
    W = tf.Variable(tf.truncated_normal([num_hidden,
                                         num_classes],
                                        stddev=0.1), name="W")
    b = tf.Variable(tf.constant(0., shape=[num_classes]), name="b")
    logits = tf.matmul(outputs, W) + b
    logits = tf.reshape(logits, [batch_s, -1, num_classes])

# 转置矩阵
    logits = tf.transpose(logits, (1, 0, 2))

return logits, inputs, targets, seq_len, W, b

（8）LSTM+CTC实现：模型训练
在训练之前，先定义好准确率评估方法，以便于在训练过程中不断评估模型的准确性，核心代码如下：

# 准确性评估
# 输入：预测结果序列 decoded_list ,目标序列 test_targets
# 返回：准确率
def report_accuracy(decoded_list, test_targets):
    original_list = decode_sparse_tensor(test_targets)
    detected_list = decode_sparse_tensor(decoded_list)

# 正确数量
    true_numer = 0

# 预测序列与目标序列的维度不一致，说明有些预测失败，直接返回
    if len(original_list) != len(detected_list):
        print("len(original_list)", len(original_list), "len(detected_list)", len(detected_list),
              " test and detect length desn't match")
        return

# 比较预测序列与结果序列是否一致，并统计准确率        
    print("T/F: original(length) <-------> detectcted(length)")
    for idx, number in enumerate(original_list):
        detect_number = detected_list[idx]
        hit = (number == detect_number)
        print(hit, number, "(", len(number), ") <-------> ", detect_number, "(", len(detect_number), ")")
        if hit:
            true_numer = true_numer + 1
    accuracy = true_numer * 1.0 / len(original_list)
    print("Test Accuracy:", accuracy)

return accuracy

接着开始对模型进行训练，核心代码如下：

def train():
    # 获取训练样本数据
    file_name_array, text_array = get_file_text_array()

# 定义学习率
    global_step = tf.Variable(0, trainable=False)
    learning_rate = tf.train.exponential_decay(INITIAL_LEARNING_RATE,
                                               global_step,
                                               DECAY_STEPS,
                                               LEARNING_RATE_DECAY_FACTOR,
                                               staircase=True)
    # 获取网络结构
    logits, inputs, targets, seq_len, W, b = get_train_model()

# 设置损失函数
    loss = tf.nn.ctc_loss(labels=targets, inputs=logits, sequence_length=seq_len)
    cost = tf.reduce_mean(loss)

# 设置优化器
    optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate).minimize(loss, global_step=global_step)
    decoded, log_prob = tf.nn.ctc_beam_search_decoder(logits, seq_len, merge_repeated=False)
    acc = tf.reduce_mean(tf.edit_distance(tf.cast(decoded[0], tf.int32), targets))

init = tf.global_variables_initializer()
    config = tf.ConfigProto()
    config.gpu_options.allow_growth = True

with tf.Session() as session:
        session.run(init)
        saver = tf.train.Saver(tf.global_variables(), max_to_keep=10)

for curr_epoch in range(num_epochs):
            train_cost = 0
            train_ler = 0
            for batch in range(BATCHES):
                # 训练模型
                train_inputs, train_targets, train_seq_len = get_next_batch(file_name_array, text_array, BATCH_SIZE)
                feed = {inputs: train_inputs, targets: train_targets, seq_len: train_seq_len}
                b_loss, b_targets, b_logits, b_seq_len, b_cost, steps, _ = session.run(
                    [loss, targets, logits, seq_len, cost, global_step, optimizer], feed)

# 评估模型
                if steps > 0 and steps % REPORT_STEPS == 0:
                    test_inputs, test_targets, test_seq_len = get_next_batch(file_name_array, text_array, BATCH_SIZE)
                    test_feed = {inputs: test_inputs,targets: test_targets,seq_len: test_seq_len}
                    dd, log_probs, accuracy = session.run([decoded[0], log_prob, acc], test_feed)
                    report_accuracy(dd, test_targets)

# 保存识别模型
                    save_path = saver.save(session, model_dir + "lstm_ctc_model.ctpk",global_step=steps)

c = b_cost
                train_cost += c * BATCH_SIZE

train_cost /= TRAIN_SIZE
            # 计算 loss
            train_inputs, train_targets, train_seq_len = get_next_batch(file_name_array, text_array, BATCH_SIZE)
            val_feed = {inputs: train_inputs,targets: train_targets,seq_len: train_seq_len}
            val_cost, val_ler, lr, steps = session.run([cost, acc, learning_rate, global_step], feed_dict=val_feed)

log = "{} Epoch {}/{}, steps = {}, train_cost = {:.3f}, val_cost = {:.3f}"
            print(log.format(curr_epoch + 1, num_epochs, steps, train_cost, val_cost))

经过一段时间的训练，执行了600多步后，评估的准确性已全部预测正确，如下图：

（8）LSTM+CTC实现：能力封装
为了方便其它程序调用LSTM+CTC的识别能力，对识别能力进行封装，只需要输入一张图片，即可识别后返回结果。核心代码如下：

# LSTM+CTC 文字识别能力封装
# 输入：图片
# 输出：识别结果文字
def predict(image):

# 获取网络结构
    logits, inputs, targets, seq_len, W, b = get_train_model()
    decoded, log_prob = tf.nn.ctc_beam_search_decoder(logits, seq_len, merge_repeated=False)

saver = tf.train.Saver()
    with tf.Session() as sess:
        # 加载模型
        saver.restore(sess, tf.train.latest_checkpoint(model_dir))
        # 图像预处理
        image = cv2.resize(image, (OUTPUT_SHAPE[1], OUTPUT_SHAPE[0]), 3)
        image = cv2.cvtColor(image, cv2.COLOR_RGB2GRAY)
        pred_inputs = np.zeros([1, OUTPUT_SHAPE[1], OUTPUT_SHAPE[0]])
        pred_inputs[0, :] = np.transpose(image.reshape((OUTPUT_SHAPE[0], OUTPUT_SHAPE[1])))
        pred_seq_len = np.ones(1) * OUTPUT_SHAPE[1]
        # 模型预测
        pred_feed = {inputs: pred_inputs,seq_len: pred_seq_len}
        dd, log_probs = sess.run([decoded[0], log_prob], pred_feed)
        # 识别结果转换
        detected_list = decode_sparse_tensor(dd)[0]
        detected_text = ''
        for d in detected_list:
            detected_text = detected_text + d

return detected_text

2、CRNN 方法
CRNN（Convolutional Recurrent Neural Network，卷积循环神经网络）是目前比较流行的文字识别模型，不需要对样本数据进行字符分割，可识别任意长度的文本序列，模型速度快、性能好。网络结构如下图所示，主要由卷积层、循环层、转录层3部分组成，具体技术原理请详见之前的文章（文章：大话文本识别经典模型 CRNN）

那么该如何使用CRNN训练和识别呢？
github上实现CRNN的代码有很多，这里面选择一个相对简单的CRNN源代码进行研究。
（1）下载源代码

首先，在github上下载CRNN源代码（https://github.com/Belval/CRNN），可直接下载成zip压缩包或者git克隆

git clone https://github.com/Belval/CRNN.git

（2）准备基础数据
使用第1节LSTM+CTC介绍的方法随机生成10000张不定长图片+椒盐噪声作为基础数据集，具体详见第1节的生成基础数据代码，在此不再重复。注意，由于该CRNN源代码在读取图片时默认文件名第1位为标签（以下划线 ”_” 隔开），于是注意按照文件命名规则生成图片。

（3）训练模型
参考CRNN/run.py里面的代码，编写模型训练的调用代码如下：

# 模型训练
def train():

# 设置基本属性
    batch_size=32    # 批量大小
    max_image_width=400   # 最大图片宽度
    train_test_ratio=0.75    # 训练集、测试集划分比例
    restore=True    # 是否恢复加载模型，可用于多次加载训练
    iteration_count=1000    # 迭代次数
    # 初始化调用CRNN
    crnn = CRNN(
        batch_size,
        model_dir,
        data_dir,
        max_image_width,
        train_test_ratio,
        restore
    )
    # 模型训练
    crnn.train(iteration_count)

经过了5个小时左右，迭代训练了263次，使得loss（损失值）已降低至接近1，模型也已基本上可用。

CRNN的训练过程很长，本案例随机生成的文字还是比较简单的，但每步的迭代就已耗时很长。如果是实际应用中，需要使用背景更加复杂、文字形态更加多样的数据集，对训练loss的要求也更高，这时会使得整个训练过程更长。因此，一般会采用“迁移学习”的方式来提升训练效率和模型效果（详见文章：了解什么是“迁移学习”），“迁移学习”的实现方式后面会再单独进行介绍。

（4）模型测试
参考CRNN/run.py里面的代码，编写模型测试的代码，可输出测试结果，代码如下：

# 模型测试
def test():

# 设置基本属性
    batch_size=32
    max_image_width=400
    restore=True
    # 初始化CRNN
    crnn = CRNN(
        batch_size,
        model_dir,
        data_dir,
        max_image_width,
        0,
        restore
    )
    # 测试模型
    crnn.test()

测试的结果如下，程序会批量读入数据后，输入原始结果（第一行）和预测结果（第二行），便于比较两者是否一致。

作者提供的这种测试方式太考验人眼了，我们可将CRNN里面的test函数进行个小修改，自动计算准确率，将会方便很多。修改的代码如下：

def test(self):
with self.__session.as_default():
    print('Testing')
    for batch_y, _, batch_x in self.__data_manager.test_batches:
        decoded = self.__session.run(
            self.__decoded,
            feed_dict={
                self.__inputs: batch_x,
                self.__seq_len: [self.__max_char_count] * self.__data_manager.batch_size
            }
        )

        # 修改，统计准确率
        true_cnt = 0
        for i, y in enumerate(batch_y):
            if batch_y[i] == ground_truth_to_word(decoded[i]):
                true_cnt = true_cnt + 1
            else:                  
                # 预测结果不一致的，才显示出来
                print('target:',batch_y[i])
                print('predict:',ground_truth_to_word(decoded[i]))
        print('acc:',float(true_cnt)/float(len(batch_y)))
return None

（5）能力封装
为了方便将CRNN识别能力提供给其它程序调用，在CRNN/crnn.py代码的基础上进行修改，对CRNN识别能力进行封装，即只需输入指定的图片，即可返回识别结果。
首先是重写crnn.py里面加载CRNN网络结构的方式，由于原先的代码在初始化时只支持批量的图片进行训练和测试，为了实现对指定的某张图片进行识别，对网络模型的初始化和调用方式进行修改，核心代码如下：

# CRNN 网络结构
def crnn_network(max_width, batch_size):
    # 双向RNN
    def BidirectionnalRNN(inputs, seq_len):
        # rnn-1
        with tf.variable_scope(None, default_name="bidirectional-rnn-1"):
            # Forward
            lstm_fw_cell_1 = rnn.BasicLSTMCell(256)
            # Backward
            lstm_bw_cell_1 = rnn.BasicLSTMCell(256)
            inter_output, _ = tf.nn.bidirectional_dynamic_rnn(lstm_fw_cell_1, lstm_bw_cell_1, inputs, seq_len, dtype=tf.float32)
            inter_output = tf.concat(inter_output, 2)
        # rnn-2
        with tf.variable_scope(None, default_name="bidirectional-rnn-2"):
            # Forward
            lstm_fw_cell_2 = rnn.BasicLSTMCell(256)
            # Backward
            lstm_bw_cell_2 = rnn.BasicLSTMCell(256)
            outputs, _ = tf.nn.bidirectional_dynamic_rnn(lstm_fw_cell_2, lstm_bw_cell_2, inter_output, seq_len, dtype=tf.float32)
            outputs = tf.concat(outputs, 2)
        return outputs
    # CNN，用于提取特征
    def CNN(inputs):
        # 64 / 3 x 3 / 1 / 1
        conv1 = tf.layers.conv2d(inputs=inputs, filters = 64, kernel_size = (3, 3), padding = "same", activation=tf.nn.relu)
        # 2 x 2 / 1
        pool1 = tf.layers.max_pooling2d(inputs=conv1, pool_size=[2, 2], strides=2)
        # 128 / 3 x 3 / 1 / 1
        conv2 = tf.layers.conv2d(inputs=pool1, filters = 128, kernel_size = (3, 3), padding = "same", activation=tf.nn.relu)
        # 2 x 2 / 1
        pool2 = tf.layers.max_pooling2d(inputs=conv2, pool_size=[2, 2], strides=2)
        # 256 / 3 x 3 / 1 / 1
        conv3 = tf.layers.conv2d(inputs=pool2, filters = 256, kernel_size = (3, 3), padding = "same", activation=tf.nn.relu)
        # Batch normalization layer
        bnorm1 = tf.layers.batch_normalization(conv3)
        # 256 / 3 x 3 / 1 / 1
        conv4 = tf.layers.conv2d(inputs=bnorm1, filters = 256, kernel_size = (3, 3), padding = "same", activation=tf.nn.relu)
        # 1 x 2 / 1
        pool3 = tf.layers.max_pooling2d(inputs=conv4, pool_size=[2, 2], strides=[1, 2], padding="same")
        # 512 / 3 x 3 / 1 / 1
        conv5 = tf.layers.conv2d(inputs=pool3, filters = 512, kernel_size = (3, 3), padding = "same", activation=tf.nn.relu)
        # Batch normalization layer
        bnorm2 = tf.layers.batch_normalization(conv5)
        # 512 / 3 x 3 / 1 / 1
        conv6 = tf.layers.conv2d(inputs=bnorm2, filters = 512, kernel_size = (3, 3), padding = "same", activation=tf.nn.relu)
        # 1 x 2 / 2
        pool4 = tf.layers.max_pooling2d(inputs=conv6, pool_size=[2, 2], strides=[1, 2], padding="same")
        # 512 / 2 x 2 / 1 / 0
        conv7 = tf.layers.conv2d(inputs=pool4, filters = 512, kernel_size = (2, 2), padding = "valid", activation=tf.nn.relu)
        return conv7

# 定义输入、输出、序列长度
    inputs = tf.placeholder(tf.float32, [batch_size, max_width, 32, 1])
    targets = tf.sparse_placeholder(tf.int32, name='targets')
    seq_len = tf.placeholder(tf.int32, [None], name='seq_len')

# 卷积层提取特征
    cnn_output = CNN(inputs)
    reshaped_cnn_output = tf.reshape(cnn_output, [batch_size, -1, 512])
    max_char_count = reshaped_cnn_output.get_shape().as_list()[1]

# 循环层处理序列
    crnn_model = BidirectionnalRNN(reshaped_cnn_output, seq_len)
    logits = tf.reshape(crnn_model, [-1, 512])

# 转录层预测结果
    W = tf.Variable(tf.truncated_normal([512, config.NUM_CLASSES], stddev=0.1), name="W")
    b = tf.Variable(tf.constant(0., shape=[config.NUM_CLASSES]), name="b")
    logits = tf.matmul(logits, W) + b
    logits = tf.reshape(logits, [batch_size, -1, config.NUM_CLASSES])
    logits = tf.transpose(logits, (1, 0, 2))

# 定义损失函数、优化器
    loss = tf.nn.ctc_loss(targets, logits, seq_len)
    cost = tf.reduce_mean(loss)
    optimizer = tf.train.AdamOptimizer(learning_rate=0.0001).minimize(cost)
    decoded, log_prob = tf.nn.ctc_beam_search_decoder(logits, seq_len, merge_repeated=False)
    dense_decoded = tf.sparse_tensor_to_dense(decoded[0], default_value=-1)
    acc = tf.reduce_mean(tf.edit_distance(tf.cast(decoded[0], tf.int32), targets))

# 初始化
    init = tf.global_variables_initializer()

return inputs, targets, seq_len, logits, dense_decoded, optimizer, acc, cost, max_char_count, init

# CRNN 识别文字
# 输入：图片路径
# 输出：识别文字结果
def predict(img_path):
    # 定义模型路径、最长图片宽度
    batch_size = 1
    model_path = '/tmp/crnn_model/'
    max_image_width = 400

# 创建会话
    __session = tf.Session()
    with __session.as_default():
        (
            __inputs,
            __targets,
            __seq_len,
            __logits,
            __decoded,
            __optimizer,
            __acc,
            __cost,
            __max_char_count,
            __init
        ) = crnn_network(max_image_width, batch_size)
        __init.run()

# 加载模型
    with __session.as_default():
        __saver = tf.train.Saver()
        ckpt = tf.train.latest_checkpoint(model_path)
        if ckpt:
            __saver.restore(__session, ckpt)

# 读取图片作为输入
    arr, initial_len = utils.resize_image(img_path,max_image_width)
    batch_x = np.reshape(
        np.array(arr),
        (-1, max_image_width, 32, 1)
    )

# 利用模型识别文字
    with __session.as_default():
        decoded = __session.run(
            __decoded,
            feed_dict={
                __inputs: batch_x,
                __seq_len: [__max_char_count] * batch_size
            }
        )
        pred_result = utils.ground_truth_to_word(decoded[0])

return pred_result

将CRNN能力封装后，便能很方便地进行调用识别，如下：

img_path = '/tmp/crnn_data/728591_532.jpg'
pred_result = predict(img_path)
print('predict result:',pred_result)

调用结果如下图

3、chineseocr项目
最后再介绍github上一个很不错的文字识别项目chineseocr，这个项目是基于yolo3（用于文字检测）、crnn（用于文字识别）的自然场景文字识别项目。该项目支持darknet / opencv dnn / keras 的文字检测，支持0、90、180、270度的方向检测，支持不定长的英文、中英文识别，同时支持通用OCR、身份证识别、火车票识别等多种场景。
该模型功能完善，使用简单，入手容易，非常适合于新手或者比较通用的场景使用。下面介绍如何使用chineseocr项目。

（1）下载源代码

首先，在github上下载chineseocr源代码（https://github.com/chineseocr/chineseocr），可直接下载成zip压缩包或者git克隆

git clone https://github.com/chineseocr/chineseocr.git

（2）下载darknet

chineseocr项目默认使用keras yolo3进行文字检测，该项目同时支持opencv dnn、darknet进行文字检测。
① 下载源代码
如果要使用darknet来进行文字检测，那么就需要再下载darknet源代码（如直接使用项目默认的keras yolo3检测方法，则跳过该步骤），在github上下载chineseocr源代码（https://github.com/pjreddie/darknet），可直接下载成zip压缩包或者git克隆

git clone https://github.com/pjreddie/darknet.git

② 放置目录
下载后，将darknet的源代码放到chineseocr项目中的darknet目录中。

mv darknet chineseocr/

③ 编译
然后修改Makefile，增加对GPU、cudnn的支持

#GPU=1
#CUDNN=1
#OPENCV=0
#OPENMP=0

执行 make 进行编译

④ 指定libdarknet.so路径
修改 darknet/python/darknet.py 的第48行，指定libdarknet.so所在的目录

lib = CDLL(root+"chineseocr/darknet/libdarknet.so", RTLD_GLOBAL)

其中root表示chineseocr所在的路径

（3）准备基础环境
在源代码文件中的setup.md中列举了该项目依赖的基础环境，如果是在cpu上运行则查看setup-cpu.md文件。
① 创建虚拟环境

# 创建虚拟环境
conda create -n chineseocr python=3.6 pip scipy numpy jupyter ipython
# 激活虚拟环境
source activate chineseocr

② 安装依赖包

git submodule init && git submodule update
pip install easydict opencv-contrib-python==4.0.0.21 Cython h5py lmdb mahotas pandas requests bs4 matplotlib lxml
pip install -U pillow
pip install keras==2.1.5 tensorflow==1.8 tensorflow-gpu==1.8
pip install web.py==0.40.dev0
conda install pytorch torchvision -c pytorch
pip install torch torchvision

（4）下载模型文件
在百度网盘上面下载预训练好的模型文件，并将所有文件复制到models目录中，下载地址为 https://pan.baidu.com/s/1gTW9gwJR6hlwTuyB6nCkzQ

（5）启动web服务
通过执行app.py启动web服务，启动后便能直接上传图片进行文字识别，执行命令为

ipython app.py 8080

其中，8080为端口号，可根据实际需要进行修改。

启动后的界面如下，界面中提供了是否进行文字方向检测、是否作单行文字识别，以及通用OCR（默认）、火车票、身份证的识别类型。

在chineseocr项目中的test目录里面自带了一些测试图片，通过上传一些图片测试识别效果，如下图：

从识别效果上看还不错，接下来试一下火车票、身份证类型的识别

从上图可看出，对火车票的识别结果进行了处理，将出发地点、到达地点、车次、时间、价格、姓名等信息提取了出来。

身份证的识别也是将姓名、性别、民族、出生年月、身份证号、住址这些信息提取了出来。
我们再比较一下，有使用文字方向检测和没有使用文字方向检测时的识别效果区别，如下图：

从识别的结果可以看出，对于一张颠倒的图片（或者具有一定的旋转角度），如果没有加上文字方向检测，则识别出来的结果文字会出现很大的偏差，而加上方向检测后则会正确地识别出来。

（6）识别能力封装
chineseocr项目支持多种方式的文字检测与识别，提供了多种模型可供选择，导致整个项目比较庞大。如果要将该项目的检测与识别能力抽离出来，提供给其它项目使用，则需根据实际业务场景进行简化，将识别能力进行封装。
例如我们选择keras yolo3进行文字检测，选择pytorch进行文字识别，去掉文字方向检测（假定输入的图片绝大多数是方向正确的），那么即可对chineseocr的源代码进行大幅精简。在model.py代码的基础上进行修改，去繁存简，对识别能力进行封装，方便提供给其它应用程序使用。修改后的核心代码如下：

# 文字检测
def text_detect(img,MAX_HORIZONTAL_GAP=30,MIN_V_OVERLAPS=0.6,MIN_SIZE_SIM=0.6,TEXT_PROPOSALS_MIN_SCORE=0.7,TEXT_PROPOSALS_NMS_THRESH=0.3,TEXT_LINE_NMS_THRESH=0.3,):
    boxes, scores = detect.text_detect(np.array(img))
    boxes = np.array(boxes, dtype=np.float32)
    scores = np.array(scores, dtype=np.float32)
    textdetector = TextDetector(MAX_HORIZONTAL_GAP, MIN_V_OVERLAPS, MIN_SIZE_SIM)
    shape = img.shape[:2]
    boxes = textdetector.detect(boxes,scores[:, np.newaxis],shape,TEXT_PROPOSALS_MIN_SCORE,TEXT_PROPOSALS_NMS_THRESH,TEXT_LINE_NMS_THRESH,)
    text_recs = get_boxes(boxes)
    newBox = []
    rx = 1
    ry = 1
    for box in text_recs:
        x1, y1 = (box[0], box[1])
        x2, y2 = (box[2], box[3])
        x3, y3 = (box[6], box[7])
        x4, y4 = (box[4], box[5])
        newBox.append([x1 * rx, y1 * ry, x2 * rx, y2 * ry, x3 * rx, y3 * ry, x4 * rx, y4 * ry])
    return newBox

# 文字识别
def crnnRec(im, boxes, leftAdjust=False, rightAdjust=False, alph=0.2, f=1.0):
    results = []
    im = Image.fromarray(im)
    for index, box in enumerate(boxes):
        degree, w, h, cx, cy = solve(box)
        partImg, newW, newH = rotate_cut_img(im, degree, box, w, h, leftAdjust, rightAdjust, alph)
        text = crnnOcr(partImg.convert('L'))
        if text.strip() != u'':
            results.append({'cx': cx * f, 'cy': cy * f, 'text': text, 'w': newW * f, 'h': newH * f,
                            'degree': degree * 180.0 / np.pi})
    return results

# 文字检测、文字识别的能力封装
def ocr_model(img, leftAdjust=True, rightAdjust=True, alph=0.02):
    img, f = letterbox_image(Image.fromarray(img), IMGSIZE)
    img = np.array(img)
    config = dict(MAX_HORIZONTAL_GAP=50,  ##字符之间的最大间隔，用于文本行的合并
                  MIN_V_OVERLAPS=0.6,
                  MIN_SIZE_SIM=0.6,
                  TEXT_PROPOSALS_MIN_SCORE=0.1,
                  TEXT_PROPOSALS_NMS_THRESH=0.3,
                  TEXT_LINE_NMS_THRESH=0.7,  ##文本行之间测iou值
                  )
    config['img'] = img
    text_recs = text_detect(**config)  ##文字检测
    newBox = sort_box(text_recs)  ##行文本识别
    result = crnnRec(np.array(img), newBox, leftAdjust, rightAdjust, alph, 1.0 / f)
    return result

经过以上重新改造封装后，只需要调用ocr_model函数，输入图片，即可调用chineseocr项目的检测与识别能力。调用结果如下图：

以上介绍的就是LSTM+CTC、CRNN、chineseocr三种文字识别方法的实战操作，在实际生产中一般会根据业务场景，对识别方法进行改造或增加预处理、后处理环节。如果有兴趣了解的，可私信我再进行交流。

欢迎关注本人的微信公众号“大数据与人工智能Lab”（BigdataAILab），获取完整源代码

推荐相关阅读

1、AI 实战系列

【AI实战】手把手教你文字识别（文字识别篇：LSTM+CTC, CRNN, chineseocr方法）
【AI实战】手把手教你文字识别（文字检测篇一：MSER、CTPN、SegLink、EAST 等）
【AI实战】手把手教你文字识别（文字检测篇二：AdvancedEAST、PixelLink 方法）
【AI实战】手把手教你文字识别（入门篇：验证码识别）
【AI实战】快速掌握TensorFlow（一）：基本操作
【AI实战】快速掌握TensorFlow（二）：计算图、会话
【AI实战】快速掌握TensorFlow（三）：激励函数
【AI实战】快速掌握TensorFlow（四）：损失函数
【AI实战】搭建基础环境
【AI实战】训练第一个模型
【AI实战】编写人脸识别程序
【AI实战】动手训练目标检测模型（SSD篇）
【AI实战】动手训练目标检测模型（YOLO篇）

2、大话深度学习系列

【精华整理】CNN进化史
大话文本识别经典模型（CRNN）
大话文本检测经典模型（CTPN）
大话文本检测经典模型（SegLink）
大话文本检测经典模型（EAST）
大话文本检测经典模型（PixelLink）
大话文本检测经典模型（Pixel-Anchor）
大

你可能感兴趣的:(技术,CTC)

百度权重提升技巧分析：从底层逻辑到实战策略
在搜索引擎优化（SEO）领域，百度权重始终是网站运营者关注的核心指标之一。它不仅反映了网站在百度搜索中的综合表现，更直接影响着流量获取能力与商业价值。然而，百度权重并非百度官方直接公布的数据，而是第三方平台（如爱站、站长工具等）依据网站关键词排名、流量预估等数据综合计算的参考值。想要有效提升这一指标，需从搜索引擎工作原理出发，结合内容、技术、外链等多维度制定系统策略。一、明确百度权重的核心影响因素
密码管理安全防御
密码管理是信息安全的核心环节，其目标是通过规范密码的生成、存储、传输、验证和生命周期管理，防止未授权访问，保护用户账号和系统资源的安全。以下从核心原则、技术实践、常见问题及解决方案等方面详细说明：一、密码管理的核心原则密码管理需遵循“安全性”与“可用性”的平衡，核心原则包括：复杂性原则密码需足够复杂以抵御暴力破解（如字典攻击、brute-force攻击）。通常要求：长度至少10-12位（越长越安全
前端开发中的字体子集化实现 aiguangyuan 前端架构前端开发系统架构
字体子集化（FontSubsetting）是指从一个完整的字体文件中提取出页面实际使用的字符，并生成一个包含这些字符的精简字体文件。这种技术可以大幅减少字体文件的大小，从而提高网页加载速度，特别是在多语言网站中，子集化可以显著优化资源加载效率。在现代Web开发中，字体优化是提升性能的关键步骤之一。在很多设计或者文档网站，字体都是可以灵活设置的，那就导致有一个问题：字体文件加载会非常消耗性能。所以我
AI原生应用领域多租户的技术架构剖析 AI天才研究院 AI-native 架构人工智能 ai
AI原生应用领域多租户技术架构深度剖析元数据框架标题：AI原生应用多租户技术架构：从隔离性到智能化的分层设计与实践关键词：AI原生应用、多租户架构、数据隔离、模型共享、云原生租户管理摘要：本文系统解析AI原生应用场景下多租户技术架构的核心设计逻辑，覆盖从数据层到模型层的全栈隔离与共享机制。通过第一性原理推导，结合云原生、机器学习生命周期管理（MLOps）等技术范式，提出包含租户上下文管理、动态资源
大数据集成方案对比：Kafka vs Flume vs Sqoop AI天才研究院计算 AI大模型应用入门实战与进阶 Agentic AI 实战大数据 kafka flume ai
大数据集成方案对比：KafkavsFlumevsSqoop关键词：大数据集成、Kafka、Flume、Sqoop、流处理、批量迁移、日志收集摘要：在大数据生态中，数据集成是连接数据源与数据处理平台的关键环节。本文深度对比Kafka、Flume、Sqoop三大主流集成工具，从核心架构、技术原理、适用场景到实战案例展开系统性分析。通过数学模型量化性能差异，结合实际项目经验总结选型策略，帮助开发者根据业
工业喷涂机器人的革新：艾利特协作机器人引领人机交互新纪元 lingling009 人工智能运维大数据
将复杂技术转化为实际价值，赋能全球产业生态在工业自动化浪潮中，喷涂作业作为关键制造环节，长期面临效率低下、质量波动和安全隐患等痛点。艾利特机器人，作为专注新一代人机交互协作场景的制造商和迅速成长的国际协作机器人龙头企业之一，致力于通过一站式解决方案，深度升级汽车、3C、新能源等行业生态。本文将基于“工业喷涂机器人”这一核心场景，剖析其痛点、转化技术参数为可感知价值，并植入真实案例，构建“基础功能→
eVTOL分布式电推进(DEP)适航审定探究北京航通天下科技有限公司低空经济 eVTOL测试配套分布式
从适航认证的角度来看，eVTOL动力系统采用分布式电推进(DEP)技术进行测试具有以下显著优势：一、提升系统冗余性与故障容限分布式电推进系统通过多个独立电机协同工作，即使部分电机失效，剩余电机仍能维持推力，保障飞行安全。这种冗余设计是适航认证中对关键系统可靠性要求的核心指标之一。例如，测试平台可模拟单个或多个电机故障场景，验证系统能否通过动态推力分配维持稳定飞行，从而满足适航对“故障安全”原则的要
Event Loop 在浏览器和 Node.js 中的区别阿珊和她的猫 node.js 前端
前端开发工程师、技术日更博主、已过CET6阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1牛客高级专题作者、打造专栏《前端面试必备》、《2024面试高频手撕题》、《前端求职突破计划》蓝桥云课签约作者、上架课程《Vue.js和Egg.js开发企业级健康管理项目》、《带你从入门到实战全面掌握uni-app》文章目录一、事件循环的阶段浏览器Node.js二、微任务队列的处理浏览器Node
对象存储和文件存储之间的区别？
数据信息存储功能对于企业来说是十分重要的，企业会将业务中的数据存放在一个安全的位置，避免其受到网络攻击或损坏，给企业造成一定的经济损失，而在存储方面有文件存储、对象存储和块存储等多种方式，本文就来为大家介绍一下对象存储和文件存储之间的区别！对象存储是被称为基于对象的存储技术，主要是针对离散单元的处理和解决方式，其中对象可以是指任何形式的数据信息，比如文件信息和视频图片等，能够通过唯一ID访问数据对
灰度发布实战：在生产环境中安全迭代功能荣华富贵8 程序员的知识储备2 程序员的知识储备3 consul 服务发现算法网络 wpf
摘要随着互联网服务规模的不断扩大，如何在保证系统稳定性和用户体验的前提下快速迭代新功能，已经成为大型分布式系统运维和开发团队面临的核心挑战。灰度发布（GreyRelease或CanaryRelease）作为一种渐进式发布策略，通过对少量用户或流量进行新版本试运行，实时监控关键指标、收集用户反馈，从而在生产环境中实现安全的功能迭代和风险管控。本文以某大型电商平台灰度发布实战为例，深入探讨技术原理、系
数字电路与模拟电路的对比、我是男生。 fpga开发
数字电路和模拟电路是电子技术的两大支柱，它们的关系不是简单的“模块化”，而是处理信号的方式、设计哲学和抽象层次的根本性不同。下面从多个维度详细解释它们的区别与联系：底层硬件：统一的物理基础共同根基：无论是处理连续信号的模拟电路，还是处理0/1数字信号的数字电路，它们的物理实现都依赖于相同的半导体器件——主要是晶体管（BJT或MOSFET）。模拟本质：在晶体管级别，一切行为都是模拟的！输入电压连续变
医者不自医西门闲谈舍
医生可以治别人的病，可以给病人做情感疏导，可是所谓“医者不自医”就是说医生也治不了自己的病。自己有病，角色也就变成了病人自己情感有问题，自己却不能做疏导。“当局者迷，旁观者清”不管用到哪一个人身上，我想估计都是逃不过的一关。毕竟这世上太多的事情并不是用理性的科学或者学问来解释和说明，爱情、友情这些看不见却又实在存在的东西，才是世上用钱换不来、用技术、用科学换不来的吧。它们也是我们一生的课程。图片发
大带宽服务器都有哪些应用场景？ wanhengidc 服务器运维
大带宽服务器凭借着高速的数据传输能力和强大的网络承载能力，通常被企业应用在需要高流量和高并发处理能力的业务场景当中，下面，就让我们共同了解一下大带宽服务器的应用场景吧！首先，随着科学技术的快速发展，视频媒体等行业发展的十分迅速，而大带宽服务器能够支持大规模用户同时在线观看高清的视频，能够为用户提供流畅的观影体验，所以大多数的视频网站行业会选择使用大带宽服务器租用服务。多人在线网络游戏对于网络速度和
《逆转》——如何以弱胜强 ccq_2018
现实生活中处于弱势的一方想要战胜强势的一方，大多没有那么容易，因为明知对手在某些方面处于强势地位，我们还要去跟对手硬碰硬的比拼，那么就只有失败的结局了。如果明知在某些方面上处于劣势，那么就要寻求其他的方法，不按对手的套路出牌，反而能够成为自己反败为胜的好策略。有一只很弱的篮球队，球员只是把打篮球当做游戏，几乎所有的篮球技术都不会，他们更大的兴趣是在学习上，但是队长想要赢球，想要拿到全国冠军，于是队
《Python 项目 CI/CD 实战指南：从零构建自动化部署流水线》清水白石008 课程教程学习笔记开发语言 python ci/cd 自动化
《Python项目CI/CD实战指南：从零构建自动化部署流水线》一、引言：为什么Python项目需要CI/CD？在现代软件开发中，CI/CD（持续集成/持续部署）已成为不可或缺的工程实践。它不仅提升了开发效率，还显著降低了部署风险。对于Python项目而言，CI/CD的价值尤为突出：✅自动化测试确保代码质量✅快速部署加速产品迭代✅与云平台、容器技术无缝集成✅支持多版本、多环境的灵活发布Python
对话新希望CDO李旭昶：立足核心诉求，积极拥抱人工智能
“转型焕新，希望无限。”整理|王娴编辑|云舒出品｜极新4月12日，在「2024飞书先进生产力峰会|成都站」活动中，新希望首席数字官李旭昶先生做了主题为“转型焕新，希望无限”的分享。上次见他是4个月前，当时我们聊了1个多小时，内容涉及数字化转型、人工智能、管理、技术商业等话题。今天顺着他分享的内容，将这篇对话分享出来。随着信息科技的发展，我国传统企业在过去几年中逐步进行数字化转型，利用先进的科学技术
《复制技能：我靠系统成为篮球天才》方阳刘诗婷（独家小说）精彩TXT阅读九月文楼
《复制技能：我靠系统成为篮球天才》方阳刘诗婷（独家小说）精彩TXT阅读主角：方阳刘诗婷简介：开局惨遭深爱女友劈腿，还目睹女友与校篮球队的其他人勾搭。一股无名火直冲心头，同时也有一个奇怪的声音在我的脑海中出现:【恭喜宿主，激活最强篮球系统，宿主只要和他人打球，就能够一定程度复制对方的篮球技术，能够复制的上限和完成度需要根据宿主在篮球界的名声，影响力等等因素来决定。】可关注微信公众号【冰晶文楼】去回个
高仿手表批发200元：200元以内高仿手表批发渠道有哪些腕表鞋屋
现如今，手表不仅仅是一种时间工具，更成为了人们时尚装扮的必备品之一。然而，许多人对于高档品牌手表望尘莫及，因为其高昂的价格使得许多人望而却步。但是，现在有了高仿手表批发200元，大家也能拥有一款精致的手表。微信:83217080(下单赠送精美礼品)高仿手表批发200元系列是指那些外观和功能与名牌手表非常相似的手表，但价格相对较低。这些手表采用了先进的技术制造而成，确保了外观和功能上的完美复刻。它们
Python批量爬取谷歌原图，2021年最新可用版
文章目录前言一、环境配置1.安装selenium2.使用正确的谷歌浏览器驱动二、使用步骤1.加载chromedriver.exe2.设置是否开启可视化界面3.输入关键词、下载图片数、图片保存路径三、爬取效果四、完整代码前言作为一名CVer，数据集获取少不了用到数据、图片爬虫技术，谷歌作为全球最大的数据搜索网站，如何从中快速获取大量有用图片数据尤为重要，但是技术更新，很多代码大多就会失效，爬与反爬永
PWA进阶：打造离线可用的Web应用天天进步2015 前端开发前端
引言在移动互联网时代，用户对Web应用的期望已不仅限于可访问性，更要求其具备类似原生应用的体验。ProgressiveWebApp(PWA)技术的出现，使Web应用能够提供接近原生应用的用户体验，尤其是在网络连接不稳定或完全离线的情况下仍然可以使用。本文将深入探讨如何构建真正离线可用的PWA，帮助开发者掌握这一强大技术的核心要点。PWA核心技术回顾在深入探讨离线功能之前，让我们简要回顾PWA的三个
带你读书之“红宝书”：第三章语法基础（中）之数据类型前部分前端不许笑
「这是我参与2022首次更文挑战的第5天，活动详情查看：2022首次更文挑战」写在前头大多数小伙伴看技术书籍都会用“啃”来描述读书的直观感受，当然我也是一个前端小白，白的透明那种，但是我在读技术书籍感觉到“啃”的时候，我希望把我啃红宝书第四版的过程的想法，总结带给大家，以供后来者能够更快上手。注：本文由于作者水平原因，如有错误之处，恳请大家指正,另外随着学习的深入，体会的加深，我会不断回来更新，修
飞算科技：以创新科技引领数字化变革，旗下飞算 JavaAI 成开发利器飞算JavaAI开发助手科技
作为国家级高新技术企业，飞算科技专注于自主创新，在数字科技领域持续深耕，用前沿技术为各行业客户赋能，助力其实现数字化转型升级的飞跃。飞算科技凭借深厚的技术积累，将互联网科技、大数据、人工智能等技术与实际应用紧密融合。公司组建了一支由行业资深专家和技术精英构成的团队，他们在相关领域积累了多年实践经验，深刻理解不同行业客户在数字化进程中面临的痛点与挑战。基于这些洞察，飞算科技推出了一系列具有创新性和实
产品经理的 “一句话需求” 如何落地？飞算 JavaAI 带你起飞飞算JavaAI开发助手人工智能安全架构
“做个类似XX的用户积分系统，下周要看到demo。”面对产品经理抛出的“一句话需求”，Java开发者往往陷入两难：快速搭框架可能遗漏核心逻辑，细致梳理又赶不上进度。飞算JavaAI这款IDE插件，正通过“需求具象化-快速验证”的智能流程，让模糊需求从描述到可运行demo的落地周期缩短80%。传统开发中，“一句话需求”的转化如同在迷雾中架桥。产品经理的业务描述需先转化为技术语言，再手动搭建基础框架，
Python爬虫实战：批量下载小红书笔记图片的全流程技术解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫笔记开发语言音视频 github
1.引言：为什么要爬取小红书笔记图片小红书作为新兴的生活方式分享平台，聚集了大量高质量原创笔记内容，涵盖时尚、美妆、旅游、美食等多领域。笔记中的图片往往是内容的核心，批量下载小红书笔记图片，有助于：内容归档与备份数据分析与用户行为研究图像识别与机器学习训练电商推广及内容再加工但小红书对内容保护做得较好，爬取难度较高，需要结合多技术手段突破。2.小红书平台特点与爬取难点动态加载与API接口多变：页面
基于Python的Google Patents专利数据爬取实战：从入门到精通 Python爬虫项目 2025年爬虫实战项目 python 开发语言爬虫 scrapy selenium
摘要本文将详细介绍如何使用Python构建一个高效的GooglePatents专利爬虫，涵盖最新技术如Playwright浏览器自动化、异步请求处理、反反爬策略等。文章包含完整的代码实现、性能优化技巧以及数据处理方法，帮助读者全面掌握专利数据采集技术。1.引言在当今知识经济时代，专利数据已成为企业技术研发、市场竞争分析的重要资源。GooglePatents作为全球最大的专利数据库之一，收录了来自全
Python游戏开发实战：打造高仿俄罗斯方块掌机坦克大战
引言在那个电子游戏刚刚兴起的年代，俄罗斯方块掌机上的坦克大战承载着无数玩家的童年记忆。简单的像素画面、紧张刺激的战斗、精准的操作反馈，这些元素构成了一个经典的游戏体验。今天，我们将用Python和pygame库来重新诠释这个经典游戏，不仅要还原其精髓，更要在技术实现上进行创新和优化。这个项目不仅仅是一个简单的游戏复刻，更是一次完整的游戏开发实践。从游戏架构设计到用户体验优化，从碰撞检测算法到动态难
现代前端开发流程：CI/CD与自动化部署实战天天进步2015 前端开发 ci/cd 自动化运维
目录引言现代前端开发面临的挑战CI/CD基础概念前端CI/CD流程设计实战案例：构建前端CI/CD管道自动化部署策略监控与回滚机制最佳实践与优化建议总结引言随着前端技术的飞速发展，现代Web应用变得越来越复杂。前端项目不再只是简单的HTML、CSS和JavaScript文件的集合，而是演变成了包含众多依赖项、构建工具和框架的复杂系统。在这种情况下，持续集成和持续部署（CI/CD）流程成为了确保前端
Delphi EDI 需求分析与对接指南
德尔福科技（DelphiTechnologies）是全球领先的汽车零部件及系统顶级供应商之一，尤其在动力总成和电子电气技术领域实力雄厚。如今，德尔福科技专注于燃油喷射系统、电气化解决方案、售后市场部件等。本文将主要介绍Delphi的EDI需求以及如何基于知行之桥EDI系统实现与Delphi的EDI对接。DelphiEDI需求分析成功对接DelphiEDI，供应商必须满足以下核心目标，这些正是知行之
openGauss数据库源码解析 | openGauss简介(七） openGauss小助手数据库 openGauss
1.5.5数据库安全1.访问控制管理用户对数据库的访问控制权限涵盖数据库系统权限和对象权限。openGauss数据库支持基于角色的访问控制机制（role-basedaccesscontrol，RBAC），将角色和权限关联起来，通过将权限赋予给对应的角色，再将角色授予给用户，可实现用户访问控制权限管理。其中登录访问控制通过用户标识和认证技术来共同实现，而对象访问控制则基于用户在对象上的权限，通过对象
Python 代码生成 LaTeX 数学公式：latexify 示例 examples
文中内容仅限技术学习与代码实践参考，市场存在不确定性，技术分析需谨慎验证，不构成任何投资建议。latexify示例本notebook提供了多个使用latexify的示例。更多细节请参阅官方文档。如有任何疑问，请在issuetracker中提出。安装latexify#运行下方示例前请先重启运行时。%pipinstalllatexify-pyCollectinglatexify-pyDownloadi
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>