rookie_wei

TensorFlow入门教程(27)车牌识别之文本检测模型EAST代码实现(三)

#
#作者：韦访
#博客：https://blog.csdn.net/rookie_wei
#微信：1007895847
#添加微信的备注一下是CSDN的
#欢迎大家一起学习
#

4、score map

数据增强做好以后，就来求score map和geometry map了，先来看总体的代码，如下，

'''
求score map，geo map和ignored map
'''
def map_generator(FLAGS, image, polys, ignored_labels):    
    len_image = len(image)
    len_polys = len(polys)
    
    if len_image > 0 and len_polys < 1:
        # 没有文字的背景图
        score_map, geo_map = backgroup_maps_generateor(image, polys)              
    elif len_image > 0 and len_polys > 0:
        # 有文本框的图
        score_map, geo_map = rbox_maps_generateor(FLAGS, image, polys, ignored_labels)        
        
    return score_map, geo_map

背景图和带文本框的图的map是不一样的，先看背景图的，代码如下，

'''
求背景图的map
'''
def backgroup_maps_generateor(image, polys):
    h, w, _ = image.shape
    score_map = np.zeros((h, w), dtype=np.uint8)
    geo_map_channels = 5
    geo_map = np.zeros((h, w, geo_map_channels), dtype=np.float32)
    return score_map, geo_map

上面的代码很简单，score map和geometry map都是大小跟输入图片一样大，值都为0的张量即可。再来看带文本框的图的map，代码如下，

'''
求RBOX
'''
def rbox_maps_generateor(FLAGS, image, polys, ignored_labels):        
    score_map, shrunk_poly_mask_map, ignored_labels = get_score_map(FLAGS, image, polys, ignored_labels)    
    geo_map = get_rbox_geometry_map(image, polys, ignored_labels, shrunk_poly_mask_map)    
    return score_map, geo_map

先来看score map怎么求，代码如下，

'''
计算score map
'''
def get_score_map(FLAGS, image, polys, ignored_labels):
    # DEBUG = True
    h, w, _ = image.shape
    score_map = np.zeros((h, w), dtype=np.uint8)
    # 用于计算geo map的
    shrunk_poly_mask_map = np.zeros((h, w), dtype=np.uint8)
    
    shrunk_polys = []
    for index, (poly, label) in enumerate(zip(polys, ignored_labels)):
        # 那些被标记为忽略的文本框
        if label == 1:
            continue
        
        # 如果文本框太小的话，也忽略掉
        poly_h = min(np.linalg.norm(poly[0] - poly[3]), np.linalg.norm(poly[1] - poly[2]))
        poly_w = min(np.linalg.norm(poly[0] - poly[1]), np.linalg.norm(poly[2] - poly[3]))
        if min(poly_h, poly_w) < FLAGS.min_text_size:
            ignored_labels[index] = 1
            continue
        
        # 求缩放后的文本框
        r = [None, None, None, None]
        for i in range(4):
            r[i] = min(np.linalg.norm(poly[i] - poly[(i + 1) % 4]), np.linalg.norm(poly[i] - poly[(i - 1) % 4]))
        
        shrunk_poly = shrink_polys(poly.copy(), r)        
        # 对缩放后的文本框内所有像素点进行标记，用于后续geometry map中求文本框内的像素点到文本框的最小外接矩形的距离
        cv2.fillPoly(shrunk_poly_mask_map, shrunk_poly.astype(np.int32)[np.newaxis, :, :], index+1)        
        shrunk_polys.append(shrunk_poly.astype(np.int32))
        
        if DEBUG:
            draw_line(image, shrunk_poly, color=(255,0,0))
            draw_line(image, poly)
    # 将score_map中，所有缩放后的文本框内的像素点的值置为1
    if len(shrunk_polys) > 0:    
        cv2.fillPoly(score_map, shrunk_polys, 1)     
           
    if DEBUG:
        score_map *= 255
        cv2.imshow("score_map", score_map)
        cv2.imshow("image", image)
        cv2.waitKey(0)
    return score_map, shrunk_poly_mask_map, ignored_labels

上面代码中，将太小的文本框也忽略掉，再对所有没被忽略的文本框进行缩小0.3倍（注意，不是缩放至0.3倍），然后，所有缩放后的文本框内的所有像素点的值都设为1。 shrunk_poly_mask_map是对缩放后的文本框内的所有像素进行标记，注意每个文本框的标记值都是不一样的，用于区分不同的文本框，我们后面求geometry map会用到。效果如下，

上图中，左边是原图，右边是求得的score map。其中，左图的红框表示原始的文本框，蓝框表示缩小0.3后的文本框。

5、geometry map

再来看geometry map，代码如下，

'''
计算geo map
'''
def get_rbox_geometry_map(image, polys, ignored_labels, shrunk_poly_mask_map):
    # DEBUG = True
    h, w, _ = image.shape    
    geo_map_channels = 5
    geo_map = np.zeros((h, w, geo_map_channels), dtype=np.float32)
        
    #求文本框的最小外接矩形和角度    
    for index, (poly, label) in enumerate(zip(polys, ignored_labels)):
        if label == 1:
            continue
        # 求文本框的最小外接矩形
        rect = cv2.minAreaRect(poly)
        box = cv2.boxPoints(rect)
        # 将矩形重新排序，并获得p3_p2边与x轴的夹角
        (p0, p1, p2, p3), angle = sort_poly_and_get_angle(box, image=image)

        if DEBUG:            
            print("p0_rect:", p0, " p1_rect:", p1, " p2_rect:", p2, " p3_rect:", p3, " angle:", angle)        
            box_int = np.int0(box)
            cv2.circle(image, tuple(box_int[0]), 2, (0,255,0), 4)
            cv2.circle(image, tuple(box_int[1]), 2, (0,0,255), 4)
            cv2.drawContours(image, [box_int], 0, (0,255,0), 1)
            cv2.imshow("shrunk_poly_mask_map", shrunk_poly_mask_map*255)    
            cv2.imshow("image", image)
            cv2.waitKey(0)
        
        # 遍历score map中，所以缩放后的文本框内的像素点到其最小外接矩形的四边的距离
        xy_in_poly = np.argwhere(shrunk_poly_mask_map == (index + 1))
        for y, x in xy_in_poly:
            point = np.array([x, y], dtype=np.float32)
            # top
            geo_map[y, x, 0] = point_dist_to_line(p0, p1, point)
            # right
            geo_map[y, x, 1] = point_dist_to_line(p1, p2, point)
            # down
            geo_map[y, x, 2] = point_dist_to_line(p2, p3, point)
            # left
            geo_map[y, x, 3] = point_dist_to_line(p3, p0, point)
            # angle
            geo_map[y, x, 4] = angle

    if DEBUG:  
        cv2.imshow("geo_map", geo_map[:,:,0]*255)    
        cv2.waitKey(0)
    return geo_map

上面的代码中，先求所有未被忽略的文本框的最小外接矩形。然后，求文本框内所有像素点到其最小外接矩形四条边的距离，以及最下面的边相对x轴的夹角。如下图所示，

上图中，左图为原始图，中间为缩放后的文本框的shrunk_poly_mask_map，右图为geometry map有数据的像素点。可以看到，geometry map中有数据的像素点都是缩放后的文本框内的像素点。

6、网络模型

接下来看网络模型的设计，先来回顾一下论文中的结构图，

我们网络模型设计的跟上图差不多，只不过用ResNet代替它的PVANet，当然你也可以考虑其他的网络，主要思路一致就可以了。代码如下，

def resize_bilinear(x):
    return tf.compat.v1.image.resize_bilinear(x, size=[tf.shape(x)[1] * RESIZE_FACTOR, tf.shape(x)[2] * RESIZE_FACTOR])

class EAST_model(tf.keras.Model):
    def __init__(self, input_size):
        super(EAST_model, self).__init__()
        input_image = tf.keras.layers.Input(shape=(None, None, 3), name='input_image')
        resnet = tf.keras.applications.ResNet50(input_tensor=input_image, weights='imagenet', include_top=False, pooling=None)
        x = resnet.get_layer('conv5_block3_out').output

        x = tf.keras.layers.Lambda(resize_bilinear, name='resize_1')(x)
        x = tf.keras.layers.concatenate([x, resnet.get_layer('conv4_block6_out').output], axis=3)
        x = tf.keras.layers.Conv2D(128, (1, 1), padding='same', kernel_regularizer=tf.keras.regularizers.l2(1e-5))(x)
        x = tf.keras.layers.BatchNormalization(momentum=0.997, epsilon=1e-5, scale=True)(x)
        x = tf.keras.layers.Activation('relu')(x)
        x = tf.keras.layers.Conv2D(128, (3, 3), padding='same', kernel_regularizer=tf.keras.regularizers.l2(1e-5))(x)
        x = tf.keras.layers.BatchNormalization(momentum=0.997, epsilon=1e-5, scale=True)(x)
        x = tf.keras.layers.Activation('relu')(x)

        x = tf.keras.layers.Lambda(resize_bilinear, name='resize_2')(x)
        x = tf.keras.layers.concatenate([x, resnet.get_layer('conv3_block4_out').output], axis=3)
        x = tf.keras.layers.Conv2D(64, (1, 1), padding='same', kernel_regularizer=tf.keras.regularizers.l2(1e-5))(x)
        x = tf.keras.layers.BatchNormalization(momentum=0.997, epsilon=1e-5, scale=True)(x)
        x = tf.keras.layers.Activation('relu')(x)
        x = tf.keras.layers.Conv2D(64, (3, 3), padding='same', kernel_regularizer=tf.keras.regularizers.l2(1e-5))(x)
        x = tf.keras.layers.BatchNormalization(momentum=0.997, epsilon=1e-5, scale=True)(x)
        x = tf.keras.layers.Activation('relu')(x)

        x = tf.keras.layers.Lambda(resize_bilinear, name='resize_3')(x)
        x = tf.keras.layers.concatenate([x, resnet.get_layer('conv2_block3_out').output], axis=3)
        x = tf.keras.layers.Conv2D(32, (1, 1), padding='same', kernel_regularizer=tf.keras.regularizers.l2(1e-5))(x)
        x = tf.keras.layers.BatchNormalization(momentum=0.997, epsilon=1e-5, scale=True)(x)
        x = tf.keras.layers.Activation('relu')(x)
        x = tf.keras.layers.Conv2D(32, (3, 3), padding='same', kernel_regularizer=tf.keras.regularizers.l2(1e-5))(x)
        x = tf.keras.layers.BatchNormalization(momentum=0.997, epsilon=1e-5, scale=True)(x)
        x = tf.keras.layers.Activation('relu')(x)

        x = tf.keras.layers.Conv2D(32, (3, 3), padding='same', kernel_regularizer=tf.keras.regularizers.l2(1e-5))(x)
        x = tf.keras.layers.BatchNormalization(momentum=0.997, epsilon=1e-5, scale=True)(x)
        x = tf.keras.layers.Activation('relu')(x)

        pred_score_map = tf.keras.layers.Conv2D(1, (1, 1), activation=tf.nn.sigmoid, name='pred_score_map')(x)
        rbox_geo_map = tf.keras.layers.Conv2D(4, (1, 1), activation=tf.nn.sigmoid, name='rbox_geo_map')(x)
        rbox_geo_map = tf.keras.layers.Lambda(lambda x: x * input_size)(rbox_geo_map)
        angle_map = tf.keras.layers.Conv2D(1, (1, 1), activation=tf.nn.sigmoid, name='rbox_angle_map')(x)
        angle_map = tf.keras.layers.Lambda(lambda x: (x - 0.5) * np.pi / 2)(angle_map)
        pred_geo_map = tf.keras.layers.concatenate([rbox_geo_map, angle_map], axis=3, name='pred_geo_map')

        self.model = tf.keras.models.Model(inputs=[input_image], outputs=[pred_score_map, pred_geo_map]) 
           

    def call(self, x):
        return self.model(x)

7、损失函数

score map的损失函数用dice loss，geometry map则用IoU loss，角度则直接用cos就可以了，代码如下，

'''
这里使用dice loss，而不是用论文的交叉熵，dice loss常用于影像分割
'''
def score_dice_loss(score_map, pred_score_map):
    inter = tf.reduce_sum(score_map * pred_score_map)
    union = tf.reduce_sum(score_map) + tf.reduce_sum(pred_score_map) + 1e-5
    loss = 1. - (2 * inter / union)
    return loss

def geo_loss(geo_map, pred_geo_map, score_map, lambda_theta=10):
    d1_gt, d2_gt, d3_gt, d4_gt, angle_gt = tf.split(value=geo_map, num_or_size_splits=5, axis=3)
    d1_pred, d2_pred, d3_pred, d4_pred, angle_pred = tf.split(value=pred_geo_map, num_or_size_splits=5, axis=3)
    # 求面积，即宽x高
    area_gt = (d1_gt + d3_gt) * (d2_gt + d4_gt)
    area_pred = (d1_pred + d3_pred) * (d2_pred + d4_pred)
    # 求交集
    w_union = tf.minimum(d2_gt, d2_pred) + tf.minimum(d4_gt, d4_pred)
    h_union = tf.minimum(d1_gt, d1_pred) + tf.minimum(d3_gt, d3_pred)
    area_intersect = w_union * h_union
    # 求并集
    area_union = area_gt + area_pred - area_intersect
    # 求aabb的损失
    L_AABB = -tf.math.log((area_intersect + 1.0) / (area_union + 1.0))
    # 求角度的损失
    L_theta = 1 - tf.cos(angle_pred - angle_gt)
    # 求总得geo损失
    L_g = L_AABB + lambda_theta * L_theta
    return tf.reduce_mean(L_g * score_map)

8、训练

一些比较简单的创建tf.data、优化器等代码我就不具体说了，大家直接看代码和注释好了。训练的核心代码如下所示，

def main(_):
    score_map_loss_weight = 1.
    # 获取数据集    
    icdar = ICDAR2017_Dataset(FLAGS)    
    ds = icdar.create_dataset("train")
    
    # 创建模型
    east = EAST_model(input_size=FLAGS.input_size)
    east.model.summary()
    optimizer = east_optimizer(init_learning_rate=FLAGS.learning_rate, lr_decay_rate=FLAGS.lr_decay_rate, lr_decay_steps=FLAGS.lr_decay_steps)

    # set checkpoint manager
    ckpt = tf.train.Checkpoint(step=tf.Variable(0), model=east)
    ckpt_manager = tf.train.CheckpointManager(ckpt, directory=FLAGS.checkpoint_dir, max_to_keep=5)
    latest_ckpt = tf.train.latest_checkpoint(FLAGS.checkpoint_dir)

    # restore latest checkpoint
    if latest_ckpt:
        ckpt.restore(latest_ckpt)
        print('global_step : {}, checkpoint is restored!'.format(int(ckpt.step)))

    while int(ckpt.step) < (FLAGS.max_steps + 1):
        for images, score_maps, geo_maps in ds:
            east_train(east, optimizer, images, score_maps, geo_maps, score_map_loss_weight)
            scoreloss, _ = east_loss_print(int(ckpt.step), east, images, score_maps, geo_maps, score_map_loss_weight)  

            # 刚开始训练时， score_map_loss_weight权重设得大一点，设为1，好让score map快速收敛，
            # 当score loss小于0.2时，score_map_loss_weight设得小一些，为0.01，以重点训练geo map
            if scoreloss < 0.2:
                score_map_loss_weight = 0.01

            if ckpt.step % FLAGS.save_checkpoint_steps == 0:
                ckpt_manager.save(checkpoint_number=ckpt.step)
                print('global_step : {}, checkpoint is saved!'.format(int(ckpt.step)))
            ckpt.step.assign_add(1)
            if int(ckpt.step) > (FLAGS.max_steps):
                break

运行结果，

9、验证

我上面才运行了九千多步，所以效果还并不算好，感兴趣的可以继续训练下去，效果就会好很多了。

这样，我们就完成了文本检测的任务了。接下来，我们要基于此代码，来做车牌检测的任务。

10、完整代码

https://mianbaoduo.com/o/bread/YZWcl5lt

用 TensorFlow 搭建简单的手写数字识别模型 lozhyf 工作面试学习 tensorflow 人工智能 python
一、引言手写数字识别是机器学习领域中一个经典且基础的问题，它在很多实际场景中都有广泛的应用，比如邮政系统中的邮件分拣、银行支票金额识别等。TensorFlow是一个强大的开源机器学习框架，由Google开发并维护，它提供了丰富的工具和接口，能帮助我们快速搭建和训练深度学习模型。在这篇博客中，我们将使用TensorFlow构建一个简单的神经网络模型，用于识别手写数字。二、环境准备在开始之前，你需要安
深度学习在医疗影像分析中的革命性应用 Echo_Wish 人工智能前沿技术深度学习人工智能
深度学习在医疗影像分析中的革命性应用引言医疗影像分析是现代医学中不可或缺的一部分，特别是在疾病诊断和治疗过程中发挥了至关重要的作用。随着深度学习技术的发展，医疗影像分析的效率和准确性得到了显著提升。本文将探讨如何利用深度学习技术，特别是Python编程语言，来优化医疗影像分析，展示具体的代码实例，并举例说明其实际应用效果。深度学习与医疗影像分析深度学习（DeepLearning）是一种基于人工神经
yolov8人脸识别与脸部关键点检测（代码+原理） QQ_1309399183 计算机视觉实战项目集锦 YOLO 人工智能人脸识别 yolo人脸检测
YOLOv8脸部识别是一个基于YOLOv8算法的人脸检测项目，旨在实现快速、准确地检测图像和视频中的人脸。该项目是对YOLOv8算法的扩展和优化，专门用于人脸检测任务。YOLOv8是一种基于深度学习的目标检测算法，通过将目标检测问题转化为一个回归问题，可以实现实时的目标检测。YOLOv8Face项目在YOLOv8的基础上进行了改进，使其更加适用于人脸检测。以下是YOLOv8Face项目的一些特点和
TensorFlow LiteRT 概览姚家湾 tensorflow 人工智能 python
LiteRT（简称LiteRuntime，以前称为TensorFlowLite）是Google面向设备端AI的高性能运行时。您可以找到适用于各种机器学习/AI任务的LiteRT就绪模型，也可以使用AIEdge转换和优化工具将TensorFlow、PyTorch和JAX模型转换为TFLite格式并运行。主要特性针对设备端机器学习进行了优化：LiteRT解决了五项关键的ODML约束条件：延迟时间（无需
探索Vearch：高效的深度学习向量相似度搜索系统 scaFHIO 深度学习人工智能 python
Vearch是一个可扩展的分布式系统，用于高效搜索深度学习向量的相似度。在本文中，我们将介绍Vearch的技术背景及其核心原理，演示如何使用VearchPythonSDK进行安装和设置，并分析一些实际应用场景，最后提供一些实战建议。技术背景介绍随着深度学习技术的发展，向量相似度搜索在各类应用中变得越来越重要。从图像识别、推荐系统到自然语言处理，向量搜索可以极大地提升系统的性能。然而，随着数据量的增
华为的云端训练算力与迭代效率 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
华为云、云端训练、算力、迭代效率、人工智能、深度学习、模型训练、分布式训练、优化算法1.背景介绍人工智能（AI）技术近年来发展迅速，深度学习作为其核心驱动力，在图像识别、自然语言处理、语音识别等领域取得了突破性进展。然而，深度学习模型的训练需要海量数据和强大的计算资源，这成为AI技术发展面临的瓶颈之一。云计算作为一种新型的计算模式，为深度学习提供了强大的算力支持。华为云作为国内领先的云计算平台，在
AI外呼机器人：营销新利器还是骚扰电话的升级版？ yoloGina 客户管理外呼系统电话外呼人工智能机器人
"您好，这里是XX房产，最近有购房需求吗？""您好，您最近有种牙需求吗？"相信很多人都接到过类似的营销电话，而电话那头，很可能已经不是真人，而是AI外呼机器人。近年来，AI外呼系统凭借其高效率、低成本的优势，迅速在电销行业普及，成为企业营销的"新宠"。据统计，2022年中国AI外呼市场规模已达50亿元，预计2025年将突破100亿元。AI外呼系统的核心技术是语音识别和自然语言处理。通过深度学习海量
深入浅出：CUDA是什么，如何利用它进行高效并行计算码上飞扬 CUDA
在当今这个数据驱动的时代，计算能力的需求日益增加，特别是在深度学习、科学计算和图像处理等领域。为了满足这些需求，NVIDIA推出了CUDA（ComputeUnifiedDeviceArchitecture），这是一种并行计算平台和编程模型。本文将带你全面了解CUDA的基本概念、工作原理及其应用场景。一、什么是CUDA？CUDA（ComputeUnifiedDeviceArchitecture）是由
【深度学习】学习率调度策略黑白交界深度学习学习深度学习
什么是学习率可以理解为模型在每一次迭代中的模型更新调整的幅度，“学习”新信息的速度。学习率定义了模型权重（参数）在梯度下降或其他优化算法中的更新步伐。较大的学习率意味着在每次参数更新时，模型会进行更大幅度的调整，而较小的学习率则意味着细致的、渐进的调整。适当的学习率可以帮助模型跳出局部最优解。当使用较大的学习率时，模型有可能跨越一些小的局部最优，从而找到全局最优解，但也有可能错过全局最优。因此，在
【深度学习pytorch-93】Transformer 相比 RNN 的优势华东算法王 DL-pytorch 深度学习 pytorch transformer
Transformer相比RNN的优势Transformer和RNN（循环神经网络）都是自然语言处理（NLP）领域的重要架构，但它们的工作原理和应用方式有很大不同。Transformer由于其独特的结构和机制，在多个方面优于RNN。以下是Transformer相比RNN的主要优势：1.并行计算能力RNN的局限性RNN是按顺序处理输入的，即每个时间步的输出都依赖于前一个时间步的输出。这意味着，在训练
深度学习模型中的知识蒸馏是如何工作的? c++服务器开发深度学习人工智能
深度学习模型在多个领域，特别是计算机视觉和自然语言处理中，已经取得了革命性的进展。然而，随着模型复杂性和资源需求的不断攀升，如何将这些庞大模型的知识浓缩为更紧凑、更高效的形式，成为了当前研究的热点。知识蒸馏，作为一种将知识从复杂模型转移到更简单模型的策略，已经成为实现这一目标的有效工具。在本文中，我们将深入探究深度学习模型中知识蒸馏的概念、原理及其在各领域的应用，以期为读者提供一个全面而严谨的视角
吐血整理！权重持久化方案优化，让你的模型性能飙升盼达思文体科创经验分享
吐血整理！权重持久化方案优化，让你的模型性能飙升引言你是否在做深度学习项目时，遭遇过模型训练结果无法有效保存，导致之前的努力付诸东流的痛苦？又或者在模型权重持久化时，发现保存和加载的速度极慢，严重影响项目进度？今天咱们就来好好聊聊权重持久化方案的优化，帮你解决这些让人头疼的问题！核心内容❗传统方案痛点：大多数人都踩过的坑在很多深度学习项目里，大家常用的权重持久化方案存在不少问题。比如说，使用普通的
《深入浅出AI》前言知识：深度学习基础总结 GoAI 深入浅出AI 人工智能深度学习机器学习 cnn rnn 生成对抗网络神经网络
个人主页:GoAI|公众号:GoAI的学习小屋|交流群:704932595|个人简介：掘金签约作者、百度飞桨PPDE、领航团团长、开源特训营导师、CSDN、阿里云社区人工智能领域博客专家、新星计划计算机视觉方向导师等，专注大数据与人工智能知识分享。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成
python中的深度学习框架TensorFlow 和 PyTorch 有什么区别？大懒猫软件 python 深度学习 tensorflow pytorch
TensorFlow和PyTorch是目前最流行的两个深度学习框架，它们在设计理念、使用方式和社区支持等方面存在一些显著的区别。以下是它们的主要区别：1.设计理念TensorFlow：静态计算图：TensorFlow使用静态计算图，即在运行模型之前需要先定义整个计算图。这使得TensorFlow在大规模分布式训练和部署时具有优势，但调试和动态修改模型时可能不够灵活。功能全面：TensorFlow提
深度学习torch之19种优化算法（optimizer）解析 @Mr_LiuYang 论文阅读深度学习 optimizer Adam 学习率调整优化算法
提示：有谬误请指正摘要本博客详细介绍了多种常见的深度学习优化算法，包括经典的LBFGS、Rprop、Adagrad、RMSprop、Adadelta、ASGD、Adamax、Adam、AdamW、NAdam、RAdam以及SparseAdam等，通过对这些算法的公式和参数说明进行详细解析，博客旨在为机器学习工程师和研究人员提供清晰的理论指导，帮助读者选择合适的优化算法提升模型训练效率。父类定义Op
探索TotalSegmentator：一款强大的全场景图像分割工具计蕴斯Lowell
探索TotalSegmentator：一款强大的全场景图像分割工具项目地址:https://gitcode.com/gh_mirrors/to/TotalSegmentator项目简介是一个开源的、基于深度学习的全场景图像分割框架。它由开发者Wasserth创建，旨在为医学影像分析、自动驾驶、遥感图像处理等多个领域提供高效且准确的像素级分类能力。该项目的亮点在于其模型的通用性和易用性，能够处理多种
从零到入门：人工智能学习路径全解析这题有点难度人工智能学习
一、打破迷雾：重新认识人工智能人工智能（AI）早已不再是科幻电影中的专属概念，而是渗透到我们生活的方方面面。从手机里的语音助手到电商平台的推荐系统，从自动驾驶到医疗影像分析，AI技术正在重塑人类社会的运行方式。对于初学者而言，建立正确的认知框架至关重要：1.技术图谱解析：机器学习（ML）：AI的核心驱动力，使计算机具备从数据中学习的能力深度学习（DL）：基于神经网络的进阶技术，擅长处理图像、语音等
【TVM教程】为 x86 CPU 自动调优卷积网络
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：YaoWang,EddieYan本文介绍如何为x86CPU调优卷积神经网络。注意，本教程不会在Windows或最新版本的macOS上运行。如需运行，请将本教程的主体放在if__name__=="__main__":代码块中。impor
AI技术在音乐产品中有哪些应用场景？大数据人工智能音乐大数据
自动标注、平滑过渡、音乐鉴权、AI创作，当AI技术应用于音乐行业为人类的精神文化与娱乐生活带来便利和更多选择时，也是一件让人激动不已的事情。随着深度学习算法的出现、大数据和5G技术的成熟，AI人工智能已逐渐融入我们的生产生活中，在教育、医疗、政务办公、城市管理等多个方面发挥作用。随着AI技术在音乐行业研究及应用的深入，音乐人工智能已经不新鲜，很多新的应用和产品已经惊艳亮相。基于对于音乐技术及产品的
【深度学习入门：基于python的理论与实现读书笔记】第五章误差反向传播法 Bin二叉深度学习 python 人工智能
目录摘要第五章误差反向传播法简单层的实现乘法层的实现加法层的实现激活函数层的实现ReLU层Sigmoid层Affine层和Softmax层的实现Affine层Softmax-with-Loss层误差反向传播法的实现摘要该文章简要介绍了神经网络的误差反向传播法，省去了大量的推理过程，重点讲述了神经网络误差反向传播法的代码实现。第五章误差反向传播法反向传播就是从后到前局部计算偏导数并将其与从上游传来的
PyTorch与TensorFlow的对比：哪个框架更适合你的项目？木觞清 pytorch tensorflow 人工智能
在机器学习和深度学习领域，PyTorch和TensorFlow是最流行的两个框架。它们各有特点，适用于不同的开发需求和场景。本文将详细对比这两个框架，帮助你根据项目需求选择最合适的工具。一、概述PyTorch和TensorFlow都是深度学习框架，它们为构建、训练和部署神经网络提供了强大的工具。尽管它们的最终目标相同，但其设计哲学和实现方式有所不同。PyTorch：由Facebook的人工智能研究
【深度学习】计算机视觉（CV）-目标检测-DETR（DEtection TRansformer）—— 基于 Transformer 的端到端目标检测 IT古董深度学习人工智能深度学习计算机视觉目标检测
1.什么是DETR？DETR（DEtectionTRansformer）是FacebookAI（FAIR）于2020年提出的端到端目标检测算法，它基于Transformer架构，消除了FasterR-CNN、YOLO等方法中的候选框（AnchorBoxes）和非极大值抑制（NMS）机制，使目标检测变得更简单、高效。论文：End-to-EndObjectDetectionwithTransforme
遥感影像目标检测：从CNN（Faster-RCNN）到Transformer（DETR）岁月如歌，青春不败生态遥感目标检测 cnn transformer 遥感遥感影像
我国高分辨率对地观测系统重大专项已全面启动，高空间、高光谱、高时间分辨率和宽地面覆盖于一体的全球天空地一体化立体对地观测网逐步形成，将成为保障国家安全的基础性和战略性资源。未来10年全球每天获取的观测数据将超过10PB，遥感大数据时代已然来临。一：深度卷积网络知识1.深度学习在遥感图像识别中的范式和问题2.深度学习的历史发展历程3.机器学习，深度学习等任务的基本处理流程4.卷积神经网络的基本原理5
快速在Ubuntu18.04系统中离线部署深度学习环境高次超静定的人 python docker ubuntu
快速在Ubuntu18.04系统中离线部署深度学习环境本文部署的环境前提为电脑上新装的Ubuntu18.04并且没有联网，一切所需的软件均通过离线包安装，旨在模拟实际项目部署中的过程，文章中提及的资源文件在文章最底部，不包含镜像，根据自己的需要去拉取镜像即可。一、服务器部署流程1、安装显卡驱动cuda、cudnn#安装gcc和makecd~/dockerDeploy/pool&&sudo./ins
本地部署Deepseek：从零开始，打造你的私人AI助手！软件求生 #工作建议架构微服务云原生 java 开发语言
大家好，我是小米，一个31岁、热爱技术的“技术宅”。今天我要和大家分享一个超级酷炫的技术——本地部署Deepseek！如果你对AI感兴趣，或者想拥有一个属于自己的私人AI助手，那这篇文章绝对不容错过！Deepseek是什么？在开始之前，我们先来聊聊Deepseek到底是什么。简单来说，Deepseek是一个基于深度学习的AI模型，它可以帮助你完成各种任务，比如自然语言处理、图像识别、数据分析等等。
蓝耘服务器与DeepSeek的结合：引领智能化时代的新突破 Lethehong 热点时事服务器运维 deepseek python
嗨，我是Lethehong！立志在坚不欲说，成功在久不在速欢迎关注：点赞⬆️留言收藏欢迎使用：小智初学计算机网页AI目录蓝耘服务器与DeepSeek的结合：引领智能化时代的新突破一、蓝耘服务器的技术优势1、高性能计算能力2、可扩展性与高效存储3、绿色节能设计二、DeepSeek：智能算法的引擎1、高效的深度学习训练与推理2、自适应学习与迁移学习3、多任务学习三、蓝耘服务器与DeepSeek结合的优
《大模型应用开发极简入门》随记 hoypte 人工智能
术语：自然语言处理（NLP)人工智能（AI）大预言模型（LLM）机器学习（ML)深度学习（DL)内容LLM概述ML算法被称为人工神经网络DL是ML的一个分支最先开始简单语言模型吗，例如：n-gram模型（通过词频来根据前面的词预测句子里下一个词---可能生成不连贯的词），为了提升性能引入循环神经网络（RNN）和长短期记忆（LSTM）网络---处理大量数据效率还是不行。Transformer架构架构
情感分析研究综述：方法演化与前沿挑战 next_travel 人工智能机器学习深度学习
文章目录摘要abstract1.引言2.模型方法2.1文本情感分析2.1.1文档级情感分类2.1.2句子级情感分类2.1.3方面级情感分类2.2文本情感分析方法2.2.1基于词典的方法2.2.2基于机器学习的方法2.2.3基于深度学习方法2.3视觉情感分析2.4音频情感分析2.5多模态情感分析2.5.1图文方法2.5.2视听方法2.5.3音频-图像-文本方法3.情感分析的挑战3.1讥讽检测3.2模
PaddleOCR面板恢复python脚本--针对pdf的面板恢复 zsh669 paddlepaddle ocr 百度 python pdf
问题在做一个项目的时候，使用PaddleOCR提供的模型，实现对图片或者pdf进行面板恢复，并保存为.docx文档。但是，官方的文档只提供了针对图片进行面板恢复的python脚本，没有提供pdf进行面板恢复的python脚本，官方只提供了pdf面板恢复的命令行使用方法，因此，我去看了PaddleOCR的源码，将命令行方法转换为python脚本准备工作环境配置和文档请参考：\ppstructure/
conda更换环境版本（比如torch版本）挨打且不服66 python python
找到想要的torch版本pytorch官网torch过往的版本创建新环境condacreate--namemyenvpython=3.8condaactivatemyenvconda虚拟环境中安装CUDA和CUDNN深度学习用显卡训练的时候，需要安装与显卡对应的cuda和cudnn。但不同的项目所支持的pytorch版本是不一样的，而pytorch版本和cuda版本之间又是互相依赖的，所以如果可以
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi