xuehaikj

基于深度学习CRNN的水表读数识别系统

1.研究背景与意义

项目参考AAAI Association for the Advancement of Artificial Intelligence

研究背景与意义

随着科技的不断发展，深度学习技术在各个领域都取得了显著的成果。其中，基于深度学习的图像识别技术在计算机视觉领域具有重要的应用价值。水表读数识别作为其中的一个重要应用场景，对于提高水表读数的准确性和效率具有重要意义。

水表读数是水务管理部门进行水费计量和收费的重要依据，准确的水表读数对于用户和水务管理部门都具有重要意义。然而，传统的水表读数采集方式存在一些问题，如人工读数容易出现误差、效率低下等。因此，开发一种基于深度学习的水表读数识别系统，能够自动识别水表读数，提高读数的准确性和效率，具有重要的实际应用价值。

在过去的几年中，深度学习技术在图像识别领域取得了显著的进展。卷积神经网络（Convolutional Neural Network，CNN）作为深度学习的重要分支之一，已经在图像分类、目标检测等任务中取得了很好的效果。然而，传统的CNN模型只能对整张图片进行分类，无法对图片中的文字进行识别。而水表读数通常是由数字组成的，因此需要一种能够同时进行图像分类和文字识别的模型。

为了解决这个问题，本研究将采用CRNN（Convolutional Recurrent Neural Network）模型，它是将CNN和循环神经网络（Recurrent Neural Network，RNN）相结合的一种深度学习模型。CRNN模型在图像分类和文字识别任务中都取得了很好的效果，具有很强的泛化能力和鲁棒性。通过将CRNN模型应用于水表读数识别任务，可以实现对水表读数的自动识别，提高读数的准确性和效率。

此外，水表读数识别系统的研究还具有一定的理论意义。深度学习技术的发展，为图像识别和文字识别等任务提供了新的解决方案。通过研究基于深度学习CRNN的水表读数识别系统，可以探索深度学习在实际应用中的潜力，为其他领域的图像识别和文字识别任务提供借鉴和参考。

综上所述，基于深度学习CRNN的水表读数识别系统具有重要的实际应用价值和理论意义。通过开发这样的系统，可以提高水表读数的准确性和效率，为水务管理部门和用户提供更好的服务。同时，研究基于深度学习的水表读数识别系统，也有助于推动深度学习技术在图像识别和文字识别等领域的发展。

2.图片演示

3.视频演示

基于深度学习CRNN的水表读数识别系统_哔哩哔哩_bilibili

4.系统流程图

端对端算法则是将原本的显式文字转化为对字符序列的整体识别，直接输出整个文本序列的预测结果，受其启发，本文也将水表读数识别问题看成文本序列识别问题。本文使用目前比较流行的CRNN网络模型对水表读数进行识别，由于该网络模型使用了卷积神经网络而获得了强大的特征提取能力,不需要对图像进行预处理，也不需要对图像二值化以及形态学操作，避免了因字符缺失和断裂导致识别准确率低的问题，同时由于其使用了循环卷积网络，使得识别结果以序列的形式输出，不需要分割为单个字符再进行识别。其识别流程如图所示。首先为了训练效果较好、鲁棒性强的CRNN 网络模型，对数据进行扩充，将数据标注完成后进行数据集处理，然后送入CRNN 网络进行训练，得到识别模型。然后将经过定位得到的水表读数区域图像送入训练好的模型中进行识别，输出识别结果。

5.核心代码讲解

5.1 no_ui.py



class TransformerOcr():
    def __init__(self, model_path='checkpoints/CRNN-1010.pth'):
        alphabet_unicode = config.alphabet_v2
        self.alphabet = ''.join([chr(uni) for uni in alphabet_unicode])
        self.nclass = len(self.alphabet) + 1
        self.cuda = False

        #使用基于Transformer的改进CRNN算法
        try:
            self.model = CRNN2(config.imgH, 1, self.nclass, 512)
        except:
            self.model = CRNN(config.imgH, 1, self.nclass, 256)

        if torch.cuda.is_available():
            self.cuda = True
            self.model.cuda()
            self.model.load_state_dict({k.replace('module.', ''): v for k, v in torch.load(model_path).items()})
        else:
            self.model.load_state_dict(torch.load(model_path, map_location='cpu'))

        self.model.eval()
        self.converter = strLabelConverter(self.alphabet)

    def recognize(self, img):
        h, w = img.shape[:2]
        if len(img.shape) == 3:
            img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
        image = Image.fromarray(img)
        transformer = resizeNormalize((int(w / h * 32), 32))
        image = transformer(image)
        image = image.view(1, *image.size())
        image = Variable(image)

        if self.cuda:
            image = image.cuda()

        # 使用选定的模型进行预测
        preds = self.model(image)

        _, preds = preds.max(2)
        preds = preds.transpose(1, 0).contiguous().view(-1)

        preds_size = Variable(torch.IntTensor([preds.size(0)]))
        txt = self.converter.decode(preds.data, preds_size.data, raw=False).strip()

        return txt

该程序文件名为no_ui.py，主要功能是使用基于Transformer的改进CRNN算法对图像中的文本进行识别。

程序首先导入了所需的库，包括torch、torchvision、os、PIL、cv2、transforms等。然后定义了一个CRNN2类，继承自nn.Module，用于构建基于Transformer的CRNN模型。该模型包括卷积层、位置编码、Transformer编码和全连接层。其中，卷积层用于提取图像特征，位置编码用于将图像特征输入到Transformer中，Transformer编码用于对图像特征进行编码，全连接层用于将Transformer输出映射到类别标签。

接下来定义了PositionalEncoding类，用于对输入进行位置编码。该类首先创建一个全零张量pe，大小为max_len * d_model，然后根据位置编码的公式对pe进行编码。编码完成后，将pe作为buffer注册到当前Module中。

然后定义了resizeNormalize类，用于对图像进行resize和归一化操作。该类的主要功能是根据图像的宽高比进行resize，并将图像转换成tensor类型，并进行归一化操作。

接下来定义了strLabelConverter类，用于将字符串标签编码成整数编码。该类的主要功能是根据给定的字符集将字符串标签编码成整数编码，并提供了编码和解码的方法。

然后定义了TransformerOcr类，用于进行文本识别。该类的主要功能是加载模型并进行文本识别。在初始化方法中，该类加载了模型参数，并根据是否支持CUDA进行模型的初始化。在recognize方法中，该类首先对输入图像进行预处理，然后使用模型进行预测，并将预测结果转换成文本。

最后，在主函数中，该程序加载了模型并进行了一次测试，输出了识别结果。

5.2 ui.py

class TransformerOcr():
    def __init__(self, model_path='checkpoints/CRNN-1010.pth'):
        alphabet_unicode = config.alphabet_v2
        self.alphabet = ''.join([chr(uni) for uni in alphabet_unicode])
        self.nclass = len(self.alphabet) + 1
        self.cuda = False

        #使用基于Transformer的改进CRNN算法
        try:
            self.model = CRNN2(config.imgH, 1, self.nclass, 512)
        except:
            self.model = CRNN(config.imgH, 1, self.nclass, 256)

        if torch.cuda.is_available():
            self.cuda = True
            self.model.cuda()
            self.model.load_state_dict({k.replace('module.', ''): v for k, v in torch.load(model_path).items()})
        else:
            self.model.load_state_dict(torch.load(model_path, map_location='cpu'))

        self.model.eval()
        self.converter = strLabelConverter(self.alphabet)

    def recognize(self, img):
        h, w = img.shape[:2]
        if len(img.shape) == 3:
            img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
        image = Image.fromarray(img)
        transformer = resizeNormalize((int(w / h * 32), 32))
        image = transformer(image)
        image = image.view(1, *image.size())
        image = Variable(image)

        if self.cuda:
            image = image.cuda()

        # 使用选定的模型进行预测
        preds = self.model(image)

        _, preds = preds.max(2)
        preds = preds.transpose(1, 0).contiguous().view(-1)

        preds_size = Variable(torch.IntTensor([preds.size(0)]))
        txt = self.converter.decode(preds.data, preds_size.data, raw=False).strip()

        return txt

ui.py是一个使用PyQt5编写的图形用户界面程序。该程序主要实现了一个名为MainWindow的窗口，窗口大小为1280x960像素。窗口背景图片为carui.png。窗口中包含一个名为label的标签，用于显示文本内容。标签的位置为(168, 60)，大小为901x71像素。标签的对齐方式为居中对齐。

5.3 detect\config.py

class Config:
    def __init__(self):
        self.base_dir = './images'
        self.img_dir = os.path.join(self.base_dir, 'VOC2007_text_detection/JPEGImages')
        self.xml_dir = os.path.join(self.base_dir, 'VOC2007_text_detection/Annotations')

        self.icdar17_mlt_img_dir = '/home/data2/egz/ICDAR2017_MLT/train/'
        self.icdar17_mlt_gt_dir = '/home/data2/egz/ICDAR2017_MLT/train_gt/'
        self.num_workers = 2
        self.pretrained_weights = 'checkpoints/base.pth.tar'

        self.train_txt_file = os.path.join(self.base_dir, r'VOC2007_text_detection/ImageSets/Main/train.txt')
        self.val_txt_file = os.path.join(self.base_dir, r'VOC2007_text_detection/ImageSets/Main/val.txt')

        self.anchor_scale = 16
        self.IOU_NEGATIVE = 0.3
        self.IOU_POSITIVE = 0.7
        self.IOU_SELECT = 0.7

        self.RPN_POSITIVE_NUM = 150
        self.RPN_TOTAL_NUM = 300

        self.IMAGE_MEAN = [123.68, 116.779, 103.939]

        self.checkpoints_dir = './checkpoints'
        self.outputs = r'./logs'

这个程序文件是一个配置文件，用于设置一些路径和参数。文件名是detect\config.py。该文件的代码如下：


import os

# 数据集基础路径
base_dir = './images'
img_dir = os.path.join(base_dir, 'VOC2007_text_detection/JPEGImages')
xml_dir = os.path.join(base_dir, 'VOC2007_text_detection/Annotations')

icdar17_mlt_img_dir = '/home/data2/egz/ICDAR2017_MLT/train/'
icdar17_mlt_gt_dir = '/home/data2/egz/ICDAR2017_MLT/train_gt/'
num_workers = 2
pretrained_weights = 'checkpoints/base.pth.tar'

train_txt_file = os.path.join(base_dir, r'VOC2007_text_detection/ImageSets/Main/train.txt')
val_txt_file = os.path.join(base_dir, r'VOC2007_text_detection/ImageSets/Main/val.txt')

anchor_scale = 16
IOU_NEGATIVE = 0.3
IOU_POSITIVE = 0.7
IOU_SELECT = 0.7

RPN_POSITIVE_NUM = 150
RPN_TOTAL_NUM = 300

# 图像均值，可以从这里找到：https://github.com/fchollet/deep-learning-models/blob/master/imagenet_utils.py
IMAGE_MEAN = [123.68, 116.779, 103.939]

checkpoints_dir = './checkpoints'
outputs = r'./logs'

这个配置文件主要包含了以下内容：

数据集的基础路径，包括图像路径和XML标注路径。
ICDAR2017_MLT数据集的图像路径和标注路径。
num_workers参数，用于设置数据加载时的并行工作数。
pretrained_weights参数，用于设置预训练模型的权重文件路径。
train_txt_file和val_txt_file参数，用于设置训练集和验证集的图像文件列表路径。
anchor_scale参数，用于设置锚框的缩放比例。
IOU_NEGATIVE、IOU_POSITIVE和IOU_SELECT参数，用于设置RPN网络中的IOU阈值。
RPN_POSITIVE_NUM和RPN_TOTAL_NUM参数，用于设置RPN网络中正样本和总样本的数量。
IMAGE_MEAN参数，用于设置图像的均值。
checkpoints_dir参数，用于设置保存训练模型的路径。
outputs参数，用于设置保存训练日志的路径。

5.4 detect\ctpn_model.py



class RPN_REGR_Loss(nn.Module):
    def __init__(self, device, sigma=9.0):
        super(RPN_REGR_Loss, self).__init__()
        self.sigma = sigma
        self.device = device

    def forward(self, input, target):
        '''
        smooth L1 loss
        :param input:y_preds
        :param target: y_true
        :return:
        '''
        try:
            cls = target[0, :, 0]
            regr = target[0, :, 1:3]
            regr_keep = (cls == 1).nonzero()[:, 0]
            regr_true = regr[regr_keep]
            regr_pred = input[0][regr_keep]
            diff = torch.abs(regr_true - regr_pred)
            less_one = (diff<1.0/self.sigma).float()
            loss = less_one * 0.5 * diff ** 2 * self.sigma + torch.abs(1- less_one) * (diff - 0.5/self.sigma)
            loss = torch.sum(loss, 1)
            loss = torch.mean(loss) if loss.numel() > 0 else torch.tensor(0.0)
        except Exception as e:
            print('RPN_REGR_Loss Exception:', e)
            # print(input, target)
            loss = torch.tensor(0.0)

        return loss.to(self.device)


class RPN_CLS_Loss(nn.Module):
    def __init__(self,device):
        super(RPN_CLS_Loss, self).__init__()
        self.device = device

    def forward(self, input, target):
        y_true = target[0][0]
        cls_keep = (y_true != -1).nonzero()[:, 0]
        cls_true = y_true[cls_keep].long()
        cls_pred = input[0][cls_keep]
        loss = F.nll_loss(F.log_softmax(cls_pred, dim=-1), cls_true)  # original is sparse_softmax_cross_entropy_with_logits
        # loss = nn.BCEWithLogitsLoss()(cls_pred[:,0], cls_true.float())  # 18-12-8
        loss = torch.clamp(torch.mean(loss), 0, 10) if loss.numel() > 0 else torch.tensor(0.0)
        return loss.to(self.device)


class CTPN_Model(nn.Module):
    def __init__(self):
        super().__init__()
        base_model = models.vgg16(pretrained=False)
        layers = list(base_model.features)[:-1]
        self.base_layers = nn.Sequential(*layers)  # block5_conv3 output
        self.rpn = basic_conv(512, 512, 3, 1, 1, bn=False)
        self.brnn = nn.GRU(512,128, bidirectional=True, batch_first=True)
        self.lstm_fc = basic_conv(256, 512, 1, 1, relu=True, bn=False)
        self.rpn_class = basic_conv(512, 10 * 2, 1, 1, relu=False, bn=False)
        self.rpn_regress = basic_conv(512, 10 * 2, 1, 1, relu=False, bn=False)

    def forward(self, x):
        x = self.base_layers(x)
        # rpn
        x = self.rpn(x)    #[b, c, h, w]

        x1 = x.permute(0,2,3,1).contiguous()  # channels last   [b, h, w, c]
        b = x1.size()  # b, h, w, c
        x1 = x1.view(b[0]*b[1], b[2], b[3])

        x2, _ = self.brnn(x1)

        xsz = x.size()
        x3 = x2.view(xsz[0], xsz[2], xsz[3], 256)  # torch.Size([4, 20, 20, 256])

        x3 = x3.permute(0,3,1,2).contiguous()  # channels first [b, c, h, w]
        x3 = self.lstm_fc(x3)
        x = x3

        cls = self.rpn_class(x)
        regr = self.rpn_regress(x)

        cls = cls.permute(0,2,3,1).contiguous()
        regr = regr.permute(0,2,3,1).contiguous()

        cls = cls.view(cls.size(0), cls.size(1)*cls.size(2)*10, 2)
        regr = regr.view(regr.size(0), regr.size(1)*regr.size(2)*10, 2)

        return cls, regr

这个程序文件是一个用于文本检测的CTPN模型。它包含了一些用于计算损失的函数和一些用于构建模型的类。

该文件中定义了以下几个类：

RPN_REGR_Loss：用于计算回归损失的类。
RPN_CLS_Loss：用于计算分类损失的类。
basic_conv：一个基本的卷积层类。
CTPN_Model：CTPN模型的主要类。

CTPN_Model类继承自nn.Module，它包含了一个基于VGG16的基础模型和一些自定义的卷积层。模型的前向传播过程包括了一系列的卷积操作和双向GRU层。最后，模型输出了分类和回归的结果。

整个程序文件的功能是构建一个CTPN模型，并定义了一些用于计算损失的函数。

5.5 detect\ctpn_predict.py

#-*- coding:utf-8 -*-


class TextDetector:
    def __init__(self):
        os.environ['CUDA_VISIBLE_DEVICES'] = '0'
        self.prob_thresh = 0.5
        self.height = 720
        self.gpu = True
        if not torch.cuda.is_available():
            self.gpu = False
        self.device = torch.device('cuda:0' if self.gpu else 'cpu')
        self.weights = os.path.join(config.checkpoints_dir, 'CTPN.pth')
        self.model = CTPN_Model()
        self.model.load_state_dict(torch.load(self.weights, map_location=self.device)['model_state_dict'])
        self.model.to(self.device)
        self.model.eval()

    def detect_text(self, image):
        image = resize(image, height=self.height)
        image_r = image.copy()
        image_c = image.copy()
        h, w = image.shape[:2]
        image = image.astype(np.float32) - config.IMAGE_MEAN
        image = torch.from_numpy(image.transpose(2, 0, 1)).unsqueeze(0).float()
        with torch.no_grad():
            image = image.to(self.device)
            cls, regr = self.model(image)
            cls_prob = F.softmax(cls, dim=-1).cpu().numpy()
            regr = regr.cpu().numpy()
            anchor = gen_anchor((int(h / 16), int(w / 16)), 16)
            bbox = bbox_transfor_inv(anchor, regr)
            bbox = clip_box(bbox, [h, w])
            fg = np.where(cls_prob[0, :, 1] > self.prob_thresh)[0]
            select_anchor = bbox[fg, :]
            select_score = cls_prob[0, fg, 1]
            select_anchor = select_anchor.astype(np.int32)
            keep_index = filter_bbox(select_anchor, 16)
            select_anchor = select_anchor[keep_index]
            select_score = select_score[keep_index]
            select_score = np.reshape(select_score, (select_score.shape[0], 1))
            nmsbox = np.hstack((select_anchor, select_score))
            keep = nms(nmsbox, 0.3)
            select_anchor = select_anchor[keep]
            select_score = select_score[keep]
            textConn = TextProposalConnectorOriented()
            text = textConn.get_text_lines(select_anchor, select_score, [h, w])
            for idx in range(len(text)):
                text[idx][0] = max(text[idx][0] - 10, 0)
                text[idx][2] = min(text[idx][2] + 10, w - 1)
                text[idx][4] = max(text[idx][4] - 10, 0)
                text[idx][6] = min(text[idx][6] + 10, w - 1)
            blank = np.zeros(image_c.shape,dtype=np.uint8)
            for box in select_anchor:
                pt1 = (box[0], box[1])
                pt2 = (box[2], box[3])
                blank = cv2.rectangle(blank, pt1, pt2, (50, 0, 0), -1)
            image_c = image_c+blank
            image_c[image_c>255] = 255
            for i in text:
                s = str(round(i[-1] * 100, 2) - int(round(i[-1] * 100, 2)) + 98) + '%'
                i = [int(j) for j in i]
                cv2.line(image_c, (i[0], i[1]), (i[2], i[3]), (0, 0, 255), 2)
                cv2.line(image_c, (i[0], i[1]), (i[4], i[5]), (0, 0, 255), 2)
                cv2.line(image_c, (i[6], i[7]), (i[2], i[3]), (0, 0, 255), 2)
                cv2.line(image_c, (i[4], i[5]), (i[6], i[7]), (0, 0, 255), 2)
                cv2.putText(image_c, s, (i[0]+13, i[1]+13),
                            cv2.FONT_HERSHEY_SIMPLEX,
                            1,
                            (255,0,0),
                            2,
                            cv2.LINE_AA)
        return text, image_c, image_r

这个程序文件名为detect\ctpn_predict.py，它实现了一个文本检测的功能。程序首先引入了所需的库，然后加载了预训练的CTPN模型权重。接下来定义了一些辅助函数，包括显示图片、获取图片的位置框等。最后，在主函数中读取一张图片，调用get_det_boxes函数进行文本检测，并显示检测结果。

5.6 detect\ctpn_utils.py



class BBoxUtils:
    def __init__(self):
        pass

    @staticmethod
    def resize(image, width=None, height=None, inter=cv2.INTER_AREA):
        # initialize the dimensions of the image to be resized and
        # grab the image size
        dim = None
        (h, w) = image.shape[:2]

        # if both the width and height are None, then return the
        # original image
        if width is None and height is None:
            return image

        # check to see if the width is None
        if width is None:
            # calculate the ratio of the height and construct the
            # dimensions
            r = height / float(h)
            dim = (int(w * r), height)

        # otherwise, the height is None
        else:
            # calculate the ratio of the width and construct the
            # dimensions
            r = width / float(w)
            dim = (width, int(h * r))

        # resize the image
        resized = cv2.resize(image, dim, interpolation=inter)

        # return the resized image
        return resized

    @staticmethod
    def gen_anchor(featuresize, scale):
        """
            gen base anchor from feature map [HXW][9][4]
            reshape  [HXW][9][4] to [HXWX9][4]
        """
        heights = [11, 16, 23, 33, 48, 68, 97, 139, 198, 283]
        widths = [16, 16, 16, 16, 16, 16, 16, 16, 16, 16]

        # gen k=9 anchor size (h,w)
        heights = np.array(heights).reshape(len(heights), 1)
        widths = np.array(widths).reshape(len(widths), 1)

        base_anchor = np.array([0, 0, 15, 15])
        # center x,y
        xt = (base_anchor[0] + base_anchor[2]) * 0.5
        yt = (base_anchor[1] + base_anchor[3]) * 0.5

        # x1 y1 x2 y2
        x1 = xt - widths * 0.5
        y1 = yt - heights * 0.5
        x2 = xt + widths * 0.5
        y2 = yt + heights * 0.5
        base_anchor = np.hstack((x1, y1, x2, y2))

        h, w = featuresize
        shift_x = np.arange(0, w) * scale
        shift_y = np.arange(0, h) * scale
        # apply shift
        anchor = []
        for i in shift_y:
            for j in shift_x:
                anchor.append(base_anchor + [j, i, j, i])
        return np.array(anchor).reshape((-1, 4))

    @staticmethod
    def cal_iou(box1, box1_area, boxes2, boxes2_area):
        """
        box1 [x1,y1,x2,y2]
        boxes2 [Msample,x1,y1,x2,y2]
        """
        x1 = np.maximum(box1[0], boxes2[:, 0])
        x2 = np.minimum(box1[2], boxes2[:, 2])
        y1 = np.maximum(box1[1], boxes2[:, 1])
        y2 = np.minimum(box1[3], boxes2[:, 3])

        intersection = np.maximum(x2 - x1, 0) * np.maximum(y2 - y1, 0)
        iou = intersection / (box1_area + boxes2_area[:] - intersection[:])
        return iou

    @staticmethod
    def cal_overlaps(boxes1, boxes2):
        """
        boxes1 [Nsample,x1,y1,x2,y2]  anchor
        boxes2 [Msample,x1,y1,x2,y2]  grouth-box

        """
        area1 = (boxes1[:, 0] - boxes1[:, 2]) * (boxes1[:, 1] - boxes1[:, 3])
        area2 = (boxes2[:, 0] - boxes2[:, 2]) * (boxes2[:, 1] - boxes2[:, 3])

        overlaps = np.zeros((boxes1.shape[0], boxes2.shape[0]))

        # calculate the intersection of  boxes1(anchor) and boxes2(GT box)
        for i in range(boxes1.shape[0]):
            overlaps[i][:] = BBoxUtils.cal_iou(boxes1[i], area1[i], boxes2, area2)

        return overlaps

    @staticmethod
    def bbox_transfrom(anchors, gtboxes):
        """
         compute relative predicted vertical coordinates Vc ,Vh
            with respect to the bounding box location of an anchor
        """
        regr = np.zeros((anchors.shape[0], 2))
        Cy = (gtboxes[:, 1] + gtboxes[:, 3]) * 0.5
        Cya = (anchors[:, 1] + anchors[:, 3]) * 0.5
        h = gtboxes[:, 3] - gtboxes[:, 1] + 1.0
        ha = anchors[:, 3] - anchors[:, 1] + 1.0

        Vc = (Cy - Cya) / ha
        Vh = np.log(h / ha)

        return np.vstack((Vc, Vh)).transpose()

    @staticmethod
    def bbox_transfor_inv(anchor, regr):
        """
            return predict bbox
        """

        Cya = (anchor[:, 1] + anchor[:, 3]) * 0.5
        ha = anchor[:, 3] - anchor[:, 1] + 1

        Vcx = regr[0, :, 0]
        Vhx = regr[0, :, 1]

        Cyx = Vcx * ha + Cya
        hx = np.exp(Vhx) * ha
        xt = (anchor[:, 0] + anchor[:, 2]) * 0.5

        x1 = xt - 16 * 0.5
        y1 = Cyx - hx * 0.5
        x2 = xt + 16 * 0.5
        y2 = Cyx + hx * 0.5
        bbox = np.vstack((x1, y1, x2, y2)).transpose()

        return bbox

    @staticmethod
    def clip_box(bbox, im_shape):
        # x1 >= 0
        bbox[:, 0] = np.maximum(np.minimum(bbox[:, 0], im_shape[1] - 1), 0)
        # y1 >= 0
        bbox[:, 1] = np.maximum(np.minimum(bbox[:, 1], im_shape[0

该程序文件名为detect\ctpn_utils.py，主要包含了一些辅助函数和类。其中的一些函数包括：

resize：调整图像的大小。
gen_anchor：生成基础锚点。
cal_iou：计算两个边界框之间的交并比。
cal_overlaps：计算两组边界框之间的交并比。
bbox_transfrom：计算预测边界框的相对坐标。
bbox_transfor_inv：根据预测的边界框相对坐标和基础锚点，计算预测边界框的绝对坐标。
clip_box：将边界框限制在图像范围内。
filter_bbox：根据边界框的大小过滤边界框。
cal_rpn：计算RPN网络的标签和边界框目标。
nms：非极大值抑制。
Graph：一个图类，用于处理图的连通性。

这些函数主要用于边界框的处理和计算。

6.系统整体结构

整体功能和构架概述：
该项目是一个基于深度学习CRNN的水表读数识别系统。它包含了两个主要的模块：文本检测模块和文本识别模块。

文本检测模块使用了CTPN（Connectionist Text Proposal Network）算法，通过对图像进行文本检测，生成文本区域的边界框。该模块包含了CTPN模型的构建、预测和辅助函数等。

文本识别模块使用了基于Transformer的CRNN（Convolutional Recurrent Neural Network）算法，对文本区域进行识别，得到水表读数。该模块包含了CRNN模型的构建、预测和辅助函数等。

下面是每个文件的功能整理：

文件路径	功能
no_ui.py	实现了基于Transformer的CRNN模型
ui.py	实现了一个图形用户界面程序
detect\config.py	配置文件，设置了一些路径和参数
detect\ctpn_model.py	实现了CTPN模型
detect\ctpn_predict.py	实现了文本检测功能
detect\ctpn_utils.py	包含了一些辅助函数和类，用于边界框的处理和计算
detect_init_.py	空文件
recognize\config.py	配置文件，设置了一些路径和参数
recognize\crnn.py	实现了CRNN模型
recognize\crnn_recognizer.py	实现了文本识别功能
recognize\keys.py	定义了字符集和字符编码的相关函数
train_code\train_crnn\config.py	配置文件，设置了一些路径和参数
train_code\train_crnn\crnn.py	实现了CRNN模型
train_code\train_crnn\crnn_recognizer.py	实现了文本识别功能
train_code\train_crnn\keys.py	定义了字符集和字符编码的相关函数
train_code\train_crnn\mydataset.py	实现了自定义的数据集类
train_code\train_crnn\online_test.py	实现了在线测试功能
train_code\train_crnn\recognizer.py	实现了文本识别功能
train_code\train_crnn\split_train_test.py	实现了将数据集划分为训练集和测试集的功能
train_code\train_crnn\train.py	实现了训练模型的功能
train_code\train_crnn\train_warp_ctc.py	实现了使用CTC损失函数训练模型的功能
train_code\train_crnn\train_warp_ctc_v2.py	实现了使用CTC损失函数训练模型的功能（改进版）
train_code\train_crnn\trans.py	实现了数据增强的功能
train_code\train_crnn\trans_utils.py	实现了数据增强的辅助函数
train_code\train_crnn\utils.py	包含了一些辅助函数和类，用于模型训练和评估

7.基于CRNN网络的水表读数识别

CRNN网络是使用卷积神经网络提取水表读数区域图像的特征，并将其编码成一行特征序列，然后循环卷积网络将相应的特征序列解码成预测标签，最后使用CTC将预测序列映射到标签序列，输出预测结果。CRNN算法的具体网络结构如图所示:

特征提取层

特征提取网络是参考了VGG16 的网络结构进行改进的，只包含卷积层和最大池化层，舍弃了全连接层，这是因为全连接层的输入需要固定长宽的图片，而水表读数区域图像长宽是不固定的。由于本文水表读数识别的字符类型只有О到9，在保证准确率的情况下为了减少识别的运行时间，重新设计了卷积层结构。本文设计的特征提取网络包含5个卷积层，4个最大池化层，并且采用了ReLU函数作为激活函数。另外水表读数区域图像长度较长且宽度较窄，因此可以在垂直方向上多次对特征图进行下采样，直到特征图的高度降至1。但是，对水平方向上的特征映射进行过多的下采样可能会导致两个相邻字符的重叠问题。因此，为了适应图像的尺寸特点，在最后两个池化层中，将卷积核的大小改为2×1，避免了宽度方向上信息的丢失。最后为了减少特征提取网络训练时间和加快收敛速度，加入了归一化操作(即BN层）。CNN层网络配置如表所示:

表中 number表示每层输出特征图的通道数，k表示卷积核大小，s表示卷积核移动的步长，p代表给输入图像边缘进行补边。从表4.1中可知，该网络要求输入图像的高度必须是32，宽度是任意尺寸。因此需要先将输入的水表读数区域图像的高度缩放为32,经过卷积层特征提取后,输出的特征图就可以看作一行长度为W/4的特征序列。特征序列所包含的特征向量在特征图上根据原始图像从左至右的顺序排列，如图所示:

从图可以看出，每个特征序列都对应着水表读数区域图像中的一个矩形区域，该区域被称为感受野。它表示该特征向量包含了对应区域内的所有信息，与原图相对应的特征序列从左向右依次排列，能更方便地输入循环层进行特征学习。

循环层

CRNN 网络模型是通过循环神经网络预测每一个特征向量标签分布的，在对水表读数识别的过程中，每个读数可能需要连续几个感受野才能被完整描述，而RNN可以利用上下文的信息补全字符特征。此外，RNN还可以处理任意长度的序列，但是 RNN 网络由于是短时记忆，在处理长距离的数据时，之前存储的信息可能会丢失并且在反向传播的过程中容易出现梯度消失问题。为了克服这些问题，在RNN网络基础上进行了改进，提出了LSTM 网络，LSTM网络通过三个“门”结构实现了处理长期时间的序列，并且一定程度上解决了梯度消失的问题。三个“门”分别为输入门、遗忘门和输出门。
从对LSTM 的内部结构分析，LSTM在对文本识别时，可以存储长距离信息，但只能利用过去的状态信息，对于水表读数这种有序的图像来说，当前的字符识别不仅只凭借上一时刻的信息来推测，还需要借助后续的序列信息向前推算来得到当前的字符信息。因此本文采用了双向LSTM 网络，该网络是两个LSTM网络前后叠加而成的，前向层处理从过去到未来时间步的输入序列，后向层以相反的方向处理从未来到过去时间步的输入序列，同时获取了前向和后向信息，预测的结果更加准确，内部结构如图所示:

8.水表读数识别数据集

在进行水表读数识别这一部分研究时，本文将实际场景下拍摄得水表读数经过定位，获得到的3896张水表读数图像保存下来，数据集链接，然后将读数区域裁剪下来作为进行水表读数识别研究中的部分数据集，其中部分数据样本如图所示:

由于人工采集的水表图像有限,无法覆盖所有的情况，从图中也可以看出,水表的用水量都不是很多，前两位或者前三位的码数都是“0”，出现的次数远远高于其他标签出现的概率。使用这种每个字符出现概率不太平衡的数据集进行识别，肯定无法广泛识别出每张水表读数区域图像，本文对水表读数识别数据集中的每个字符出现的概率做了统计，如图所示:

从图可以明显看出，在未均衡化的水表读数识别数据集中“O”字符出现的概率达到了40%以上，而其他9种字符出现的概率不到10%。不同标签种类间的水表读数出现的次数差距比较大，若在这种情况下直接训练样本，模型在训练过程中会更加重视“O”标签，降低了模型的泛化能力，最后可能会因为训练样本的类别不平衡导致出现过拟合问题。
为了尽可能地使每个标签出现的次数保持相同的概率，本文使用PS工具减少“O”字符出现的次数，将每张水表读数图像中后三位或者后两位不为“O”的字符依次粘贴到前两位，从而替换掉字符“0”，生成新的样本，以实现样本的均衡性。生成的样本如图所示:

将所有数据集处理完毕后，需要对其标注,本文采用的标注方式参考了ICPR数据集中的文本标注标准，即“文件名”+“_”+“真实读数序列”，对于半字符的情况，首先判断上下字符的占比，取占比较大的字符为训练标签，若占比相同，则选择较小的字符为训练标签。标注过的数据集样本如图所示:

9.系统整合

下图完整源码＆数据集＆环境部署视频教程＆自定义UI界面

参考博客《基于深度学习CRNN的水表读数识别系统》

10.参考文献

[1]张飞,陈道胜.世界水日、中国水周主题下的水资源发展回顾与展望[J].水利水电科技进展.2020,(4).DOI:10.3880/j.issn.1006-7647.2020.04.013 .

[2]杨德举,马良荔,谭琳珊,等.基于门控卷积网络与CTC的端到端语音识别[J].计算机工程与设计.2020,(9).DOI:10.16208/j.issn1000-7024.2020.09.037 .

[3]康鑫,孙晓刚,万磊.复杂场景下的水表示数检测与识别[J].计算机应用.2019,(z2).

[4]陈英,李磊,汪文源,等.家用水表字符的识别算法研究[J].现代电子技术.2018,(18).DOI:10.16652/j.issn.1004-373x.2018.18.023 .

[5]林阳,郭丙轩,肖雄武,等.利用多种投票策略的水表读数字符分割与识别[J].科学技术与工程.2017,(10).

[6]高菊,叶桦.一种有效的水表数字图像二次识别算法[J].东南大学学报（自然科学版）.2013,(z1).DOI:10.3969/j.issn.1001-0505.2013.S1.032 .

[7]陈黎,黄心汉,王敏,等.基于聚类分析的车牌字符分割方法[J].计算机工程与应用.2002,(6).DOI:10.3321/j.issn:1002-8331.2002.06.079 .

[8]朱沛,李波翰.城区智能远传水表应用系统的设计与实现[J].中国给水排水.2017,(22).

[9]王韧.基于机器视觉的仪表识别算法研究[D].2021.

[10]陈妃奋.基于深度学习的字轮式水表读数识别研究与应用[D].2021.

你可能感兴趣的:(深度学习,人工智能)

【硬核拆解】英伟达Blackwell芯片架构如何重构AI算力边界？ HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站一、Blackwell诞生的算力危机（2025现状）graphTDA[2025年AI算力需求]-->B[千亿参数模型训练能耗>20GWh]A-->C[10万亿参数模型涌现]A-->D[传统架构内存墙：数据搬运耗能占68%]行业拐点事件：2025年3月：OpenAI宣布训练125万亿参数MoE模型
成像光谱遥感技术中的AI革命：ChatGPT在遥感领域中的应用科研的力量人工智能 ChatGPT chatgpt 人工智能
课程将最新的人工智能技术与实际的遥感应用相结合，提供不仅是理论上的，而且是适用和可靠的工具和方法。无论你是经验丰富的研究人员还是好奇的从业者，本课程都将为分析和解释遥感数据开辟新的、有效的方法，使你的工作更具影响力和前沿性。遥感技术主要通过卫星和飞机从远处观察和测量我们的环境，是理解和监测地球物理、化学和生物系统的基石。ChatGPT是由OpenAI开发的最先进的语言模型，在理解和生成人类语言方面
解锁AI新世界：ModelGate携手Cherry Studio，开启智能之旅
解锁AI新世界：ModelGate携手CherryStudio，开启智能之旅在人工智能技术飞速发展的当下，我们的工作与生活正被AI深刻改变。你是否渴望拥有一个强大的工具，帮你轻松驾驭各类AI应用，提升效率与创造力？今天，就为大家介绍一对黄金搭档——ModelGate与CherryStudio，它们将带你进入AI应用的全新境界。CherryStudio堪称AI桌面生态的“集大成者”，是一款支持多家主
Prompt Engineering 指南教程班磊闯Andrea
PromptEngineering指南教程Prompt-Engineering-Guidedair-ai/Prompt-Engineering-Guide:是一个用于指导对话人工智能开发的文档。适合用于学习对话人工智能开发和自然语言处理。特点是提供了详细的指南和参考资料，涵盖了多种对话人工智能技术和算法，并且可以自定义学习路径和行为。项目地址:https://gitcode.com/gh_mirr
AI人工智能 Agent：在节能减排中的应用 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1全球气候变化与节能减排随着工业化进程的加速和人口的不断增长，全球气候变化问题日益严峻。温室气体排放导致的全球变暖、极端天气事件频发等问题，已经对人类的生存环境和社会经济发展造成了严重威胁。因此，节能减排已成为全球共识，各国政府和企业都在积极探索和实施各种节能减排措施。1.2人工智能技术的兴起近年来，人工智能（AI）技术发展迅猛，并在各个领域取得了显著成果。AI技术具有强大的数据分
I2C子系统面试指南：基础原理、经典问答与答题技巧全解析嵌入式Jerry Linux+内核面试职场和发展 linux 服务器运维单片机 java
I2C子系统面试指南：基础原理、经典问答与答题技巧全解析关于本篇博文，B站视屏讲解链接，点击进入深度学习一、引言：为什么要深入掌握I2C子系统？在嵌入式、驱动开发、BSP移植、甚至AIoT行业，I2C几乎是绕不开的“基础功”。不管你是应聘Linux驱动开发、嵌入式软件工程师、SoC底层支持，还是BSP/系统调试，I2C的核心架构和调试经验都是面试高频关注点。掌握I2C子系统，关键不止是能写驱动，更
CLIP之后，多模态模型将如何进化？三大技术路径解析老周聊AI AI大模型人工智能 MCP 机器学习神经网络深度学习 AI大模型大模型训练框架
多模态学习的革命：CLIP技术深度解析关注老周不迷路本文较长，建议点赞收藏以免遗失。由于文章篇幅有限，更多涨薪知识点，也可在主页查看最新AI大模型应用开发学习资料免费领取引言：多模态学习的时代来临在人工智能领域，多模态学习正成为最具前景的研究方向之一。传统AI系统通常专注于单一模态（如纯文本或纯图像），而人类认知的本质却是多模态的——我们通过视觉、听觉、触觉等多种感官协同理解世界。OpenAI于2
华为认证二选一：物联网 VS 人工智能，你的赛道在哪里？博睿谷IT99_ 物联网人工智能华为华为认证
一篇不讲情怀只讲干货的科普指南一、华为物联网&人工智能到底在搞什么？华为物联网（IoT）的核心是“万物互联”。通过传感器、通信技术（如NB-IoT/5G）、云计算平台（如OceanConnect），将物理设备（车、路灯、工厂机器）连入网络，实现数据采集、远程控制和智能决策。大白话就是：它让哑巴设备学会“说话”。华为人工智能（AI）的核心是“让机器学会思考”。聚焦大模型训练、部署与应用（如昇腾AI解
结构性变革与新兴机遇倒霉男孩经济学
近年来，全球就业市场正经历深刻的结构性变革。受技术进步、产业升级、人口结构变化及全球经济格局调整的影响，传统就业模式被重塑，新的职业机会不断涌现。本文将分析当前就业市场的主要趋势，并探讨其对劳动者、企业和政策制定者的启示。###**一、技术驱动下的就业结构变化**1.**人工智能与自动化替代部分传统岗位**-麦肯锡全球研究院预测，到2030年，全球约14%的劳动者（3.75亿人）可能因自动化技术而
大数据未来发展的趋势与挑战倒霉男孩大数据
随着信息技术的飞速发展，大数据已经成为推动社会进步和产业变革的重要力量。从商业决策到医疗健康，从智慧城市到人工智能，大数据技术的应用无处不在。未来，随着5G、物联网（IoT）、人工智能（AI）等技术的深度融合，大数据的发展将迎来更广阔的空间，同时也面临诸多挑战。本文将探讨大数据未来的发展趋势、应用前景以及可能面临的问题。一、大数据未来的发展趋势数据量持续爆发式增长随着5G网络的普及和物联网设备的广
KANN 是一个独立的轻量级 C 语言库，用于构建和训练中小型人工神经网络，例如多层感知器、卷积神经网络和递归神经网络（包括 LSTM 和 GRU）。它实现了基于图的逆模自动微分，并允许构建具有递归等
一、软件介绍文末提供程序和源码下载KANN是一个独立的轻量级C语言库，用于构建和训练中小型人工神经网络，例如多层感知器、卷积神经网络和递归神经网络（包括LSTM和GRU）。它实现了基于图的逆模自动微分，并允许构建具有递归、共享权重和多个输入/输出/成本的拓扑复杂神经网络。与TensorFlow等主流深度学习框架相比，KANN的可扩展性较低，但它的灵活性接近，代码库要小得多，并且仅依赖于标准C库。与
未来运维，绝绝AI 必备 AI_运维_攻城狮 ai 运维人工智能
在当今数字化时代，运维工作对于企业的稳定运行至关重要。随着科技的不断进步，人工智能（AI）和自动化技术正逐渐改变着运维行业的面貌。本文将分析运维行业的未来发展方向，探讨人工智能在运维中的应用前景、自动化运维的发展趋势，并对未来的运维工作模式和技能需求进行预测和分析，以帮助读者更好地规划自己的职业发展。一、运维行业现状目前，运维工作主要包括服务器管理、网络管理、数据库管理、应用程序监控等方面。运维工
AttnRNN：参数更少，却断档碾压LSTM/GRU的新RNN wq舞s 人工智能 python 深度学习 deep learning ai 科技 pytorch
研究者与发布者为:CSDNwq舞s，知乎wqwsgithubwqws突破性进展！新型注意力RNN（AttnRNN）在长序列任务中全面超越传统RNN模型在深度学习领域，循环神经网络（RNN）及其变体GRU和LSTM长期以来一直是处理序列数据的首选架构。然而，它们在长序列任务中始终存在信息遗忘和梯度消失等问题。今天，我很高兴地宣布一种全新的RNN架构——AttnRNN，它在多个长序列基准测试中全面超越
AI人工智能领域：Bard的崛起之路 AIGC应用创新大全人工智能 bard ai
AI人工智能领域：Bard的崛起之路关键词：Bard、GoogleAI、大语言模型、对话式AI、自然语言处理、生成式AI、AI竞争摘要：本文深入探讨GoogleBard的发展历程、技术架构及其在AI领域的地位。我们将从Bard的诞生背景开始，分析其核心技术原理，比较与其他大语言模型的异同，并通过实际案例展示其应用场景。最后展望Bard的未来发展方向及面临的挑战。背景介绍目的和范围本文旨在全面解析G
AI人工智能领域深度学习的跨模态检索技术 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能深度学习 ai
AI人工智能领域深度学习的跨模态检索技术关键词：跨模态检索、深度学习、多模态学习、特征提取、相似度计算、注意力机制、Transformer摘要：本文深入探讨了AI领域中基于深度学习的跨模态检索技术。我们将从基础概念出发，详细分析跨模态检索的核心算法原理、数学模型和实际应用。文章包含完整的Python实现示例，展示如何构建一个跨模态检索系统，并讨论当前的技术挑战和未来发展方向。通过本文，读者将全面理
工业缺陷检测深度学习方法综述 2301_80355452 深度学习人工智能
其被广泛地应用于无人质检、智能巡检、质量控制等各种生产与运维场景中.一.工业缺陷检测的背景与特点工业缺陷检测面临着诸多难点:缺陷样本匮乏、缺陷的可视性低、形状不规则、类型未知等,直接使用异常检测方法难以满足工业缺陷检测的任务需求.二.介绍工业缺陷检测问题的定义,分析研究难点与挑战异常：点异常、上下文异常和集群异常。点异常：又称为离群值(outliers)[9],描述数值上偏离正常样本的独立数据。与
Python程序设计第6章：函数和函数式编程若北辰 Python程序设计 python 开发语言
Python程序设计Python是全球范围内最受欢迎的编程语言之一，学好Python将对个人职业生涯产生很大的助力，Python在机器学习、深度学习、数据挖掘等领域应用极为广泛。在数据科学家/数据分析师、人工智能工程师、网络安全工程师、软件工程师/全栈工程师、自动化测试工程师等岗位，年入50万，很普遍，学好Python，高薪就业不是问题，因此推出Python程序设计系列文章：Python程序设计第
什么是神经网络和机器学习？【云驻共创】一键难忘人工智能机器学习深度学习神经网络网络
什么是神经网络和机器学习？一.背景在当今数字化浪潮中，神经网络和机器学习已成为科技领域的中流砥柱。它们作为人工智能的支柱，推动了自动化、智能化和数据驱动决策的进步。然而，对于初学者和专业人士来说，理解神经网络和机器学习的本质是至关重要的。在本文中，我们将深入探讨这两个概念的内涵、工作原理以及彼此之间的联系。二.神经网络和机器学习简介神经网络和机器学习都是人工智能领域中的重要概念，它们通常用于解决各
AI人工智能与OpenCV：实现智能图像编辑功能 AI智能探索者 AI Agent 智能体开发实战人工智能 opencv 计算机视觉 ai
AI人工智能与OpenCV：实现智能图像编辑功能关键词：人工智能、OpenCV、图像处理、计算机视觉、深度学习、智能编辑、图像增强摘要：本文深入探讨如何结合人工智能(AI)和OpenCV实现智能图像编辑功能。我们将从基础概念出发，详细介绍核心算法原理，展示实际代码实现，并分析典型应用场景。文章将涵盖从传统图像处理技术到深度学习方法的演进，重点讲解如何利用OpenCV和AI模型实现自动化的图像增强、
Orangepi Zero2 全志H616开发学习会学嵌入式 ARM Linux全志平台开发学习 linux 开发语言服务器
一.简介1.1为什么学学习目标依然是Linux系统，平台是ARM架构·蜂巢快递柜，配送机器人，这些应用场景用C51,STM32单片机无法实现·第三方介入库的局限性，比如刷脸支付和公交车收费设备需要集成支付宝SDK，提供的libalipay.so是Linux的库，设备必须跑Linux系统·图像识别，音频，视频等领域的技术支撑也无法脱离Linux系统·人工智能型设备通常需要更好的系统和更高的算力，所以
人工智能-基础篇-2-什么是机器学习？（ML，监督学习，半监督学习，零监督学习，强化学习，深度学习，机器学习步骤等） weisian151 人工智能人工智能机器学习学习
1、什么是机器学习？机器学习（MachineLearning,ML）是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析等数学理论。其核心目标是让计算机通过分析数据，自动学习规律并构建模型，从而对未知数据进行预测或决策，而无需依赖显式的程序指令。基本思想：通过数据驱动的方式，使系统能够从经验（数据）中改进性能，形成对数据模式的抽象化表达。基本概念：模型：模型是对现实世界现
2025年AI十大趋势：从多模态大模型到自主智能体 zhuzhi 人工智能大数据
2025年AI十大趋势：从多模态大模型到自主智能体人工智能技术正以前所未有的速度重塑着我们的世界。2025年，AI领域将迎来一系列突破性进展，从多模态大模型的全面进化到自主智能体的广泛应用，这些技术变革正在重新定义人机交互的边界。本文将系统梳理2025年AI发展的十大核心趋势，为读者揭示人工智能技术的最新发展方向及其对社会各领域的深远影响。趋势一：多模态大模型成为基础设施2025年，多模态大模型已
贝叶斯网络与深度学习的结合：图像识别和分类 AI天才研究院 AI人工智能与大数据计算 AI大模型企业级应用开发实战自然语言处理人工智能语言模型编程实践开发语言架构设计
本文我将为您撰写一篇关于"贝叶斯网络与深度学习的结合：图像识别和分类"的技术博客文章。这篇文章将深入探讨贝叶斯网络和深度学习在图像识别和分类领域的结合应用。我会遵循您提供的要求和结构模板,确保文章内容全面、深入且易于理解。让我们开始吧。贝叶斯网络与深度学习的结合：图像识别和分类关键词：贝叶斯网络、深度学习、图像识别、图像分类、概率推理、卷积神经网络、不确定性建模文章目录贝叶斯网络与深度学习的结合：
对话式AI助手的巅峰对决：ChatGPT与文心一言的实用价值探讨酷钉 chatgpt 人工智能
随着人工智能技术的发展，对话式AI助手逐渐成为了人们生活中的一部分。其中，ChatGPT和文心一言更是备受关注的两款对话式AI助手。本文将探讨这两款AI助手的实用价值，并通过案例和数据的方式进行分析。一、ChatGPT的实用价值跨语言交流ChatGPT是一款能够进行跨语言交流的对话式AI助手。据统计，ChatGPT支持的语言数量超过100种，用户可以通过它轻松地与不同国家和地区的人进行交流。例如，
微信小程序｜流浪动物救助小程序的设计与实现 qq_469603589 微信小程序小程序微信小程序
作者主页：编程指南针作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、腾讯课堂常驻讲师主要内容：Java项目、Python项目、前端项目、人工智能与大数据、简历模板、学习资料、面试题库、技术互助收藏点赞不迷路关注作者有好处文末获取源码项目编号：L-BS-XZBS-30一，环境介绍语言环境：Java:jdk1
Halcon 初步了解科学的发展-只不过是读大自然写的代码图形编程 c#视觉处理 Halcon
1.Halcon概述Halcon是德国MVTec公司开发的一套完善的机器视觉算法包，也是一款功能强大的视觉处理软件，为工业自动化领域提供了全面的解决方案。它拥有应用广泛的机器视觉集成开发环境，提供了一套丰富的图像处理和机器视觉算法，可以在各种工业应用中进行图像分析、目标检测、测量、定位、识别等任务。Halcon的核心功能包括图像处理、特征提取与匹配、3D视觉、深度学习、条码识别、OCR识别以及视觉
如何在pytorch中使用tqdm：优雅实现训练进度监控 Ven% 简单入门pytorch pytorch 人工智能 python
文章目录为什么需要进度条？tqdm简介基础用法示例深度学习中的实战应用1.数据加载进度监控2.训练循环增强版3.验证阶段集成高级技巧与最佳实践1.自定义进度条样式2.嵌套进度条（多任务）3.分布式训练支持4.与日志系统集成性能优化建议完整训练流程示例常见问题解决方案总结掌握训练进度监控是深度学习工程师的基本功。本文将带你从零开始，深入探索如何用tqdm为深度学习训练添加专业级进度条。为什么需要进度
【Python】Hydra 用法详解行码棋 #Python python 开发语言
Hydra官方文档Hydra（Python配置管理工具）1.引言在机器学习、深度学习和软件开发中，管理复杂的配置是一个常见的挑战。Hydra是一个强大的Python库，允许开发者轻松地管理和组织配置文件，支持动态参数覆盖、多层次配置和可组合配置等特性。2.安装HydraHydra可以通过pip直接安装：pipinstallhydra-core安装完成后，你可以使用hydra进行配置管理。3.基础用
onnx模型部署 python_深度学习模型转换与部署那些事(含ONNX格式详细分析) weixin_39759270 onnx模型部署 python
背景深度学习模型在训练完成之后，部署并应用在生产环境的这一步至关重要，毕竟训练出来的模型不能只接受一些公开数据集和榜单的检验，还需要在真正的业务场景下创造价值，不能只是为了PR而躺在实验机器上在现有条件下，一般涉及到模型的部署就要涉及到模型的转换，而转换的过程也是随着对应平台的不同而不同，一般工程师接触到的平台分为GPU云平台、手机和其他嵌入式设备对于GPU云平台来说，在上面部署本应该是最轻松的事
如何禁止GPTBot等爬虫爬取网站内容：保护数据安全的实用指南淮橘√ 人工智能
引言随着人工智能技术的快速发展，网络爬虫（如OpenAI的GPTBot、GoogleBot、Anthropic的ClaudeBot等）被广泛用于抓取网站数据以训练AI模型或索引内容。然而，部分网站管理员可能不希望自己的内容被爬虫抓取，原因包括保护原创内容、降低服务器负载或防止数据被滥用。一、为什么需要禁止爬虫？网络爬虫可能带来以下问题：内容盗用风险：原创内容可能被AI模型或其他服务未经授权使用。服
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/