Tianlong Lee

CRNN原理详解、代码实现及BUG分析

CRNN原理及实现

原文链接：An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

近期了解了一下文本识别，在CRNN的学习过程，包括CRNN原理、CTC Loss、代码实现、bug调试等问题也进行了一些调研，将自己的一些看法尽可能简洁地总结记录下来，如有错误，欢迎指出。

CRNN使用CNN提取图像特征，RNN进行序列推理，配合CTC的不定长字符识别，是文本和语音识别的一个重要模型。

推理过程

以测试阶段一张图像输入为例（batch_size为1），对crnn的整个过程进行输入输出的尺寸的描述，

首先要将图片Resize到[200,32]大小，200为图片宽度，这个参数与我们要预测的字符长度息息相关，经过CNN提取特征，这里的CNN可以任意设置，较常用的是VGG，当然是截取VGG的一部分，要保证输出的特征图高度为1，如果原有的VGG无法保证图片输入到输入恰好使得高为1，我们可以手动加一层卷积，特征图的宽此时变为50，相应的如果我们一开始resize输入的宽较大，这里的特征图的宽也会较大；这里的维度发生了一些变化，是为了便于输入到RNN以及后续ctcloss的调用，上图虚线可以看出，特征图的这个50可以认为是对应原图的50份纵向分割，也就是这张图片要被从左到右预测的次数，将其作为一个时序输入RNN，RNN一般使用双向LSTM网络，文章认为序列的前向信息和后向信息都有助于序列的预测，输出的时候，也就是RNN最后的嵌入层的输出维度为我们总共要预测的字符数+1（blank），最后的输出可以认为是一种概率，最后进行解码即可。

编解码过程

上述说到图像resize的宽在CNN输出的特征图的宽度对应了预测的时序，也就是我们挨着图像自左向右预测多少次，显然我们分隔的次数越多，就越不会漏掉其中某个字符，当然大多数情况下是预测多了的，比如图片中写的是”book“，我们的预测可能就是“bbbbbbooooooooooooookkkk”。还有就是我们的“book”作为标签如何去在网络的输出进行表示呢？当然是要做一个码本，将我们的字符用索引0-25表示。比如我们要预测26个英文字母，那“cat”就可以表示成[2,0,19]，预测（序列长度为10）就可能是[2,2,2,0,0,0,0,19,19,19]或者[2,2,0,0,0,0,0,0,0,19]。问题来了，我们预测的输出是明显是多于实际标签的，中间的重复我怎么知道最后该保留一个还是多个呢，比如"book"，如果按照上述规则得到的可是"bok"。

于是人们用一个占位符"-“来处理这个问题，用于解决到底留几个重复字符，注意，如果我们的预测中有"-"这个字符，要注意与占位符区别开，这和处理空格问题一样，在实际操作中可以使用其他符号暂时代替“-”或者空格进行码本制作，以避免码本无法表示，待解码之后统一替换即可。在编码的时候，所有的重复字符都要用”-“隔开，这样编码肯定是没有疑问了，解码的时候，凡是相同字符间没有”-"的，统统只要一个。将“-”放在码本的0号位，预测26个英文字符就用索引1-26表示，如果我们有输出[2,2,0,0,0,15,15,0,15,11]，则解码为“book”，如果是[0,0,2,15,15,15,15,0,0,11]，则解码为“bok”。

编解码的代码实现：

#编码过程，lexicon为字符标签，character为码本
label = [self.characters.find(c) for c in lexicon]

#解码过程，只解码一个输出列表,若解码矩阵，可分解出单个样本后进行调用
char_list = []
for i in range(len(str_index)):
if str_index[i] != 0 and (not (i > 0 and str_index[i - 1] == str_index[i])):
  char_list.append(characters[str_index[i]])
return ''.join(char_list)

CTCLoss与Pytorch实现

关于ctcloss，还是https://distill.pub/2017/ctc/写得最好，也是大部分博客的参考。前面我们说过RNN的输出为[50,1,11]，也就是针对batch_size个样本，我们要对11（码本大小）个字符预测50（RNN输入时序长度）次，假设我们的输入为X，对应的标签为Y，每个时刻可能预测的字符用a表示，则每个时刻t在给定样本X的情况下预测字符a的概率为 $p_t(a_t|X)$ ，t个时刻的预测概率相乘是在给定样本X情况下预测标签Y的条件概率的一部分。

为什么说是一部分呢？因为，在这个阵列中，我们从左到右每个时刻取一个字符的话，在化简成最后的标签后，可以看到有多个path对应同一种标签，比如下面的三种路径就对应了同一个标签"hello"：

也就是说预测矩阵（概率）与标签是多对一的关系，每条路径对应了多个连乘积，要将这些连乘积加起来才能与某标签划等号，Deep System给出的示意图如下：

于是我们知道在给定某样本X，要得到标签Y的条件概率为
$\mid X)=\sum_{A \in \mathcal{A}_{X, Y}} \prod_{t=1}^{T} p_{t}\left(a_{t} \mid X\right)$
在训练时，我们当然希望输入样本X后，输出正确标签Y的概率越大越好，上式只涉及加法和乘法，显然是可导的，因此网络的损失就是
$\sum_{(X, Y) \in \mathcal{D}}-\log p(Y \mid X)$
上图只显示了5个字符10个时间步长，我们如果罗列所有能得到“hello”的路径，也是个不小的工作量，到了更大的任务上这样直接计算概率是不现实的，因此，CTC使用了动态规划的思想来求解输出的条件概率。

这里只想简单介绍下在文本识别任务中我们的损失到底是如何得来的，关于CTC的动态规划，白话CTC算法讲解、CTC训练与公式推导、Sequence ModelingWith CTC、CTC Loss都有很好的讲解。

pytorch1.0之后自带CTCLoss，关于其使用方法，知乎大佬已有比较好的回答，但是也有童鞋在使用时遇到了一个问题，在一定epoch后nan住了，不知是不是一个bug，我在下一节附上了一个简单方法，亲测可用。pytorch给出了详细的使用方法，这里记录一下，便于日后查看。

ctc_loss = CTCLoss(blank=0, reduction='mean')
loss = ctc_loss(log_probs=out, 
                targets=labels, 
                target_lengths=target_lengths, 
                input_lengths=input_lengths)

CTCLoss初始化：

blank：空白标签所在位置，默认为0，使用时根据自己的码本进行调整

Reduction：处理输出的方式，可选none ||mean || sum，默认为mean，将损失除以目标长度，然后去批次的均值

zero_infinit：是否将无限大损失和相关梯度归零，默认False

使用参数说明：

log_probs：[时序数，批次，含blank的类别数]，这也是上图要将CNN的输出进行维度变换的主要原因，网络的输出也要先使用torch.nn.functional.log_softmax()进行处理才能送进函数中，在warp-ctc中则不必进行这一步

targets：[标签数]，这里的targets使用带blank的码本编码即可，不比对重复的字符使用“-”进行隔开，batch之间首位相接即可，因为最后的参数已经标记了如何分隔开

input_lengths：[batch_size]，记录网络预测的每个输出的长度，torch为了使用cudann，需要每个输入的长度等于RNN的时序数，如上图，都会是50

target_lenths：[batch_size]，记录batch中每个标签的长度，用于分隔上述被串联起来的targets

可想而知，targets是没有插入“-”的，且在一个batch中是串联的，因此对一个batch而言，需要保证 $input\_lengths \geq 2 * target\_lengths + 1$ ，也就是要处理好RNN的时序数，也就是resize的图像的宽度。

CRNN实现

Pytorch 1.3.1 + CUDA 10.1实现

def val(net, test_iter, ctc_loss, max_iter=100, device=None):
    net.eval()
    loss_avg = 0.0
    acc_val, n = 0, 0
    start = time.time()
    for images, labels, target_lengths, input_lengths in test_iter:
        images = images.to(device)
        labels = labels.to(device)
        target_lengths = target_lengths.to(device)
        input_lengths = input_lengths.to(device)
        preds = net(images)
        cost = ctc_loss(log_probs=preds, targets=labels, target_lengths=target_lengths, input_lengths=input_lengths)
        loss_avg += cost

        n += preds.shape[1]
        _, preds = preds.max(2)
        output = decode_out(str_index=preds.transpose(1, 0), characters=args.characters)
        label = get_label(labels, target_lengths, args.characters)
        for ii in range(len(label)):
            assert len(output) == len(label)
            acc_val = acc_val + 1 if label[ii] == output[ii] else acc_val

    print("val loss: {} || val acc: {:.2f} || time:{:.4f}".format(loss_avg / max_iter, acc_val/n, time.time()-start))
    net.train()


def train(net, optimizer, train_iter, test_iter, device):
    ctc_loss = CTCLoss(blank=0, reduction='mean')
    net.train()
    print('Loading Dataset...')

    print("Begin training...")
    for epoch in range(args.max_epoch):
        start = time.time()
        acc_sum, n, batch_count = 0, 0, 0
        for images, labels, target_lengths, input_lengths in train_iter:
            images = images.to(device)
            labels = labels.to(device)
            target_lengths = target_lengths.to(device)
            input_lengths = input_lengths.to(device)

            out = net(images)
            optimizer.zero_grad()
            loss = ctc_loss(log_probs=out, targets=labels, target_lengths=target_lengths, input_lengths=input_lengths)
            loss.backward()
            optimizer.step()

            batch_count += 1
            n += out.shape[1]
            _, preds = out.max(2)
            output = decode_out(str_index=preds.transpose(1, 0), characters=args.characters)
            label = get_label(labels, target_lengths, args.characters)
            for ii in range(len(label)):
                assert len(output) == len(label)
                acc_sum = acc_sum + 1 if label[ii] == output[ii] else acc_sum

            print('Epoch:{}/{} || Batch:{} || Loss: {:.4f}|| Acc:{:.2f} || time: {:.4f} s'.format
                  (epoch, args.max_epoch, batch_count, loss, acc_sum/n, time.time()-start))

        val(net, test_iter, ctc_loss, device=device)

    torch.save(net.state_dict(), args.weights_save)
    print('Finished Training')


if __name__ == '__main__':
    cudnn.benchmark = True
    transform = transforms.Compose([transforms.ToTensor(),
                                    transforms.Normalize(mean=(0.485, 0.456, 0.406), std=(0.229, 0.224, 0.225))])

    trainSet = RegDataSet(dataset_root=args.dataset_root, anno_txt_path=args.train_anno, lexicon_path=args.lexicon_txt,
                          target_size=(args.width, args.height), characters=args.characters, transform=transform)
    valSet = RegDataSet(dataset_root=args.dataset_root, anno_txt_path=args.val_anno, lexicon_path=args.lexicon_txt,
                        target_size=(args.width, args.height), characters=args.characters, train=False, transform=transform)
    train_iter = DataLoader(trainSet, args.batch_size, shuffle=True, num_workers=args.num_workers, collate_fn=custom_collate_fn)
    test_iter = DataLoader(valSet, args.batch_size, shuffle=True, num_workers=args.num_workers, collate_fn=custom_collate_fn)

    net = CRNN(len(args.characters))
    net = net.to(device)

    if args.pre_train:
        pretrained_dict = torch.load(os.path.join(args.weights_save_folder, "Final.pth"))
        model_dict = net.state_dict()
        pretrained_dict = {k: v for k, v in pretrained_dict.items() if k in model_dict}
        model_dict.update(pretrained_dict)
        net.load_state_dict(model_dict)
        # net.rnn[1].embedding = torch.nn.Linear(net.rnn[1].embedding.in_features, len(args.characters))

    optimizer = torch.optim.Adam(net.parameters(), lr=args.initial_lr, weight_decay=args.weight_decay)
    train(net, optimizer, train_iter, test_iter, device)

模型部分同Lin Yang:

class CRNN(nn.Module):
    def __init__(self, characters_classes, hidden=256, pretrain=True):
        super(CRNN, self).__init__()
        self.characters_class = characters_classes
        self.body = VGG()
        self.stage5 = nn.Conv2d(512, 512, kernel_size=(3, 2), padding=(1, 0))
        self.hidden = hidden
        self.rnn = nn.Sequential(BidirectionalLSTM(512, self.hidden, self.hidden),
                                 BidirectionalLSTM(self.hidden, self.hidden, self.characters_class))

        self.pretrain = pretrain
        if self.pretrain:
            import torchvision.models.vgg as vgg
            pre_net = vgg.vgg16(pretrained=True)
            pretrained_dict = pre_net.state_dict()
            model_dict = self.body.state_dict()
            pretrained_dict = {k: v for k, v in pretrained_dict.items() if k in model_dict}
            model_dict.update(pretrained_dict)
            self.body.load_state_dict(model_dict)

            for param in self.body.parameters():
                param.requires_grad = False

    def forward(self, x):
        x = self.body(x)
        x = self.stage5(x)
        x = x.squeeze(3)
        x = x.permute(2, 0, 1).contiguous()
        x = self.rnn(x)
        x = F.log_softmax(x, dim=2)
        return x

CTCLoss出现`nan`或`inf`

一开始直接跑meijieru的代码，warp-ctc的输入不需要加log_softmax，因为版本问题最终还是使用了torch自带的CTCLoss，加了log_softmax，并使用自己处理的SVT数据集后，结果上来就是梯度nan，然后就是loss出现nan，导致一度怀疑torch自带的这个loss完全没有用，我真是太nan了。

后来受Lin Yang的启发，还是自己造个简单的数据集和网络从头验证比较好，数据集格式为MJSynth，一共160张合成的数字图片，足以验证CTCLoss是否收敛，在cnn或rnn预训练的情况下最后也能实现一定的准确率，数据集可以在BaiduYun下载。

后来回头验证到底为何刚开始出现上来就nan的问题时，改成使用自己制作的数据集，又遇到了loss在训练期间inf或nan的情况，但是通过强行变0解决了这一问题。二者的出现是因为某次计算的意外，因此直接置0，不影响之后的训练。

#在计算loss之后，梯度回传之前对loss进行处理，剔除坏的loss
if cost.item() == float('inf') or math.isnan(cost.item()):
		cost.data = torch.tensor(0.0)

总结下来感觉一开始还是要从简单数据集和网络上进行调试，git别人的网络最好也是完全搞懂再进行个性化。

数据集存在脏数据，比如数据输入便存在nan，可以开始的时候先使用简单网络进行剔除，另外最好一开始做归一化，或者在网络中加入BN
针对CRNN来说，CTCLoss的输入中要满足input_lengths比target_lengths的最长长度的两倍至少多1，这个可以通过调整最开始的输入图片的宽度来实现
学习率过大或batch_size较大，有种说法是ctcloss的学习率比平常要小很多，如果出现中间nan的时候，可以加入学习率调整或者开始的时候就设置较小的学习率，如果检查日志某层出现nan的时候，可以只调小该层的学习率
权重初始化如果只是简单的正态分布有时还是很容易出现这个问题的，可以尝试改用xavier方法
抛开crnn的实现，nan的出现还可能是因为池化层中步长比卷积核的尺寸大，这个大家可以自己尝试一下。出处

开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-玩转ollama（一）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言在AI大模型百花齐放的时代，很多人都对新兴技术充满了热情，都想尝试一下。然而，实际上要入门AI技术的门槛非常高。除了需要高端设备，还需要面临复杂的部署和安装过程，这让很多人望而却步。在这样的背景下，Ollama的出现为广大开发者和爱好者提供了一条便捷的道路，极大地降低了应用机器学习的门槛。Ollama的优势在于其极致的简化。通过这个平台，用户可以轻松下载、运行和管理各种机器学习模型，而无需
机器学习之——认识机器学习 -睡到自然醒~ golang 重构开发语言
首先，什么是机器学习？参照百度百科的讲解，“机器学习是一门多领域交叉学科，设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习能力，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。”什么意思呢？也就是说，机器学习是一门跨领域的学科，是一种能够让机器模仿人类学习能力的一种学科。在Andrew的课程中，提到了几个机器学习的定义：1，A
Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
Python --- day 10 Opencv模块的使用 AnAn__kang python opencv 开发语言
系列文章目录前言今天博主带大家进入Opencv的学习，这是一个专门针对处理图像和视频的一个模块，大家以理解为主，增强自己的编程思维，再后续我们训练模型时会大批量的处理图片时会经常用到这个模块。1OpenCV介绍OpenCV（开放源代码计算机视觉库）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成，用于图像处理、计算机视觉领域的算法实现。1.1OpenCV优势**开源免费：**完全
深度学习图像分类数据集—百种病虫害分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：百种病虫害识别分类，训练集45095张，验证集7508张，测试集22619张具体类别为以下：insect_classes=["rice_leaf_roller","rice_leaf_caterpillar
机器学习数据预处理阶段为什么需要——归一化处理
参考：https://www.cnblogs.com/bjwu/p/8977141.html通常，在DataScience中，预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明，主要把各个标准化方法的应用场景以及优缺点总结概括，以来充当笔记。提升模型精度在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化)，许多学习算法中目标函数
车辆云端威胁情报共享系统的多维解析与发展路径百态老人大数据人工智能
第一部分：内容本质提取原始内容描述了一个闭环网络安全体系：“车辆实时上传异常行为日志至安全运营中心（VSOC），云端通过机器学习分析攻击模式并下发全局防御策略”。其核心架构包含：数据采集层：车辆端持续收集异常行为日志数据，包含CAN总线通信模式、网络流量特征及驾驶行为数据传输层：通过V2X通信协议和OTA更新通道实现车云双向通信分析层：安全运营中心(VSOC)采用CNN-BiSRU等深度学习模型进
基于深度学习的语音识别：从音频信号到文本转录 Blossom.118 机器学习与人工智能深度学习语音识别音视频人工智能机器学习线性代数计算机视觉
前言语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域中一个极具挑战性和应用前景的研究方向。它通过将语音信号转换为文本，为人们提供了更加自然和便捷的人机交互方式。近年来，深度学习技术在语音识别领域取得了显著进展，极大地提高了语音识别的准确率和鲁棒性。本文将详细介绍如何使用深度学习技术构建一个语音识别系统，从音频信号的预处理到模型的训练与部署。一、语音识别的基本概
过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶 Ryan_sz1
1、过拟合、欠拟合及其解决方案过拟合、欠拟合机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题，但是，一开始我们的模型往往是欠拟合的，也正是因为如此才有了优化的空间，我们需要不断的调整算法来使得模型的表达能拿更强。但是优化到了一定程度就需要解决过拟合的问题了。也就是说欠拟合是模型表达能力不够，达不到很好的表达效果。而过拟合是在训练集的范围内表达能力过强，导致完全拟合了训练集。解决
重学前端007 --- 响应式网页设计 CSS 排版 Sapphire～前端前端
文章目录导入字体总结浏览器给元素添加的默认值text-indent:-8px;1.text-indent属性的作用2.总结其他css导入字体这将导入OpenSans字体系列，字体粗细值为400、700和800。总结浏览器给元素添加的默认值元素默认外边距（Margin）默认内边距（Padding）作用-上下0.5em~1em无标题与内容分隔上下1em无段落间距/上下1em，左右40px无列表缩进上下
Selenium Python 代码之打开网页自动填充内容并搜索 iCloudEnd
SeleniumPython代码之打开网页自动填充内容并搜索流程通过id找到文本框inputElement.send_keys(Keys.BACK_SPACE)发送删除键，清除一下之前文字inputElement.send_keys(Keys.BACK_SPACE)发送需要查询对内容并送个回车inputElement=driver1.find_element_by_id("TextBox1")in
删除XML文件中的空格 weixin_34235105 python
应要求需要删除xml文件中的空格，制表符等字符。要求双引号和xml的text属性中包含的空格不删除。1booldelSpace(QFile&file,QStringpath)23//删除file文件中的空格，双引号以及xml中text属性中的空格不删除。file为目标文件，path为新文件保存的路径及名称。4//操作成功true，失败返回false5{6QByteArrayqfile;7QText
数字人系统：AI界的超级巨星，你准备好了吗？优秘智能UMI 数字人人工智能深度学习计算机视觉机器学习自然语言处理语言模型图像处理
在这个日新月异的科技时代，每一个创新的火花都可能点燃一场变革的燎原之火。今天，我们要聊的，正是那颗在AI领域熠熠生辉的璀璨新星——优秘数字人系统。它不仅仅是技术的飞跃，更是对未来生活方式的深刻重塑，一场关于人机交互、智能共生的美好预演。技术原理：深度解析与智能构建的奥秘1.深度学习：智能的基石数字人系统的核心技术之一在于深度学习。深度学习是一种模仿人脑神经网络结构和功能的机器学习技术，通过构建多层
聚焦基础研究突破，北电数智联合复旦大学等团队提出“AI安全”DDPA方法入选ICML CSDN资讯人工智能安全数据要素大数据
近日，由北电数智首席科学家窦德景教授牵头，联合复旦大学和美国奥本大学等科研团队共同研发，提出一种DDPA（DynamicDelayedPoisoningAttack）新型对抗性攻击方法，为机器学习领域的安全研究提供新视角与工具，相关论文已被国际机器学习大会（ICML2025）收录。ICML由国际机器学习学会（IMLS）主办，聚焦深度学习、强化学习、自然语言处理等机器学习前沿方向，是机器学习与人工智
FFMPEG 解码流程硬解码 ImTryCatchException ffmpeg 音视频
关键流程概述初始化阶段‌av_register_all()：注册所有编解码器新版本可以不调用了avformat_network_init():网络初始化avformat_alloc_context()：创建封装格式上下文avformat_open_input()：打开媒体文件流信息解析‌avformat_find_stream_info()：获取流信息av_find_best_stream()：查
商汤科技视觉算法面试30问全景精解
商汤科技视觉算法面试30问全景精解——AI赋能×智能视觉×产业创新：商汤科技视觉算法面试核心考点全览前言商汤科技（SenseTime）作为全球领先的人工智能平台公司，专注于计算机视觉、深度学习和智慧城市、智能汽车、智能医疗等领域，推动人脸识别、目标检测、视频分析、自动驾驶等前沿技术的产业化落地。商汤视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、自动驾驶、智慧医疗等复
旷视科技视觉算法面试30问全景精解机＿长科技算法面试深度学习 YOLO
旷视科技视觉算法面试30问全景精解——AI赋能×智能安防×视觉创新：旷视科技视觉算法面试核心考点全览前言旷视科技（Megvii）作为全球领先的人工智能公司，专注于计算机视觉、深度学习和智能安防等领域，推动人脸识别、目标检测、视频分析、工业视觉等前沿技术的产业化落地。旷视视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、工业检测、智慧城市等复杂场景下的创新与工程能力。本文
扫雷游戏介绍和代码二进制person 游戏 c语言
一.介绍游戏可以通过菜单实现继续玩或者退出游戏扫雷的棋盘是9*9的格子默认随机布置10个雷可以排查雷如果位置不是雷，就显⽰周围有⼏个雷如果位置是雷，就炸死游戏结束把除10个雷之外的所有⾮雷都找出来，排雷成功，游戏结束二.界面1.初始界面2.游戏界面3.退出界面和选择错误三.代码text2.c:#define_CRT_SECURE_NO_WARNINGS1#include"game.h"voidme
5.Kotlin协程热爱Android的人 kotlin
文章目录1.协程的基本用法1.1先添加依赖库1.2开启一个协程GlobalScope.launch函数delay()函数Thread.sleep()函数runBlocking函数1.3创建多个协程launch函数suspend关键字coroutineScope函数2.更多的作用域构建器async函数withContext()函数线程参数3.使用协程简化回调的写法suspendCoroutine函数
阿里云态势感知和安骑士有什么区别？阿腾云
阿里云态势感知和安骑士均是阿里云云盾安全产品，态势感知属于安全管理类的产品，安骑士数据服务器安全类产品，阿里云百科网来详细说下阿里云态势感知和安骑士之间的区别：态势感知和安骑士的区别简单来说，安骑士是检测云服务器漏洞的，态势感知提供安全类的大数据分析服务。态势感知：安全大数据分析平台，通过机器学习和结合全网威胁情报，发现传统防御软件无法覆盖的网络威胁，溯源攻击手段、并且提供可行动的解决方案。安骑士
深度强化学习 | 图文详细推导深度确定性策略梯度DDPG算法 Mr.Winter` 机器人人工智能数据挖掘深度学习神经网络强化学习具身智能
目录0专栏介绍1演员-评论家架构1.1Critic网络优化1.2Actor网络优化2深度确定性策略梯度算法0专栏介绍本专栏以贝尔曼最优方程等数学原理为根基，结合PyTorch框架逐层拆解DRL的核心算法(如DQN、PPO、SAC)逻辑。针对机器人运动规划场景，深入探讨如何将DRL与路径规划、动态避障等任务结合，包含仿真环境搭建、状态空间设计、奖励函数工程化调优等技术细节，旨在帮助读者掌握深度强化学
从API到Agent：万字洞悉LangChain工程化设计 bpluo42657 langchain
——构建下一代AI应用的核心范式迁移一、传统API范式的局限性：为什么需要Agent？接口式AI的痛点python#传统NLPAPI调用示例response=openai.Completion.create(model="text-davinci-003",prompt="请翻译：Helloworld",max_tokens=50)单次请求/响应模式缺乏状态管理与上下文延续硬编码逻辑难以应对复杂场
css实现箭头进度条惜音renee
实现的目标：源码：首先写出一个基本的样式：买家下单买家付款发货买家确认收货.progress-barli{padding:0px20px;line-height:40px;background:#50abe4;display:inline-block;color:#fff;position:relative;width:180px;text-align:center;}接下来使用:after伪类画
GPT-3 面试题
简介1、GPT-3是什么？它是基于什么模型的？GPT-3是一种基于深度学习原理的语言预测模型。它是由OpenAI开发的，可以从互联网数据中生成任何类型的文本。它只需要一小段文本作为输入，就可以生成大量的准确和复杂的机器生成文本²⁴。GPT-3是基于Transformer模型的，使用了仅有解码器的自回归架构。它使用下一个单词预测目标进行训练¹²。GPT-3有8个不同的模型，参数从1.25亿到1750
「日拱一码」035 机器学习——调参过程可视化胖达不服输「日拱一码」机器学习人工智能调参过程可视化神经网络 python 模型可解释性
目录超参数搜索的3D曲面可视化交互式3D可视化神经网络学习率的3D可视化SVM超参数的3D决策边界可视化超参数优化的3D动画超参数搜索的3D曲面可视化##超参数搜索的3D曲面可视化importnumpyasnpimportmatplotlib.pyplotaspltfrommpl_toolkits.mplot3dimportAxes3Dfromsklearn.datasetsimportmake_
边缘计算与量子模型优化驱动医疗诊断新突破
内容概要在医疗人工智能领域，边缘计算与量子模型优化的协同演进正重构诊断系统的技术范式。通过将计算节点前置至医疗设备端，边缘架构有效解决了传统云端模型面临的实时性瓶颈，配合量子优化算法对复杂特征空间的快速寻优能力，使得CT、MRI等高维影像数据的解析效率提升显著。值得关注的是，框架选型直接影响着模型部署的可行性——TensorFlow在移动端推理优化方面的工具链完备性，与PyTorch动态图机制对迭
[特殊字符] 简易分贝仪制作（基于麦克风 + Python） qq_27684373 python 开发语言
一、基本原理1.什么是dBSPL？**声压级（SoundPressureLevel,SPL）**定义为：SPL(dB)=20⋅log⁡10(pp0)\text{SPL(dB)}=20\cdot\log_{10}\left(\frac{p}{p_0}\right)SPL(dB)=20⋅log10(p0p)ppp：声压值（单位Pa，帕斯卡）p0=20μPa=2×10−5Pap_0=20\mu\text
数据质量是机器学习项目的核心痛点，AI技术能提供智能化解决方案。 zzywxc787 python pandas numpy 人工智能自动化运维 AI编程
一、数据质量诊断系统（Python实现）importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeansfromsklearn.ensembleimportIsolationForestfromtensorflow.keras.modelsimportSequentialfromte
精通 triton 使用 MLIR 的源码逻辑 - 第001节：triton 的应用简介
项目使用到MLIR，通过了解triton对MLIR的使用，体会到MLIR在较大项目中的使用方式，汇总一下。1.Triton概述OpenAITriton是一个开源的编程语言和编译器，旨在简化GPU高性能计算（HPC）的开发，特别是针对深度学习、科学计算等需要高效并行计算的领域。既允许开发者编写高度优化的代码，又不必过度关注底层硬件细节。这样，通过简化高性能计算，可以加速新算法的实现和实验。传统GPU
January 13th 2018 -1 monkey_y
2018年1月13日20:18:37InternationalTeenagers‘behaviour：Theyouthoftoday泛读单词hedonistic享乐主义的2.hangout闲逛3.inviewof鉴于，由于4.marijuana大麻5.cohort同生群；一群6.opioid类鸦片（引起）的7.procreative有生殖能力的8.abstention弃权；避免9.carrythr
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt