tangpoza

阅读笔记：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

简介

转自：https://baijiahao.baidu.com/s?id=1619193829009842342&wfr=spider&for=pc
google AI 团队发布，被NLP业内公认为里程碑式的进步。

回顾

原文链接：https://blog.csdn.net/triplemeng/article/details/83053419
现在有很多利用预训练的语言表征来完成下游NLP任务的研究，作者把他们概括为两类：feature-based 和fine-tuning

分类	代表	task-specific模型	使用方案
feature-based	ELMo	需要	把表征作为feature提供给下游任务
fine-tuning	OpenAI GPT, ULMFiT	不需要	fine tuning预训练的参数

这两类方法的共性在于：它们在预训练中都是用了一样的目标函数，也都使用了单向的语言模型。
作者对这些方法的批评在于它们没有很好地利用上下文信息。尽管如ELMo这样的算法利用了正向和反向的语言模型，可本质上仍然是两个unidirectional模型的叠加。对于SQuAD这种阅读理解式的任务，额能够同时从两个方向提取context信息至关重要，然而现存的方法有巨大的局限性。

BERT，OpenAI GPT, ELMo之间的区别如下：

创新之处

作为fine-tuning这一类的方法，作者提出了改进的方案：BERT(Bidirectional Encoder Representations from Transformers)

具体做法：

采用新的预训练的目标函数：the masked language model（MLM），随机mask输入中的一些tokens，然后在预训练中对他们进行预测。这样做的好处是学习到的表征能够融合两个方向上的context。这个做法我觉得非常向skip-gram。过去的同类算法在这里有所欠缺，比如上文提到的EMLo，但是只利用了一个方向的注意力机制，本质上也一样是单向的语言模型。
增加了句子级别的任务next sentence prediction：作者认为很多的NLP任务比如QA 和NLI 都需要对两个句子之间的关系理解，然而这些语言模型不能很好地直接产生这种理解。为了理解句子关系，作者同时pre-traine 了一个next sentence prediction任务。具体做法是：随机替换一些句子，然后利用上一句进行 IsNext/ NotNext的预测。

在实际的预训练中，这两个任务是jointly training

BERT 模型架构

论文使用了两种模型：

$BERT_{BASE}:L=12,H=768,A=12,Total Parameters=110M$
$BERT_{LARGE}:L=24,H=1024,A=16,Total Parameters=340M$

$L$ 是layer的层数（即 transformer blocks个数）；
$H$ 是hidden vector size；
$A$ 是self-attention的“头数”。

在NLP领域，10层以上的layers还是比较“惊人的”，印象中的Attention is all you need第一次提出transformer的时候，在MT任务中用了6层。
当然从结构上来讲，transformers 之间用的就是 residual connection，并且有batch normarlization这种“常规”操作，多层不是什么问题。
有意思的是，这么多层结构究竟学到了什么？NLP不能喝CV做简单的类比，网络层数并不是多多益善；有的论点认为底层偏向于语法特征学习，高层偏向于语义特征学习。希望将来的研究能够给出更充分更有启发性的观点。

输入的表示

针对不同的人物，模型能够明确的表达一个句子，或者对句子对（比如说[问题，答案]）。对于每一个token，它的表征由对应的token embedding，段表征（segment embedding），位置表征（position embedding）相加产生。如下如图：

具体细节如下：

论文使用了 wordPiece embeddings
使用了positional embeddings，长达512位，即句子的最大长度
每句话的第一个token总是[CLS]。对应它的最终的hidden state（即transformer的输出），用来表征整个句子，可以用于下游的分类任务
模型能够处理句子对。为了区别两个句子，用一个特殊的token [SEP]隔开它们，另外针对不同的句子，把学习到的segment embedding加到每个token 的embedding上（如图）
对于单个句子仅是用一个segment embedding

预训练的任务

Masked LM
具体细节论文上解释的很清楚了，这里从略了。
提一下值得注意的一点吧：为了达到真正的bidirectional的LM的效果，作者创新性的提出了Masked LM，但是缺点是如果常常把一些词mask起来，未来的fine tuning过程中模型有可能没见过这些词。这个量积累下来还是很大的。因为作者在他的实现中随机选择了句子中15%的WordPiece tokens作为要mask的词。

为了解决这个问题，作者在做mask的时候，

80%的时间真的用[MASK]取代被选中的词。比如 my dog is hairy -> my dog is [MASK]
10%的时间用一个随机词取代它：my dog is hairy -> my dog is apple
10%的时间保持不变: my dog is hairy -> my dog is hairy
为什么要以一定的概率保持不变呢？这是因为刚才说了，如果100%的时间都用[MASK]来取代被选中的词，那么在fine tuning的时候模型会有一些没见过的词。那么为啥要以一定的概率使用随机词呢？这是因为Transformer要保持对每个输入token分布式的表征，否则Transformer很可能会记住这个[MASK]就是"hairy"。至于使用随机词带来的负面影响，文章中说了,所有其他的token(即非"hairy"的token)共享15%*10% = 1.5%的概率，其影响是可以忽略不计的。

Next Sentence Prediction
具体做法很容易理解，这里仍然从略。
简单说一下这么做的原因。很多NLP的任务比如QA和NLI都需要理解两个句子之间的关系，而语言模型并不能直接反应这种关系。为了是预训练出来的模型很好的适应这些任务，作者提出了这样的一个预训练任务。实验表明，增加这样的一个任务在针对下游的QA和NLI任务时效果非常好。

在预训练中文章使用了BooksCorpus(800M 词)和English Wikipedia(2,500M 词)。

微调过程
对于句子级的分类任务，BERT的微调方法非常直观。论文用刚才介绍过的特殊符号[CLS]来对应整个句子的表征。我们只需要把它作为输入通过一层网络，最后做softmax就可以了。

（后面待续……）

发展历程

2015年，微软研究院何凯明等人发布了残差网络相关论文，第一次通过残差的方式将卷积神经网络推进到100层以上，并且在图像识别的任务上刷新了当时的最高纪录。
从此以后，随着网络不断加深，效果也在不断提升，但是训练一个模型所需的成本也在不断增加。
自此，在计算机视觉处理中，人们越来越多的采用与训练好的大型网络来提取特征，然后进行后续任务。
与图像领域类似，自然语言处理通常会使用预训练的词向量来进行后续任务。但是，词向量是通过浅层网络进行无监督训练，虽然在词的级别上有着不错的特性，但是缺少对连续文本的内在联系和语言结构的表达能力。
大家希望，NLP也能像图像领域那样，通过大量数据来预训练一个大型的神经网络，然后用他来对文本提取特征然后进行后续任务，以期能得到一个更好的效果。
AllenAI提出了ELMo(https://arxiv.org/pdf/1802.05365.pdf)，由于其在后续任务上的优异表现，获得了不少关注。
ELMo成功时候，FastAI就退出了ULMFiT(https://arxiv.org/abs/1801.06146)，其答题思路是：在微调时，对每一层设置不同的学习率。
之后，OpenAI又提出了GPT(https://blog.openai.com/language-unsupervised/)
从上面提及的这些论文结果以及学界和工业界的反馈来看，这种使用大量的预料进行预训练，然后再在预训练好的模型上进行后续任务训练，虽然训练方式各有不同，但是在后续任务都有不同程度的提高。
BERT就是在OpenAI的GPT基础上对于训练的目标进行了修改，并且用更大的模型以及更多的数据去进行预训练，从而得到了目前最好的效果。
transformer的编码器结构：

BERT的主体结构

BERT模型沿袭了GPT模型的结构，采用transformer（https://arxiv.org/abs/1706.0376）的编码器作为主题模型结构。

transformer舍弃了RNN的循环式网络结构，完全基于注意力机制来对一段文本进行建模。

transformer所使用的注意力机制的核心思想：计算一句话中的每个词对于这句话中所有词的相互关系，然后认为这些词与词之间的相互关系在一定程度上反映了这句话中不同词之间的关联性以及重要程度。因而再利用这些相互关系来调整每个词的重要性（权重）就可以获得每个词新的表达。

这个新的表征不但蕴含了该词本身，还蕴含了这个词与其他词之间的关系，因此和单纯的词向量想必这是一个更加全局的表达。

transformer通过对输入的文本不断进行这样的注意力基质层和普通的非线性层交叠来得到最终的文本表达。
Transformer的注意力层得到的词-词之间关系：

GPT 简介

GPT则利用了transformer的结构来进行单向语言模型的训练。其目标是给定一个序列文本，预测下一个位置会出现的词。

模型学习的过程和我们人学习一门语言的过程类似，我们学习语言的时候会不断地练习怎么选用合适的词来造句，对模型来说也是这样。例如：

今天天气不错，我们去公园玩吧。

这句话，单向语言模型在学习的时候是从左向右进行学习的，先给模型看到“今天”、“天气”两个词，然后告诉模型想一个要填的词是“不错”。

然而单向语言模型有一个欠缺，就是模型学习的时候总是按照句子的方向去学的，因此模型学习每个词的时候，只能看到上文，并没有看到下文。

更加合理的方式应该是让模型通过上下文去学习，这个过程有点类似与完形填空，例如：

今天天气（），我们去公园玩吧。

通过这样的学习，模型能够更好地把握“不错”这个词所出现的上下文语境。

BERT 创新点

BERT 对 GPT 的第一个改进就是引入了双向的语言模型任务。

此前其实也有一些语言模型这个任务上使用了双向的方法，例如：ELMo，它是通过双向的两层RNN结构对两个方向进行建模，但是两个方向的loss计算相互独立。

而BERT认为：两个方向相互独立，或者只有单层的双向编码可能没有发挥最好的效果，我们不仅仅需要双向编码，还要加深网络的层数。
但是加深双向编码网络却会引入一个问题，导致模型最终可以间接的“窥探”到需要预测的词。
这个“窥探”过程如下图所示：

（后面没看懂，有时间继续……）

从图中可以看到经过两层的双向操作，每个位置上的输出就已经带有了原本这个位置上的词的信息了。这样的“窥探”会导致模型预测词的任务变得失去意义，因为模型已经看到每个位置上是什么词了。

为了解决这个问题，我们可以从预训练的目标入手。我们想要的其实是让模型学会某个词适合出现在怎样的上下文语境当中；反过来说，如果给定了某个上下文语境，我们希望模型能够知道这个地方适合填入怎样的词。

从这一点出发，其实我们可以直接去掉这个词，只让模型看上下文，然后来预测这个词。但这样做会丢掉这个词在文本中的位置信息，那么还有一种方式是在这个词的位置上随机地输入某一个词，但如果每次都随机输入可能会让模型难以收敛。

BERT的作者提出了采用MaskLM的方式来训练语言模型。

通俗地说就是在输入一句话的时候，随机地选一些要预测的词，然后用一个特殊的符号来代替它们。尽管模型最终还是会看到所有位置上的输入信息，但由于需要预测的词已经被特殊符号代替，所以模型无法事先知道这些位置上是什么词，这样就可以让模型根据所给的标签去学习这些地方该填的词了。

然而这里还有一个问题，就是我们在预训练过程中所使用的这个特殊符号，在后续的任务中是不会出现的。

因此，为了和后续任务保持一致，作者按一定的比例在需要预测的词位置上输入原词或者输入某个随机的词。当然，由于一次输入的文本序列中只有部分的词被用来进行训练，因此BERT在效率上会低于普通的语言模型，作者也指出BERT的收敛需要更多的训练步数。

BERT另外一个创新是在双向语言模型的基础上额外增加了一个句子级别的连续性预测任务。这个任务的目标也很简单，就是预测输入BERT的两端文本是否为连续的文本，作者指出引入这个任务可以更好地让模型学到连续的文本片段之间的关系。在训练的时候，输入模型的第二个片段会以50%的概率从全部文本中随机选取，剩下50%的概率选取第一个片段的后续的文本。

除了模型结构，模型大小和数据量都很重要

以上的描述涵盖了BERT在模型结构和训练目标上的主要创新点，而BERT的成功还有一个很大的原因来自于模型的体量以及训练的数据量。

BERT训练数据采用了英文的开源语料BooksCropus 以及英文维基百科数据，一共有33亿个词。同时BERT模型的标准版本有1亿的参数量，与GPT持平，而BERT的大号版本有3亿多参数量，这应该是目前自然语言处理中最大的预训练模型了。

当然，这么大的模型和这么多的数据，训练的代价也是不菲的。谷歌用了16个自己的TPU集群（一共64块TPU）来训练大号版本的BERT，一共花了4天的时间。

对于是否可以复现预训练，作者在Reddit上有一个大致的回复，指出OpenAI当时训练GPT用了将近1个月的时间，而如果用同等的硬件条件来训练BERT估计需要1年的时间。不过他们会将已经训练好的模型和代码开源，方便大家训练好的模型上进行后续任务。

虽然训练的代价很大，但是这个研究还是带来了一些思考和启发。例如双向语言模型的运用，多任务对预训练的帮助以及模型深度带来的收益。相信在未来的一段时间，自然语言处理中预训练的神经网络语言模型会得到更多的关注和运用。

卷积神经网络（Convolutional Neural Network, CNN）不想秃头的程序神经网络语音识别人工智能深度学习网络卷积神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专门用于处理图像、视频等网格数据的深度学习模型。它通过卷积层自动提取数据的特征，并利用空间共享权重和池化层减少参数量和计算复杂度，成为计算机视觉领域的核心技术。以下是CNN的详细介绍：一、核心思想CNN的核心目标是从图像中自动学习层次化特征，并通过空间共享权重和平移不变性减少参数量和计算成本。其关键组件包括：卷积层（
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
基于Python Anaconda环境，使用CNN-LSTM模型预测碳交易价格的完整技术方案神经网络15044 仿真模型算法机器学习 python cnn lstm
以下是一个基于PythonAnaconda环境，使用CNN-LSTM模型预测碳交易价格的完整技术方案。内容涵盖数据预处理、模型构建、训练优化、预测可视化和结果分析等核心环节，代码与文字说明共计超过6000字。基于CNN-LSTM的碳交易价格预测系统设计与实现一、项目背景与目标1.1碳交易市场概述碳交易作为应对气候变化的重要市场机制，其价格波动直接影响企业减排决策。准确预测碳价（CarbonEmis
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
OpenCV边缘填充方式详解慕婉0307 opencv基础 opencv 计算机视觉人工智能
一、边缘填充概述在图像处理中，边缘填充（BorderPadding）是一项基础而重要的技术，特别是在进行卷积操作（如滤波、边缘检测等）时，处理图像边缘像素需要用到周围的像素值。由于图像边缘的像素没有完整的邻域，因此需要通过某种方式对图像边界进行扩展。边缘填充的主要应用场景包括：图像滤波（如高斯滤波、中值滤波等）卷积神经网络（CNN）中的卷积层形态学操作（如膨胀、腐蚀）图像特征提取二、OpenCV中
Python打卡训练营-Day43-复习日 traMpo1ine python
@浙大疏锦行作业kaggle找到一个图像数据集，用cnn网络进行训练并且用grad-cam做可视化进阶：并拆分成多个文件
深度学习在人脸识别中的应用及Python实现 loop_syntax648 机器学习-深度学习
人脸识别是一种通过计算机技术识别和验证人脸的方法，近年来深度学习在人脸识别领域取得了显著的进展。深度学习模型能够学习和提取人脸图像中的高级特征，从而实现准确的人脸识别。本文将介绍深度学习在人脸识别中的应用，并提供Python实现的源代码。深度学习模型通常基于卷积神经网络（ConvolutionalNeuralNetwork，CNN）进行人脸识别。CNN是一种专门用于处理图像和视觉数据的神经网络模型
cnn 一维时序数据_AI顶会解读|时序动作分割与检测，附代码链接
时序动作分割与检测时序动作的分割与检测是视频计算机视觉技术的一大常规任务，对自动驾驶和机器人等应用至关重要，下面3篇论文是腾讯AILab在这一方向的探索成果。1.动作识别中的时序帧间差异表征学习TemporalDistinctRepresentationLearningforActionRecognition本文由腾讯AILab、腾讯优图实验室、新加坡南洋理工大学、美国纽约州立大学布法罗分校合作完
DAY 43 复习日 CNN训练与Grad-CAM可视化（模块化实现）沐兮兮兮 cnn 人工智能神经网络
目录Kaggle图像分类项目：项目结构一、数据准备模块1.config/paths.py2.data/preprocessing.py3.data/dataset.py二、模型定义模块1.models/cnn_model.py2.models/grad_cam.py三、训练脚本train.py四、可视化模块1.utils/visualization.py2.visualize.py五、实用工具ut
基于PyTorch的MNIST手写数字识别（配置手写板使用）热心不起来的市民小周 CV 项目实操 pytorch 人工智能 python
基于PyTorch的MNIST手写数字识别（配置手写板使用）代码详见：https://github.com/xiaozhou-alt/CNN_MNIST文章目录基于PyTorch的MNIST手写数字识别（配置手写板使用）一、项目介绍二、数据集介绍三、项目实现1.环境准备2.项目文件夹结构3.数据预处理4.开始训练！(1)数据加载(2)数据转换(3)模型定义(4)训练过程(5)评估测试四、结果展示一
Tensorflow实现经典CNN网络AlexNet 您懂我意思吧 python开发 tensorflow cnn 人工智能 python
1、概念AlexNet在ILSVRC-2012的比赛中获得top5错误率15.3%的突破（第二名为26.2%），其原理来源于2012年Alex的论文《ImageNetClassificationwithDeepConvolutionalNeuralNetworks》，这篇论文是深度学习火爆发展的一个里程碑和分水岭，加上硬件技术的发展，深度学习还会继续火下去。2、AlexNet网络结构由于受限于当时
一[3.0]、 yolov8 工作原理他人是一面镜子，保持谦虚的态度车道检测研究 YOLO
目录YOLOv8简介什么是YOLOv8？yaml配置文件解析YOLOv8架构图Yolov8有什么新功能？YOLO模型彻底改变了计算机视觉领域。识别物体是计算机视觉中的一项关键任务，可应用于机器人、医学成像、监控系统和自动驾驶汽车等多个领域。YOLO模型的最新版本YOLOv8是一种先进的实时物体检测框架，引起了研究界的关注。在所有流行的物体识别机器学习模型（如FasterR-CNN、SSD和Reti
60天python训练营打卡day41 tan90�= python60天打卡 python 开发语言
学习目标：60天python训练营打卡学习内容：DAY41简单CNN知识回顾1.数据增强2.卷积神经网络定义的写法3.batch归一化：调整一个批次的分布，常用与图像数据4.特征图：只有卷积操作输出的才叫特征图5.调度器：直接修改基础学习率卷积操作常见流程如下：输入→卷积层→Batch归一化层（可选）→池化层→激活函数→下一层2.Flatten->Dense(withDropout，可选)->De
【深度学习加速探秘】Winograd 卷积算法：让计算效率 “飞” 起来 heimeiyingwang 算法深度学习算法人工智能
一、为什么需要Winograd卷积算法？从“卷积计算瓶颈”说起在深度学习领域，卷积神经网络（CNN）被广泛应用于图像识别、目标检测、语义分割等任务。然而，卷积操作作为CNN的核心计算单元，其计算量巨大，消耗大量的时间和计算资源。随着模型规模不断增大，传统卷积算法的计算效率成为限制深度学习发展的一大瓶颈。Winograd卷积算法的出现，犹如一把利刃，直击传统卷积计算的痛点。它通过巧妙的数学变换，大幅
yolov11转ncnn model2005 YOLO ncnn
yolo模型pt格式文件转ncnn，以适用于移动端的部署。原先要经过onnx，onnxsim等转换，cmake编译，现直接可生成(如何从YOLO11导出到NCNN以便顺利部署)。fromultralyticsimportYOLO#LoadtheYOLO11modelmodel=YOLO("yolo11s.pt")#ExportthemodeltoNCNNformatmodel.export(for
第五章卷积神经网络（CNN） AI拉呱机器学习深度学习实例讲解与分析
第五章卷积神经网络（CNN）5.1卷积神经网络的组成层在卷积神经网络中，有3种最主要的层：卷积运算层池化层全连接层一个完整的神经网络就是由这三种层叠加组成的。结构示例拿CIFAR-10数据集举例，一个典型的该数据集上的卷积神经网络分类器应该有[INPUT-CONV-RELU-POOL-FC]的结构，INPUT[32*32*3]包含原始图片数据中的全部像素，长宽都是32，有RGB3个颜色通道。CON
CNN算法（一）——残差网络ResNet-50 晋丑丑 cnn 算法人工智能
一、完整代码importtorchimporttorch.nnasnnimporttorchvision.transformsastransformsimporttorchvisionfromtorchvisionimporttransforms,datasetsimportos,PIL,pathlib,warningsimportmatplotlib.pyplotaspltimportcopyi
A Survey on Deep Learning Techniques Applied to medical image analysis AI天才研究院 AI人工智能与大数据自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术文章目录1.简介2.BackgroundandKeyConceptsIntroductionKeyTerms&Concepts3.CoreTechnicalConceptsandOperationsConvolutionalNeuralNetwork(CNN)StructureofaCNNLayerBuildingBlocksofCNNConvolutionalLaye
微算法科技(NASDAQ：MLGO)采用量子卷积神经网络(QCNN)，检测区块链中的DDoS攻击 MicroTech2025 量子计算区块链
随着区块链技术的广泛应用，其安全性问题日益凸显。DDoS攻击作为一种常见的网络攻击手段，也对区块链网络构成了严重威胁。传统的检测方法在应对复杂多变的DDoS攻击时存在一定局限性，而量子计算的发展为解决这一问题带来了新的契机。微算法科技(NASDAQ：MLGO)深入研究量子卷积神经网络(QCNN)，并对其在检测区块链中的DDoS攻击方面进行了一系列创新改进。量子卷积神经网络（QCNN）是结合了量子计
VLM 系列——Qwen2 VL——论文解读 TigerZ* AIGC算法 AIGC 计算机视觉人工智能图像处理
一、概述1、是什么是一系列多模态大型语言模型（MLLM），其中包括2B、7B、72B三个版本，整体采用视觉编码器（标准VIT输出后面接patchmerger）+LLM形式。比较创新的是统一视觉处理方式（3DCNN统一视频、图片）+图像缩放方式（自适应缩放）+3DLLM位置编码。能够处理包括文本、图像在内的多种数据类型，具备图片描述、单图文问答、多图问对话、视频理解对话、json格式、多语言、age
【python实用小脚本-111】基于PyTorch的人脸口罩检测系统技术文档 Kyln.Wu Python python pytorch 开发语言
项目概述本项目是一个基于PyTorch框架开发的人脸口罩检测系统，能够识别图像中人物是否佩戴口罩，并区分三种状态：正确佩戴口罩（绿色框）、不正确佩戴口罩（橙色框）和未佩戴口罩（红色框）。该项目由开发者Abhinand（GitHub:abhinand5）创建，代码托管在GitHub上。系统架构系统采用FasterR-CNN（Region-basedConvolutionalNeuralNetwork
多目标跟踪行走的小部落目标跟踪人工智能计算机视觉
侦探联盟：多目标跟踪大作战适合对象：高中生关键点：多目标跟踪、传统方法、深度学习、卡尔曼滤波、匈牙利算法、CNN、Re-ID序章：神秘的闹市阴影夜晚的星城，一场盛大的街头音乐节即将开幕。灯光下，形形色色的人在广场上游走。人声、音乐声交织成宏大的交响。突然，警局接到一封匿名信：有人要在音乐节上搞破坏，还不止一个人。“多目标追踪联盟”火速集结：他们擅长在人群中盯梢，每一个侦探都有独特的本领。今天，他们
多层次特征融合的中医药材推荐方法研究罗伯特之技术屋物联网及AI前沿技术专栏计算机软件及理论发展专栏信息资源管理与发展专栏机器学习神经网络人工智能
摘要深度学习技术迅速发展，在中医药材推荐任务中被大量使用。针对传统神经网络模型在中医药材推荐应用中推荐精度不高、模型参数量较大等问题，提出一种多层次特征融合的轻量级药材推荐方法。在TextCNN模型参数量少、特征抽取全面等特点的基础上，进一步融合症状语义特征和序列特征，从而获取更全面的症状药材特征完成中医药材推荐任务，并将其在中医药材公开数据集上进行验证。实验表明，该方法对药材推荐的F5得分达到0
基于深度学习的智能图像语义分割系统：技术与实践 Blossom.118 机器学习与人工智能深度学习人工智能 python 分类音视频机器学习 sklearn
前言图像语义分割是计算机视觉领域中的一个重要任务，其目标是将图像中的每个像素分配到预定义的语义类别中。这一技术在自动驾驶、医学影像分析、机器人视觉等多个领域有着广泛的应用。近年来，深度学习技术，尤其是卷积神经网络（CNN）及其变体，为图像语义分割带来了显著的改进。本文将详细介绍基于深度学习的智能图像语义分割系统的原理、实现方法以及实际应用案例。一、图像语义分割的基本概念1.1什么是图像语义分割？图
基于深度学习的特征映射模块（FMS）实现与分析 RockLiu@805 深度学习模块机器视觉深度学习人工智能
基于深度学习的特征映射模块（FMS）实现与分析引言在现代计算机视觉任务中，特征提取是至关重要的一步。传统的CNN虽然在很多任务上表现良好，但面对复杂图像信息时仍显得力不从心。为了解决这一问题，研究者们不断探索新的方法和技术，以更高效地捕捉和表示图像中的特征。今天，我将带大家深入探索一个结合了深度学习与小波变换的特征映射模块（FMS）。该模块不仅利用了传统的卷积神经网络（CNN），还引入了离散小波变
探秘卷积神经网络（CNN）：从原理到实战的深度解析 LNL13 cnn 人工智能神经网络
在图像识别、视频处理等领域，卷积神经网络（ConvolutionalNeuralNetwork，简称CNN）如同一位“超级侦探”，能够精准捕捉图像中的关键信息，实现对目标的快速识别与分析。从医疗影像诊断到自动驾驶中的路况感知，CNN凭借独特的架构设计和强大的特征提取能力，成为深度学习领域的中流砥柱。接下来，让我们深入探索CNN的奥秘。一、CNN的诞生背景与核心优势传统的神经网络，如多层感知机（ML
faster rcnn预训练模型_Faster-RCNN+TensorFlow 详细训练过程（附github源码） weixin_39958631 faster rcnn预训练模型
图片来源于网络图片来源于网络1、训练平台：R53600、RTX2060Super，16G运行内存。2、源码地址：https://github.com/dBeker/Faster-RCNN-TensorFlow-Python33、使用git下载源码，gitclonehttps://github.com/dBeker/Faster-RCNN-TensorFlow-Python3.git项目整体代码结构
day43python打卡 qq_58459892 py打开学习 pytorch python 深度学习算法人工智能
作业：kaggle找到一个图像数据集，用cnn网络进行训练并且用grad-cam做可视化进阶：并拆分成多个文件importosimporttorchimporttorch.optimasoptimimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvisionimporttorchvision.transformsastransform
小型图像数据集效果优化：使用预训练的CNN 幸运六叶草深度学习
面对解决小型图像数据集，一种常用且非常高效的方法是使用预训练网络。那么什么是预训练网络呢？定义：预训练网络（pretrainednetwork）是一个保存好的网络，之前已经在大型数据集（通常是大规模图像分类任务）上训练好。作用：如果这个原始数据集足够大且足够通用，那么预训练网络学到的特征的空间层次结构可以有效地作为视觉世界的通用模型，因此这些特征可用于各种不通的计算机视觉问题，即使这些新问题涉及的
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号