数据拾光者

广告行业中那些趣事系列16：NLPer一定要知道的BERT文本分类优化策略及原理

本篇一共7100个字

摘要：本篇主要分享了项目实践中的BERT文本分类优化策略和原理。首先是背景介绍及优化方向，其中优化方向主要分成从数据层面优化和模型层面优化；然后通过实验的方式重点分析了分类器优化策略和原理，主要从优化BERT预训练权重和分类器模型内部优化策略优化分类器效果；最后分享了一些关于BERT优化的思考和总结，包括分类层是否应该复杂化、长文本处理、增加新知识和灾难性遗忘问题的处理。优化永无止境，本篇内容也会持续更新，把项目实践中有价值的优化技巧通过文章及时固化，也希望更多的小伙伴一起分享文本分类优化技巧。

下面主要按照如下思维导图进行学习分享：

01 背景介绍及优化方向

还是老规矩，介绍下写这篇文章的背景。笔者从事文本分类项目实践已经有一段时间了，其间也积累了很多实用的优化策略。这里的优化策略不仅仅是书面上的“纸上谈兵”，而是真正在实际业务中能有巨大提升的“奇淫巧计”，所以权当笔记总结分享出来，和大家一起交流探讨。

关于文本分类，总的来说主要有两大优化方向，一个是从数据层面优化，另一个是从模型层面优化。下面分别从这两个方面说明：

1.1 数据层面优化

从数据层面优化文本分类器，也就是获得更多更好的训练语料。因为实际项目中主要使用的是目前NLP领域大火的BERT模型，实质是借助迁移学习把提前学习到的海量的语言学知识应用到下游实际项目中，所以整体来看模型效果是有保障的，这也是BERT在工业界尤其在各大厂都大受欢迎的原因。在这样的前提下，我们只需要根据实际的业务去想办法搞到更多更好的训练语料。

目前项目中主要通过人工标注和关键词匹配相结合的方式获取训练语料，在获得一定的训练语料之后想进一步获得更多更好的语料就要从以下两方面开展工作了：一方面，在一定的语料基础上想要获得更多的语料就需要借助样本增强技术，之前也写过一篇文章

《广告行业中那些趣事系列13：NLP中超实用的样本增强技术》因为通过人工标注或者关键词匹配的方法得到的语料或多或少都会有错误样本存在，这些错误数据会降低模型的识别能力，所以提升语料的质量也至关重要。关于置信学习寻找错误标注样本的文章正在酝酿当中，感兴趣的小伙伴可以关注下。从数据层面优化文本分类模型不是本篇的重点，一笔带过。

1.2 模型层面优化

上面说过，BERT模型效果是比较好的，那么在原生BERT模型的基础上能否进一步优化？答案是肯定的。总体来说，基于BERT模型的优化主要包括预训练权重优化、是否微调、分类层优化、NLP任务优化等等。下面会重点通过实验的方式对这些优化策略进行说明，同时会附上效果提升与否的原理分析。

02 优化策略及原理

在进行优化实验前，先对文本分类器测试流程和实验进行说明。实际项目中建立机器学习模型之前重中之重是确定模型的评估方式，只有结合业务确定了模型的评估方式，才有模型优化的方向。

实际项目中文本分类器效果评估主要分成两步，第一步是在测试集评估，评估指标是精度、召回率和F1得分。将训练语料按照8:2划分成训练集和测试集，所以测试集和训练集是同分布的。测试集主要用来评估模型在同分布下的识别效果，这是分类器效果评估的第一步；第二步是在真实分布数据集评估。线上真实分布数据集是获取线上头部query数据进行人工标注得到的测试集，和训练集的分布有一定差别。这部分数据集主要用来评估模型在线上的识别效果，同时还可以辅助有效的扩充训练语料。

通常情况下，模型在测试集上表现效果较好，在真实分布数据集上会有所下降，主要原因是测试集和训练集同分布，这样使得在测试集上预测的也较好。而真实分布数据集合训练集语料空间差别很大，有很多训练集从没出现过的样本，可以理解成“特征不足”。通过分析线上真实分布数据集的错误样本可以有效提升模型的线上识别能力，这也是线上真实分布数据集可以辅助模型有效的扩充训练语料的原因。这里一定要明确，我们分类器的最终目标是在线上真实分布数据集上有很好的效果。

本次实验主要选择汽车标签作为参考，有以下两个原因：一方面，汽车是我们类目体系中的一级类目，优先级较高；另一方面，我们有足够的汽车训练语料和真实分布数据。这是分别基于业务和实验可靠性的角度考虑最终选择汽车二分类器。

因为是实际项目，不便给出实际的测试集评估数据，所以这里给出各个实验组相比对照组的指标提升比例，通过指标提升比例也能很好的看出各个优化策略给模型带来的提升情况。指标提升的计算公式为：提升比例=(实验组-对照组)/对照组。对照组是使用谷歌原生态的BERT-Base, Chinese，这个预训练权重主要使用中文语料学习得到。分词器使用中文、英文等单个字符切分，主要原因是减少未登录词(OOV)的影响。同时模型不进行微调。这里不进行微调主要是基于模型线上性能和分类效果的双重考虑，这里因为暂时申请了专利，所以不便细讲。等专利确定好了以后我会出一篇文章详细讲下我们在复杂类目体系下构建分类器的线上方案。总结下来对照组是如下操作：

对照组：使用谷歌原生态BERT-Base,Chinese预训练模型，单个字符分词，不微调。

模型层面优化主要通过优化BERT预训练权重和分类器模型内部优化策略两方面进行。

2.1优化BERT预训练权重

优化BERT预训练权重主要分成谷歌原生态预训练权重和BERT-wwm预训练权重。

2.1.1 BERT原生预训练权重优化

这组实验主要对比谷歌原生预训练权重对分类器的效果影响。下图是BERT原生模型提供的预训练权重，其中红色是我们线上正在使用的预训练权重，也是对照组正在使用的中文预训练权重，实验组分别对比绿色的两个预训练权重，其中BERT-Large,Cased是使用更多英文语料并且模型更加复杂的Large版本，使用了24层Transformer作为特征抽取器(基础base版本使用了12层Transformer作为特征抽取器)，这个主要想看看复杂模型对于分类器的影响，这里暂且设置为实验组1(这里需要说明下，其实对比复杂模型对于分类器的影响最好使用中文语料训练的Large版本，但是目前是没有的，所以这里只能退而求其次使用英文语料训练的Large版本)；

同时对比多语言版本BERT-Base，Multilingual Cased，该预训练权重使用多语言文本进行训练，使用12层Transformer作为特征抽取器。进行这组实验主要原因是我们的query中包含中英文两种语言，所以想看看多语言预训练权重能否提升分类器效果，这里设置为实验组2。

图1 谷歌原生BERT预训练权重

总结下来就是对比如下实验：

对照组：使用谷歌原生态BERT-Base, Chinese预训练模型，单个字符分词，不微调；

实验组1：使用谷歌原生态BERT-Large,Cased，单个字符分词，不微调；

实验组2：使用谷歌原生态BERT-Base，MultilingualCased，单个字符分词，不微调。

实验结论及原理分析：

表1 谷歌原生BERT预训练权重效果提升表

	指标	对照组	lab1	lab2
测试集	精度	a	-36.73%	-2.04%
	召回率	b	-47.25%	-45.05%
	F1得分	c	-42.55%	-29.79%
真实分布数据集	精度	d	-85.19%	-85.19%
	召回率	e	-71.25%	12.50%
	F1得分	f	-85.00%	-82.50%

从上面的实验数据可以看出，对于业务场景中主要是中文的搜索的情况下谷歌Large版本复杂预训练权重和多语言版本权重对于分类器的识别效果有很大的下降。这个实验结论其实很好理解，因为对照组使用的是中文语料进行训练，而我们实际业务场景也主要是中文的搜索query，所以使用BERT-Base, Chinese版本更加合理一些。

2.1.2 BERT-wwm预训练权重优化

上面对比了谷歌原生BERT预训练权重，下面对比下哈工大讯飞联合实验室发布的BERT-wwm预训练模型。因为谷歌发布的BERT-Base, Chinese模型里中文是以字为粒度进行切分，在BERT预训练过程中基于掩码的Masked Language Model(MLM)任务中也以字粒度进行Mask操作。BERT-wwm针对这个问题进行一系列中文式的改造，充分考虑传统NLP中的中文分词操作，以词为粒度进行Mask操作，也就是Whole Word Masking(wwm)操作。下面直接通过一个样本示例进行说明：

表2 全词Mask操作样本说明

说明	样例
原始文本	我喜欢吃西瓜，还喜欢跑步
原始Mask	我喜欢吃Mask瓜，还喜欢跑Mask
分词文本	我喜欢吃西瓜，还喜欢跑步
全词Mask	我喜欢吃Mask Mask，还喜欢Mask Mask

假如原始Mask将文本中的“西”和“步”进行了Mask操作，全词Mask则考虑分词结果将“西瓜”和“跑步”都进行Mask操作。这种操作其实和百度的Ernie模型有异曲同工之妙，主要是结合中文的实际应用场景，应用知识图谱加入更多中文语义的信息。下图是BERT-wwm官网提供的预训练权重版本，本组实验主要对比绿色框中的预训练权重。

图2 BERT-wwm预训练权重

根据上图进行说明，设置实验组3使用BERT-wwm，Chinese预训练权重，主要使用中文维基语料和全词掩码的方式进行训练；

设置实验组4使用BERT-wwm-ext，Chinese预训练权重，和实验组3相比增加了通用数据，这里通用数据包括：百科、新闻、问答等数据，总词数达5.4B，处理后的文本大小约10G；

设置实验组5使用RoBERTa-wwm-ext，Chinese预训练权重。RoBERTa权重是Facebook提出的预训练模型，刷新了很多英文数据集的最好成绩，所以该预训练权重是基于RoBERTa模型和全词掩码的方式进行训练得到的；

设置实验组6使用RoBERTa-wwm-ext-large，Chinese预训练权重，和实验组5的区别是使用了更复杂的24层Transformer(基础版本使用12层Transformer)模型；

设置实验组7和实验组8分别使用RBT3，Chinese和RBTL3，Chinese和，分别使用了三层RoBERTa-wwm-ext-base/large，其实就是小参数量模型。

总结下来就是对比如下实验：

对照组：使用谷歌原生态BERT-Base, Chinese预训练权重，单个字符分词，不微调。

实验组3：使用哈工大讯飞实验室BERT-wwm，Chinese，单个字符分词，不微调。

实验组4：使用哈工大讯飞实验室BERT-wwm-ext，Chinese，单个字符分词，不微调。

实验组5：使用哈工大讯飞实验室RoBERTa-wwm-ext，Chinese，单个字符分词，不微调。

实验组6：使用哈工大讯飞实验室RoBERTa-wwm-ext-large，Chinese，单个字符分词，不微调。

实验组7：使用哈工大讯飞实验室RBT3，Chinese，单个字符分词，不微调。

实验组8：使用哈工大讯飞实验室RBTL3，Chinese，单个字符分词，不微调。

实验结论及分析：

表3 BERT-wwm预训练权重效果提升表

从上面实验数据可以看出，BERT-wwm相比于原生BERT模型分类效果是有明显提升的。这里需要说明下，实际项目中发现测试集效果指标一般比较好，对比中丁点的变化基本可以忽略，而真实分布数据集则一般效果较差，所以我们需要重点对比在真实分布数据集下的指标提升。先说说实验组7和实验组8，相比于对照组均有很大下降，主要原因是仅使用了三层RoBERTa-wwm-ext，还没有微调，自然效果是不理想的。这种小参数模型其实更多的是使用到线上推理流程，重点满足时效性。

其他实验组3到6在真实分布数据集上均有不同的提升，其中最亮眼的是实验组5的RoBERTa-wwm-ext，Chinese预训练模型，提升非常明显。RoBERTa从模型上来说没有多少创新，主要在以下几点进行了调整：(1)训练时间更长，batch size更大，训练数据更多；(2)移除了next predict loss；(3)训练序列更长；(4)动态调整了Masking机制。通过上面这些优化调整在很多公开数据集上相比于原生BERT有较大提升。单纯从我们目前复杂的文本分类系统来看，工程角度最简单有效的就是修改一下预训练模型即可有效提升分类器效果。这里比较意外的是实验组6的效果竟然不如实验组5提升的明显，如果从本次实验结果来看也间接说明了模型不一定越复杂越好。

总体来看，基于全词掩码的BERT-wwm权重相比于谷歌原生权重有较大的效果提升，提升的原因主要在于通过知识图谱的方法加入了更多的中文语义信息。为了排除单个分类器实验偶然性的风险，我除了在汽车分类器上进行实验，同时挑选了其他几个分类器进行实验，最终实验结论是一致的，在真实分布数据集上均有比较明显的提升。

2.2 分类器模型内部优化策略

上面主要从BERT预训练权重进行优化，下面是实际项目中总结的分类器模型内部优化策略。因为对照组没有对BERT模型进行微调，所以这里需要对比下微调对分类器效果的影响，这里设置为实验组9；

在实际项目中进行badcase分析时发现很多纯英文样本识别错误，对照组中不论中文还是英文都使用单个字符进行切分，所以这里使用BERT原生的分词器进行实验。原生分词器对于中文使用单个字符分词，英文使用wordpiece进行分词。通过这组实验想查看英文分词对于分类器效果的影响，设置为实验组10；

这里同时考虑将文本分类任务转化为句子对关系任务来查看分类器效果。对照组是对一条query进行分类，是典型的文本分类任务，由于label是0或者1，所以没有很好的利用标签本身的描述信息。这里思考能否将标签描述信息也添加到文本识别任务中，具体做法是将query作为句子1，将标签描述信息转换为句子2，让BERT模型去识别句子1和句子2是否有相似关系。这种改造在项目工程中只需要在分词操作时统一对训练集添加second=‘句子2’即可，也就是tokenizer.encode(first=text,second='句子2')。为了方便起见，我这里将句子2设置为简单的“汽车”，相当于把任务改成了query和“汽车”是不是相似语句，样本中标签为1的就变成了相似的样本，为0则代表不相似。这里设置为实验组11。

总结下来就是对比如下实验：

对照组：使用谷歌原生态BERT-Base, Chinese预训练模型，单个字符分词，不微调。

实验组9：使用谷歌原生态BERT-Base, Chinese预训练模型，单个字符分词，微调。

实验组10：使用谷歌原生态BERT-Base, Chinese预训练模型，中文根据单个字符切分，英文通过wordpiece切分，不微调。

实验组11：使用谷歌原生态BERT-Base, Chinese预训练模型，中文根据单个字符切分，英文通过wordpiece切分，同时添加second=‘汽车’，将任务改造为句子对关系任务，不微调。

实验结论及分析：

表4 一些其他模型优化操作效果提升表

	实验指标	对照组	lab9	lab10	lab11
测试集	精度	a	-2.04%	0.00%	-2.04%
	召回率	b	6.59%	0.00%	3.30%
	F1得分	c	2.13%	0.00%	1.06%
真实分布	精度	d	66.67%	7.41%	151.85%
	召回率	e	17.50%	-2.50%	2.50%
	F1得分	f	52.50%	7.50%	85.00%

从上面实验结果可以看出，实验组9测试集精度有一定下降，召回有一定提升，整体变化不明显。但是在真实分布数据集效果有较大提升，所以证明使用BERT微调可以有效提升分类器的效果。这个实验结论比较好理解，在同分布下BERT是否微调对于分类器效果影响不大。但是在线上真实分布数据集中因为语料空间变化很大，需要模型有更强的识别能力，所以需要微调来进一步提升模型的识别能力；

实验组10在真实分布数据集上效果有轻微提升，所以对于英文使用wordpiece也可以提升分类器效果；

最后实验组11效果有较大提升，将文本分类任务转化成句子对关系任务可以很好的利用标签描述信息，有效提升分类效果。这里还仅仅使用了“汽车”一个词。如果可以挖掘到更多能代表汽车标签的关键词，拼接之后作为句子2应该可以带来更多的效果提升。目前这块打算通过BERT构建实体识别任务，获取汽车标签的实体信息，然后选择pv较高query的实体信息进行拼接。

小结下，本节主要从优化BERT预训练权重和分类器模型内部优化策略来提升分类器效果，主要有以下重要结论：首先，因为用户搜索主要是中文query，所以在谷歌原生BERT预训练权重里中文版本的预训练权重效果最好；然后，BERT-wwm使用基于全词Mask的预训练权重，通过知识图谱可以获取到更多表达中文语义的语言学知识，可以有效提升分类器效果，尤其是基于RoBERTa-wwm-ext，Chinese预训练权重表现出色；最后，对比了一些分类器模型内部优化策略带来的提升，基于BERT微调的确能提升模型的分类效果，基于wordpiece的英文分词可以提升模型的分类效果。将文本分类任务转化成句子对关系任务可以将标签描述信息提供给模型，可以有效提升分类器的识别效果。

03 关于BERT优化的思考和总结

上面从预训练权重和分类器模型内部优化策略来提升分类器识别效果。对于模型来说，优化永无止境。关于BERT分类器优化的其他思考和总结如下：

1.分类层是否使用更加复杂的结构。目前分类层是使用一层全连接层，可以考虑添加全连接层数。这个优化方案其实有做过尝试，在测试集和真实分布数据集上效果没有太大变化。关于分类层优化问题，网上也查了很多资料，主要的看法是建议BERT后面添加的层越少越好，主要原因有两个：一个原因是BERT本身就足够复杂，它有足够能力应对你要做的很多任务；另一个原因是加的层都是随即初始化的，加太多会对BERT的预训练权重造成剧烈扰动，容易降低效果甚至造成模型不收敛。关于分类层是否使用复杂的结构需要结合实际项目进行详细实验论证；

2.长文本的处理。BERT处理的最大文本长度是512，除去开始CLS和结束SEP标志，也就剩下510了。对于长度大于510的文本主要有三种方式：取头部510，取尾部510，取头部和尾部一共510。实验证明取头部和尾部一共510的方式效果更好，这个其实也容易理解。对于一篇长文，文章的重点一般会出现在头部和尾部，所以取头部和尾部也就可以理解文章的核心内容了；

3.新知识的学习。一些大厂会基于BERT原生预训练权重训练自己的预训练模型，比如前面分享的文章里《广告行业中那些趣事系列15：超实用的基于BERT美团搜索实践》美团会使用自己的数据去训练MT-BERT，构建自己的BERT预训练模型可以有效提升模型在特定领域的效果。可以这么理解，谷歌使用通用文本得到的预训练权重会具有更好的普适性，但是缺点也很明显。很好的普适性反面就是特有领域的效果会打一定折扣。针对这种情况很多大厂会使用自己特有领域的数据来让BERT学习新知识，这样的预训练权重也会更加适合特有领域的下游任务。这个在美团的实践中也有论证；

4.灾难性遗忘问题的处理。迁移学习中容易出现学习新知识时可能会忘记以前很重要的旧知识，这就是灾难性遗忘。针对这个问题，可以使用较低的学习率克服这个问题。

总结

本篇主要分享了BERT文本分类优化策略和原理。首先介绍了业务背景和文本分类优化方向，优化方向主要包括从数据层面优化和模型层面优化；然后通过实验的方式重点分析了分类器优化策略和原理，主要从优化预训练权重和分类器模型内部优化策略来提升分类器效果；最后分享了一些关于BERT优化的其他思考和总结，包括分类层是否应该复杂化、长文本处理、增加新知识以及灾难性遗忘问题的处理。优化永无止境，本篇内容也会持续更新，把项目实践中有价值的优化策略及时固化，也希望更多的小伙伴一起分享文本分类优化技巧。

参考资料

[1]https://github.com/google-research/bert

[2]https://github.com/ymcui/Chinese-BERT-wwm

[3]https://github.com/brightmart/roberta_zh

你可能感兴趣的:(大数据,编程语言,机器学习,人工智能,数据分析)

2025年全球数据安全发展趋势 jinan886 人工智能大数据安全数据分析
随着云计算、大数据、人工智能等技术的迅猛发展，数据已成为驱动经济社会发展的关键生产要素。然而，数据泄露、网络攻击等安全事件频发，给个人隐私、企业利益乃至国家安全带来了前所未有的挑战。全球数据安全发展趋势正随着技术进步和威胁演变而不断变化，以下是主要趋势：1.数据隐私法规加强GDPR（欧盟《通用数据保护条例）和CCPA（加州消费者隐私法案）等法规推动了全球对数据隐私的重视，更多国家和地区正在制定或更
使用Chaindesk进行简单高效的文档检索 2501_92325368 langchain
##技术背景介绍Chaindesk是一个开源的文档检索平台，它帮助将个人数据与大型语言模型结合起来，实现高效的信息搜索和数据分析。Chaindesk的核心功能是通过创建数据存储库(datastore)并与大型语言模型进行交互，以提供快捷准确的文档检索能力。##核心原理解析Chaindesk通过一种称为Retriever的组件实现数据检索。Retriever可以与不同的数据存储库进行交互，拉取相关文
AI原生应用监控：实时领域偏见预警系统设计原理 Agentic AI人工智能与大数据 CSDN AI-native 人工智能 ai
AI原生应用监控：实时领域偏见预警系统设计原理关键词AI监控、算法偏见、实时预警、公平性AI、模型监控、偏见检测、AI治理摘要在人工智能驱动决策日益普及的今天，AI系统中的隐性偏见已成为影响公平性、可信度和业务连续性的关键风险。本文深入探讨了AI原生应用监控的核心挑战，重点剖析了实时领域偏见预警系统的设计原理与实现方法。通过将复杂的算法偏见比作"数字世界的隐形滤镜"，我们揭示了偏见如何在AI系统中
机器学习在智能仓储中的应用：库存管理与物流优化 Blossom.118 机器学习与人工智能机器学习人工智能深度学习机器人 sklearn tensorflow cnn
最近研学过程中发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。随着电子商务的蓬勃发展，仓储和物流行业面临着前所未有的挑战和机遇。智能仓储通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从货物入库到出库的全流程
【自然语言处理-NLP】文本预处理技术云博士的AI课堂哈佛博后带你玩转机器学习深度学习自然语言处理人工智能 NLP 深度学习数据预处理 NLP数据预处理机器学习
以下内容将从基本概念到实用代码分步骤、分场景地详细介绍NLP常见文本预处理方法及其背后的思想。如果无法从外部导入数据，我们会模拟一份简易文本数据（如字符串列表），并在此基础上演示预处理代码及详细解释，确保在常规Python环境下可以运行。一、文本预处理的常见需求和作用在自然语言处理（NLP）任务（如机器学习、深度学习、大模型开发）中，原始文本数据通常会包含各种噪声，例如：多余的空格、换行符、特殊符
探秘高效数据库备份利器：pg_probackup 郦岚彬Steward
探秘高效数据库备份利器：pg_probackuppg_probackuppg_probackup是一个开源的PostgreSQL备份和恢复工具，用于在PostgreSQL中进行在线备份和恢复操作。-功能：PostgreSQL备份和恢复工具；在线备份；恢复操作。-特点：易于使用；轻量级；支持多种编程语言；高性能。项目地址:https://gitcode.com/gh_mirrors/pg/pg_pr
行为正则化与顺序策略优化结合的离线多智能体学习算法
离线多智能体强化学习（MARL）是一个新兴领域，目标是在从预先收集的数据集中学习最佳的多智能体策略。随着人工智能技术的发展，多智能体系统在诸如自动驾驶、智能家居、机器人协作以及智能调度决策等方面展现了巨大的应用潜力。但现有的离线MARL方法也面临很多挑战，仍存在不协调行为和分布外联合动作的问题。为了应对这些挑战，中山大学计算机学院、美团履约平台技术部开展了学术合作项目，并取得了一些的成果，希望分享
【机器学习第四期（Python）】LightGBM 方法原理详解 WW、forever 机器学习原理及代码实现机器学习 python 人工智能
LightGBM概述一、LightGBM简介二、LightGBM原理详解⚙️核心原理LightGBM的主要特点三、LightGBM实现步骤（Python）可调参数推荐完整案例代码（回归任务+可视化）参考LightGBM是由微软开源的基于梯度提升框架（GBDT）的机器学习算法，专为高性能、高效率设计，适用于大规模数据处理任务。它在准确率、训练速度和资源使用上都优于传统GBDT实现（如XGBoost）
【机器学习】机器学习的基本分类-监督学习-线性回归（Linear Regression） IT古董人工智能机器学习机器学习分类学习人工智能线性回归
线性回归是监督学习中的一种基础算法，用于解决回归问题。它通过拟合一条直线（或平面、高维超平面），来预测输出与输入变量之间的关系。1.线性回归的基本概念目标给定输入和对应的输出y，找到一个线性函数：其中：是权重（回归系数）。b是偏置（截距）。y是预测值。损失函数为了找到最佳的w和b，需要最小化预测值和真实值
提升AI产品竞争力：可用性评估的10个核心维度 AGI大模型与大数据研究院人工智能 ai
提升AI产品竞争力：可用性评估的10个核心维度关键词：AI产品、可用性评估、用户体验、人机交互、产品竞争力、评估维度、人工智能摘要：本文深入探讨了提升AI产品竞争力的10个核心可用性评估维度。我们将从用户角度出发，系统性地分析如何评估和优化AI产品的可用性，包括易用性、效率、可学习性、容错性等关键指标。通过详细的案例分析和实用建议，帮助产品团队打造更具竞争力的AI解决方案。背景介绍目的和范围本文旨
Python 数据分析与机器学习入门 (一)：环境搭建与核心库概览程序员阿超的博客 Python python 数据分析机器学习入门教程环境搭建 Anaconda JupyterNotebook
Python数据分析与机器学习入门(一)：环境搭建与核心库概览本文摘要本文是Python数据分析与机器学习入门系列的第一篇，专为初学者设计。文章首先阐明了Python在数据科学领域的优势，然后手把手指导读者如何使用Anaconda搭建一个无痛、专业的开发环境，并介绍了强大的交互式工具JupyterNotebook的基本操作。最后，简要概览了NumPy、Pandas、Scikit-learn等核心库
Python 数据分析与机器学习入门 (三)：Pandas 数据导入与核心操作程序员阿超的博客 Python python 数据分析机器学习 Pandas DataFrame Series 数据清洗
引言：Pandas是什么，为何如此重要？如果说NumPy是处理原始数值数组的利器，那么Pandas则是驾驭结构化数据的瑞士军刀。在真实世界的数据分析项目中，数据很少是单纯的数字矩阵。它们通常以表格形式存在，包含行和列，每列可能有不同的数据类型（如文本、数字、日期），并且带有描述性的列名和行索引。Pandas正是为高效处理这类数据而生。Pandas构建于NumPy之上，它不仅继承了NumPy的高性能
Apache Gravitino 安装和配置指南牧沛琚Immortal
ApacheGravitino安装和配置指南gravitino世界上最强大的数据目录服务，提供高性能、地理分布和联邦化的元数据湖。项目地址:https://gitcode.com/gh_mirrors/gra/gravitino1.项目基础介绍和主要的编程语言项目基础介绍ApacheGravitino是一个高性能、地理分布式和联邦化的元数据湖。它直接管理不同来源、类型和区域的元数据，并为用户提供统
面经总结系列（十六）：元象科技大模型推理优化工程师 GoAI AI面经总结机器学习算法人工智能大模型机器学习深度学习
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️点击链接加群。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的
《深入浅出多模态》(四)：多模态经典模型CLIP GoAI 深入浅出多模态多模态大模型 LLM 人工智能
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介
大学专业科普 | 物联网、自动化和人工智能
在选择大学专业时，可以先从自身兴趣、能力和职业规划出发，初步确定几个感兴趣的领域。然后结合外部环境因素，如专业前景、教育资源和就业情况等，对这些专业进行深入的分析和比较。物联网专业课程设置基础课程：包括物联网概论、电子电工基础、计算机网络技术、数据库应用基础、C语言程序设计等。专业核心课程：传感器与传感网技术、自动识别技术与应用、单片机基础、物联网通信技术、嵌入式系统设计、无线传感器网络等。实践课
深入浅出多模态》（十一）之多模态经典模型：Flamingo系列 GoAI 机器学习多模态大模型人工智能 LLM 机器学习
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介绍：本作
大学专业科普 | 云计算、大数据鸭鸭鸭进京赶烤云计算大数据
大数据专业是近年来随着信息技术发展而兴起的热门学科，专注于从海量、多样化的数据中提取有价值信息，为各行业提供数据驱动的决策支持。专业定义大数据专业旨在培养掌握大数据采集、存储、管理、分析和应用等核心技术的人才。该专业融合了计算机科学、数学、统计学、数据科学和领域知识，重点解决大数据环境下的数据处理和分析问题。课程设置大数据专业的课程体系包括基础课程、专业核心课程和实践课程。（一）基础课程基础课程涵
招标专家随机抽选——抽取结果打印模板设计—未来之窗智能编程——仙盟创梦IDE 未来之窗软件服务招标专家仙盟创梦IDE 东方仙盟
打印代码function未来之窗_人工智能_打印指定区域(魔都id){varmode="iframe";varclose=false;varextraCss=`.cyberwinqrimg{display:inline-block!important;}`;varkeepAttr=[];keepAttr.push($("#"+魔都id).html());varheadElements=',';va
C++从入门到精通专栏简介 xiaoheshang_123 C++从入门到精通专栏开发语言 c++
目录C++从入门到精通专栏简介专栏概述专栏特色适用人群学习目标专栏结构第1章：C++语言基础第2章：面向过程编程第3章：面向对象编程(OOP)入门第4章：标准模板库(STL)初探第5章：高级特性第6章：现代C++第7章：实践项目第8章：性能优化与调试第9章：职业发展专栏优势期待与收获C++从入门到精通专栏简介专栏概述本专栏旨在为C++编程语言的学习者提供一个全面而系统的指南，帮助他们从零基础逐步成
Python批量下载网易云音乐飙升榜所有音乐文件 Python_小屋 graphviz netty gpu ai webgl
Python小屋刷题神器最近升级的新功能介绍推荐教材：《Python程序设计基础与应用》（ISBN：9787111606178），董付国，机械工业出版社，2018.8出版，2021.3第11次印刷作者荣誉：机械工业出版社计算机分社成立20周年本科教材”金牌作者“，机械工业出版社高等教育教材专家咨询委员会委员，机械工业出版社”面向新工科高等院校大数据专业系列教材“编审委员会委员，全国高等院校计算机基
什么是WebAssembly（WASM） MonkeyKing.sun wasm 区块链
WebAssembly（WASM）是一种高性能的低级编程语言字节码格式，可在网页和非网页环境中运行，支持多语言编译，运行速度接近原生代码。它在区块链中的作用是：作为智能合约的执行引擎，被多条非以太坊链（如Polkadot、EOS、CosmWasm）采用。Polkadot和EOS是使用WebAssembly的两个代表性区块链平台，它们与Solidity+EVM（以太坊生态）形成鲜明对比。一、什么是W
为什么Move将超越Solidity成为主流编程语言？初晓链研究员智能合约区块链区块链智能合约
最近Aptos、Sui的新热潮带火了Move相关的生态概念。我们团队从事Move相关的工作一年多，算是全球最经验最多、踩坑最多的开发者团队之一，借此分享一下对Move的看法与理解。最近Aptos、Sui的新热潮带火了Move相关的生态概念。我们团队从事Move相关的工作一年多，算是全球最经验最多、踩坑最多的开发者团队之一，借此分享一下对Move的看法与理解。我们团队过往在Ethereum、Sola
JavaScript深入理解与实战：作业6详解红廉骑士兽
本文还有配套的精品资源，点击获取简介：本次作业深入探讨了JavaScript编程语言的基础语法、函数与闭包、对象与原型链、事件与DOM操作、异步编程、ES6新特性、框架与库的使用、性能优化以及调试与测试。JavaScript在Web开发中扮演关键角色，通过学习上述知识点，学生将能够提升Web应用开发技能，优化代码性能，并进行有效的代码调试与测试。1.JavaScript基础语法介绍与实战1.1Ja
【EI会议征稿】东北大学主办第三届机器视觉、图像处理与影像技术国际会议（MVIPIT 2025）诗远Yolanda 图像处理计算机视觉考研视频机器学习论文阅读
一、会议信息大会官网：www.mvipit.org官方邮箱：[email protected]会议地点：辽宁沈阳主办单位：东北大学会议时间：2025年9月27日-9月29日二、征稿主题集中但不限于“机器视觉、图像处理与影像技术”等其他相关主题。机器视觉：视觉中的统计机器学习；立体视觉标定；几何建模与处理；人脸识别与手势识别；早期视觉和生物学启发的视觉；光流法和运动追踪；图像分割和图像分类；基于模型的视觉
MCP模型上下文协议：AI人工智能模型训练的自动化调参 AI天才研究院 AI人工智能与大数据人工智能自动化运维 ai
MCP模型上下文协议：AI人工智能模型训练的自动化调参关键词：MCP模型、自动化调参、AI训练、超参数优化、上下文协议、机器学习、深度学习摘要：本文深入探讨MCP模型上下文协议在AI模型训练自动化调参中的应用。MCP(ModelContextProtocol)是一种创新的自动化调参框架，通过上下文感知和动态参数调整机制，显著提升模型训练效率和性能。文章将从理论基础、算法实现、数学原理到实际应用进行
AI--提升效率、驱动创新的核心引擎保持学习ing AI编程自动化低代码
自动化代码生成、低代码/无代码开发、算法优化实践等新兴技术在软件开发领域正逐渐崭露头角。这些技术为开发者提供了更高效、更便捷的开发方式，大大提升了软件开发的效率和质量。本文重点探讨的是这些技术在实际应用中的价值和优势。1、自动化代码生成1.1优势自动化代码生成是利用机器学习和人工智能技术，通过分析需求和已有代码，生成可用的代码片段或完整的程序。这种技术可以极大地减少开发人员的工作量，提高开发效率。
[Python] -基础篇6-Python中的字符串处理技巧合集踏雪无痕老爷子 Python python 开发语言
Python中的字符串类型是非常常用的基础类型。不管是处理文本、数据分析，还是系统管理等场景，都不能离开字符串的操作。本文将分类整理Python字符串的常用技巧和方法，帮助你接地气地接触字符串处理的本质。1.基础操作1.1字符串切片s="Hello,Python!"print(s[0:5])#Helloprint(s[-7:])#Python!1.2字符串连接和处理name="Alice"gree
[Python] -基础篇5-玩转Python内置数据结构：列表、元组、字典与集合踏雪无痕老爷子 Python python 开发语言
Python是一门以简洁优雅著称的编程语言，其中内置的数据结构为日常编程提供了强大支持。本文将系统介绍Python中四大核心数据结构：列表（list）、元组（tuple）、字典（dict）与集合（set），并配以实用示例，帮助读者全面掌握其用法及适用场景。一、列表（List）：可变序列的代表列表是最常用的Python数据结构之一，支持动态增删改查。1.1基本操作fruits=['apple','b
大数据ETL工具比较：Sqoop vs Flume vs Kafka AI天才研究院 AI人工智能与大数据大数据 etl sqoop ai
大数据ETL工具比较：SqoopvsFlumevsKafka关键词：大数据ETL、Sqoop、Flume、Kafka、数据迁移、日志采集、消息队列摘要：在大数据生态中，ETL（抽取-转换-加载）是数据价值挖掘的关键环节。不同业务场景对数据传输的实时性、可靠性、数据类型有差异化需求，催生了Sqoop、Flume、Kafka等特色鲜明的ETL工具。本文从核心架构、工作原理、性能指标、实战案例四个维度，
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开