iioSnail

【论文解读】(如何微调BERT？) How to Fine-Tune BERT for Text Classification?

文章目录

论文信息
1. 论文内容
2. 论文结论
- 2.1 微调流程
- 2.2 微调策略(Fine-Tuning Strategies)
- 2.3 Further Pretrain
3. 论文实验介绍
- 3.1 实验数据集介绍
- 3.2 实验超参数
- 3.3 Fine-Tuning策略探索
- - 3.3.1 处理长文本
  - 3.3.2 不同层的特征探索
  - 3.3.3 学习率探索（灾难性遗忘探索）
  - 3.3.4 不同层使用不同学习率
- 3.2 Further Pretraining探索
- - 3.2.1 step次数
  - 3.2.2 使用交叉领域(Cross-Domain)数据进行Further Pretrain
  - 3.2.3 比较不同的模型与BERT微调策略
- 3.3 多任务微调探索
- 3.4 小样本探索
- 3.5 对BERT-Large使用Further Pretraining
4. 总结

论文信息

论文地址：https://arxiv.org/pdf/1905.05583.pdf

论文年份：2019年05月

论文代码: https://github.com/xuyige/BERT4doc-Classification

论文引用量：1191 （截止2023-04-28）

论文阅读前提：熟悉NLP、深度学习、Transformer、BERT、多任务学习等。

1. 论文内容

现在NLP任务方式大多都是对BERT进行微调。例如：我们要做一个电影评论情感分类的任务，那就可以直接把BERT拿过来，换上自己的分类头，然后使用电影评论的数据集进行训练，最终就可以得到一个还不错的模型。（这个过程称为微调(fine-tune)）

然而，目前针对“如何对BERT进行微调会比较好”的研究不多（例如学习率怎么选择、应该选择怎样的策略等等）。所以，该论文就使用分类任务对“如何微调BERT”进行了研究，这也是论文的题目“ How to Fine-Tune BERT for Text Classification?”。

2. 论文结论

该论文通过实验，得出了许多结论，可以供我们在使用BERT做特定任务时进行参考。

2.1 微调流程

作者通过实验得出最好的微调流程为：

最好的微调流程需要三步：

Further Pre-training（更多的预训练）：对BERT进行更多的预训练。该步骤使用和BERT相同的无监督任务MLM和NSP任务即可，但注意需要使用目标任务领域的数据集。例如：我们的任务是“电影评论情感分类”，那么我们第一步应该是收集大量的电影评论(无需带标签)，然后使用MLM和NSP任务对BERT进行无监督训练。
Multi-Task Fine-Tuning（多任务微调）：使用多任务对BERT进行微调，即把多个相关的任务放在一起同时让BERT学习。例如：我们的任务是“电影评论情感分类”，为一个三分类任务(消极、中性和积极)。同时我们还有两个相关的任务“电影类型分类(12个类别)”和“电影评分预测(5分类)”，此时我们的模型就为BERT加三个分类头(分别为3/12/5分类)，然后将这三个任务的数据混在一起同时给模型学习。学习过程中根据当前数据选择应该用哪个分类头。
Single-Task Fine-Tuning（单任务微调）：对BERT进行单任务微调。就是直接使用最终的任务进行有监督学习。例如：我们的任务是“电影评论情感分类”，那么我们就使用带标签的电影评论数据集对BERT进行训练。

大多数人可能都忽略了前两步，直接使用“单任务微调”的方式训练BERT，最终的结果总是差那么点意思。

2.2 微调策略(Fine-Tuning Strategies)

作者探究了微调BERT的一些基本的策略，例如学习率、长文本处理方式等。最终得出了以下结论：

最好的长文本的处理方式是“head+tail”。即当输入文本长度大于510时，截取文本开头128个字符和文本末尾382个字符效果最好。（BERT最多接收512个token，算上“开始”和“结束”标记，最多接收510个token）
最好的特征表示就是最后一层的特征。BERT有12层Transformer Encoder，每层的特征都不太一样，使用最后一层的特征效果最好。（这个结论不需要特别在意，正常BERT使用的就是最后一层的特征）
最好的学习率是 $2 e - 5$ ，这样可以有效的避免“灾难性遗忘(Catastrophic Forgetting)”。（batch_size为32）
BERT越靠近输入层的学习率应该越低，反之应该越高。衰减因子(decay factors)取0.95较好。即，对于第12层TransformerEncoder，学习率取 $2 e - 5$ ，第11层取 $(2 e - 5) * 0.95$ ，第10层取 $2e-5) * 0.95^2$ ，以此类推。

2.3 Further Pretrain

Further Pretain是指在正式使用目标任务训练BERT前，先使用该领域(In-domain)的数据对BERT进行无监督训练(训练BERT时用的MLM任务和NSP任务)。

例如：我们要训练一个电影评论情感分类模型，那么就是收集一堆无标签的电影评论数据，然后使用MLM和NSP任务对BERT进行无监督训练。

作者的得出的结论如下：

训练10w个step效果最好。（更新一次参数算一个step）
选择预训练数据集时，选择与目标任务相同领域(In-domain)的数据。例如：你的任务是情感分类，那么预训练时就选一些情感分类的数据集。
选择预训练数据集时，选择与目标任务相同分布的数据。例如：你的任务是电影评论情感分类，那么就选电影评论数据。如果你用外卖评论数据进行预训练，最终结果可能还不如不做预训练。
当训练数据较小(few-shot)时，使用Further Pretrain可以得到较好的结果。
对于BERT Large模型同样能得到以上结论。

上述就是论文得出的所有结论，接下来讲解论文中所做的实验，若不感兴趣，可以不看。

3. 论文实验介绍

3.1 实验数据集介绍

作者使用了7个数据集进行实验，共三种类型，分别为：情感分类(Sentiment Analysis)、问题分类(Question Classification)和主题分类(Topic Classification)。数据集如下表：

其中 IMDb 是二分类的电影评论情感分类， Yelp是商户评论情感分类（类似大众点评），Sogou News是中文数据集。

3.2 实验超参数

Further Pretrain BERT的实验使用的相关超参数如下：

BERT：BERT-base（hidden_size:768，12层Transformer，12个attention head）
batch size: 32
最大句子长度(max squence length)：128
学习率：5e-5
train step: 10w
warm-up step: 1w

fine-tune BERT的实验使用的相关超参数如下：

batch size: 24
dropout: 0.1
Adam: $\beta_1=0.9, \beta_2=0.999$
学习率策略：slanted triangular learning rates（一种warmup的学习率策略）
base learning-rate: 2e-5
warm-up proportion: 0.1
epoch: 4

3.3 Fine-Tuning策略探索

3.3.1 处理长文本

BERT一次能够接收最长的token数量为512，算上开始和结束这两个特殊的token，相当于一次能够接收510个token。

因此，对于那些token数超过510的文本，需要对其进行处理。作者实验了不同的处理方式，包括以下几种：

head-only：只用文本的前510个token。
tail-only：只用文本末尾的510个token。
head+tail：文本的前128token和文本末尾382个token。（根据经验选的）
Hierarchical methods：将长文本分成由510个token组成的小块，然后对每一块都喂给BERT，得到每一块的向量表示。最后将这些向量表示融合起来。作者使用了三种融合方式：
- hier. mean: 平均池化。
- hier. max: 最大池化。
- hier. self-attention：使用自注意力的方式融合。

最终的结果如下表：

在IMDb和Sogou这两个数据集上，均为“head+tail”的方式效果最好。

3.3.2 不同层的特征探索

众所周知，BERT是由12层Transformer Encoder堆叠而成的，每一层的输出都是输入的特征向量表示，通常我们使用的是最后一层的输出作为输入的最终特征，然后将其送给分类头进行预测。

而作者在想，用最后一层的Transformer Encoder作为特征向量真的就最好吗？所以它就使用每一层的特征向量进行了实验，最终得到如下表结果：

实验代码在codes/fine-tuning/modeling_last_concat_avg.py

最终实验表示使用最后一层的Transformer特征效果最好，这和预期的一样。

TODO：论文中的 First/Last 4 Layers + concat/mean/max 表示什么意思我也不太清楚。论文没有解释，且提供的代码里也没有找到关于它们的影子。

3.3.3 学习率探索（灾难性遗忘探索）

灾难性遗忘(Catastrophic forgetting)是指预训练模型在学习新的知识后把过去老的知识给忘了。这是迁移学习中常见的一个问题。

通常该问题是因为学习率太大引起的。学习率太大会导致灾难性遗忘，学习率太小又会无法学会新的知识，所以要学选择一个合适的学习率。

作者在IMDb数据集上选择不同学习率进行了实验：

最终作者得出结论：当学习率为2e-5时，模型收敛最好，且不容易出现灾难性遗忘问题。

3.3.4 不同层使用不同学习率

通常，越靠近输出层的网络应使用较高的学习率，所以作者探索了一下应该如何为BERT的每一层设计学习学习率。

作者使用的方式为根据衰减因子 $\xi$ 进行学习率逐层衰减。例如，学习率取2e-5，衰减因子取0.95，则第12层的Transformer使用 2e-5 的学习率，第11层学习率为 (2e-5)*0.95 ，第10层为 (2e-5)*0.95²，第9层为 (2e-5)*0.95³，依次类推。

作者的实验结果如下：

实验结论为：学习率取2e-5，衰减因子为0.95时效果最好。

3.2 Further Pretraining探索

作者探索了如何进行Further Pretrain效果最好。

3.2.1 step次数

既然要对BERT进行更多的预训练，那训练多少次合适呢？作者在IMDb数据集上进行了实验：

结果显示，当step数为10w时，效果最好。

BERT-ITPT-FiT为“BERT +withIn-Task Pre-Training + Fine-Tuning”，意思是使用原始的BERT进行Further Pretraining，然后再进行fine-tune。

3.2.2 使用交叉领域(Cross-Domain)数据进行Further Pretrain

作者尝试了若Further Pretrain时使用交叉领域的数据会不会好一点呢？

作者的数据集有三种任务：情感分类、问题分类和主题分类。他将这三种看做是不同领域(different domain)然后进行实验。

实验结果如下表：

该表的意思如下：

数字表示错误率，错误率越低表示模型表现越好。
第1行第1列的“4.37”表示使用IMDb数据进行Further Pretain后在IMDb数据集上的表现。
第2行第1列的“5.24”表示使用Yelp P.数据集进行Further Pretrain后在IMDb数据集上的表现
第4行第1列的“4.88”表示在所有的情感分类数据集(IMDb+Yelp P.+Yelp F.)上进行Further Pretrain后在IMDb上的表现
第11行第1列的“5.18”表示使用所有数据集进行Further Pretrain后在IMDb上的表现
最后一行第1列的“5.40”不进行Further Pretrain，在IMDb上的表现。
其他数据同理

从上表可以得出如下结论：

使用同一领域(In-domain)的数据集对BERT进行Further Pretrain效果会变好。（图上的加粗字体基本都在对角线上）。
使用交叉领域(Cross-domain)的数据集Further Pretrain效果不佳。
进行Further Pretraining时尽量选择数据是同一分布的。例如：使用Yelp数据进行Further Pretraining后用在IMDb上的效果比较差，原因可能就是因为他们一个是商户评论，一个是电影评论，数据分布差的比较大。

3.2.3 比较不同的模型与BERT微调策略

作者比较了一些其他模型和使用不同BERT训练策略的结果，如下表：

数字表示错误率，越低越好。Avg为相比BERT-Feat，错误率下降的平均比率。

其他模型就不介绍了，不是重点。作者使用的BERT策略如下：

BERT-Feat：BERT as Features. 应该是指不训练BERT，只训练后面的分类头。
BERT-FiT：BERT+FineTuning. 对BERT进行微调。应该是直接使用目标任务的数据进行单任务训练
BERT-ITPT-FiT：BERT+withIn-Task Pre-Training+Fine-Tuning。首先对BERT使用目标任务的数据进行Further Pretrain，然后再使用目标任务进行微调。例如：IMDb先使用IMDb的数据进行Further Pretrain，再使用IMDb数据进行FineTune。
BERT-IDPT-FiT：BERT + In-Domain Pre-Training + Fine-Tuning。先使用In-Domain的数据集进行Further Pretrain，然后再使用目标任务数据进行单任务训练。例如：IMDb先使用情感分类任务的数据(IMDb+Yelp P+Yelp F)进行Further Pretraining，然后在使用IMDb数据进行FineTune.
BERT-CDPT-FiT：BERT + Cross-Domain Pre-Training + Fine-Tuning。先使用Cross-Domain的数据进行Further Pretrain，然后再使用目标任务数据进行单任务训练。例如：IMDb先使用问题分类的数据(TREC+Yah A+AG)的数据进行Further Pretraining，然后在使用IMDb数据集进行FineTune。

最终的出的结论为：BERT-IDPT-FiT效果最好。这和上面的实验结论也一致。

3.3 多任务微调探索

通常，多任务训练可以让模型学会更加通用的特征表示，使模型的泛化性更强，提高模型的性能。

作者也对多任务进行了探索。作者使用IMDb、Yelp P、AG、DBP四个数据集进行多任务学习。

多任务就是同时学习多个任务。对于作者的实验来说，就是使用一个BERT，但为四个数据集分别使用不同的分类头(它们的类别数不一样，当然就算一样也肯定是不同的分类头)，然后将四个数据集的数据混到一块进行学习。

最终的结果如下表：

BERT-MFiT-FiT：BERT+Multi-task Fine-Tuning+FineTuning。即先使用Multi-task对模型进行FineTune，然后再使用目标任务对模型进行FineTune。例如：对于IMDb来说，就是先使用“IMDb+Yelp P+AG+DBP”数据集进行MultiTask训练，然后再使用IMDb数据集进行FineTune。
BERT-CDPT-MFiT-FiT：BERT + Cross-Domain Pre-Training +Multi-task Fine-Tuning+ Fine-Tuning。即先进行Cross-Domain的Further Pretrain，在进行MultiTask训练，最后再进行单任务训练。例如，对于IMDb来说，就是先使用“IMDb+Yelp P+AG+DBP”数据集对BERT进行Further Pretraining，然后再使用“IMDb+Yelp P+AG+DBP”对模型进行MultiTask训练，最后在使用IMDb数据集进行FineTune。

这里为什么没有“BERT-IDPT-MFiT-FiT”？这是因为作者选用的这四个数据集属于Cross-Domain的，如果要做In-Domain的实验，就不是这组数据了。作者没做相应的实验。

作者相应的部分实验代码如下（codes/fine-tuning/modeling_multitask.py）：

class BertForSequenceClassification(nn.Module):
	...
    def __init__(self, config, num_labels):
        super(BertForSequenceClassification, self).__init__()
        self.bert = BertModel(config)
        self.dropout = nn.Dropout(config.hidden_dropout_prob)
        self.classifier_1 = nn.Linear(config.hidden_size, 2)  # IMDb数据的分类头
        self.classifier_2 = nn.Linear(config.hidden_size, 2)  # Yelp数据的分类头
        self.classifier_3 = nn.Linear(config.hidden_size, 4)  # AG数据的分类头
        self.classifier_4 = nn.Linear(config.hidden_size, 14) # DBP数据的分类头
        ...

    def forward(self, input_ids, token_type_ids, attention_mask, labels=None, dataset_labels=None):
    	# 训练过程中，每个step过来的一批数据是IMDb、Yelp P、AG、DBP的其中一个。
        _, pooled_output = self.bert(input_ids, token_type_ids, attention_mask)
        pooled_output = self.dropout(pooled_output)
        # 若数据是IMDb，则使用classifier_1分类头
        if dataset_labels[0].item()==1:logits = self.classifier_1(pooled_output)
        # 若数据是Yelp，则使用classifier_2分类头
        if dataset_labels[0].item()==2:logits = self.classifier_2(pooled_output)
        # 若数据是AG，则使用classifier_3分类头
        if dataset_labels[0].item()==3:logits = self.classifier_3(pooled_output)
        # 若数据是DBP，则使用classifier_4分类头
        if dataset_labels[0].item()==4:logits = self.classifier_4(pooled_output)
        if labels is not None:
            loss_fct = CrossEntropyLoss()
            loss = loss_fct(logits, labels)
            return loss, logits
        else:
            return logits

3.4 小样本探索

通常我们的目标任务的训练数据集都是比较少的，作者针对这种情况做了对比实验。

作者的实验为：只使用IMDb数据集的一部分（例如10%），然后进行BERT-FiT和BERT-ITPT-FiT的对比实验。

结果如下图：

从结果中可以看到，但只取0.4%的IMDb数据集时，做withIn-task Pretraining和不做差距还是挺大的。不过随着数据集的增大，差距越来越小，不过总归是有差距。

实验结论为：当训练数据较小(few-shot)时，使用Further Pretrain可以得到较好的结果。

3.5 对BERT-Large使用Further Pretraining

上面的实验已经证明了对BERT-base使用Further Pretraining是有效果的，但对BERT-Large是否还有同样的效果呢？作者也做了实验，实验结果如下表：

从实验结果看，BERT-Large增加ITPT后同样可以减小错误率。

4. 总结

作者中了一系列实验总结出微调BERT的一套方法论，即先进行In-Domain的Further Pretraining，然后进行多任务学习，最后再使用目标任务进行单任务微调。并且作者还对这些步骤的长文本处理、学习率选择等做了一些实验指导。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那