NLP饶了我

【Pytorch】BERT+LSTM+多头自注意力（文本分类）

2018年Google提出了BERT[1]（Bidirectional Encoder Representations from Transformers）预训练模型，刷新了11项NLP任务的精度，在NLP领域掀起一波预训练（pre-training）模型热潮。通过对BERT、RoBERTa、GPT等预训练模型微调（fine-tuning）或者作为文本的特征提取器进行迁移学习成为当时直到现在最流行的文本分类方法。

文章目录

- 【Pytorch】BERT+LSTM+多头自注意力（文本分类）
- 1. BERT基本原理
- 2. BERT的一般过程
- 3. RoBERTa的使用
- 4. RoBERTa- LSTM -多头自注意力模型
- 5. 模型部分源码
- 6. 消融实验

1. BERT基本原理

主流的预训练模型包括：BERT、XLNET、Roberta、MacNet、GPT等，这些预训练模型大多是BERT based。BERT由Transformer的encoder堆叠而成，可以简单的分为3层：输入层、中间层、输出层；输出层有两个输出，一个是句嵌入（pooler output），即文本的开始标志[CLS]的最后一层输出，包含了整个文本的特征；另一个是字嵌入（sequence output），即文本所有字token的最后一层输出，其基本结构如下图：

图 1 BERT基本结构

可以看到BERT基本结构由12个Transformer的encoder组成，提供了pooler output和sequence output两个输出。
为了使得BERT模型能够适应各类任务，统一将输入格式转化为：

其中[CLS]表示分类任务的特殊token，输出为pooler output，[SEP]为分隔符。
此外，BERT和Transformer一样也加入了位置编码 position encoding，使用的方法是类似词嵌入的方式（Parametric），直接获得位置嵌入。
由于对输入进行了改造，使得模型可能有多个句子segment，为了识别字token属于哪个句子，需要加入segment的嵌入编码，所以BERT的输入融合了word embedding、position encoding和segment embedding，如下图：

2. BERT的一般过程

BERT等预训练模型分为两个阶段：

预训练阶段，通过在海量语料库上以无监督学习的方式为文本学习语言特征，即从一个文本到一组特征的过程，这组特征可以是一个新的文本也可以是一组标签的概率等。
微调阶段，待模型预训练好后，可以直接使用BERT将文本转换为可以动态学习的特征，即把BERT视为神经网络的特征提取器，并在前向传播时对文本进行（字、句）嵌入，反向传播时动态学习并修改这个嵌入，然后在这个特征提取器的基础上再添加一个网络层便可以完成对特定任务的微调；比如情感分析任务，只需在pooler output层的后面加一个全连接层，神经元个数为情感类别数，再经过softmax即可得到情感分类概率，或者将Sequence output视为字嵌入结合LSTM、CNN等模型。所以说BERT是一个可以在不同NLP领域进行迁移学习的模型。

3. RoBERTa的使用

RoBERTa由Yinhan Liu等人[4]在2019年提出，他们在BERT的基础上进一步精化和优化，主要在三方面对BERT做出改进：

参数量：更大的batch_size，更多的训练样本，还使用BPE（Byte-Pair Encoding）来处理文本数据。
优化器：原BERT优化函数采用的是Adam默认的参数，其中β_1=0.9，β_2=0.999，在RoBERTa中考虑采用了更大的batches，所以将β_2改为了0.98。
训练策略：改用了动态掩码的方式训练模型，证明了NSP（Next Sentence Prediction）训练策略的不足；

RoBerta有两个输入：
1.输入索引（input_ids），输入文本各字在vacab中的索引，需要设置一个文本最大长度sequence_length，长截断，短用0填充。size: [batch_size, sequence_length].
2.注意力遮掩（attention_mask），由于文本是变长的，且有填充操作，为了识别文本真实长度/需要mask的长度，设置attention_mask，字用1表示，填充用0表示。size: [batch_size, sequence_length].
RoBerta有两个输出：
1.CLS]的输出（pooler output），对应文本标识符[CLS]的最后一层输出，包含文本整体特征，可作为文本的句嵌入。size: [batch_size, WordVec_size]。
2.序列输出（sequence output），对应的是序列中的所有字的最后一层输出，可视为文本的字嵌入。size: [batch_size, sequence_length, WordVec _size]。

4. RoBERTa- LSTM -多头自注意力模型

LSTM结合多头自注意力模型可见本人的上上篇博客，本文将结合RoBERTa - LSTM - 多头自注意力（Muti-Attention）三者建立分类模型（在跑实验的时候可以设置为BiLSTM或者BiGRU）。
上文说到，RoBerta有两个输出，一个是[CLS]的输出，可作为文本的句嵌入，另一个是序列输出（sequence output），可视为文本的字嵌入，那么我们能不能同时结合两个输出做文章呢？简单地说就是，将字嵌入通过LSTM -多头自注意力得到一个新的句嵌入，然后将该句嵌入和RoBERTa的句嵌入concat，这样不就得到了一个同时结合了RoBERTa - LSTM - 多头自注意力的句嵌入了吗，再将其输入到全连接层（分类器）即可进行文本分类任务了！（其他分类任务同理，不同点只在于数据预处理）
具体流程见下图：

5. 模型部分源码

模型基于pytorch平台，只展示部分关键代码。
网络参数设置：

class Parameters:
    def __init__(self, parameters):
        # 设置超参数
        self.Doc_Size = parameters[0]      # 文本词数
        self.WordVec_Size = parameters[1]  # 词向量长度
        self.WeightDecay = parameters[2]   # 权重衰减系数
        self.epoches = parameters[3]       # 迭代次数
        self.batch_size = parameters[4]    # 小批量样本数，即每次训练batch_size个
        self.features = parameters[5]      # 分类特征数，共有6个情绪{'angry', 'fear', 'happy', 'neutral', 'sad', 'surprise'}
        self.learning_rate = parameters[6]  # 学习速率/梯度下降的步长
        self.Epsilon = parameters[7]       # -
        self.dropout_rate = parameters[8]  # dropout的概率一般0.0~0.5
        self.seed = parameters[9]          # 随机种子
        self.hidden_dim = parameters[10]   # 隐藏状态的维数/隐藏层节点个数,视词向量维度而定
        self.n_layers = parameters[11]     # lstm隐藏层层数
        self.bidirect = parameters[12]     # 是否双向
        self.cuda = parameters[13]         # 是否使用GPU
        self.num_heads = parameters[14]    # 注意力机制的头数
        self.dim_k = parameters[15]        # query and key的维数,必须是num_heads的整数倍,大小取决于词向量维度，大小适中即可
        self.dim_v = parameters[16]        # value的维数
        self.bert_path = './hfl-RoBERTa-wwm-ext, Chinese/'

# 通过一个向量直接设置所有参数，方便调参
ARGS = Parameters([150, 768, 1e-5, 6, 48, 6, 1e-5, 1e-8, 0.1, 12, 768, 1, True, True, 4, 768, 768])

模型定义，优化器设置，不同层学习率等：

	# 2. 模型定义
    # 先定义robert，BertModel用来获取词向量
    robert = BertModel.from_pretrained(ARGS.bert_path).to(device)
    # 再定义attention
    # 以robert作为Roberta_LSTM的参数，因为robert也要在__init__中参与反向传播
    robert_lstm_att = Roberta_LSTM_Att(robert).to(device)

    lstm_params = list(map(id, robert_lstm_att.lstm.parameters()))
    dense_params = list(map(id, robert_lstm_att.dense.parameters()))
    robert_params = list(map(id, robert_lstm_att.robert.parameters()))
    # 除lstm_params + dense_params + robert_params之外的基础参数，即自注意力的权重系数
    base_params = filter(lambda p: id(p) not in lstm_params + dense_params + robert_params,
           robert_lstm_att.parameters())
    # 3. 定义和梯度更新算法AdamW，优化器optimizer
    t_total = len(train_loader) * ARGS.epoches
     # 下列参数 不进行正则化（权重衰减）
    no_decay = ["bias", "LayerNorm.bias", "LayerNorm.weight"]
    # 设置不同分层的学习率
    optimizer_grouped_parameters = [
        {
            "params": base_params,
            "weight_decay": ARGS.WeightDecay,
            "lr": ARGS.learning_rate*10  # 自注意力层的学习率
        },
        {
            "params": [p for n, p in robert_lstm_att.robert.named_parameters() if not any(nd in n for nd in no_decay)],
            "weight_decay": ARGS.WeightDecay,
            "lr": ARGS.learning_rate  # RoBERTa层的学习率
        },
        {
            "params": [p for n, p in robert_lstm_att.robert.named_parameters() if any(nd in n for nd in no_decay)],
            "weight_decay": 0.0,
            "lr": ARGS.learning_rate  # RoBERTa层的学习率
        },
        {
            "params": [p for n, p in robert_lstm_att.lstm.named_parameters() if not any(nd in n for nd in no_decay)],
            "weight_decay": ARGS.WeightDecay,
            "lr": ARGS.learning_rate*10  # LSTM层的学习率
        },
        {
            "params": [p for n, p in robert_lstm_att.lstm.named_parameters() if any(nd in n for nd in no_decay)],
            "weight_decay": 0.0,
            "lr": ARGS.learning_rate*10  # LSTM层的学习率
        },
        {
            "params": [p for n, p in robert_lstm_att.dense.named_parameters() if not any(nd in n for nd in no_decay)],
            "weight_decay": ARGS.WeightDecay,
            "lr": ARGS.learning_rate*10  # 全连接层的学习率
        },
        {
            "params": [p for n, p in robert_lstm_att.dense.named_parameters() if any(nd in n for nd in no_decay)],
            "weight_decay": 0.0,
            "lr": ARGS.learning_rate*10
        },
    ]

    optimizer = AdamW(optimizer_grouped_parameters, lr=ARGS.learning_rate, correct_bias=False)
    # loss_func
    criterion = nn.CrossEntropyLoss()
    # scheduler = torch.optim.lr_scheduler.LambdaLR(optimizer, lambda epoch: 0.99**epoch, last_epoch=-1)
    scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps=0, num_training_steps=t_total)
    # print(scheduler.get_lr())
    # for param_group in optimizer.param_groups:
    #     print(param_group['weight_decay'])

forward源码：

def forward(self, batch):
        # input_ids, attention_mask, token_type_ids
        # output[0]: [batch, Doc_Size, WordVec_size]  文本矩阵 接CNN，LSTM等
        # output[1]: [batch, WordVec_size]  文本向量 接MLP，SVM等
        input_ids, attention_mask, token_type_ids, labels = batch
        outputs = self.robert(input_ids=input_ids,
                              attention_mask=attention_mask,)
        # output[0]: [batch, 128, 768]
        out1, h_n = self.lstm(outputs[0])  # lstm层
        out1, weights = self.MultiAttention1(out1, h_n)
        input = torch.cat([out1, outputs[1]], dim=-1)
        outputs = self.dense(input)  # 全连接层
        return outputs

实际上，Roberta层和LSTM、MA、Dense层需要设置不同的学习率，Roberta层稍小，一般为1e-5左右，LSTM、MA、Dense层稍大一般为1e-4左右。此外，代码细节过多，不作过多展示，需要的可私信

6. 消融实验

消融实验（Ablation experiment）[5] 是为了证明组合模型的整体性，即证明模型的各个部分是否都在发挥作用。方法就是逐一把模型的各个组成部分从模型中去除，然后判断对模型的影响程度，如果有下降，则说明该组成部分是有用的不可分割的，反之就是可有可无的，如果都有下降则证明模型是统一的，每个部分都是不可或缺的，对于RBs-BG-MA模型，我们进行如下消融实验以证明模型的整体性（数据集是文本六分类）：

我们将模型分解为：句嵌入、字嵌入+LSTM、MultiAttention三个模块，为此逐个移除其中一个模块来判断对模型的影响程度，可以看到：
移除句嵌入模块后（移除后为RB-BG -MA模型）模型准确率下降了1.24%左右， F_Macro下降了1.40%左右，移除多头自注意力模块后（移除后为RBs-BG模型）准确率下降了1.66%左右， F_Macro下降了2.11%左右，移除字嵌入模块后（移除后为RB-MLP模型）准确率下降了1.73%左右， F_Macro下降了1.63%左右，可见这三个模块对于模型都有重要作用；结果也显示，纯RoBERTa的性能已经很好了，单独使用某一两个模块反而会降低RoBERTa的性能，可见RBs-BG-MA模型的性能是各个模块共同作用的结果，缺一不可。

需要源码的同学可私信我哦^ ^

[1] Devlin J, Chang M-W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint, arXiv:1810.04805 [cs.CL] 2018.

[2] jacobdevlin-google. bert[EB/OL].https://github.com/google-research/bert. 11 Mar 2020.
[3] Cui Y, Che W, et al. Pre-Training with Whole Word Masking for Chinese BERT[J]. 2019.
[4] Liu Y, Ott M, Goyal N, et al. RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv preprint, arXiv:1907.11692 [cs.CL] 2019.
[5] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6):1137-1149.

面向服务架构（SOA）详细介绍 huaqianzkh 架构理解与实践架构
面向服务架构（SOA）详细介绍1.概述面向服务架构（Service-OrientedArchitecture，SOA）是一种软件设计模式，通过将应用程序功能分解为可重用的服务来构建系统。这些服务通过定义良好的接口和协议进行通信，通常使用网络调用（如Web服务）来实现。2.核心概念服务（Service）:一个自包含的功能单元，提供特定的业务功能。服务接口（ServiceInterface）:定义了服
LLaMA3大模型技术全网最全解析——模型架构与训练方法（收录于GPT-4/ChatGPT技术与产业分析） chenweiPhD 人工智能深度学习语言模型架构
Meta在周四（4月18日）发布了其最新大型语言模型LLaMA3。该模型将被集成到其虚拟助手MetaAI中。Meta自称8B和70B的LLaMA3是当今8B和70B参数规模的最佳模型，并在推理、代码生成和指令跟踪方面有了很大进步。（点赞是我们分享的动力）--------------------------------------------------主编作者陈巍博士，高级职称，曾担任华为系相关自
Wiki.js 集成 Artalk 评论系统配置指南运维小弟| srebro.cn 知识库知识库 wiki.js wikijs
Wiki.js集成Artalk评论系统配置指南一、Artalk核心优势开源性质采用MIT许可证的自托管评论系统，支持全平台集成数据控制评论数据存储在自有服务器，避免第三方服务依赖轻量化架构Go语言开发的后端服务，内存占用低于50MB二、DockerCompose部署方案部署文件docker-compose.yamlversion:'3.8'services:artalk:image:artalk/
一、大模型微调的前沿技术与应用伯牙碎琴大模型微调人工智能大模型微调 Deepseek
大模型微调的前沿技术与应用随着大规模预训练模型（如GPT、BERT、T5等）的广泛应用，大模型微调（Fine-Tuning,FT）成为了提升模型在特定任务中性能的关键技术。通过微调，开发者可以根据实际需求调整预训练模型的参数，使其更好地适应特定应用场景。本文将介绍大模型微调技术的前沿发展，分析不同微调方法的特点、适用场景以及优缺点，并对它们进行系统分类。微调技术的重要性大模型微调能够帮助开发者根据
根据deepseek模型微调训练自动驾驶模型及数据集的思路 ywfwyht 自动驾驶深度学习人工智能自动驾驶人工智能机器学习
以下是使用DeepSeek模型微调训练自动驾驶模型的详细步骤和代码示例。本流程假设你已有自动驾驶领域的数据集（如驾驶指令、传感器数据等），并基于PyTorch框架实现。Step1:环境准备#安装依赖库pipinstalltorchtransformersdatasetsnumpypandasStep2:数据准备假设数据集格式为JSON，包含输入文本（传感器/场景描述）和输出控制指令：//data/
AUTOSAR从入门到精通-【应用篇】基于AUTOSAR的AT自动变速器控制系统故障诊断格图素书人工智能
目录前言自动变速器发展现状自动变速器故障诊断发展现状（1）国外研究现状（2）国内研究现状2AT自动变速器系统组成2.1AT自动变速器的机械结构2.1.1液力变矩器2.1.2行星齿轮2.1.3换挡执行机构2.2AT自动变速器控制系统组成2.2.1液压控制系统2.2.2电子控制系统2.3AT自动变速器工作原理3基于AUTOSAR的AT自动变速器运行状态监测3.1AT自动变速器的状态参数3.1.1AT自
《一文吃透！NLTK与SpaCy，自然语言处理的神兵利器》人工智能深度学习
在人工智能的璀璨星空中，自然语言处理（NLP）无疑是最为耀眼的领域之一。它让机器能够理解、处理和生成人类语言，极大地推动了智能交互的发展。而在Python的NLP工具库中，NLTK和SpaCy就像两把锋利的宝剑，各自散发着独特的光芒。今天，就让我们深入探究这两款工具的使用技巧与优势，为你的NLP之旅增添强大助力。一、NLTK：自然语言处理的瑞士军刀NLTK（NaturalLanguageToolk
AI —— 文字生成图片的逻辑鱼不知海 AI写作 AI作画
事情的起因是我在做一个自用软件时，需要测试文字生成图像的功能。于是就对现在能使用的ai大模型去做了一些尝试。输入几组我的描述性文字其中的一张图片令我大为震撼。（师妹师兄温酒毛驴）问题大家应该可以发现，一位图像人物的下半身时有问题的。同时从人的逻辑上，这种图缺少内核逻辑。在NLP的成熟度如此高的情况下，对描述性文字进行逻辑上的重构并不是太麻烦的事情。豆包扩充文字（在一个宁静的日子里，师兄与师妹并辔而
预测股票走势的ai模型 roxxo AI模型人工智能深度学习金融
AI股票走势预测模型用深度学习+时间序列分析来构建一个股票预测AI，基于历史数据预测未来走势。1.关键功能✅AI选股（基于财务数据+技术指标）✅股票走势预测（LSTM/Transformer）✅智能筛选高增长潜力股✅可视化分析2.关键技术数据来源：YahooFinance/AlphaVantage财务分析：PE、EPS、ROE、PB、成交量机器学习选股：随机森林/XGBoost深度学习预测：LST
Deepseek详细的自我介绍 welcome_123_ 人工智能
###**DeepSeek：中国自研AGI大模型的深度解析**---####**1.技术背景与研发理念**DeepSeek由国内顶尖AI科学家团队领衔，核心技术成员来自清华大学、北京大学及国际顶级AI实验室，团队在NLP、分布式训练、模型压缩等领域发表顶会论文超200篇。研发理念聚焦三个核心：-**高效性**：通过模型架构创新（如MoE）实现“小参数量，大性能”。-**可控性**：内置可解释性模块
HTTP 协议的基本格式 a添砖Java http 网络协议网络
HTTP协议("超文本传输协议")，是一个被广泛使用应用层协议，自1991年正式发布HTTP协议以来，HTTP协议就一直在更新，目前已经更新到3.0版本，但是目前主流的依旧是1.1版本，但依旧是一个最主流使用的应用层协议。HTTP协议一般是基于TCP协议实现的，当时知道HTTP3.0开始支持UDP协议实现传输，使用TCP相比较UDP虽然安全，但是速度却相差很多，从3.0版本开始支持UDP协议，为了
PyQt5之按钮 threesevens qt pyqt
1.QAbstractButton(1)描述所有按钮控件的基类，提供按钮的通用功能，继承自QWidget(2)功能作用1）提示文本setText(str)#设置按钮提示文本text()#获取按钮提示文本案例fromPyQt5.Qtimport*importsysapp=QApplication(sys.argv)window=QWidget()window.setWindowTitle("提示文本
【19. C++ 日期与时间的使用与深入解析】涛ing C++基础 c++java 算法 c语言开发语言 linux 后端
本章目录:前言C++中的日期与时间重要类型与结构体常见日期和时间函数获取当前日期与时间示例：获取当前本地时间和UTC时间使用`tm`结构格式化时间示例：从`tm`结构中提取时间格式化输出日期与时间示例：自定义格式化日期输出总结前言在C++中，虽然没有内建的日期类型，但我们可以通过头文件使用一些与日期和时间相关的函数和结构。这些工具不仅继承自C语言，而且提供了处理时间和日期的强大能力。理解如何操作时
C#如何将目标格式转换为字符串 Luxhalo c#开发语言
在C#中，将目标格式转换为字符串通常意味着将某个对象或值转换成它的字符串表示形式。这里有几种常见的方法来实现这一目标：使用ToString()方法：所有C#中的类型都继承自System.Object类，该类提供了一个ToString()方法，用于返回对象的字符串表示。示例：intnumber=123;stringnumberAsString=number.ToString();使用字符串插值：字符
rustdesk远程桌面使用 m0_74823388 面试学习路线阿里巴巴 java
文章目录简介1.客户端rustdesk使用2.基于S6-overlay的镜像服务端部署3.声明简介为什么使用rustdesk，因为向日葵，todesk，免费版本的有各种各样的坑，比如限制你的登录，需要你重新登录使用，画面模糊，限制你的流量网速等等，还不如自搭rustdesk，安全高且速度只取决于服务端的网速和线下设备的网速。1.客户端rustdesk使用1.下载客户端rustdesk下载地址2.配
本地DeepSeek模型GGUF文件转换为PyTorch格式搏博 pytorch 人工智能 python 机器学习 windows 深度学习
接前文，我们在本地Windows系统上，基于GGUF文件部署了DeepSeek模型（DeepSeek-R1-Distill-Qwen-1.5B.gguf版本），但是GGUF是已经量化的版本，我们除了对其进行微调之外，无法对其训练，那么还有没有其他办法对本地的GGUF部署的DeepSeek模型进行训练呢？今天我们就反其道而行之，将GGUF文件转换为PyTorch格式再训练。前提：已经部署好了Deep
文心一言，免费使用悟空码字 AI 百度 AI 百度文心一言
大家好，我是小悟。百度官方公众号发布消息，文心一言宣布自4月1日起全面免费开放，PC端和APP端用户均可体验其最新模型。随着文心大模型的迭代升级和成本不断下降，文心一言将于4月1日零时起，全面免费，所有PC端和APP端用户均可体验文心系列最新模型。与此同时，文心一言上线深度搜索功能。该功能也将于4月1日起免费开放使用。深度搜索功能，具备更强大的思考规划和使用外部工具能力，可为用户提供专家级内容回复
【吾爱出品】 [Windows] 一键定时自动化任务神器ztasker——支持任务分组+定时任务执行私人珍藏库自动化运维
一键定时自动化任务神器ztasker链接：https://pan.xunlei.com/s/VOJ8RFoRWB8IATcmivz21VygA1?pwd=fgtz#一款完全免费支持定时、热键或条件触发的自动化任务工具，提供文件管理、系统优化/监测、多媒体控制等100+种任务动作类型及30多种丰富的触发条件包括但不限于热键、网络、占用、系统监控等，任务可自由编排，支持日志查看与追溯。简言之，比系统自
AI：236-基于RCS-OSA的YOLOv8改进 | 增强空间对象注意力实现小物体检测精度提升一键难忘精通AI实战千例专栏合集人工智能 YOLO 目标跟踪 RCS-OSA
本文收录于专栏：精通AI实战千例专栏合集https://blog.csdn.net/weixin_52908342/category_11863492.html从基础到实践，深入学习。无论你是初学者还是经验丰富的老手，对于本专栏案例和项目实践都有参考学习意义。每一个案例都附带关键代码，详细讲解供大家学习，希望可以帮到大家。正在不断更新中~文章目录1.通过RCS-OSA替换C2f实现暴力涨点2.理论
AI 大模型创业：如何利用市场优势？ SuperAGI2025 计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
AI大模型创业：如何利用市场优势？1.背景介绍随着人工智能技术的不断发展，大模型（LargeModels）在商业化应用中日益受到关注。大模型是指在特定领域中应用广泛、参数量巨大的神经网络模型，如BERT、GPT-3、DALL-E等。这些大模型通过在大规模数据集上进行预训练，具备强大的泛化能力和适应性，能够广泛应用于自然语言处理（NLP）、计算机视觉（CV）、生成对抗网络（GAN）等多个领域。然而，
产品经理学习——AI产品 Li灿灿产品经理学习人工智能
本篇文章，主要是针对目前不同类型AI公司的产品经理职责和AI产品经理的模型进行介绍。AI产品分类AI产品分为软件型和软硬件结合型，软件型的AI产品主要是具备理解、推理和决策能力的AI，如NLP（自然语言处理）系统或者创造类，创作型内容如音乐、艺术和写作等。软硬结合型AI产品一般和传统领域相关，如医疗AI、教育AI和零售AI等。有些公司是纯粹的AI公司，对应的特点是专注于做底层的算法，做芯片技术，纯
字节跳动实习生和校招生内推飞300 python javascript php 业界资讯算法
机器学习算法实习生-平台治理1、2026届硕士及以上学位在读，计算机等相关专业优先；2、有扎实的代码能力，熟悉深度学习/图神经网络/机器学习框架，如Pytorch、Tensorflow、DGL、Pyg、Sklearn等；3、熟悉机器学习/图学习/序列学习算法中的一项或者多项，如图建模、时序信号建模、节点/子图分类、社区挖掘、表征学习、自监督/半监督学习等，有一定深度和广度；4、熟悉相关算法在数据挖
MNIST Examples for GGML - Fully connected network Yongqiang Cheng ggml -llama.cpp -whisper.cpp GGML MNIST Examples Fully connected
MNISTExamplesforGGML-Fullyconnectednetwork1.Build2.MNISTExamplesforGGML2.1.Obtainingthedata2.2.Fullyconnectednetwork2.2.1.TotrainafullyconnectedmodelinPyTorchandsaveitasaGGUFfile2.2.2.Toevaluatethemod
Python调用C语言动态库（DLL）结构体/指针/变量的方法 ENOCH_Q PYTHON python c语言开发语言
文章目录前言一、如何生成C语言动态库DLL第一步：安装编译工具第二步：设计C代码第三步：编译成C语言动态库DLL二、如何使用C语言动态库第一步：python/pytorch调入DLL接口第二步：Python调用DLL函数第三步：Python测试函数三、完整程序与测试结果总结前言在使用python等进行数据处理时，有时需要使用C语言生成的动态库进行数据处理，比如有些算法已经用C语言实现，或有些函数处
滴滴开源新项目Unify：聚焦Flutter与原生通信难题，助力跨端应用落地滴滴技术开源 flutter
引言在移动开发领域，移动跨端技术因其提效收益，逐渐成为业界趋势之一。Flutter作为近年来热门的跨端技术，以高性能、自渲染、泛跨端著称，得到广泛应用。在滴滴国际化业务中，我们大量应用Flutter。目前已在滴滴国际化外卖、滴滴国际化出行司机端等业务中大规模落地，整体交付提效50%+，收益显著。在大规模Flutter跨端场景下，存量的原生业务与增量Flutter业务间的双向通信成为痛点问题。为此，
Debian1 KubernetesV1.32 NFS搭建十八点四零 k8s nfs 动态供给
1、NFS1.1服务端#服务端安装aptinstall-ynfs-kernel-server#写入共享存储目录cat>>/etc/exports<
深究Spring中Bean的生命周期之面试宝典-百度面试题目（未弄懂）是阿杜呀面试 java bean 面试
转自：https://www.cnblogs.com/javazhiyin/p/10905294.html前言这其实是一道面试题，是我在面试百度的时候被问到的，当时没有答出来(因为自己真的很菜)，后来在网上寻找答案，看到也是一头雾水，直到看到了《Springinaction》这本书，书上有对Bean声明周期的大致解释，但是没有代码分析，所以就自己上网寻找资料，一定要把这个Bean生命周期弄明白！网
动手学深度学习V2.0(Pytorch)——25. 使用块的网络 VGG 吨吨不打野动手学深度学习pytorch 深度学习 pytorch 网络
文章目录P1讲解1.1基本介绍1.2总结P2代码实现2.1报错解决2.2windows下专用/共享GPU内存P3Q&AP4.其他4.1ImageNetClassificationLeaderboard4.2VGG其它讲解P1讲解1.1基本介绍视频地址：https://www.bilibili.com/video/BV1Ao4y117Pd教材文档：https://zh-v2.d2l.ai/chapt
教育小程序+AI出题：如何通过自然语言处理技术提升题目质量万岳科技系统开发人工智能小程序自然语言处理
随着教育科技的飞速发展，教育小程序已经成为学生与教师之间互动的重要平台之一。与此同时，人工智能（AI）和自然语言处理（NLP）技术的应用正在不断推动教育内容的智能化。特别是在AI出题系统中，如何通过NLP技术提升题目质量，成为教育领域中的一个重要课题。本文将介绍如何利用自然语言处理技术，通过AI出题系统自动生成高质量、个性化的题目，提升教育小程序的交互性与教学效果。一、自然语言处理（NLP）概述自
【Python】解决PyTorch报错：PytorchStreamReader failed reading zip archive: failed finding central的解决方案 I'mAlex python pytorch 开发语言
在使用PyTorch时，遇到“PytorchStreamReaderfailedreadingziparchive:failedfindingcentral”错误通常是由于损坏的模型文件或不兼容的文件版本导致的。这种问题在加载模型或数据时比较常见。以下是一些排查和解决该问题的步骤。博主简介：现任阿里巴巴嵌入式技术专家，15年工作经验，深耕嵌入式+人工智能领域，精通嵌入式领域开发、技术管理、简历招聘
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

【Pytorch】BERT+LSTM+多头自注意力（文本分类）