niuyunpang

自然语言处理(NLP)精选13道面试题

文末彩蛋：七月在线干货组最新升级的《名企AI面试100题》免费送！

1、为什么BERT在第一句前会加一个[CLS]标志?

BERT在第一句前会加一个[CLS]标志，最后一层该位对应向量可以作为整句话的语义表示，从而用于下游的分类任务等。

为什么选它呢，因为与文本中已有的其它词相比，这个无明显语义信息的符号会更“公平”地融合文本中各个词的语义信息，从而更好的表示整句话的语义。

具体来说，self-attention 是用文本中的其它词来增强目标词的语义表示，但是目标词本身的语义还是会占主要部分的，因此，经过 BERT 的12层，每次词的 embedding 融合了所有词的信息，可以去更好的表示自己的语义。

而 [CLS] 位本身没有语义，经过12层，得到的是 attention 后所有词的加权平均，相比其他正常词，可以更好的表征句子语义。

当然，也可以通过对最后一层所有词的 embedding 做 pooling 去表征句子语义。

这里补充一下bert的输出，有两种，在BERT TF源码中对应：

一种是get_pooled_out()，就是上述[CLS]的表示，输出shape是[batch size,hidden size]。

一种是get_sequence_out()，获取的是整个句子每一个token的向量表示，输出shape是[batch_size, seq_length, hidden_size]，这里也包括[CLS]，因此在做 token 级别的任务时要注意它。

2、BERT的三个Embedding直接相加会对语义有影响吗？

这是一个非常有意思的问题，苏剑林老师也给出了回答，真的很妙：

Embedding的数学本质，就是以one hot为输入的单层全连接。

也就是说，世界上本没什么Embedding，有的只是one hot。

可参考：
https://kexue.fm/archives/4122

在这里想用一个例子再尝试解释一下：

假设 token Embedding 矩阵维度是 [4,768]；position Embedding 矩阵维度是 [3,768]；segment Embedding 矩阵维度是 [2,768]。

对于一个字，假设它的 token one-hot 是[1,0,0,0]；它的 position one-hot 是[1,0,0]；它的 segment one-hot 是[1,0]。

那这个字最后的 word Embedding，就是上面三种 Embedding 的加和。

如此得到的 word Embedding，和concat后的特征：[1,0,0,0,1,0,0,1,0]，再过维度为 [4+3+2,768] = [9, 768] 的全连接层，得到的向量其实就是一样的。

再换一个角度理解：

直接将三个one-hot 特征 concat 起来得到的 [1,0,0,0,1,0,0,1,0] 不再是one-hot了，但可以把它映射到三个one-hot 组成的特征空间，空间维度是 432=24 ，那在新的特征空间，这个字的one-hot就是[1,0,0,0,0…] (23个0)。

此时，Embedding 矩阵维度就是 [24,768]，最后得到的 word Embedding 依然是和上面的等效，但是三个小Embedding 矩阵的大小会远小于新特征空间对应的Embedding 矩阵大小。

当然，在相同初始化方法前提下，两种方式得到的 word Embedding 可能方差会有差别，但是，BERT还有Layer Norm，会把 Embedding 结果统一到相同的分布。

BERT的三个Embedding相加，本质可以看作一个特征的融合，强大如 BERT 应该可以学到融合后特征的语义信息的。

3、在BERT中，token分3种情况做mask，分别的作用是什么？

在 BERT 的 Masked LM 训练任务中，会用 [MASK] token 去替换语料中 15% 的词，然后在最后一层预测。但是下游任务中不会出现 [MASK] token，导致预训练和 fine-tune 出现了不一致，为了减弱不一致性给模型带来的影响，在这被替换的 15% 语料中：

80% 的 tokens 会被替换为 [MASK] token
10% 的 tokens 会称替换为随机的 token
10% 的 tokens 会保持不变但需要被预测

第一点中的替换：是 Masked LM 中的主要部分，可以在不泄露 label 的情况下融合真双向语义信息；

第二点的随机替换：因为需要在最后一层随机替换的这个 token 位去预测它真实的词，而模型并不知道这个 token 位是被随机替换的，就迫使模型尽量在每一个词上都学习到一个全局语境下的表征，因而也能够让 BERT 获得更好的语境相关的词向量（这正是解决一词多义的最重要特性）；

第三点的保持不变：也就是真的有 10% 的情况下是泄密的（占所有词的比例为15% * 10% = 1.5%），这样能够给模型一定的 bias ，相当于是额外的奖励，将模型对于词的表征能够拉向词的真实表征（此时输入层是待预测词的真实 embedding，在输出层中的该词位置得到的embedding，是经过层层 Self-attention 后得到的，这部分 embedding 里多少依然保留有部分输入 embedding 的信息，而这部分就是通过输入一定比例的真实词所带来的额外奖励，最终会使得模型的输出向量朝输入层的真实 embedding 有一个偏移）。

而如果全用 mask 的话，模型只需要保证输出层的分类准确，对于输出层的向量表征并不关心，因此可能会导致最终的向量输出效果并不好。

4、为什么BERT选择mask掉15%这个比例的词，可以是其他的比例吗？

BERT采用的Masked LM，会选取语料中所有词的15%进行随机mask，论文中表示是受到完形填空任务的启发，但其实与CBOW也有异曲同工之妙。

从CBOW的角度，这里有一个比较好的解释是：在一个大小为 1/p = 100/15 约等于 7 的窗口中随机选一个词，类似CBOW中滑动窗口的中心词，区别是这里的滑动窗口是非重叠的。

那从CBOW的滑动窗口角度，10%~20%都是还ok的比例。

5、针对句子语义相似度/多标签分类/机器翻译翻译/文本生成的任务，利用BERT结构怎么做fine-tuning？

实际操作时，上述最后一句话之后还会加一个[SEP] token，语义相似度任务将两个句子按照上述方式输入即可，之后与论文中的分类任务一样，将[CLS] token 位置对应的输出，接上 softmax 做分类即可(实际上 GLUE 任务中就有很多语义相似度的数据集)。针对多标签分类的任务多标签分类任务，即 MultiLabel，指的是一个样本可能同时属于多个类，即有多个标签。以商品为例，一件 L 尺寸的棉服，则该样本就有至少两个标签——型号：L，类型：冬装。

对于多标签分类任务，显而易见的朴素做法就是不管样本属于几个类，就给它训练几个分类模型即可，然后再一一判断在该类别中，其属于那个子类别，但是这样做未免太暴力了，而多标签分类任务，其实是可以「只用一个模型」来解决的。

利用 BERT 模型解决多标签分类问题时，其输入与普通单标签分类问题一致，得到其 embedding 表示之后(也就是 BERT 输出层的 embedding)，有几个 label 就连接到几个全连接层(也可以称为 projection layer)，然后再分别接上 softmax 分类层，这样的话会得到，最后再将所有的 loss 相加起来即可。这种做法就相当于将 n 个分类模型的特征提取层参数共享，得到一个共享的表示(其维度可以视任务而定，由于是多标签分类任务，因此其维度可以适当增大一些)，最后再做多标签分类任务。针对翻译的任务针对翻译的任务，我自己想到一种做法，因为 BERT 本身会产生 embedding 这样的“副产品”，因此可以直接利用 BERT 输出层得到的 embedding，然后在做机器翻译任务时，将其作为输入/输出的 embedding 表示，这样做的话，可能会遇到 UNK 的问题，为了解决 UNK 的问题，可以将得到的词向量 embedding 拼接字向量的 embedding 得到输入/输出的表示(对应到英文就是 token embedding 拼接经过 charcnn 的 embedding 的表示)。针对文本生成的任务关于生成任务，搜到以下几篇论文：

BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model

MASS: Masked Sequence to Sequence Pre-training for Language Generation

Unified Language Model Pre-training for Natural Language Understanding and Generation

6、使用BERT预训练模型为什么最多只能输入512个词，最多只能两个句子合成一句？这是Google BERT预训练模型初始设置的原因，前者对应Position Embeddings，后者对应Segment Embeddings

在BERT中，Token，Position，Segment Embeddings 都是通过学习来得到的，pytorch代码中它们是这样的

self.word_embeddings = Embedding(config.vocab_size, config.hidden_size)

self.position_embeddings = Embedding(config.max_position_embeddings, config.hidden_size)

self.token_type_embeddings = Embedding(config.type_vocab_size, config.hidden_size)上述BERT pytorch代码来自:https://github.com/xieyufei1993/Bert-Pytorch-Chinese-TextClassification，结构层次非常清晰。

而在BERT config中

“max_position_embeddings”: 512

“type_vocab_size”: 2

因此，在直接使用Google 的BERT预训练模型时，输入最多512个词（还要除掉[CLS]和[SEP]），最多两个句子合成一句。这之外的词和句子会没有对应的embedding。

当然，如果有足够的硬件资源自己重新训练BERT，可以更改 BERT config，设置更大max_position_embeddings 和 type_vocab_size值去满足自己的需求。

7、BERT非线性的来源在哪里？

前馈层的gelu激活函数和self-attention，self-attention是非线性的

8、BERT 是如何区分一词多义的？

同一个字在转换为bert的输入之后（id），embedding的向量是一样，但是通过bert中的多层transformer encoder之后，attention关注不同的上下文，就会导致不同句子输入到bert之后，相同字输出的字向量是不同的，这样就解决了一词多义的问题。

9、BERT的输入是什么，哪些是必须的，为什么position id不用给？

BERT的输入：token embedding，position embeddinhg，segment embedding token embedding：词向量表示，该向量既可以随机初始化，也可以利用Word2Vector等算法进行预训练以作为初始值，使用WordPiece tokenization让BERT在处理英文文本的时候仅需要存储30,522 个词，而且很少遇到oov的词，token embedding是必须的； position embeddinhg：和Transformer的sin、cos函数编码不同，直接去训练了一个position embedding。给每个位置词一个随机初始化的词向量，再训练； segment embedding：该向量的取值在模型训练过程中自动学习，用于刻画文本的全局语义信息，并与单字/词的语义信息相融合。输出是文本中各个字/词融合了全文语义信息后的向量表示。参考：
https://blog.csdn.net/weixin_36378508/article/details/113424992

10、神经网络中 warmup 策略为什么有效？

有助于减缓模型在初始阶段对mini-batch的提前过拟合现象，保持分布的平稳有助于保持模型深层的稳定性

11、Bert 采用哪种Normalization结构，LayerNorm和BatchNorm区别，LayerNorm结构有参数吗，参数的作用？

采用LayerNorm结构，和BatchNorm的区别主要是做规范化的维度不同。 BatchNorm针对一个batch里面的数据进行规范化，针对单个神经元进行，比如batch里面有64个样本，那么规范化输入的这64个样本各自经过这个神经元后的值（64维）； LayerNorm则是针对单个样本，不依赖于其他数据，常被用于小mini-batch场景、动态网络场景和 RNN，特别是自然语言处理领域，就bert来说就是对每层输出的隐层向量（768维）做规范化，图像领域用BN比较多的原因是因为每一个卷积核的参数在不同位置的神经元当中是共享的，因此也应该被一起规范化。

return self.weight * x + self.bias贴一个LayerNorm的实现，可以看到module中有weight和bias参数，以Sigmoid激活函数为例，批量归一化之后数据整体处于函数的非饱和区域，只包含线性变换，破坏了之前学习到的特征分布。为了恢复原始数据分布，具体实现中引入了变换重构以及可学习参数w和b ，也就是上面的weight和bias，简而言之，规范化后的隐层表示将输入数据限制到了一个全局统一的确定范围，为了保证模型的表达能力不因为规范化而下降，引入了b是再平移参数，w 是再缩放参数。（过激活函数前规范化，之后还原）

12、为什么说ELMO是伪双向，BERT是真双向？产生这种差异的原因是什么？

elmo是伪双向，只是将左到右，右到左的信息加起来，而且用的是lstm,同时缺点也是显而易见的，模型参数太多，而且模型太大，少量数据训练时，容易过拟合。

BERT的预训练模型中，预训练任务是一个mask LM ，通过随机的把句子中的单词替换成mask标签，然后对单词进行预测。

13、BERT和Transformer Encoder的差异有哪些？做出这些差异化的目的是什么？

与Transformer本身的Encoder端相比，BERT的Transformer Encoder端输入的向量表示，多了Segment Embeddings。加入Segment Embeddings的原因：Bert会处理句对分类、问答等任务，这里会出现句对关系，而两个句子是有先后顺序关系的，如果不考虑，就会出现词袋子之类的问题（如：武松打虎和虎打武松是一个意思了~），因此Bert加入了句子向量。

评论有奖：评论区回复“100题”，免费领取最新升级版《名企AI面试100题》电子书！

Assembly语言的自然语言处理花韵婷包罗万象 golang 开发语言后端
Assembly语言在自然语言处理中的应用引言自然语言处理（NaturalLanguageProcessing,NLP）作为人工智能的一个重要分支，致力于实现计算机与人类语言之间的互动。随着计算能力的提升以及大数据的蓬勃发展，NLP在各个领域的应用如火如荼。从语音识别、机器翻译到情感分析等，NLP正在改变我们与信息之间的互动方式。不过，当前主流的NLP研究通常是用高级编程语言（如Python、Ja
Julia语言的学习路线樟松包罗万象 golang 开发语言后端
Julia语言学习路线指南引言在编程语言层出不穷的今天，Julia作为一门新兴的高级编程语言，以其出色的性能和易用性逐渐获得了越来越多的关注。特别是在科学计算、数据分析和机器学习等领域，Julia的表现十分出色，成为研究人员和开发者的热门选择。本文将为希望学习Julia语言的读者提供一条详细的学习路线，包括基础知识、工具、库、项目和实践经验等，帮助大家有效地掌握这门语言。一、了解Julia语言在开
大语言模型原理与工程实践：大语言模型强化对齐 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：大语言模型强化对齐作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的迅猛发展，大语言模型（LargeLanguageModels，LLMs）如GPT-3、LaMDA等，在自然语言处理（NLP）领域取得了显著的突破。这些模型在问答、翻译、文本生成等方面展现出惊人的能力，但同时也引发了
【机器学习】基于t-SNE数据可视化工程无水先生 AI原理和python实现人工智能综合人工智能算法
一、说明t-SNE(t-DistributedStochasticNeighborEmbedding)是一种常用的非线性降维技术。它可以将高维数据映射到一个低维空间（通常是2D或3D）来便于可视化。Scikit-learnAPI提供TSNE类，以使用T-SNE方法可视化数据。在本教程中，我们将简要学习如何在Python中使用TSNE拟合和可视化数据。二、t-SNE是个什么？2.1什么是t-SNE？
从图形处理到通用计算的进化之路绿算技术 GPU架构介绍科技 gpu算力
图形处理单元，作为现代计算机中不可或缺的一部分，已经从最初的图形渲染专用处理器，发展成为强大的并行计算引擎，广泛应用于人工智能、科学计算、游戏娱乐等领域。本文将深入探讨GPU架构的演变历程、核心组件以及其在不同应用场景中的优势。GPU架构的演变：从固定功能到可编程流水线早期的GPU采用固定功能流水线架构，专为图形渲染任务而设计。这种架构将图形渲染流程划分为一系列固定的阶段，例如顶点处理、光栅化、纹
数据处理和分析之数据降维：t-SNE：使用t-SNE进行数据可视化实践 kkchenkx 数据挖掘信息可视化算法聚类均值算法数据挖掘机器学习
数据处理和分析之数据降维：t-SNE：使用t-SNE进行数据可视化实践数据降维简介降维技术的重要性在数据科学和机器学习领域，数据降维是一种关键的技术，用于减少数据集的维度，同时保留数据的结构和重要信息。降维不仅可以帮助我们更有效地存储和处理数据，还能在高维数据中发现潜在的模式和结构，这对于数据可视化和模型训练尤为重要。高维数据往往难以直观理解，通过降维，我们可以将其转换为二维或三维空间，便于可视化
第20篇：从零开始构建NLP项目之电商用户评论分析：模型训练阶段 Gemini技术窝自然语言处理人工智能深度学习 AIGC 机器学习 nlp langchain
大家好，今天我们继续探讨如何从零开始构建一个NLP项目，特别是电商用户评论分析中的模型训练阶段。模型训练是NLP项目的核心环节，通过合理的调参和优化，可以显著提升模型性能。本文将详细介绍模型训练的步骤，并展示如何使用LangChain库进行模型训练、调参和优化。文章目录项目的背景和目标模型训练的详细步骤安装依赖包流程图1.准备数据2.定义模型3.训练模型4.评估模型5.调参与优化常见错误和注意事项
高效快速教你deepseek如何进行本地部署并且可视化对话 chatgpt
随着最近一个新的人工智能deepseek的爆火，很多大佬都开始了在本地进行deepseek的部署操作，并且离线也可以使用，这里的话我就一步一步带你们部署本地的deepseek,说实话这个人工智能的实力不亚于openai的gpt安装ollama我们需要先安装ollama，安装地址ollama,我们直接点击下载，我们在下载的时候尽量使用我们的谷歌浏览器，有魔法的最好带上魔法，不然安装的时候可能会出问题
NLP-二分类的应用-区分外卖评论好评/差评左岸Jason 算法 python kafka flink elasticsearch
目录一、概念二、二分类实战-划分好评/差评1.处理步骤2.实战代码一、概念文本分类一般可以分为二分类、多分类、多标签分类三种情况。二分类是指将一组文本分成两个类(0或1),比较常见的应用如垃圾邮件分类、电商网站的用户评价数据的正负面分类等,多分类是指将文本分成若干个类中的某一个类,比如说门户网站新闻可以归属到不同的栏目中(如政治、体育、社会、科技、金融等栏目)去。多标签分类指的是可以将文本分成若干
Python 爬虫实战：电影评论数据抓取与自然语言处理西攻城狮北 python 爬虫开发语言
引言作为一名对电影数据和自然语言处理感兴趣的内容创作者，我决定利用Python爬虫技术抓取IMDb上的电影评论数据，并进行自然语言处理分析。这不仅可以帮助我们了解观众对电影的反馈，还能为电影制作方提供有价值的参考。一、项目背景IMDb（互联网电影数据库）是全球最大的电影数据库，用户可以在上面查看电影信息和用户评论。本项目旨在爬取IMDb上的电影评论，并对评论进行自然语言处理（NLP），以提取情感、
useblackbox黑箱AI编码助理百态老人 python 开发语言
黑箱AI是一个人工智能的编码助理可以让代码快10倍。它使您能够把任何问题变成代码和功能,如从任何视频提取代码和代码自动完成。它有以下几个特点：可以从视频、图片、PDF等格式中复制代码。可以将任何问题转换成代码。可以快速找到任何代码片段，并开始编码。支持20多种编程语言的代码自动补全。有Chrome扩展和VSCode扩展。这个网站有不同的收费方案，根据你需要的功能和使用量而定。它有以下几种选择：好开
大模型火爆 2025：LLaMA、Qwen、DeepSeek 核心原理+就业秘籍，快速入门 AI 工程师 weixin_40941102 llama 人工智能
1.大模型核心原理：从零开始理解AI模型这些是大型语言模型（LLMs）的核心技术，适合初学者逐步深入学习。以下是详细拆解，让小白也能掌握：LLaMA系列模型核心原理详解：什么是LLaMA？：LLaMA是一个基于人工智能的语言模型，像一个超级聪明的聊天机器人，能理解和生成人类语言。它由Meta公司开发，类似ChatGPT，但更开源、灵活。核心原理：Transformer架构：想象一个工厂流水线，LL
【AI热点】MCP协议深度洞察报告碣石潇湘无限路人工智能 php 开发语言
摘要人工智能技术飞速发展，大型语言模型（LLM）如何高效、安全地利用外部数据和工具成为关键问题。模型上下文协议（ModelContextProtocol，简称MCP）是一种由Anthropic于2024年底提出的开放标准协议。它通过统一的客户端-服务器架构，为AI应用与文件系统、数据库、第三方API等外部资源之间提供标准化、安全的双向通信接口。本文将深入解析MCP协议的基本概念和背景、架构设计（通
HIVE开窗函数 Cciccd sql hive
ETL,SQL面试高频考点——HIVE开窗函数（基础篇）目录标题ETL,SQL面试高频考点——HIVE开窗函数（基础篇）一，窗口函数介绍二，开窗函数三，分析函数分类1，排序分析函数：实列解析对比总结2.聚合分析函数3.用spark自定义HIVE用户自定义函数后续更新中~一，窗口函数介绍窗口函数，也叫OLAP函数（OnlineAnallyticalProcessing,联机分析处理），可以对数据库数
前端面试：axios 是否可以取消请求？ returnShitBoy 前端
在实际工作中，取消请求的场景通常出现在以下几种情况中：用户导航离开页面：如果用户在请求数据的过程中快速切换到另一个页面，可以通过取消未完成的请求来优化性能。输入框的搜索提示：当用户在输入框中输入内容时，可以结合防抖的方式取消之前的请求，从而只保留最新的请求，避免发送过多的请求。取消请求的实现方式Axios提供了CancelToken的功能来实现请求的取消。以下是具体的代码示例：importaxio
NPU的应用场景：从云端到边缘绿算技术 NPU架构介绍缓存人工智能科技深度学习
NPU的应用场景非常广泛，主要包括以下几个方面：1.云计算与数据中心AI推理服务：在云端提供高效的AI推理服务，例如图像识别、语音识别。模型训练加速：在大规模训练任务中，NPU可以作为加速单元，提升训练效率。2.边缘计算智能摄像头：在安防监控中，NPU可以实时处理视频流，实现目标检测和跟踪。智能音箱：在语音助手中，NPU可以加速语音识别和自然语言处理任务。3.自动驾驶实时感知：NPU可以加速自动驾
MyBatis相关的面试题努力的搬砖人. java 面试 mybatis
以下是150道MyBatis相关的面试题及详细答案：MyBatis基础1.MyBatis是什么？MyBatis是一个优秀的持久层框架，它支持自定义SQL语句、存储过程以及高级映射，避免了几乎所有的JDBC代码和手动设置参数以及获取结果的操作。2.MyBatis的优缺点是什么？优点：•提高开发效率，减少重复的JDBC代码。•提供XML和注解两种方式编写SQL，灵活方便。•支持动态SQL，可以根据不同
必看！一文读懂知识蒸馏技术小天才学习机打游戏人工智能知识图谱神经网络 langchain windows
导读最近，DeepSeek的爆火让大家对人工智能领域的技术发展又有了新的关注。而知识蒸馏作为深度学习中一项重要的技术，也在背后默默地发挥着作用，今天就来给大家详细介绍一下知识蒸馏及其相关原理。1.知识蒸馏是什么在深度学习领域，大型模型（如DeepSeek）通常具有强大的性能，但它们的计算量和参数量都非常庞大，这使得它们难以在资源受限的设备（如移动设备或嵌入式设备）上部署。例如，GPT-3在570G
Android插件化和组件化面试题及参考答案大模型大数据攻城狮组件化插件化宿主模块通信 classloader android面试安卓面经
目录如何使用Gradle来管理Android项目中的模块依赖？Android中的Gradle插件开发如何辅助组件化开发？如何在Gradle中进行组件化项目的构建？在Android项目中，如何实现不同模块间的解耦？什么是组件化开发？组件化开发的主要优势有哪些？如何将Android应用拆分为多个组件？在Android中如何实现组件化？请描述具体的实现步骤。在组件化架构中，如何实现组件的独立运行与集成？
AI大模型学习路线及相关资源推荐 python游乐园学习资源学习 Python AI AI编程人工智能
哈喽，大家好！本文为大家带来AI大模型学习路线及相关资源推荐，这对于学习掌握AI大模型很有帮助呦，希望大家多多点赞收藏～感谢～～1AI大模型的基础信息1.1什么是AI大模型AI大模型，即人工智能大型模型，是一种基于深度学习技术，具有海量参数、强大算力支持、能够处理和生成复杂数据的人工智能模型。1.2AI大模型的主要特点规模庞大：AI大模型通常包含海量的参数。例如，谷歌的BERT模型在最初发布时就有
数据分布偏移检测：保障模型在生产环境中的稳定性 trust Tomorrow 机器学习 python 机器学习人工智能深度学习
数据分布偏移检测：保障模型在生产环境中的稳定性引言在机器学习系统从开发环境部署到生产环境的过程中，数据分布偏移问题是影响模型性能的主要挑战之一。当训练数据与生产环境中的数据分布不一致时，即使是经过精心调优的模型也可能表现出明显的性能下降。本文将深入探讨数据分布偏移的检测方法，并提供一套系统化的解决方案，帮助读者构建更加稳健的机器学习系统。1.数据分布偏移问题概述1.1分布偏移的类型数据分布偏移主要
模型蒸馏：从复杂到精简，AI技术的“瘦身”秘籍 lmtealily 人工智能
引言在人工智能的浪潮中，大型模型如BERT、GPT系列等在自然语言处理（NLP）、计算机视觉（CV）等领域取得了显著的成果。然而，这些“庞然大物”通常拥有数十亿甚至数千亿个参数，计算和存储成本极高，难以部署到资源受限的设备上。为了解决这一问题，模型蒸馏技术应运而生。模型蒸馏是一种将大型复杂模型的知识迁移到小型简单模型的技术，旨在保持高性能的同时大幅减少模型的参数量和计算复杂度。本文将带你深入了解模
Python自动化炒股：基于自然语言处理的股票新闻情感分析模型开发与优化的最佳实践云策量化 Python自动化炒股量化投资量化软件 python 量化交易 QMT PTrade 量化炒股量化投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》Python自动化炒股：基于自然语言处理的股票新闻情感分析模型开发与优化的最佳实践在股市中，信息的力量是巨大的。一条新闻、一篇报道，甚至一条推文，都可能引发股价的波动。因此，利用自然语言处理（NLP）技术来分析股票新闻的情感倾向，可以帮助我们预测市场动向，从而做出更明智的投资决策。本文将带你了解如何开发和优化一个基于Pytho
基于热力梯度的线圈设计用来更替新型的储能方式热爱电气数学建模
摘要研究背景：传统电磁储能技术受限于较低的能量密度（约1-5Wh/kg）和充放电速度。热力梯度储能技术通过调控温度场实现多模式能量转换，其潜力能量密度可达100Wh/kg以上。创新点：1.提出三层异质线圈结构（铜基主储层+Bi₂Te₃热电转换层+GdFeO₃磁热调谐层），实现温度梯度与磁场的协同调控。2.开发动态热-电-磁耦合模型，结合有限元分析（COMSOL）与机器学习算法（遗传算法优化参数）。
AI人工智能对前端的冲击？理想不理想v 人工智能前端
‌AI人工智能对前端开发的冲击主要体现在以下几个方面‌：‌代码生成与自动化‌：AI工具如GPT-4和GitHubCopilot能够自动生成高质量的前端代码，从简单的组件到复杂的应用程序，这不仅提高了开发效率，还降低了人为错误的可能性。自动化代码生成工具可以显著减少开发者编写重复性代码的时间，使他们能够专注于创新和解决复杂问题‌。‌跨平台开发支持‌：AI可以帮助生成适用于不同平台的代码，简化跨平台开
从人工智能窥见网络安全的重要性 He_Donglin 人工智能 web安全网络
“人工智能”一词在上世纪五十年代被提出，在当时，计算机正处于萌芽阶段，同时期的人类第一台电子计算机“ENIAC”诞生了，但是埃尼亚克有很多缺点：庞大的占地面积、庞大的质量、单一的功能、较小的内存等，这主要受制于其他领域的发展，但当时的人们对计算机寄予厚望，希望在未来某一天它能够拥有足够强大的“power”，帮助人们解决诸多问题。于是乎，经过无数科学家数十年来的努力，计算机“长大了”，它的功能不再单
《今日AI-人工智能-编程日报》-源自2025年2月28日小亦编辑部每日AI-人工智能-编程日报人工智能
技术突破OpenAI发布GPT-4.5：OpenAI正式推出新一代大模型GPT-4.5，语言理解、情商及逻辑推理能力显著增强，幻觉问题大幅减少，计算效率较GPT-4提升超10倍，已逐步向用户开放试用。国产模型Kimi发布k1.6版本：国产模型Kimi发布的k1.6版本，在编程任务评测中超越GPTo3-mini，首次登顶榜首。其“快思考”架构使响应速度提升至秒级，部署成本下降40%。企业动态贵州广电
《今日AI-人工智能-编程日报》-源于2025年3月11日小亦编辑部每日AI-人工智能-编程日报人工智能
1.AI行业动态1.1Manus通用智能体初成型，开启AIAgent新时代中泰证券发布研报称，首款通用型AI智能体Manus已问世，能够将复杂任务拆解为可执行的步骤链，并在虚拟环境中灵活调用工具，标志着AI从“Reasoner”走向“Agent”阶段。Manus的成功引发了开源复现潮，DeepSeek模型已被整合到OWL项目中，并在GAIA基准测试中表现接近Manus。1.2DeepSeek-R2
数字马力ai面试题泠波前端
有关前端工程化的工具前端工程化是指将前端开发过程中的各种任务自动化、流程化、标准化，以提高开发效率、代码质量和可维护性。在前端工程化中，通常会用到一些工具来辅助完成各种任务，比如构建、测试、部署等。以下是一些常用的前端工程化工具：1.**构建工具（BuildTools）**-**Webpack**:是一个非常流行的模块打包器，可以处理各种类型的文件，并且支持插件扩展。-**Rollup**:另一个
【机器学习】skit-learn中LSI模型的实现一穷二白到年薪百万机器学习 python sklearn
参考文献[1]sklearn_api.lsimodel–ScikitlearnwrapperforLatentSemanticIndexing[2]Pythonmodels.LsiModel方法代码示例
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =