Percent_bigdata

百分点认知智能实验室出品：智能问答中的对抗攻击及防御策略

编者按

深度学习模型应用广泛，但其自身有一定的“脆弱性”，即模型输入的微小改动，在不影响人判断的情况下，可能使模型的输出出错，这个过程被称为对模型的对抗攻击。针对对抗攻击的研究，早期集中在图像领域，近几年，文本领域也逐渐增多。2019年，百分点从业务实际出发，与北京市科学技术委员会联合主办了数据智能创新应用(DIAC)大赛，聚焦于智能问答中的语义等价问题的对抗攻击。经过一个多月的研究实践，参赛队伍对该任务做了富有成效的探索，在优胜队伍的方案中，数据增强、对抗样本纠错、使用Focal Loss损失函数和基于FGM的对抗训练成为行之有效的策略。

本文作者：陈旭

一、对抗攻击概述

随着近些年深度学习的快速发展，深度神经网络逐渐成为机器学习领域的主流模型，被广泛应用于计算机视觉、自然语言处理等领域，但在研究与应用的同时，人们渐渐发现，深度神经网络具有一定的“脆弱性”。比如，在图像识别中，对模型的输入也就是图像像素值做轻微扰动，这种扰动不会改变图像的实际分类，人也难以觉察，却可能导致模型对图像的分类出错；或者在一段文本的情感分析中，文本中有一个字写错，这个错误不影响人的理解，也不会改变人对这段文本的情感判断，模型却可能判断出错。这类错误一方面会降低人们对系统使用体验的好感度，另一方面可能会造成严重的后果，从而也限制了深度神经网络在一些安全要求很高的场景下的应用。

近几年，人们开始对这一问题展开研究。如前文例子那样，人们精心设计一些样本，模型却判断出错，这个过程就是对抗攻击，这些样本就是对抗样本。通过研究对抗攻击以及相应的防御策略，有助于提高神经网络的鲁棒性和可解释性。

二、文本对抗攻击的主要方法

深度神经网络对抗攻击的研究最早在图像领域展开，现在在文本领域也有了一些相关研究。针对文本的对抗攻击，从不同的角度有不同的分类，常见的有：根据构造对抗样本时基于的信息分为白盒攻击和黑盒攻击；根据错误的输出是否是某个特定的结果，分为定向攻击和非定向攻击；根据改动文本的类型，分为基于字、词和句子的对抗攻击。这里我们主要介绍一下第一种分类。

2.1 白盒攻击

白盒攻击，是指在构造对抗样本的时候，有所要攻击的模型的知识，如模型的结构、参数、权重等。属于白盒攻击的攻击方式有很多种，这里举例介绍其中一种：基于FGSM的方法。例如，对于一个输入样本，一种方法是计算模型的损失对输入向量（对于文本来说，输入向量一般是文本的字向量或词向量）的梯度，然后将梯度量纲最大的维度所属的字定义为“热字”，包含足够多热字并且出现频繁的短语被定义为热短语。然后基于热短语，进行增删改，生成对抗样本。

2.2 黑盒攻击

黑盒攻击与白盒攻击相反，在构造对抗样本的时候，没有所要攻击的模型的知识。如果这个模型能被攻击者使用，则攻击者可以通过不断尝试，修改模型输入，观察模型输出来构造对抗样本。

如果不具备上述条件，但是能够对模型结果定义一个置信度打分函数，则可使用基于重要性的攻击方法。以文本分类为例，对文本中的每个词语，计算将该词语删除或替换为空格前后，文本分到正确类别上置信度分数（比如分到该类别的概率值）的变化量，将这个变化量作为这个词语重要性的分数，变化量越大越重要。然后，对重要性高的词语进行改动。

如果上述条件均不具备，则攻击者通常训练一个替代模型，然后针对替代模型，构造对抗样本，由于对抗样本具有一定可迁移性，可以用这些样本对目标模型进行攻击。在使用替代模型的情况下，构造对抗样本就可以运用白盒攻击中的一些方法。

三、语义等价问题的对抗攻击

2019年，百分点与北京市科委一起主办了数据智能创新应用大赛，大赛聚焦于智能问答中的语义等价问题的对抗攻击，要求参赛者通过研究智能对话的鲁棒性问题进行算法创新，来提高对话系统的“思考能力”和“解决问题”的能力，让机器实现从“听见”到“听懂”，最终提升用户体验感。

在这个过程中，判断两个问题是否语义等价，是基于FAQ的问答系统的核心环节。例如：“市政府管辖哪些部门？”和“哪些部门受到市政府的管辖？”是语义等价的两个问题，后者的答案可以回答前者；而“市政府管辖哪些部门？”和“市长管辖哪些部门？”则为不等价的问题。在问答系统实际使用中，用户问的一个问题可能和知识库中问题语义等价，但用户的问题表述方式和用词多样，有的会出现不影响理解的多字、少字、错字、语气词、停顿等；有的问题则和知识库里的问题字面上很相近，但由于关键信息的不同，二者语义并不完全等价。如果针对第一种情况，系统仍然能判断为等价，第二种情况能判断为不等价，则能较好地保证用户的使用体验。

如本文第一节所述，对抗攻击是指对模型的输入样本作微小改动，这个改动不影响样本的真实输出（如真实类别），但对应的模型输出改变的过程。在这里，我们对这个概念稍作扩展，将对输入作微小改动，使得输出由正确变为错误的，都认为是对抗攻击。

两个问题原本是不等价的，大多数情况，这两个问题字面上就相差比较大，经过微小改动，往往仍然是不等价的，而且模型预测结果也不容易出错，所以对抗样本的构造没有涉及这种情况，而是针对两个问题原本等价的情况进行，这种情况又分改动以后仍然等价和不等价两种情况。

由于对抗样本的构造过程中，没有待攻击的模型的信息，因此这里对抗样本的构造是个黑盒攻击的过程。我们利用比赛训练集，训练了一个基于BERT的语义等价模型，来辅助对抗样本的构造。对两个等价问题经过改造后不等价的情况，我们采取人工给问题中的某个词加影响语义的修饰限定成分或将关键词换成非同义词的方式改造，然后看模型是否仍然判断为等价，如果是，则改造成功。对两个等价问题，经过改造后仍然等价的情况，我们主要通过人工给原问题换同音字、形近字、同义词、增加无意义词或不影响语义的修饰限定成分的方式改造，同时保证所做的改造是合理且不改变语义的，改造后，看模型是否判断为不等价，如果是，则改造成功。

第二种情况，改动往往不容易成功，为了提高针对性，我们对一组两个问题中的每个词语，将其删除后，计算模型预测两个问题为等价的概率值，根据每个词语对应的概率值从低到高的顺序，对词语排序，排在前面的词语，认为是对模型预测这两个问题等价比较重要的词语，在问题改造时，重点围绕这些词语进行。构造的对抗样本举例如下图：

四、文本对抗攻击的防御策略

针对文本对抗攻击的防御策略主要包括两个方面，一方面是去发现对抗样本，比如有一些对抗攻击，是将文本中的字改成音近字、形近字或错字，可以检测包含这类异常字的文本，然后对其做额外的处理；另一方面是对模型进行对抗性训练，包括在训练样本中加入对抗样本，对损失函数和模型结构进行改动等，本次大赛方案中有一些应对对抗攻击的策略，具体在下面章节介绍。

五、DIAC大赛方案分享

DIAC大赛优胜队伍普遍选择RoBERTa_wwm作为语义等价任务的基础模型，即将两个问题拼起来，进入模型，然后选择[cls]位置对应的向量，经过一个全连接层和softmax操作，输出在2个类别上的概率。在模型训练之前，进行了对抗样本的数据增强；在模型训练阶段，采用FocalLoss作为损失函数，利用Fast Gradient Method（FGM）在embedding层上添加扰动；在测试集上作预测时，对疑似对抗样本进行纠错。

5.1 数据增强

根据对抗样本举例，通过以下方式进行了数据增强：

方法一：音近字替换、形近字替换、同义词替换、词序调整。用开源的音近字、形近字、同义词词典，以一定比例对问题中的字或词进行替换，同时限制一组问题中替换的总字数小于3，或以一定比例对问题中的词语词序随机调整，限制最远的词序调整，两个词汇间隔不超过2个词。

方法二：反义词替换、增加或删除否定词。以一定比例进行将问题中的某个词替换为反义词、增加或删除问题中的否定词，如：“未”、“没有”、“无”、“非”，并修改样本标签。

方法三：用开源的错别字校正工具，对问题进行校正，矫正结果矫正错误率接近100%，但错误矫正只影响1-2个字，不影响对问题的理解，故可以用这种方式生成对抗样本。

通过上面的一种或几种方式，进行数据增强，训练的模型与不进行数据增强相比，在最终测试集上的宏F1值有约1.5~2个百分点的提升。

5.2 智能纠错

针对对抗样本特点，有下面几种纠错方式：

方法一：召回与待纠错问题相似的问题，对比相似片段，进行纠错。具体做法是：以两个问题分词集合的差集中包含的词语数目作为二者相关性的一个度量。对一个问题，从整个数据集合中，召回一些和它相关性较高的问题。相关问题召回后，接着对原问题与相关问题进行共现的相似文本片段查找，文本片段相似采用汉明距离作为度量，由于一般对抗样本中错别字都只有一个，若是有两个错别字一般都是连在一起的，因此将汉明距离小于2且满足不同字必须连续做为判断相似文本片段的依据。

相似片段找到后，对相似片段的每个位置进行一一对比，如果不同，考虑这两个字是否是同音字，如果不是同音的字再考虑是否是形近字，若都不是就不进行纠错。判断是否同音采用一个汉字转拼音的模块，同形的判断采用笔顺的编辑距离作为相似度的判断，同音或同形的错别字在相似文本片段中的位置确定后，接下来就是确定两个文本片段哪个有错别字。通过对相似片段分词，然后计算所有词的在训练集中出现次数的总和，判定总和小的片段包含错别字，然后用总和大的对总和小的进行修正。

方法二：统计问题中词语上下文的ngram，根据ngram为对抗样本中的错误词语寻找纠错建议。具体做法为：对问题进行分词及词性标注，对具有词性为m、nr、ns、nt、nz、r、x、w的词替换为对应的词性标记。对每个词语，分别统计上文的一、二、三元ngram和下文一、二、三元ngram共6个词条，添加到ngram词表里。在纠错阶段，对问题中的词W，利用其上下文的6个ngram词条和前一步统计的ngram词表，获得纠错的候选词及候选词的词频，基于拼音编辑距离，计算候选词与词W的拼音相似度。按照如下公式，进行候选词得分计算：

其中x为候选词，c为原错词，d为词表，为候选词的词频，为候选词与原错词的拼音相似度数，为对应的词表字典的权重。对所有候选词按照分值从大到小进行排序。取前N（这里取N为10）个，如果存在候选词与错词的编辑距离小于等于1，则优先返回这个候选词，否则返回所有候选词分值最高的词。

方法三：将测试样本中两个句子中的同音字或形近字相互替换。当句A中连续两个字的读音与句B中连续两个字的读音相同时，可以用B中的同音字替代A中同音字，构造句A'，那么A'与B即可组成样本[A',B]。同理可以构造[A,B']，它们与[A,B]共同组成一组测试样本，用训练好的模型预测这组测试样本，预测结果只要存在一个正样本，即认为原测试样本为正样本。

通过上面的方式，对测试集进行纠错，预测结果的宏F1值有约2~3个百分点的提升。

5.3 Focal Loss

在给出的训练集中，正负样本比例较不平衡，适合采用Focal Loss作为损失函数。Focal Loss公式如下：

通过设定α的值来控制正负样本对总的loss的共享权重，α取比较小的值来降低多的那类样本的权重，通过设置γ来减少易分类样本的权重，从而使得模型在训练时更专注于难分类的样本。

实验表明，使用Focal Loss相比于不使用FocalLoss作为损失函数，验证集预测结果的宏F1值有约0.5个百分点的提升。

5.4 Fast Gradient Method

对抗训练采用的是Fast Gradient Method（FGM），其目的是提高模型对小的扰动的鲁棒性，扰动添加在bert模型的字向量上。对于分类问题，具体做法就是添加一个对抗损失：

上式表达的意思即，对样本x加入的扰动radv是可以使得预测为分类y的损失最大，radv的定义如下：

在具体训练时采取的损失，是原始损失与对抗损失的组合。实验表明，使用FGM训练的模型和没有使用的模型相比，验证集的宏F1值能有约0.5~1个百分点的提升。

5.5 各种方法的效果

总结上面提到的几种方法，在该任务上的效果如下表：

大赛优胜队伍以上面几种方案为主。第一名采取了除上面智能纠错以外的方案，同时，针对只是在局部进行个别词的增删改替换的对抗样本，设计了Absolute Position-Aware 的模型输入方式进行捕捉，另外，在固定的网络结构中进行对抗训练。第二名和第三名的队伍，没有做太多数据增强，在使用Focal Loss和Fast Gradient Method的同时，将重点放在了智能纠错上，他们分别设计了巧妙的智能纠错方案，利用对抗样本和其他样本之间的相似特性，进行纠错，取得了不错的效果。

综合看前三名的队伍，除了数据增强和对抗训练等其他任务中也可能有效的方法，他们针对本次比赛的赛题特点，从数据出发，进行对抗样本的发现与纠错，方法巧妙，最终脱颖而出。

六、总结

通过这次比赛，大家对防御智能问答中语义等价问题的对抗攻击、增强模型鲁棒性的方法进行了许多探索与实践，发现在数据处理阶段的数据增强、对抗样本纠错和模型训练阶段使用Focal Loss和采用FGM的方法进行训练是行之有效的策略。这些实践与结论，将实现机器与人之间更加智能的对话，为实际的生产生活带来切实帮助。当然，随着研究的深入与应用的普及，还会出现新的对抗攻击的方法，我们也期待新的防御策略被发明，共同促进模型鲁棒性的提升，使系统更好地落地应用。

参考资料

[1] Wang, W., Wang,L., Wang, R., Ye, A., & Tang, B. (2019). A Survey: Towards a Robust DeepNeural Network in Text Domain. arXiv preprint arXiv:1902.07285.

[2] Wei Emma Zhang,Quan Z. Sheng, Ahoud Alhazmi, and Chenliang Li. 2019. Adversarial Attacks onDeep Learning Models in Natural Language Processing: A Survey. 1, 1 (April2019), 40 pages.

https://doi.org/10.1145/nnnnnnn.nnnnnnn

[3] DIAC大赛优胜队伍（比较牛的丹棱街5号、观、沐鑫、XiaoduoAI-NLP、zhys513、苏州课得乐-强行跳大）解决方案

LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
Google机器学习实践指南(模型预测偏差) AI_Auto 人工智能机器学习人工智能
Google机器学习（31）-模型预测偏差预测偏差：模型为何总是"猜不准"的真相揭秘你的模型预测准确率高达95%，却总是与实际情况差那么一点点？这可能是预测偏差在作祟！本文将带你深入探索这个被忽视的模型"隐形杀手"。一、什么是预测偏差？一个生活化案例想象一下，你网购了一个智能体重秤，连续一周称重显示都是60kg。但你去健身房用专业设备测量，实际是62kg。这种系统性的测量偏差，就是预测偏差在现实中
【机器学习|学习笔记】用 Python 结合 graphviz 生成 ID3、C4.5、CART 三种决策树的结构示意图。
【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图文章目录【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图用Python结合graphviz生成ID3、C4.5、CART三种
智能产品经理的核心能力 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
智能产品经理的核心能力1.背景介绍在当今快节奏的数字时代,产品经理扮演着至关重要的角色,他们负责确保产品满足用户需求,实现商业目标,并保持竞争优势。随着人工智能(AI)和机器学习(ML)技术的不断发展,智能产品经理的概念应运而生。智能产品经理需要将传统的产品管理技能与新兴技术相结合,以创建具有创新性和智能化的产品体验。智能产品不仅需要满足功能需求,还需要提供个性化、智能化和无缝的用户体验。这对产品
使用Python进行机器学习入门指南软考和人工智能学堂 Python开发经验 python 机器学习开发语言
使用Python进行机器学习入门指南机器学习（MachineLearning）是人工智能（ArtificialIntelligence,AI）的一个重要分支，旨在通过算法和统计模型，使计算机系统能够自动从数据中学习和改进。Python作为机器学习领域的主流编程语言，提供了丰富的库和工具来实现各种机器学习任务。本文将介绍如何使用Python进行机器学习，包括基本概念、常用库以及一个实战项目示例。目录
【亲测免费】 CatBoost 教程项目使用指南
CatBoost教程项目使用指南tutorials项目地址:https://gitcode.com/gh_mirrors/tutorials1/tutorials1.项目介绍CatBoost是一个高效、灵活且易于使用的梯度提升库，特别适用于处理分类特征。它由Yandex开发，广泛应用于机器学习和数据科学领域。CatBoost提供了丰富的功能，包括自动处理分类特征、支持GPU训练、内置的交叉验证和模
Python自动化机器学习平台库之mindsdb使用详解
概要MindsDB是一个开源的自动化机器学习平台，它通过SQL接口简化了机器学习模型的创建、训练和预测过程。该库的核心理念是将机器学习功能直接集成到数据库中，让开发者无需深入了解复杂的机器学习算法，就能够快速构建和部署预测模型。MindsDB支持多种数据源连接，包括MySQL、PostgreSQL、MongoDB等主流数据库，同时提供了丰富的PythonAPI接口，使得数据科学家和开发者能够在熟悉
堡垒机操作行为异常检测的机器学习算法应用
一、传统检测模式的困境与机器学习的破局价值在数字化转型浪潮中，堡垒机作为运维安全的核心防线，面临着操作行为复杂度激增与检测能力滞后的双重挑战。传统检测手段主要依赖静态规则库与统计模型，存在三大致命缺陷：规则固化与误报泛滥：某金融机构曾因规则库未及时更新，导致运维人员正常批量操作被误判为“暴力破解”，单日误报量超2000次，消耗安全团队60%的精力。动态行为适应性弱：微服务架构下，运维人员访问路径呈
最全自动驾驶数据集（11/4号已更新）数据猎手小k 自动驾驶人工智能机器学习
自动驾驶是一个快速发展的行业，它融合了人工智能、机器学习、传感器技术、高精度地图和先进的计算平台等多种技术。技术方面，自动驾驶汽车依赖于先进的传感器、如激光雷达、摄像头、毫米波雷达等，以及强大的计算平台来处理大量数据，自动驾驶数据集是训练和验证自动驾驶系统的关键资源，它提供了丰富的场景和条件，使算法能够学习和适应复杂的真实世界驾驶环境。一、研究背景自动驾驶技术的发展需要大量的数据来训练和优化算法，
机器学习深度学习驱动在光子学设计中的应用与未来【专题培训会议邀您共探科技前沿】软研科技信息与通信信号处理量子计算人工智能
一、背景介绍在智能科技飞速发展的今天，光子学设计与智能算法的结合正成为科研创新的热点。深度学习、机器学习等算法在光子器件的逆向设计、超构表面材料设计、光学神经网络构建等方面展现出巨大潜力。二、会议亮点由北京软研国际信息技术研究院主办的“智能算法驱动的光子学设计与应用”专题培训会议，将深入探讨以下核心内容：光子器件的逆向设计：利用深度学习优化多参数光子器件设计。超构表面与超材料设计：智能算法在新型光
机器学习与光子学的融合正重塑光学器件设计范式 m0_75133639 光电智能电视二维材料电子半导体人工智能顶刊 nature
Nature/Science最新研究表明，该交叉领域聚焦六大前沿方向：光子器件逆向设计、超构材料智能优化、光子神经网络加速器、非线性光学芯片开发、多任务协同优化及光谱智能预测。系统掌握该领域需构建四维知识体系：1、基础融合——从空间/集成光学系统切入，解析机器学习赋能光学的理论必然性，涵盖光学神经网络构建原理2、逆向设计革命——通过AnsysOptics实战，掌握FDTD算法与粒子群/拓扑优化技术
AI模型训练新范式：基于同态加密的隐私保护方案 AIGC应用创新大全人工智能同态加密区块链 ai
AI模型训练新范式：基于同态加密的隐私保护方案技术解析关键词同态加密（HomomorphicEncryption）、隐私保护机器学习（PPML）、全同态加密（FHE）、安全多方计算（MPC）、加密数据训练摘要本报告系统解析基于同态加密的AI模型训练新范式，覆盖从理论基础到工程实践的全生命周期。首先通过第一性原理推导同态加密的数学本质，对比传统隐私保护技术的局限性；其次构建“加密-训练-解密”全流程
量子机器学习入门：从理论到实践
量子机器学习入门：从理论基石到实践路径元数据框架标题量子机器学习入门：从理论基石到实践路径——连接量子计算与人工智能的未来桥梁关键词量子计算；机器学习；量子算法；量子神经网络；Qiskit；PennyLane；量子变分算法摘要量子机器学习（QuantumMachineLearning,QML）是量子计算与机器学习的交叉领域，通过量子计算的叠加态、纠缠和并行性解决传统机器学习的计算瓶颈（如高维数据处
全球人工智能与机器学习大会PPT a flying bird 论文解读和大咖技术号记录人工智能
大会演讲PPT合集https://ppt.infoq.cn/list/93PPT分享|ppt|人工智能|aicon|infoq|机器学习PPT分享,前段时间的AICon北京站2021全球人工智能与机器学习大会（https://aicon.infoq.cn/2021/beijing），汇集了很多业界大佬，工业界多个方向的从业人员分享了他们在实际业……https://xw.qq.com/cmsid/2
人工智能基础知识PPT课件智慧化智能化数字化方案方案解读馆人工智能入门人工智能学习人工智能课件人工智能PPT
人工智能基础知识定义与概念：人工智能是研究、开发用于模拟、延伸和扩展人类智能行为的综合性科学，其目的是让计算机系统具备执行人类智能任务的能力。涉及计算机科学、数学等多学科，研究对象是让系统具备智能，智能包括认知、适应和自主能力等维度。学派与方法学派：有符号主义、联结主义、行为主义等学派，分别从不同角度研究人工智能。方法：包括基于知识、学习和仿生的方法，如专家系统、机器学习、深度学习等。分类与发展分
数据挖掘：从理论到实践的深度探索代码老y 数据挖掘人工智能
在当今数字化时代，数据已经成为企业决策的重要依据。数据挖掘作为一门从大量数据中提取有价值信息的技术，已经广泛应用于各个领域，如金融、医疗、零售、互联网等。本文将深入探讨数据挖掘的基本概念、主要技术和实际应用案例，帮助读者更好地理解数据挖掘的价值和应用。一、数据挖掘的基本概念（一）数据挖掘的定义数据挖掘（DataMining）是从大量数据中提取有用信息的过程。它结合了统计学、机器学习、数据库技术和人
开发智能化的企业并购风险评估模型
开发智能化的企业并购风险评估模型关键词：企业并购、风险评估、人工智能、机器学习、深度学习、数学建模摘要：本文详细探讨了开发智能化企业并购风险评估模型的背景、核心概念、算法原理、系统架构设计以及项目实战。通过结合机器学习和深度学习技术，提出了一种基于数据驱动的智能化风险评估方法，旨在帮助企业更准确地识别和预测并购过程中的潜在风险，提升决策的科学性和有效性。第1章:企业并购风险评估模型的背景与问题描述
机器学习手写字体识别系统：技术演进与应用实践万能小贤哥机器学习人工智能
引言：手写字体识别的技术定位与价值在信息处理领域，人工录入手写文本的低效性与机器识别的高效性形成鲜明对比。例如，医疗处方的人工处理需约5分钟/张，而采用手写字体识别技术可将时间缩短至10秒/张，显著提升处理效率。作为计算机视觉与人工智能的重要分支，手写字体识别技术通过将手写文本转换为可编辑电子文本，不仅大幅减少人工输入时间和错误，降低人工处理成本，还能在大量数据处理时保持高于人工录入的准确性，是人
机器学习算法：核心原理与前沿发展综述 fmvrj34202 机器学习算法人工智能
机器学习算法作为人工智能的核心驱动力，正在重塑我们解决问题的范式。本文将系统性地探讨机器学习算法的分类体系、数学基础、优化方法以及最新发展趋势，为从业者提供技术参考。一、算法分类体系根据学习范式，机器学习算法可分为三大类：监督学习：基于标注数据的建模方法线性回归：最小化平方误差的闭式解θ=(XᵀX)⁻¹Xᵀy支持向量机：通过核技巧实现非线性分类，优化目标为max(0,1-yᵢ(w·xᵢ+b))决策
「日拱一码」020 机器学习——数据处理胖达不服输「日拱一码」机器学习人工智能数据处理 python
目录数据清洗缺失值处理删除缺失值：填充缺失值：重复值处理检测重复值处理重复值异常值处理Z-score方法IQR方法（四分位距）数据一致性检查数据转换规范化（归一化）Min-Max归一化MaxAbsScaler标准化离散化等宽离散化等频离散化数据清洗数据清洗是数据处理的第一步，目的是去除噪声数据、处理缺失值和异常值，使数据更加干净、可用缺失值处理删除缺失值：如果数据集中缺失值较少，可以直接删除包含缺
机器学习每周挑战——二手车车辆信息&交易售价数据梦想成为一名机器学习高手机器学习 python 人工智能
这是数据集的截图目录背景描述数据说明车型对照：燃料类型对照：老规矩，第一步先导入用到的库第二步，读入数据：第三步，数据预处理第四步：对数据的分析第五步：模型建立前的准备工作第六步：多元线性回归模型的建立第七步：随机森林模型的建立问题：背景描述本数据爬取自印度最大的二手车交易平台CARS24，包含8000+该平台上交易车辆的关键评估信息。CARS24成立于2015年，总部位于印度古尔冈，是一个在印度
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h

百分点认知智能实验室出品：智能问答中的对抗攻击及防御策略

你可能感兴趣的:(机器学习)