xieyan0811

实战文本分类对抗攻击

文章写得比较长，先列出大纲，以便读者直取重点。

“文本分类对抗攻击”是清华大学和阿里安全2020年2月举办的一场AI比赛，从开榜到比赛结束20天左右，内容是主办方在线提供1000条辱骂样本，参赛者用算法逐条扰动，使线上模型将其判别为非辱骂样本，尽量让扰动较小同时又保留辱骂性质（辱骂性质前期由模型判定，最终由人工判定）。

比赛规则

线上模型和评测使用的1000条样本不公开，选手根据赛方指定的接口实现算法，并用docker方式提交以供线上评测，每天最多评测15次，单次运行时间需控制在30分钟之内。
（第一个知识点：熟悉Docker，简单环境调试）

其评价公式如下：

共1000条评测样本（samples=1000且全部为辱骂文本），vi为最终的人工评测结果，1为辱骂，0为非辱骂在（只对最终入围数据作人工评测，前期提交都认为vi=1）；ci是分类结果，由多个线上模型作出评判并取均值，攻击成功为1，攻击失败为0；pi是原始文本与扰动文本的差异，综合考虑了字符差异和语义差异，最终结果Sfinal满分为1000分。详见赛题介绍： https://tianchi.aliyun.com/competition/entrance/231762/information 细看之下，可以发现，其中最重要值是ci，如果未攻击成功，该样本ci得分为0，而修改的多少pi相对ci没那么重要，只作为判断句意变化的辅助手断（否则整句替换将取得高分）。

比赛提供一个线下评测模型，它可能是多个线上模型之一，明显弱于线上模型，也就是说能攻击线下模型的算法，不一定能攻击线上模型；过分与线下模型对抗还可能造成对线下模型过拟合，反而影响算法的线上效果。但对选手来说，线下模型是一个重要参考，可以使用它做基础评价，此次比赛不提供训练数据，因此自行收集数据后，可用线下模型来判别其辱骂性质。

赛题可分解成两部分：定位哪些词是决定辱骂与否的关键词，以及如何替换，一开始笔者的工作重心在前者，认为只要能定位得足够精准，定位到足够少的词，随意替换成特殊字符即可；后来发现替换特殊字符可能改变其辱骂性质，而替换成特殊字符与替换成词线上得分差异非常大。因此，定位和生成都很重要。

收集数据

比赛不提供任何辱骂数据，靠选手自行采集，赛方给出一个辱骂文本生成网站：骂人宝典https://nmsl.shadiao.app/，可使用它生成一些辱骂数据（骂得够狠），试了一下，使用爬虫只能抓取1500条左右，去重之后仅400多条，可见一斑，但不足以训练。
（第二个知识点：爬虫与寻找辱骂场景，简单的数据工程）

笔者绞尽脑汁寻找网络辱骂的密集地带，典型场景，却始终未果。最终定位到豆瓣的低分影评，发现一星两星的影评辱骂比例在10-20%左右。觉得挺奇怪，不喜欢还买票去看，看完了还骂，这是怎么想的，看了评分最低的10部电影，还真不是没听说的电影和演员，还不乏王晶、郭德纲、周润发等明星，引起大家负面情绪可能不是实际的好坏，而是实际与期待的差异（差值）：评价=实际-期待。

最终觉得下载太麻烦，于是在CSDN下载了影评数据库，花一些C币节省了时间。从中过滤出20000+辱骂数据，这样的数据量也可供简单训练了。

另外，还下载了“网络敏感词”，用于关键字判别。一开始笔者认为带脏字的才叫辱骂，毕竟网络上长期以来都以此作为评价标准，后来发现，如果只屏蔽脏字，得分在100之内（约只占10%）。目前的模型可以通过词之间的相互作用识别出大部分不带脏字却有攻击性的语言，只是要消耗一些时间和算力。

算法尝试

本次比赛笔者尝试了很多算法，虽然最终模型用到的不多，但也算对自然语言对抗的一些学习和尝试，在此分享。

对抗模型GAN

目前常用的对抗模型源自2014年的论文《Generative Adversarial Nets》，它同时训练两个深度学习网络，生成模型G（进攻）和判别模型D（防守），比如用对抗模型生成卡通头像，模型G用于生成头像，模型D用于判别图片是模型G生成的，还是实际的头像。两个模型交替训练，迭代提升。具体方法是通过梯度调整网络参数。由于图片是连续型数据，因此可以通过逐步微调来改进模型。

对抗网络生成序列数据时常使用SeqGAN方法，它源自2016年的论文《SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient》，与简单对抗不同的是，在一单次生成过程中，模型多次用到了生成模型G和判别模型D。以生成文字为例，每生成新词时，调用生成模型G根据当前已生成的词生成多个备选项，并使用判别模型对其评分（reward），根据评分选择最好的策略Policy，并调整策略模型（Policy Gradient）。这里涉及很多强化学习中的概念。

本赛题只需要替换句中的少数文字，较少涉及GAN生成连续数据时遇到的问题，可以将语言模型（比如BERT）作为生成模型，线下模型作为判别模型，用生成语句的评分变化调整生成模型，从而生成不易被察觉的辱骂文本，但这样做不能保证保留辱骂性质。
（第二个知识点：对抗网络）

强化学习模型

强化模型中最重要的概念是状态S，行为A，奖励R，根据当前状态，选择行为A，获得奖励R，然后逐步调整模型参数，以便再次遇到状态S时选择更好的行为，以便得到更大奖励。

近年来强化模型中最流行的算法是蒙特卡洛梯度策略，也是SeqGAN中用到的强化学习算法，蒙特卡洛树搜索常用于情况非常多，无法一一列举的场景，比如：当前比赛中一句话“ABCDEFGHIJKLMNOPQRSTUVWXYZ”，共26个词，如果从中删除三个词（多数情况不止三个）能达到最佳效果，则有2600种可能，若判别每种可能性，并且每次都生成这几个字的换代方案，将非常耗费时间。

最简单的方法是随机抽取，但是随机抽取的效果又不好，蒙特卡洛树搜索方法比较复杂，简单地说，就是一开始随机抽取一些组合，对其评分，并记录下来，对于评分越高的组合赋予更高的下次被选中的概率，经过多次迭代，使随机抽取偏向评分更高的策略。梯度策略一般使用深度学习网络与蒙特卡洛树搜索相结合，用两个模型分别调整策略和状态价值，使模型更快收敛。

（第四个知识点：强化学习模型）

笔者借鉴了蒙特卡洛梯度策略中的强化高分项随机抽取方法，作为定位辱骂关键词的算法。

Attention模型

Attention模型最几年超越了Text-CNN，RNN成为最流行的自然语言处理算法，其中又以GPT和BERT最为流行。GPT常用于生成文章，而BERT则更加灵活，由于其可参考前后两个方向的上下文，在完型填空类的应用中有明显优势。

本赛题在定位了辱骂位置之后，需要用其它词替换辱骂词，类似于完型填空，非常适合使用BERT模型，且BERT模型源码中提供了完型填空功能的API（笔者使用的是Transformers库Pytorch版本的BertForMaskedLM）。由于BERT可下载中文的预训练模型，由此无需训练也可生成较为通顺的语句。
（第五个知识点：自然语言处理模型）

在使用模型中也遇到一些问题：

BERT是结构和参数都很巨大的模型，每次预测都很耗时（尤其是在没有GPU支持的情况下），因此必须限制使用次数，还有一种方案是使用ALBERT，它是一个简化版的BERT，效果差异不大，但模型只有BERT的几十分之一大小，速度也更快一些。
是否需要使用自己构建的辱骂数据集对BERT做fine-tune，这是个两难选择，如果find-tune，那么BERT生成的文本更趋近辱骂，更容易被模型识别，如果不fine-tune，生成非辱骂文本，最终版本又可能通不过人工评测。且本地数据集都使用线下模型过滤得到，这样训练也可能会过拟合线下模型。

笔者还做了另外一些尝试，比如训练GPT，使用BERT训练一个辱骂判别模型，把数据拆分成8:2分别用于训练和验证时，测试集的成功率在97-98%，从它模型的Embedding层以及隐藏层中抽取数据，希望能定位到一些辱骂的关键词，但是由于数据过于细碎，最终没能实现（当时没想到用gensim根据Embedding找同义词，以及用加减法做组合减去辱骂性质的方法，后来觉得非常值得尝试）。

笔者在本次比赛提交的最终版本中只使用了基本的BERT模型，每次选可能性最高的topN个词作为备选项，选出其中辱骂评分最低的，并限制了调用次数，同时尝试批量预测以节约时间。但调用次数太少，线上没能达到期望的效果。感觉最好的方法可能是使用BERT模型与评测工具相结合，先用辱骂数据fine-tune辱骂模型，然后在生成词的过程中将评测工具的得分作为评价，让模型向生成非辱骂的方向进化，听起来就很矛盾，也还没来得及尝试。

其它算法

除了上述典型方案之外，笔者还尝试了其它一些方法，下面列出其中比较有效的方法。

计算差异
对于句子“ABCDEFGHIJKLMKOPQRSTUVWXYZ”，从第1个字符开始，每添加一个字符，对该句进行一次评分，如：第一次“A”，第二次“AB”，并将二者差异作为B的评分，最终排序各词的辱骂性质，依次替换分数最高的词，如果替换后判别不是辱骂，则完成修改。这样的好处在于，对于26个词组成的句子，基础判别只需要做26次，也明显减少了替换次数。原理是如果某词加入后分数明显增加，则说明它是关键词（可能由于与前词组合后才变得关键），分越高越应该被替换。除了从前向后添加，还尝试了从后向前添加，去掉某个词后对句子评分等方法，其中上述的从前向后添加方法效果最好。在强化学习的评价中也涉及差异对比，用相对打分（绝对分值减均值）替代绝对分数，该方法在机器学习中也常用于抽取关键特征。
辱骂词替换
估计绝大多数选手都使用了，敏感词替换，比如把“某个亲属”，“某个动词”替换成非敏感词。这里笔者将其作为辅助手段，在其它处理完成之后进行了辱骂词替换。主要根据“网络敏感词”表中“色情”中的内容判别辱骂词。
高频词
另外一种定位高频词的方法是使用蒙特卡罗方法定位各句中可能性最大的辱骂词，并统计其中最高频的词，然后对各句替换这些词。

可以看到，最高频的词是“你”，当时笔者认为这个词太普遍，并未加以处理（此处埋下伏笔），而对其它一些更明显的辱骂词做了变换。

与黑盒对抗
线上模型对选手来说几乎是黑盒，它与线下评测版本的差异只能靠猜测和试榜（尽可能多提交版本，通过线上得分猜测其内部逻辑）。这样对抗限制了很多模型的效果，因为线下评分变好，可能是对线下模型的过拟合，线上反而可能变差。换言之，这不完全是一个有监督学习问题，因为线下的label并非线上的label，同样也不完全算强化学习问题，因为线下的reward也不是真实的reward，除非我们自己在线下实现与线上类似的评测逻辑（短时间内很难做到）。
另外一个难点在于，最后还加入了人工评测，需要让线上模型认为不是骂人，而人认为是骂人，又增加了一层难度，且这个层面的判别完成没有label和reward可用。

借鉴他人算法

终于在比赛结束前的最后一个小时冲进了排行榜第一页（Top20），感觉像长跑比赛里，已经筋疲力尽，还被前面的同学落下好几圈，终于坚持跑到了终点，然后豁然轻松。晚上大家就在钉钉群里公开了很多方法，果然脑洞大开，总结如下：

弱点攻击
一位大侠的算法是把实例中所有的“你”字替换成与之类似的同音同意字，并在该字之后加一个阿拉伯数字，只用一行代码打到600多分，完胜所有人。相信很多同学也观察到了辱骂中“你”字的特殊性，但“你”在人的认知中明显不是辱骂词。后来赛方也在聊天时说，对有些明显的辱骂词做了保护，但也没特殊处理“你”字，这便形成了最终被击破的漏洞。只替换“你”提分有限，更有趣的是他还在“你”后面加了数字，笔者认为这个方法可以用于攻击文字组合后的特殊含义，尤其是打破了CNN、RNN类模型的前后依赖性，能想到这点也很厉害。 （第六个知识点：模型原理） 添加的还是“数字”，其实在赛方提供的demo中，就可以看到如果将“死”替换成４就能骗过模型，数字也可以算是一个漏洞，或者说暗门。而这位排名第一的大侠有效地结合了上述三点。

在文中加减内容
大家也分别尝试了向文中加符号，加空格，加文字来降低其辱骂性质，尤其对于短文本，试想如果句子只有两个字，全部替换掉，则相似度得分为0，只替换其中一个，还可能被识别为辱骂，加入内容也是个好办法。但不知为何，笔者尝试后并没提分。删除内容也是一种方法，尤其是长文本可能导致大量计算，适当删减也是一种好办法。

用词向量找同义词
定位辱骂关键词，并找同义词替换，也是一种普遍使用的方法，有人使用了腾讯词向量，它提供800多万中文词条，相对于传统的同义词词林或词表来说，可以说非常高科技了，但是它提供的是一个通常意义上的词义，自然语言任务可用它从文字中提取特征向量化（供机器学习算法使用），下面是官方给出的示例。

除了近义词，Gensim还提供了加法减法功能，比如“king” - “man” + “woman” ≈”queen”，也是很好的想法。腾讯词向量虽然内容丰富，但是速度也非常慢，使用赛方提供的词向量可能更好一些，另外，还可以用辱骂语料训练模型，并从中提取词向量，以及使用上面提到的减法功能。已在blog上具体用法文档。
（第七个知识点：知识面）

梯度攻击
赛方比较推荐的方法是梯度攻击，其原理是调整输入让损失函数变大，具体做法是损失函数对输入求导，然后根据导数方向调整输入数据，调整Embedding层数据后再通过词向量工具反推具体文字。很巧妙的方法，如果不看论文，自己很难想到。

Fasttext模型
赛方给出的线下评测是Fasttext模型，速度快且效果好。赛后看了fasttext相关论文，发现似乎还可以从简单模型与深度学习模型的差异下手来寻找漏洞，比如n-gram一般涉及的相关词很少，因此通过拉大词距，就可能造成干扰，也可以从中提取词向量特征，词袋模型不支持语序等等。

总结

攻击比赛需要研究对方的算法原理，弱点。这一次没有深入探索赛方提供的信息，本来是半黑盒，让我理解成了全黑盒。没好好读题，然后越走越偏，太多explore又太少exploit，需要在未来的比赛中认真对待。

比赛和真实场景有很大差别，比赛可以通过试榜、拟合评价函数争取高分，而实际场景中更重视问题本身，比如怎么能更好地识别辱骂，更好的保留句意和辱骂性质同时骗过模型，如何利用新的技术，泛化现有算法，而不仅是捕捉模型的漏洞。

这次虽然成绩不佳，但也收获颇丰：有的领域从未知到已知，有的从模糊到了解，有的从知道到使用。非常感谢赛方提供的平台以及活跃在讨论区的小伙伴们。

赛后一周回顾了比赛相关的技术，写了一些文档：

生成对抗网络GAN
https://blog.csdn.net/xieyan0811/article/details/104297872

序列对抗网络SeqGAN
https://blog.csdn.net/xieyan0811/article/details/104820731

自然语言处理——使用词向量（腾讯词向量）
https://blog.csdn.net/xieyan0811/article/details/104737002

梯度攻击
https://blog.csdn.net/xieyan0811/article/details/104790915

轻量级BERT模型ALBERT
https://blog.csdn.net/xieyan0811/article/details/104838175

强化学习（一）基本概念和工具
https://blog.csdn.net/xieyan0811/article/details/104848328

Fasttext快速文本分类
https://blog.csdn.net/xieyan0811/article/details/104873708

最近准备换一份自然语言处理（或者深度学习）相关的算法工作，工作地点最好在北京海淀附近，可以给个机会的小伙伴请与我联系哦。 :P 邮箱[email protected]，微信66768512。

文字模型训练分析评论（算法实战）富士达幸运星算法人工智能机器学习
文字模型训练，尤其是在自然语言处理（NLP）领域，是构建能够理解、解释、生成人类语言系统的核心步骤。这类模型广泛应用于文本分类、情感分析、机器翻译、聊天机器人、摘要生成等多个方面。针对文字模型训练后的分析评论，可以从以下几个方面进行：1.性能评估准确率/错误率：评估模型在测试集上的准确率或错误率是最直接的方式，这能反映模型的基本性能。混淆矩阵：对于分类任务，混淆矩阵可以详细展示模型在各个类别上的表
树数据结构（Tree Data Structures）的全面指南：深度解析、算法实战与应用案例 Chauvin912 数据结构科普数据结构算法
树数据结构（TreeDataStructures）的全面指南：深度解析、算法实战与应用案例引言树数据结构（TreeDataStructures）作为计算机科学中的基石之一，以其独特的层次结构和分支特性，在众多领域发挥着关键作用。从文件系统的组织到数据库的索引，从编译原理的语法分析到人工智能的决策制定，树数据结构无处不在。本文将深入探讨树数据结构的基本概念、类型、遍历方式及其在实际应用中的广泛案例。
Python机器学习笔记：CART算法实战战争热诚
完整代码及其数据，请移步小编的GitHub传送门：请点击我如果点击有误：https://github.com/LeBron-Jian/MachineLearningNote前言在python机器学习笔记：深入学习决策树算法原理一文中我们提到了决策树里的ID3算法，C4.5算法，并且大概的了
【好书推荐-第五期】《互联网大厂推荐算法实战》（异步图书出品）程序员洲洲送书福利推荐算法算法机器学习
作者介绍：我是程序员洲洲，一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主、前后端开发、人工智能研究生。公粽号：程序员洲洲。本文专栏：本文收录于洲洲的《送书福利》系列专栏，该专栏福利多多，只需关注+点赞+收藏三连即可参与送书活动！欢迎大家关注本专栏~专栏一键跳转同时欢迎大家关注其他专栏，我将分享Web前后端开发、人工智能、机器学习、深度学习从0
机器学习算法实战案例：使用 Transformer 进行时间序列预测 Python算法实战机器学习算法实战机器学习算法 transformer 时间序列预测
自ChatGPT问世以来，大型语言模型（LLMs）已经引起巨大轰动，取得的成果令人印象深刻。LLMs成功的关键在于它们的核心构建模块，即transformers。在本文中，我们将提供一个在PyTorch中使用它们的完整指南，特别关注时间序列预测。在本文中，我们将从理论介绍transformers开始，然后转向在PyTorch中应用它们。为此，我们将讨论一个选定的例子，即预测正弦函数。我们将展示如何
【算法专栏学习】成贤学院，程序员的福利站到了，判断子序列，经典算法实战。普修罗双战士算法专栏算法
作者简介，普修罗双战士，一直追求不断学习和成长，在技术的道路上持续探索和实践。多年互联网行业从业经验，历任核心研发工程师，项目技术负责人。欢迎点赞✍评论⭐收藏算法领域知识链接专栏分发糖果算法专栏买卖股票的最佳时机算法专栏跳跃游戏算法专栏H指数算法专栏除自身以外数组的乘积算法专栏加油站算法专栏接雨水算法专栏反转字符串中的单词算法专栏删除有序数组中的重复项II算法专栏轮转数组算法专栏验证回文串算法专栏
动态规划算法专题探究长安er 算法分析与设计算法动态规划贪心算法背包问题
目录第一章：动态规划算法理论基础1.1动态规划概述1.2动态规划的解题步骤1.3动态规划算法与贪心算法1.4算法报告架构第二章：动态规划算法实战之背包问题2.10-1背包问题2.1.1题目：分割等和子集2.1.1算法设计思路2.1.2程序实现2.1.3算法分析2.1.4算法总结2.2完全背包问题2.2.1题目：完全平方数2.2.1算法设计思路2.2.2程序实现2.2.3算法分析2.2.4算法总结第
算法实战(数组篇) Nuyoah_日落算法笔记算法数据结构 leetcode
数组篇26.删除有序数组中的重复项题目详情题解27.移除元素题解35.搜索插入位置题目详情题解66.加1题目详情题解88.合并两个有序数组题目详情题解108.将有序数组转换为二叉搜索树题目详情题解注意118.杨辉三角题目详情题解119.杨辉三角II题目详情题解136.只出现一次的数字题目详情题解169.多数元素题目详情题解摩尔投票算法摩尔投票算法的优点摩尔投票算法的缺点26.删除有序数组中的重复项
程序员的福利到了，轮转数组，经典算法实战普修罗双战士算法专栏算法
作者简介，普修罗双战士，一直追求不断学习和成长，在技术的道路上持续探索和实践。多年互联网行业从业经验，历任核心研发工程师，项目技术负责人。欢迎点赞✍评论⭐收藏算法领域知识链接专栏分发糖果算法专栏买卖股票的最佳时机算法专栏跳跃游戏算法专栏H指数算法专栏除自身以外数组的乘积算法专栏加油站算法专栏接雨水算法专栏反转字符串中的单词算法专栏删除有序数组中的重复项II算法专栏轮转数组算法专栏经典算法题之轮转数
都说这个算法很经典，验证回文串，经典算法实战。普修罗双战士算法专栏算法
作者简介，普修罗双战士，一直追求不断学习和成长，在技术的道路上持续探索和实践。多年互联网行业从业经验，历任核心研发工程师，项目技术负责人。欢迎点赞✍评论⭐收藏算法领域知识链接专栏分发糖果算法专栏买卖股票的最佳时机算法专栏跳跃游戏算法专栏H指数算法专栏除自身以外数组的乘积算法专栏加油站算法专栏接雨水算法专栏反转字符串中的单词算法专栏删除有序数组中的重复项II算法专栏轮转数组算法专栏验证回文串算法专栏
算法实战：用回溯算法计算商品所有的SKU！大佬，咋整啊算法算法前端
回溯算法：本质上是一种深度优先搜索算法，类似枚举的搜索尝试过程，当发现不满足条件时，就回到上一步，尝试其他解法回溯法，一般可以解决如下几种问题：排列问题：N个数按一定规则全排列，有几种排列方式子集问题：集合里有多少符合条件的子集棋盘问题：N皇后，解数独等等算法框架functionbackTrack(选择列表,路径){if(满足结束条件){得到结果}foriin列表{if(满足剪支条件){conti
机器学习算法实战案例：Informer 源码详解与代码实战 Python算法实战机器学习算法实战机器学习算法人工智能 python
文章目录机器学习算法实战案例系列答疑&技术交流1源码解析1.1文件结构1.2mian_informer.py文件1.3模型训练1.4模型测试1.5模型预测2Informer模型2.1process_one_batch2.2Informer函数2.3DataEmbedding函数2.4ProbAttention稀疏注意力机制2.5Encoder编码器函数2.6Decoder解码器函数3官方数据集运行
机器学习算法实战案例：Informer实现多变量负荷预测 Python算法实战机器学习算法实战机器学习算法数学建模人工智能 python
文章目录机器学习算法实战案例系列答疑&技术交流1实验数据集2如何运行自己的数据集3报错分析机器学习算法实战案例系列机器学习算法实战案例：确实可以封神了，时间序列预测算法最全总结！机器学习算法实战案例：时间序列数据最全的预处理方法总结机器学习算法实战案例：GRU实现多变量多步光伏预测机器学习算法实战案例：LSTM实现单变量滚动风电预测机器学习算法实战案例：LSTM实现多变量多步负荷预测机器学习算法实
机器学习算法实战案例：VMD-LSTM实现单变量多步光伏预测(升级版) Python算法实战机器学习算法实战机器学习算法 lstm 人工智能 python
文章目录机器学习算法实战案例系列答疑&技术交流1数据处理1.1导入库文件1.2导入数据集1.3缺失值分析2VMD经验模态分解2.1VMD分解实验2.2VMD-LSTM预测思路3构造训练数据4LSTM模型训练5LSTM模型预测5.1分量预测5.2可视化机器学习算法实战案例系列机器学习算法实战案例：确实可以封神了，时间序列预测算法最全总结！机器学习算法实战案例：时间序列数据最全的预处理方法总结机器学习
机器学习算法实战案例：BiLSTM实现多变量多步光伏预测 Python算法实战机器学习算法实战 tensorflow 人工智能 python 深度学习机器学习
文章目录1数据处理1.1导入库文件1.2导入数据集1.3缺失值分析2构造训练数据3模型训练3.1BiLSTM网络3.2模型训练4模型预测答疑&技术交流机器学习算法实战案例系列1数据处理1.1导入库文件1.2导入数据集实验数据集采用数据集8：新疆光伏风电数据集，数据集包括组件温度(℃)、温度(°)气压(hPa)、湿度(%)、总辐射(W/m2)、直射辐射(W/m2)、散射辐射(W/m2)、实际发电功率
机器学习算法实战案例：CNN-LSTM实现多变量多步光伏预测 Python算法实战机器学习算法实战机器学习算法 cnn 人工智能 lstm
文章目录1数据处理1.1导入库文件1.2导入数据集1.3缺失值分析2构造训练数据3模型训练3.1CNN-LSTM网络3.2模型训练4模型预测答疑&技术交流机器学习算法实战案例系列1数据处理1.1导入库文件frommatplotlibimportpyplotaspltimporttensorflowastffromtensorflowimportkerasfromtensorflow.kerasim
机器学习算法实战案例：LSTM实现单变量滚动风电预测 Python算法实战机器学习算法实战机器学习算法 lstm 人工智能 python
文章目录1数据处理1.1数据集简介1.2数据集处理2模型训练与预测2.1模型训练2.2模型滚动预测2.3结果可视化答疑&技术交流机器学习算法实战案例系列1数据处理1.1数据集简介实验数据集采用数据集5：风电机组运行数据集，包括风速、风向、温度、湿度、气压和真实功率等共30万余条。WINDSPEED：预测风速WINDDIRECTION：风向TEMPERATURE：温度HUMIDITY：湿度PRESS
机器学习算法实战案例：LSTM实现多变量多步负荷预测 Python算法实战机器学习算法实战机器学习算法 lstm python 人工智能
文章目录1数据处理1.1数据集简介1.2数据集处理2模型训练与预测2.1模型训练2.2模型多步预测2.3结果可视化答疑&技术交流机器学习算法实战案例系列1数据处理1.1数据集简介实验数据集采用数据集6：澳大利亚电力负荷与价格预测数据，包括数据集包括日期、小时、干球温度、露点温度、湿球温度、湿度、电价、电力负荷特征，时间间隔30min。单独查看部分负荷数据，发现有较强的规律性。1.2数据集处理首先检
机器学习算法实战案例：GRU 实现多变量多步光伏预测 Python算法实战机器学习算法实战机器学习算法 gru 人工智能深度学习
文章目录1数据处理1.1数据集简介1.2导入库文件1.3数据集处理1.4训练数据构造2模型训练与预测2.1模型训练2.2模型多步预测2.3预测可视化答疑&技术交流机器学习算法实战案例系列1数据处理1.1数据集简介实验数据集采用数据集7：常州普利司通光伏数据集，包括数据集包括时间、场站名称、辐照强度(Wh/㎡)、环境温度(℃)、全场功率(kW)等5个特征，时间间隔5min。（注意：辐照强度(Wh/㎡
机器学习算法实战案例：确实可以封神了，时间序列预测算法最全总结！ Python算法实战机器学习算法实战机器学习算法人工智能 python
文章目录1、什么是时间序列预测?技术交流2、时间序列预测分类3、时间序列数据的特性4、时序预测评价指标5、基于深度学习的时间序列预测方法5.1统计学习方法5.2机器学习方法5.3卷积神经网络5.4循环神经网络5.5Transformer类模型大家好，今天开始，我给大家分享时间序列预测算法（理论与实战案例），本篇文章从整体上概述什么是时间序列，时间序列的评价指标，及时间序列中常用的预测算法1、什么是
机器学习算法实战案例：时间序列数据最全的预处理方法总结 Python算法实战机器学习算法实战机器学习算法 pandas 人工智能 python
文章目录1缺失值处理1.1统计缺失值1.2删除缺失值1.3指定值填充1.4均值/中位数/众数填充1.5前后项填充2异常值处理2.13σ原则分析2.2箱型图分析3重复值处理3.1重复值计数3.2drop_duplicates重复值处理3数据归一化/标准化3.10-1标准化3.2Z-score标准化技术交流1缺失值处理数据缺失主要包括记录缺失和字段信息缺失等情况，其对数据分析会有较大影响，导致结果不确
机器学习算法实战案例：VMD-LSTM实现单变量多步光伏预测 Python算法实战机器学习算法实战机器学习算法 lstm 人工智能
文章目录机器学习算法实战案例系列答疑&技术交流1数据处理1.1导入库文件1.2导入数据集1.3缺失值分析2VMD经验模态分解3构造训练数据4LSTM模型训练5预测机器学习算法实战案例系列机器学习算法实战案例：确实可以封神了，时间序列预测算法最全总结！机器学习算法实战案例：时间序列数据最全的预处理方法总结机器学习算法实战案例：GRU实现多变量多步光伏预测机器学习算法实战案例：LSTM实现单变量滚动风
接雨水，程序员的大大的福利，经典算法实战普修罗双战士算法专栏算法
作者简介，普修罗双战士，一直追求不断学习和成长，在技术的道路上持续探索和实践。多年互联网行业从业经验，历任核心研发工程师，项目技术负责人。欢迎点赞✍评论⭐收藏作者简介，普修罗双战士，一直追求不断学习和成长，在技术的道路上持续探索和实践。多年互联网行业从业经验，历任核心研发工程师，项目技术负责人。欢迎点赞✍评论⭐收藏算法领域知识链接专栏分发糖果算法专栏买卖股票的最佳时机算法专栏跳跃游戏算法专栏H指数
深度学习笔记（七）——基于Iris/MNIST数据集构建基础的分类网络算法实战絮沫深度学习算法深度学习笔记
文中程序以Tensorflow-2.6.0为例部分概念包含笔者个人理解，如有遗漏或错误，欢迎评论或私信指正。截图和程序部分引用自北京大学机器学习公开课认识网络的构建结构在神经网络的构建过程中，都避不开以下几个步骤：导入网络和依赖模块原始数据处理和清洗加载训练和测试数据构建网络结构，确定网络优化方法将数据送入网络进行训练，同时判断预测效果保存模型部署算法，使用新的数据进行预测推理使用Keras快速构
算法实战(五) Nuyoah_日落算法
基本编程题题目来源([PAT题目](https://pintia.cn/problem-sets/14/exam/problems/type/6))7-27冒泡法排序题目题解7-28猴子选大王题目题解题目来源(PAT题目)7-27冒泡法排序题目将N个整数按从小到大排序的冒泡排序法是这样工作的：从头到尾比较相邻两个元素，如果前面的元素大于其紧随的后面元素，则交换它们。通过一遍扫描，则最后一个元素必定
加油站，程序员的福利到了，经典算法实战。普修罗双战士算法专栏算法
作者简介，普修罗双战士，一直追求不断学习和成长，在技术的道路上持续探索和实践。多年互联网行业从业经验，历任核心研发工程师，项目技术负责人。欢迎点赞✍评论⭐收藏算法领域知识链接专栏分发糖果算法专栏买卖股票的最佳时机算法专栏跳跃游戏算法专栏H指数算法专栏除自身以外数组的乘积算法专栏加油站算法专栏经典算法题之加油站题目如下：在一条环路上有n个加油站，其中第i个加油站有汽油gas[i]升。你有一辆油箱容量
跳跃游戏，经典算法实战。普修罗双战士算法专栏游戏算法
作者简介，普修罗双战士，一直追求不断学习和成长，在技术的道路上持续探索和实践。多年互联网行业从业经验，历任核心研发工程师，项目技术负责人。欢迎点赞✍评论⭐收藏算法领域知识链接专栏分发糖果算法专栏买卖股票的最佳时机算法专栏跳跃游戏算法专栏经典算法题之买卖股票的最佳时机题目如下：给你一个非负整数数组nums，你最初位于数组的第一个下标。数组中的每个元素代表你在该位置可以跳跃的最大长度。判断你是否能够到
DFA算法实战-敏感词过滤 Stephen GS 算法项目Tips 算法 Hutool
前言这里的项目实战,我们使用的是SpringBoot2.x+JDK1.8搭建的,核心思想是借助了Hutool工具类的WordTree。想了解更多DFA算法的实现可以参考DFA算法的实现实战案例1.引入Hutool的工具类cn.hutoolhutool-all5.8.182.自定义铭感词过滤处理器Hutool工具类中定义了SensitiveProcessor接口,它的作用是把敏感词替换成*packa
不容错过的经典算法，除自身以外数组的乘积，经典算法实战。普修罗双战士算法专栏算法
作者简介，普修罗双战士，一直追求不断学习和成长，在技术的道路上持续探索和实践。多年互联网行业从业经验，历任核心研发工程师，项目技术负责人。欢迎点赞✍评论⭐收藏算法领域知识链接专栏分发糖果算法专栏买卖股票的最佳时机算法专栏跳跃游戏算法专栏H指数算法专栏除自身以外数组的乘积算法专栏经典算法题之除自身以外数组的乘积题目如下：给你一个整数数组nums，返回数组answer，其中answer[i]等于num
Java实现 H 指数经典算法，每天经典算法实战。普修罗双战士算法专栏算法排序算法
作者简介，普修罗双战士，一直追求不断学习和成长，在技术的道路上持续探索和实践。多年互联网行业从业经验，历任核心研发工程师，项目技术负责人。欢迎点赞✍评论⭐收藏算法领域知识链接专栏分发糖果算法专栏买卖股票的最佳时机算法专栏跳跃游戏算法专栏H指数算法专栏经典算法题之H指数题目如下：给你一个整数数组citations，其中citations[i]表示研究者的第i篇论文被引用的次数。计算并返回该研究者的h
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

实战文本分类对抗攻击

比赛规则

收集数据

算法尝试

借鉴他人算法

总结

你可能感兴趣的:(算法实战)