阿里开发者

阿里云力夺FewCLUE榜首！知识融入预训练+小样本学习的实战解析

简介： 7月8日，中文语言理解权威评测基准CLUE公开了中文小样本学习评测榜单最新结果，阿里云计算平台PAI团队携手达摩院智能对话与服务技术团队，在大模型和无参数限制模型双赛道总成绩第一名，决赛答辩总成绩第一名。

作者 | 同润、归雨、熊兮

来源 | 阿里技术公众号

一概述

7月8日，中文语言理解权威评测基准CLUE公开了中文小样本学习评测榜单最新结果，阿里云计算平台PAI团队携手达摩院智能对话与服务技术团队，在大模型和无参数限制模型双赛道总成绩第一名，决赛答辩总成绩第一名。

中文语言理解权威评测基准CLUE自成立以来发布了多项NLP评测基准，包括分类榜单，阅读理解榜单和自然语言推断榜单等，在学术界、工业界产生了深远影响。其中，FewCLUE是CLUE最新推出的一项中文小样本学习评测基准，用来评估机器学习模型是否能够通过极少样本的学习来掌握特定的自然语言处理任务。基于这项评估，科研人员可以更精准的衡量机器学习训练出来的模型的泛化性和准确率。比如智能客服场景中的用户意图识别，仅需人工标注几十条样本，就能让意图识别的准确率达到90%。

众所周知，大规模预训练模型虽然在各大任务里面取得非常大的效果，但是在特定的任务上，还是需要许多标注数据。由于收集和标注模型需要的训练的数据收集成本昂贵，所以需要攻关小样本学习技术，使用远小于经典深度学习算法需要的数据量，接近甚至超越经典深度学习算法的精度。此次，阿里云PAI团队携手达摩院提出了一套大模型+小样本的联合方案，在大规模通用预训练基础之上，结合了基于知识的预训练和Fuzzy-PET少样本学习，一举取得了优异的成绩。甚至在一个小样本学习任务上的精准度超过了人类。

二赛题分析 & 建模思路

比赛数据集总体特点如下：

小样本：训练集和检验集均为每个类别16shot，考验算法在小样本情境下的鲁棒性
泛化性：任务特征差异明显，需要模型有较好的泛化能力
无标签数据：多数任务提供了数量可观的无标签数据，可以尝试continued pretrain和self-training

基于对赛题的解读，我们设计了三段式的建模方法：

通用领域数据的从头预训练：借助PAI-Rapidformer提供的各种加速策略以及预训练套件，我们从头预训练了3亿量级和15亿量级的中文预训练模型，预训练过程采用融入知识的预训练算法(详见3.2)。
多任务的继续预训练：目的是进一步强化双句匹配任务（OCNLI, BUSTM, CSL）的Performance。我们将分类任务转化为文本蕴含任务，使用文本蕴含数据进行Continued Pretrain。例如 [CLS]I like the movie[SEP]This indicates positive user sentiment[EOS]
针对每个任务进行小样本算法微调：选择PET（Pattern-Exploiting Training）作为下游微调的核心方法, 开发Fuzzy-PET算法，减少了PET算法标签词人工选择带来的波动，并且在任务上带来效果提升。同时使用了self-training 的半监督方法，在下游微调阶段利用上半监督学习（详见3.3）

三核心技术

1. PyTorch大模型训练加速

自从2020年推出PAI-EasyTransfer面向NLP和迁移学习的框架之后，PAI团队开发了PyTorch版本的EasyTransfer，命名为EasyTexMiner。比赛所用的模型，是通过EasyTexMiner的高性能分布式预训练完成的。EasyTexMiner的分布式训练有机整合了微软的DeepSpeed和英伟达的Megatron优点，整体框图如下：

EasyTexMiner的分布式训练融合了以下核心的技术：

1）激活检查点（Activation Checkpoint）

在神经网络中间设置若干个检查点(checkpoint)，检查点以外的中间结果全部舍弃，反向传播求导数的时间，需要某个中间结果就从最近的检查点开始计算，这样既节省了显存，又避免了从头计算的繁琐过程。

2）梯度累积 (Gradient Accumulation)

以batch_size=16为例，可以每次算16个样本的平均梯度，然后缓存累加起来，算够了4次之后，然后把总梯度除以4，然后才执行参数更新，这个效果等价于batch_size=64。这是一种有效的增加Batch Size的方法。通过该策略可以将每个step的batch size扩充到很大，结合LAMB优化器会提升收敛速度。

3）混合精度训练（Mixed Precision Training）

采用混合精度训练的好处主要有以下两点：

减少显存占用，由于FP16的内存占用只有FP32的一半，自然地就可以帮助训练过程节省一半的显存空间。
加快训练和推断的计算，FP16除了能节约内存，还能同时节省模型的训练时间。具体原理如下图所示，核心是在反向传播参数更新的时候需要维护一个FP32的备份来避免舍入误差，另外会通过Loss Scaling来缓解溢出错误。

4）即时编译JIT

当PyTorch在执行一系列element-wise的Tensor操作时，底层Kernel的实现需要反复地读写访存，但是只执行少量的计算，其中大部分时间开销并不在计算上，而在访存读写上。比如，实现一个带有N个元素的Tensor的乘/加法Kernel，需要N次加计算，2N次读和N次写访存操作。我们称计算少, 访存次数多的Kernel为访存Bound。为了避免这种反复的读写，以及降低Kernel Launch的开销，可以采用Kernel Fusion。访存Bound的Kernel Fusion的核心原理是通过访存的局部性原理，将多个element-wise的Kernel自动合并成一个Kernel，避免中间结果写到内存上，来提高访存的利用率；同时由于多个Kernel合并成一个Kernel，Kernel launch开销也减少到了1次。

5）3D并行

3D并行策略指的是：数据并行，模型并行，流水并行三种策略的混合运用，以达到快速训练百亿/千亿量级模型的目的。该项技术最早由DeepSpeed团队研发，可以加速大模型的训练。

6）CPU Offload

反向传播不在GPU上计算，而是在CPU上算，其中用到的中间变量全部存储在内存中，这样可以节省下GPU的显存占用，用时间换空间，以便能放到更大尺寸的模型。

7）Zero显存优化器

ZeRO（The Zero Redundancy Optimizer）是一种用于大规模分布式深度学习的新型内存优化技术。ZeRO具有三个主要的优化阶段：

优化器状态分区(Pos) ：减少了4倍的内存，通信容量与数据并行性相同；
增加梯度分区(Pos+g) ：8x内存减少，通信容量与数据并行性相同；
增加参数分区(Pos+g+p) ：内存减少与数据并行度和复杂度成线性关系。

吞吐性能评测

本次发布使用了最新的阿里云EFLOPS AI集群系统，使用NVIDIA A100 GPU和 100Gbps Mellanonx CX6-DX网卡，结合全系统拓扑感知的高性能分布式通信库ACCL 和 EFLOPS集群多轨网络能力，实现无拥塞通信，大幅加速了模型的训练速度。如下图所示：

可扩展性评测

我们采用比BertLarge更大一点的单卡放不下的模型来做模型并行下的可扩展性评测。具体配置是 num-layers=24，hidden-size=2048，num-attention-heads=32，该模型的参数总量大约是1.2B。我们分别在8/16/32/64卡上进行来吞吐评测，从下图的指标来看，随着卡数的增加，吞吐几乎是近线性的提升。

2. 融入知识的预训练算法KGBERT

在通用预训练模型基础之上，我们考虑融入知识的预训练来提升预训练模型的效果。

数据和知识：通过与达摩院NLP数据团队合作，获取了大规模、高质量且具备多样性的数据与知识。

大规模：5亿中文图谱知识，通过远监督获取2亿 Sentence-SPO Pair；
高质量：针对原始语料庞杂，存在大量冗余、噪声的问题，通过DSGAN知识降噪算法，精选上亿高质量Sentence-SPO，用于模型训练；
多样性：FewCLUE数据集除了通用领域，还包含电商、旅游、教育、金融等垂直行业，而这部分数据和知识比较稀缺，为此我们构建了一套高效的知识生产系统，能够对各类垂直行业的文档、网页进行自动三元组抽取，从而极大的提升了知识的丰富度。

模型和预训练任务

为了高效的利用知识，我们基于“Sentence-正向SPO-负向SPO”对齐语料，设计了多粒度语义理解预训练任务：

Mention Detection：增强模型对核心实体Mention的理解；
Sentence-SPO joint Mask：将大规模文本数据及其对应的SPO知识同时输入到预训练模型中进行预联合训练，促进结构化知识和无结构文本之间的信息共享，提升模型语义理解能力；
SPO Margin Magnify：设计对比学习的预训练任务，拉开Sentence相关SPO与无关SPO语义间隔，使其具备更强的语义区分能力。

技术创新：知识筛选与融入机制

1）动机

NLP任务中，常见的做法是根据当前输入的自然语言进行建模，但是这样通常用到的信息只有当前字面局部信息。这和人类在理解语言的时候具有明显差别，人类会用到我们之前学习到的知识辅助理解。人类会利用这些外部知识来加强自己的理解，如果没有额外的知识，比如接触到我们一个不熟悉的领域，我们也很难完全理解语义。而目前NLP常见做法只利用了输入信息，没用利用外部知识，理解层次偏低。

现实中知识是庞大且繁杂的，需要针对性的采样知识，减少引入无关的知识，最大化知识的收益。

2）方法

设计一种新颖的Gated机制，先对句子进行编码，再通过GCN聚合出子图信息，通过门控机制，控制信息的流入；在预训练阶段，通过设计最大化知识增益目标函数，让模型更好的学习到有价值的信息。

3）结果

基于Gated机制的知识筛入，能够有效捕捉到高增益的三元组进行融入，在政务、金融属性识别任务上准确率有2%的提升。这样的知识筛选机制在学术公开数据集验证有效，并取得SOTA的效果，相关工作已发表在SIGIR2021。

3. 小样本学习算法

在融入知识的预训练语言模型基础上，计算平台PAI和达摩院团队联合推出了自研的多任务小样本学习算法Fuzzy-PET。由于FewClue榜单具有一系列不同类别的任务，如果在针对特定任务进行小样本微调之前，模型能学习到跨任务的可迁移的知识，模型在针对特定任务进行小样本微调过程中会获得更好的初始参数设置。基于计算平台PAI团队在Meta-Learning相关算法的积累基础上，我们在融入知识的预训练语言模型的继续预训练阶段，引入了多个FewClue任务的无标注数据进行学习，在学习过程中，模型自动从这些任务相关的数据中学习到这些任务的背景知识，从而更有利于特定任务的小样本学习。Meta-Learning的相关算法已经发表在EMNLP2020和ACL2021上。。

在特定小样本任务学习阶段，我们对Pattern-Exploiting Training（PET）算法进行了改进，引入了Fuzzy Verbalizer Mapping机制。举例来说，在经典的PET算法中，对于FewClue的任务OCNLI，我们设计了如下模板：“其实我觉得你不懂球啊”和“你不懂篮球。”的关系是MASK。

对于输出的Masked Language Token（即Verbalizer），如果预测结果为“相关”，我们将其映射为类别标签“entailment”；如果预测结果为“无关”，我们将其映射为类别标签“neural”; 如果预测结果为“相反”，我们将其映射为类别标签“contradiction”。利用Verbalizer到类别标签人工映射，PET实现了对文本分类任务的建模。在Fuzzy Verbalizer Mapping机制中，我们假设多个Verbalizer可能对某一个类别标签有映射关系，从而进一步提升模型在小样本学习过程中的泛化性。参考先前的例子，我们设计三组标签词：相关,无关,相反/蕴含,中性,矛盾/包含,中立,反向。训练时每一条样本使用多组标签词输入，在推理时每个类别计算所有候选词的预测概率并相加，最终选择总概率最高的类别。如上述例子，若预测“相关”，“蕴含”， “包含”的概率和大于预测“无关”，“中性”，“中立”或预测“相反”，“矛盾”，“反向”的概率，则预测结果为“entailment”。

这一机制在FewClue的多个任务中对预测精度提升有正面作用，并且一定程度上减轻人工选择不同标签词产生的波动。此外，我们也考虑在小样本学习阶段引入无标注的数据进行Self-training，即依靠现有模型对无标注数据进行打标，实现模型的迭代优化。

四业务&产品

值得一提的是，基于机器学习平台PAI平台，这项技术已在实际业务场景落地且有很好的表现。这些技术增强了达摩院云小蜜KBQA能力，使其具备快速冷启动、精准问答的能力，并在政务、金融、通用线多个业务场景落地。在实际项目中，在少样本情形下（20条），可以做到快速冷启动，从而实现精准问答。同时，这些技术有望给阿里云上的机器学习算法赋予小样本学习的能力，通过很少的数据标注，就可以大大提升下游任务的效果。这意味着阿里云模型已具备低成本快速落地的实施能力，能高效且敏捷的赋能企业的业务。

基于PAI，阿里云希望构建大规模AI端到端的能力，从底层芯片到分布式系统，再到上层算法和数据的规模化，打造AI工程化集团作战的能力，服务于各行各业。目前，PAI平台支持千亿特征、万亿样本规模加速训练，内置200+成熟算法、以及图像视觉、音视频、文本等AI领域高质量深度学习预训练模型50余个，全面提升企业AI工程效率。在平台能力基础上，PAI平台还提供了成熟的行业解决方案，成为众多企业的优选服务，已经在智能推荐、用户增长、端侧超分、自动驾驶等众多场景成熟商用。

原文链接：https://developer.aliyun.com/article/785560?

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
发票合并工具小朋的软件园前端 javascript java html 服务器
"发票合并工具"是一款专为高效整理票据设计的实用工具，支持将来自不同渠道的发票文件（如PDF文档、各类图片格式）快速整合为排版规范的PDF文件，尤其适用于财务报销场景下的批量票据处理需求。核心功能亮点多格式兼容：无缝导入PDF文件及常见图片格式（.png/.jpg/.jpeg/.bmp），适配多来源发票整合需求。智能布局配置：提供灵活的页面布局选项（每页2/3/4张发票），其中"2合1"模式针对报
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
上位机知识篇---SD卡&U盘镜像
常用的镜像烧录软件balenaEtcherbalenaEtcher是一个开源的、跨平台的工具，用于将操作系统镜像文件（如ISO和IMG文件）烧录到SD卡和USB驱动器中。以下是其使用方法、使用场景和使用注意事项的介绍：使用方法下载安装：根据自己的操作系统，从官方网站下载对应的安装包。Windows系统下载.exe文件后双击安装；Linux系统若下载的是.deb文件，可在终端执行“sudodpkg-
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
ARM嵌入式可编程控制器技术开发拉勾科研工作室 arm开发
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
Vue3+Vite+TS+Axios整合详细教程老马聊技术 Vue Vite TS vue.js
1.Vite简介Vite是新一代的前端构建工具，在尤雨溪开发Vue3.0的时候诞生。类似于Webpack+Webpack-dev-server。其主要利用浏览器ESM特性导入组织代码，在服务器端按需编译返回，完全跳过了打包这个概念，服务器随起随用。生产中利用Rollup作为打包工具，号称下一代的前端构建工具。vite是一种新型的前端构建工具，能够显著的提升前端开发者的体验。它主要有俩部分组成：一个
Linux/Centos7离线安装并配置MySQL 5.7 有事开摆无事百杜同学 LInux/CentOS7 linux mysql 运维
Linux/Centos7离线安装并配置MySQL5.7超详细教程一、环境准备1.下载MySQL5.7离线包2.使用rpm工具卸载MariaDB（避免冲突）3.创建系统级别的MySQL专用用户二、安装与配置1.解压并重命名MySQL目录2.创建数据目录和配置文件3.设置目录权限4.初始化MySQL5.配置启动脚本6.配置环境变量三、启动与验证1.启动MySQL服务2.获取初始密码3.登录并修改密码
docker安装node部分问题自律的蜗牛 docker 容器 node.js
sudonlatestsudo:n:commandnotfound如果运行sudonlatest时出现：sudo:n:commandnotfound说明n版本管理工具未安装或未添加到PATH环境变量。解决方案1️⃣先检查n是否已安装运行：whichn或者：command-vn如果有输出/usr/local/bin/n，说明n已安装，但可能需要sudo访问。如果没有任何输出，说明n没有安装，跳到方法
本地包解决npm error code E404 雅痞yuppie npm 前端 node.js
这个错误提示表明npm找不到名为create-vue-admin-cli的包。这是因为你开发的CLI工具还没有发布到npm官方注册表。要解决这个问题，有两种方法：方法一：使用本地开发模式测试1.确保你的CLI已正确链接到全局在你的vue-admin-cli项目根目录下执行：npmlink这会在全局环境中创建一个符号链接，指向你本地的CLI项目。2.使用本地链接的CLI创建项目直接使用命令：vue-
前端 NPM 包的依赖可视化分析工具推荐前端视界前端艺匠馆前端 npm arcgis ai
前端NPM包的依赖可视化分析工具推荐关键词：NPM、依赖管理、可视化分析、前端工程、包管理、依赖冲突、性能优化摘要：本文将深入探讨前端开发中NPM包依赖可视化分析的重要性，介绍5款主流工具的使用方法和特点，并通过实际案例展示如何利用这些工具优化项目依赖结构、解决版本冲突问题以及提升构建性能。文章将帮助开发者更好地理解和掌控项目依赖关系，提高开发效率和项目可维护性。背景介绍目的和范围本文旨在为前端开
日历插件-FullCalendar的详细使用老马聊技术 JavaScript 前端 javascript
一、介绍FullCalendar是一个功能强大、高度可定制的JavaScript日历组件，用于在网页中显示和管理日历事件。它支持多种视图（月、周、日等），可以轻松集成各种框架，并提供丰富的事件处理功能。二、实操案例具体代码如下：FullCalendar日期选择body{font-family:Arial,sans-serif;margin:20px;}#calendar{max-width:900
EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口
EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口去发现同类优质开源项目:https://gitcode.com/在开源项目中，寻找一款能够提升开发效率、简化流程的工具是每个开发者的追求。今天，我们要介绍的这款开源项目EasyCwmp，正是为了帮助开发者深入了解源码架构，掌握核心接口实现，从而加速项目开发进程。以下是关于EasyCwmp源码分析与接口实现详解的项目推荐文章。项目
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
微软 Bluetooth LE Explorer 实用工具的详细使用分析悟空胆好小 microsoft
微软BluetoothLEExplorer实用工具的详细使用分析文章目录微软**BluetoothLEExplorer**实用工具的详细使用分析1.**工具定位与核心功能**2.**关键特性与更新**3.**使用场景示例**4.**系统要求与依赖**5.**与专业工具对比**6.**局限性**7.**实践建议**结论以下是微软BluetoothLEExplorer实用工具的详细使用分析：1.工具定
蓝牙MTU含义，协商修改的过程案例分析悟空胆好小嵌入式硬件网络人工智能
蓝牙MTU含义，协商修改的过程案例分析文章目录**蓝牙MTU含义，协商修改的过程案例分析****一、MTU含义解析****二、MTU协商过程详解****步骤流程****三、修改MTU的实践案例分析****案例1：中心设备主动设置（主控端）****案例2：外设端响应优化（从设备）****案例3：调试工具强制修改****四、关键限制与注意事项**蓝牙MTU（MaximumTransmissionUni
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
小林渗透入门：burpsuite+proxifier抓取小程序流量 ξ流ぁ星ぷ132 小程序 web安全安全性测试网络安全安全
目录前提：代理：proxifier：步骤：bp证书安装bp设置代理端口：proxifier设置规则：proxifier应用规则：结果：前提：在介绍这两个工具具体实现方法之前，有个很重要的技术必须要大概了解才行---代理。代理：个人觉得代理，简而言之，就是在你和服务器中间的一个中间人，来转达信息。那为什么要代理呢，因为这里的burpsuite要抓包，burpsuite只有做为中间代理人才可以进行拦截
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

阿里云力夺FewCLUE榜首！知识融入预训练+小样本学习的实战解析

一 概述

二 赛题分析 & 建模思路

三 核心技术