DataFountain数据科学

【二等奖方案】基于人工智能的漏洞数据分类赛题「道可道，非常道」团队解题思路

2022 CCF BDCI 大赛 · 数字安全公开赛「基于人工智能的漏洞数据分类」赛题二等奖团队「道可道，非常道」战队获奖方案，赛题地址： http://go.datafountain.cn/s57

团队简介

本团队具有丰富的比赛和项目经验。在AI大赛上多次拿到Top成绩，其中包括阿里云天池安全恶意程序检测第一名、科大讯飞恶意软件分类挑战赛第三名、CCF基于人工智能的恶意软件家族分类第四名、科大讯飞事件抽取挑战赛第四名、科大讯飞阿尔茨海默综合症预测挑战赛第四名、Datacon大数据安全分析比赛第五名。团队成员总共拥有十多项发明专利，对传统机器学习和深度学习均有独到的见解。

摘要

随着关键信息基础设施在数字化、网络化、智能化转型的过程中配置了大量信息资产，其网络体系越来越复杂，漏洞作为“伴生体”所带来的威胁问题日益凸显。为了应对面临的日益严峻的安全挑战，加强安全漏洞知识库的建设是必由之路。其中CVE漏洞平台中的漏洞数据是国际权威公开的漏洞知识信息。该平台具有多维度和多样性的漏洞信息。为了更好地理解和持续研究，需对漏洞数据进行信息提取。

而在信息提取的场景中，传统采用的是基于人工规则的提取方法，开发效率比较低，泛化性比较差。而利用基于机器学习的自然语言处理(NLP)方法能够更好的对海量数据进行总结和学习，大大提高了信息提取的泛化能力。

虽然预训练模型在各个领域中已经取得了很大的进展，尤其是在自然语言处理应用中，但是考虑到部分工业实际场景中计算资源有限以及机器学习模型的可解释性，所以采用特征工程和传统机器学习模型的方法进行漏洞数据分类。

在对漏洞数据进行信息提取的场景中，可能存在样本类别分布不均衡、标注数据存在噪声等问题，本文提出一种基于噪声数据修正的解决方案，然后对文本提取关键动词性词组和名词性词组等特征，接着根据不同任务的难度分别使用不同复杂度的模型，最终并取得较好的信息提取效果。

关键词

漏洞信息提取、噪声数据、特征工程、效率

前言

在网络安全领域，漏洞常被攻击方视为“杀手锏”武器，又被防守方当作“万恶之源”。漏洞本身虽然不产生危害，但一旦被利用，则极有可能带来严重的威胁。关键信息基础设施在数字化、网络化、智能化转型的过程中配置了大量信息资产，其网络体系越来越复杂，漏洞作为“伴生体”所带来的威胁问题日益凸显。

为了应对面临的日益严峻的安全挑战，加强安全漏洞知识库的建设是必由之路。其中CVE漏洞平台中的漏洞数据是国际权威公开的漏洞知识信息。该平台中的漏洞信息包含有CVE编号、漏洞评分、漏洞描述等内容，其中漏洞描述含有对漏洞的利用条件、受影响的范围、漏洞可达到的效果(危害)等内容。为了更好地理解和持续研究，需对漏洞数据进行信息提取，而在信息提取的场景中，传统采用的是基于人工规则的提取方法，开发效率比较低，泛化性比较差。而利用基于机器学习的自然语言处理(NLP)方法能够更好的对海量数据进行总结和学习，大大提高了信息提取的泛化能力。

在对漏洞数据进行信息提取的场景中，可能存在样本类别分布不均衡、标注数据存在噪声等问题，本文提出一种基于噪声数据修正的解决方案，然后对文本提取关键动词性词组和名词性词组等特征，接着根据不同任务的难度分别使用不同复杂度的模型(逻辑回归、随机森林、XGBoost)，最终取得了A榜第一名、B榜第二名的优异成绩。

整体方案设计

本文使用NLP方法对漏洞的描述信息进行信息挖掘和提取，从而获取到漏洞利用所需的攻击者权限(Privilege-Required)、攻击向量介质(Attack-Vector)、漏洞利用的结果(Impact)等重要信息。该方案分为五大模块：数据分析模块、数据预处理模块、特征抽取模块、模型训练模块、模型预测模块。整体流程图如下图1所示：

2.1 数据分析模块

在本文对应的漏洞数据分类任务中，需要同时对三种属性进行分类。其中Attack-Vector属性的分类属于二分类任务，Privilege-Required属性的分类属于四分类任务，而Impact属性的分类属于多层次分类任务。训练数据集共4499条，A榜测试集共1794条，B榜测试集共2686条，额外无标注数据总共6w条。分析数据可以发现该任务共存在3大难点：

（1）训练集样本分布存在较大的不均衡现象，以Attack-Vector属性分类为例，remote类别为4279例, non-remote类别为220例；而在Privilege-Required属性分类中，access类别为2685例，Nonprivileged类别为945例，unknown类别为799例，admin/root类别共70例。而Impact属性具有层次结构，如果不考虑其层次关系，直接统计每一种具体的类别，可得最多类别的Privileged-Gained(RCE)_unknown的数量为1272例，而最少类别的information-disclosure_other-target(credit)_admin/root的数量仅有3个样本

（2）训练集和测试集分布不一致，直接使用预训练模型对训练集进行微调后，分别观测验证集和测试集的效果，发现两者差异较大。通过数据筛选和分析后发现，训练集数据存在部分噪声数据

（3）训练数据量不多，但存在大量的无标注数据，如何更好的利用无标注数据是提升效果的关键。

2.2 数据预处理模块

首先去除与本任务无关的文本内容，通过正则表达式删除特殊标点符号(如单引号、双引号、叹号)、软件版本号(如17.1r3、4.2.x)、时间信息(11:38:17、jul 23 14:16:03)、不重要的注解(如note: this issue is due to an incorrect fix for cve-2012-5643)、影响版本范围(如this issue affects juniper networks junos os on acx500 series, acx4000 series: 17.4 versions prior to 17.4r3-s2.)、漏洞已修复的软件信息(如fixed in vault and vault enterprise 1.7.6, 1.8.5, and 1.9.0.)等内容。

然后对训练集中的噪声数据进行修正。首先通过随机采样少比例数据后，根据对题目的理解，从而通过人工校验的方法修正该部分数据，并将其作为种子样本。例如在Impact中同时存在两种及其以上类别时，标签却标注为低优先级的类别，而正确标签是多个类别中最高优先级的类别。将种子样本(标签为1)和采样样本中的其余样本(标签为0)进行训练，并对未采样样本进行预测，从而得到未采样样本中类似于种子样本的样本数据。由于单次采样具有一定的不确定性，所以重复执行三次，并对三次同时预测为1的样本作为需要修正的样本。凭借专家经验对上述样本中的错误样本进行修正，从而达到修正噪声数据的目的。

2.3 特征提取模块

特征提取模块是对预处理后的数据进行进一步的特征提取。该模块不仅提取了一些简单的统计特征，如文本的字符总数、单词总数、句子个数等。而且对赛方提供的数据标注结果(红色部分)进行分析，可得重要信息均来自于名词性词组、动词性词组和部分关键词。而spacy库不仅能够提取上述的各种结构词组，而且该库也是基于海量数据构建而成的预训练模型进行信息提取的，从而保证信息提取的有效性和完整性。

2.4 模型训练模块

由于Attack-Vector属性、Privilege-Required属性和Impact三大属性分类的难度是不同的，所以根据任务的难度分别使用不同复杂度的模型(逻辑回归、随机森林、XGBoost)，具体来说：Attack-Vector属性采用逻辑回归分类器，而Privilege-Required属性采用随机森林分类器，Impact属性采用XGBoost[1]。

为了缓解类别不均衡的情况，通过使用对少数类样本进行过采样、增加少量样本类别对应的权重和对多数类样本进行欠采样等方法，最终增强了模型对少数类的泛化能力。

由于额外无标注数据为六万条，远远大于训练集的样本数。所以可通过使用半监督学习来增加训练数据的丰富度和多样性，具体做法是通过有监督学习，将预测集中置信度高的数据直接打标签放入训练集，循环往复多次，从而得到新的训练集。

2.5 模型测试模块

预测模块对测试集数据按照上述特征提取模块提取特征，使用训练模块得到的参数进行测试数据的预测，最终预测集A榜和B榜取得了第一名和第二名的成绩。

致谢

非常感谢中国计算机学会大数据与计算智能大赛组委会精心组筹备和组织的基于人工智能的漏洞数据分类比赛。通过对赛题的认真分析、深入思考，并经过多次的模型迭代与验证，最终提出了具有创新性的解决方案。

非常感谢家人、同事、朋友一直以来的大力支持和无私帮助。

参考

[1] Chen T, Guestrin C. XGBoost: A Scalable Tree Boosting System[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2016:785-794.

我是行业领先的大数据竞赛平台 @DataFountain ，欢迎广大政企校军单位合作办赛，推动优秀数据人才揭榜挂帅！

你可能感兴趣的:(人工智能,分类,数据挖掘,漏洞数据,系统安全)

kotlin中的list set map整理 LCY133 kotlin list 开发语言
在Kotlin中，List、Set和Map是三种核心集合类型，它们分别适用于不同的场景，具有独特的特性和操作方式。以下是它们的详细对比与使用指南：1.List（列表）核心特性•有序：元素按插入顺序存储。•可重复：允许存在相同值的元素。•索引访问：通过下标（get(index)或[index]）快速访问元素。分类•不可变列表：List，创建后不可修改。valimmutableList=listOf(
官宣 | Fluss 0.6 发布公告 Apache Flink flink 大数据
Fluss社区很高兴地宣布Fluss0.6.0版本正式发布。这一版本历时3个多月的密集开发，凝聚了全球45位贡献者的智慧与努力，累计完成200+次代码提交。衷心感谢每一位贡献者的支持！此次版本的发布带来了诸多功能亮点：列压缩：保留列裁剪性能的同时，降低6倍存储空间！MergeEngine：新增灵活的主键数据合并策略，满足不同的实时处理场景需求。PrefixLookup：DeltaJoin功能，Fl
如何使用JSON输出解析器解析语言模型的输出 vaidfl json 语言模型 easyui python
在现代AI应用中，让语言模型返回结构化的数据是一个重要的能力，特别是在需要进一步处理或集成的时候。本文将深入探讨如何利用JsonOutputParser来解析语言模型的JSON输出。技术背景介绍随着语言模型的普及，许多应用场景需要从自然语言处理任务中获取结构化的输出。针对这一需求，输出解析器应运而生，它能够帮助我们定义JSON模式，通过提示语言模型生成符合该模式的输出，并将其解析为JSON格式。核
oracle数据库——游标隐式游标显式游标带参数的游标带锁的游标动态游标强类型一JJL 数据库游标隐式游标显式游标带参数的游标带锁的游标动态游标强类型
游标逐行提取查询结果，所以返回结果可以超过一行%NOTFOUND--如果FETCH语句失败，则该属性为"TRUE"，否则为"FALSE";%FOUND--如果FETCH语句成功，则该属性为"TRUE"，否则为"FALSE";%ROWCOUNT--返回游标当前行的行数;1.隐式游标--查看修改数据后会影响到多少行数据beginupdateempsetsal=sal+100wheredeptno=&d
使用LangChain加载College Confidential数据 scaFHIO langchain python
#使用LangChain加载CollegeConfidential数据##技术背景介绍CollegeConfidential是一个提供有关3800+所大学和学院信息的平台。它被广泛使用于教育咨询和申请指导领域。为了方便开发者从CollegeConfidential获取数据，我们可以使用LangChain的`CollegeConfidentialLoader`模块进行加载和处理。##核心原理解析La
基于偏移量、游标分页的详解 B_rownJay 数据库 oracle
前言大量的数据集往往会被分成多个空间去存储。例如一本书就会有几十页几百页，因为把一本书都放在一页去展示不管是对生产者还是消费者都是及其不友好的。又比如在网页中我们常常会看到一页一页的数据，当然我们自己开发的时候也少不了做分页展示的需求。基于偏移量进行分页对于分页我们相较于使用游标进行分页更熟悉、见得更多的是基于偏移量进行分页。例如这样一个Get请求：brownjay.com/api/v1/book
JavaScript数组-遍历数组咖啡の猫 javascript 开发语言
在JavaScript开发过程中，数组是一种非常常见且强大的数据结构，用于存储一系列有序的数据项。遍历数组是处理这些数据项的基础操作之一，无论是为了显示、转换还是过滤数据。本文将详细介绍几种常见的遍历数组的方法及其应用场景，帮助你选择最适合当前任务的方式。一、为什么需要遍历数组？遍历数组意味着逐一访问数组中的每个元素，以便执行特定的操作，如打印输出、修改值或基于条件筛选数据。不同的场景可能需要不同
Python列表的创建只是没遇到 python
Python3列表序列是Python中最基本的数据结构。序列中的每个值都有对应的位置值，称之为索引，第一个索引是0，第二个索引是1，依此类推。Python有6个序列的内置类型，但最常见的是列表和元组。列表都可以进行的操作包括索引，切片，加，乘，检查成员。此外，Python已经内置确定序列的长度以及确定最大和最小的元素的方法。列表是最常用的Python数据类型，它可以作为一个方括号内的逗号分隔值出现
MySQL海量数据深度分页优化——后端开发技术征途者 mysql 数据库
在后端开发中，当面对MySQL数据库中包含千万级别的数据，并需要进行深度分页查询时，需要考虑优化的问题。在本文中，我们将探讨如何有效地优化MySQL数据库的深度分页查询，以提高查询性能和响应速度。使用索引优化查询索引在数据库查询中起着至关重要的作用。在处理海量数据时，为需要进行深度分页的字段创建合适的索引是提高查询性能的关键。通常情况下，使用主键或唯一键作为排序字段，并为需要筛选的字段和排序字段创
使用LocalAI进行文本嵌入的实战指南 bavDHAUO python
技术背景介绍文本嵌入是一种将文本片段转换为高维向量的技术，可以用于自然语言处理任务中的相似性计算、信息检索等应用。LocalAI提供了一种本地化的嵌入解决方案，允许开发者在本地环境中运行和测试嵌入模型。通过在本地部署LocalAI服务，您可以避免依赖外部API，享受更快的响应速度和更好的数据隐私。核心原理解析LocalAIEmbedding类主要负责与本地运行的LocalAI服务通信，进行文本嵌入
关于forward函数 oioz 深度学习
定义forward函数是模型的核心前向传播逻辑，定义了输入数据如何在模型中传递和计算。它将输入数据通过模型的各层（如卷积层、全连接层等），计算出模型的输出。作用负责模型的主要计算逻辑。在训练和验证过程中都会被调用。特点必须实现：在PyTorch中，forward函数是模型的核心部分，必须显式定义。灵活性高：可以根据模型需要，自由定义forward函数的内容，包括各种计算操作。示例（PyTorch）
深入解析Intel HEX文件格式 boringhex.top MCU 嵌入式
IntelHEX文件格式是一种用于表示二进制数据的ASCII文本格式，广泛应用于嵌入式系统的固件存储和传输。1.IntelHEX文件格式简介IntelHEX文件格式是一种将二进制数据转换为ASCII文本的格式，适用于8位、16位和32位微处理器。它的主要优点是可以将二进制数据存储在非二进制介质（如纸带、穿孔卡片）上，并且可以通过CRT终端或行式打印机显示。ASCII表示：每个字节的二进制值被转换为
如何解决MySQL 的深度分页问题？运维小雅 mysql 数据库
前言在构建高性能、可扩展的Web应用程序时，数据库查询性能往往是影响整体系统响应速度的关键因素之一。尤其是在处理大规模数据时，如何高效地进行分页查询成为了开发者需要重点关注的问题。本文将深入探讨MySQL中LIMIT...OFFSET...语法带来的性能挑战，并介绍一种更高效的解决方案——游标分页方法（CursorPagination）。背景介绍假设我们有一个包含500万条记录的表my_table
Python, C ++开发工厂管理APP Geeker-2025 python c++
开发一款通用的**工厂管理App**，结合Python和C++的优势，可以实现高效的后端数据处理、实时的生产监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：WebSoc
Python列表1 cfjybgkmf Python python 开发语言
#coding:utf-8print("————————————列表——————————————")'''列表是指一系列按照特定顺序排列的元素组成是Python中内置的可变序列使用[]定义列表，元素与元素之间使用英文的逗号分隔列表中的元素可以是任意的数据类型''''''列表的创建：（1）使用[]直接创建列表列表名=[element1,element2,...,elementN]（2）使用内置函数l
怎样才能把网页数据保存到网络上？ 2301_79698214 html javascript java 前端 html5
要将网页数据存放到网络中，一般可以通过以下几种常见的方式：1.使用后端服务器自建服务器：你可以搭建自己的服务器，例如使用Node.js的Express框架或者Python的Flask、Django框架。以下是一个使用Flask框架存储数据到服务器的简单示例：pythonApplyfromflaskimportFlask,requestapp=Flask(__name__)@app.route('/
分页优化之——游标分页 PhilipJ0303 Java面试 java 数据库优化游标分页分页查询
游标分页（Cursor-basedPagination）是一种高效的分页方式，特别适用于大数据集和无限滚动的场景。与传统的基于页码的分页（如page=1&size=10）不同，游标分页通过一个唯一的游标（通常是时间戳或唯一ID）来标记分页的位置，避免了传统分页在数据变动时的重复或遗漏问题。以下是游标分页在前后端的实现方式：1.游标分页的核心概念游标（Cursor）：游标是一个唯一标识符，通常是数据
Hadoop 集群规划与部署最佳实践 AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2009年2月2日，ApacheHadoop项目诞生。它是一个开源的分布式系统基础架构，用于存储、处理和分析海量的数据。Hadoop具有高容错性、可靠性、可扩展性、适应性等特征，因而广泛应用于数据仓库、日志分析、网络流量监测、推荐引擎、搜索引擎等领域。由于Hadoop采用“分而治之”的架构设计理念，因此可以轻松应对数据量、计算能力和存储成本的增长。2013年底，
使用 Argilla 进行大语言模型数据管理与监控 qahaj 语言模型 python 人工智能
技术背景介绍Argilla是一个开源的数据管理平台，专为大语言模型（LLMs）设计。它旨在通过快速的数据管理以及结合人类和机器的反馈，帮助开发者构建更强大的语言模型。同时，Argilla支持整个MLOps周期的每个步骤，从数据标注到模型监控。核心原理解析Argilla的核心优势在于其灵活的数据管理流程和强大的反馈机制。通过Argilla，开发者可以实时监控模型性能，并根据需要调整数据标注策略。这种
JAVA代码实现ElasticSearch搜索（入门-进阶）(一):搜索方法、多字段查询、高亮展示 majunssz elasticsearch elasticsearch
一、搜索方法对比首先存入一条数据count="ilikeeatingandkuing"默认分词器应该将内容分为“i”“like”“eating”“and”“kuing”1.QueryBuilders.matchQuery("count",count);会将搜索词分词，再与目标查询字段进行匹配，若分词中的任意一个词与目标字段匹配上，则可查询到。count="i"可查出count="ili"可查出co
轻松入门Apache SeaTunnel：数据集成利器窝窝和牛牛 SeaTunnel ETL 数据集成
文章目录轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnel基本原理运行流程SeaTunnelvsDataX：两大数据集成工具对比实战场景：MySQL数据同步至ElasticsearchSeaTunnel实现方案DataX实现方案实现原理对比底层依赖环境方案优缺点分析快速上手环境准备简单示例总结轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnelAp
MySQL 到 Hadoop：Sqoop 数据迁移 ETL Ice星空 ETL
文章目录ETL：Extract-Transform-Load数据迁移过程一、Extract数据抽取1.ODS：OperationalDataStore-可操作数据存储2.DW：DataWarehouse-数据仓库3.DM：DataMart-数据集市二、Transform数据清洗和转换1.数据清洗2.数据转换三、Load数据加载四、数据迁移方法1.Sqoop1.1MySQL->Hive1.1.1im
Angular-Slickgrid中的数据更新与聚合计算 t0_54program 编程问题解决手册 angular.js javascript 前端个人开发
在使用Angular-Slickgrid进行数据展示时，经常会遇到数据的实时更新和聚合计算的问题。本文将结合实例，详细介绍如何在Angular-Slickgrid中处理数据的编辑后更新聚合计算结果。背景介绍Angular-Slickgrid是一款强大而灵活的网格组件，支持复杂的数据操作，包括分组、排序和聚合计算。假设我们有一个数据表，包含用户的性别（Gender）、费用（Cost）和时长（Dura
java毕业设计，网上商城系统爱编程的小哥 java毕设 java 课程设计 spring boot vue
️OnlineMall商城系统全解析|Vue3+SpringBoot全栈实战（附高并发与数据安全方案）一、系统架构全景基于七张效果图分析，该系统是企业级电商综合管理平台，采用SpringBoot3+Vue3+ElementPlus+MyBatisPlus技术栈，覆盖商品管理、订单处理、会员运营等核心场景。通过RBAC权限控制+Elasticsearch搜索+分布式事务三大技术亮点，支持10万级商品
Flink Cdc TiDB详解 24k小善 flink 大数据 java
1.什么是FlinkTiDBCDC？简单说就是用Flink实时抓取TiDB数据库的数据变化（比如新增、修改、删除），并将这些变化数据以流的形式处理，用于实时分析、同步到其他系统等场景。TiDB本身是分布式数据库，而Flink是流处理引擎，两者的结合适合需要高吞吐、低延迟的大规模数据处理场景[7][8]。2.底层原理TiDB侧：通过TiCDC组件（TiDB的变更数据捕获工具）捕获数据变更，类似MyS
Flink CDC 与 SeaTunnel CDC 简单对比窝窝和牛牛 flink 大数据 cdc SeaTunnel
FlinkCDC与SeaTunnelCDC简单对比CDC技术概述变更数据捕获（ChangeDataCapture，简称CDC）是一种用于捕获数据库中数据变更的技术，能够实时识别、捕获并输出数据库中的插入、更新和删除操作。CDC技术在现代数据架构中扮演着至关重要的角色，特别是在实时数据集成、数据同步和事件驱动架构等场景中。CDC的工作原理CDC主要通过以下几种方式捕获数据变更：基于日志的CDC：直接
Python程序设计（入门） xyyykx python 开发语言
目录一丶Python概述二丶Python数据类型三丶常用的进制四丶字符串型五丶程序控制结构六丶组合数据类型一丶Python概述Python是一种高级编程语言，由GuidovanRossum于1991年开发并发布。它具有简洁、易读、易学的语法特点，被广泛应用于多个领域，包括软件开发、数据科学、人工智能、网络编程等。以下是Python的一些主要特点和优势：简单易学：Python的语法简洁明了，易于理解
Azure Delta Lake、Databricks和Event Hubs实现实时欺诈检测 weixin_30777913 azure 云计算
设计Azure云架构方案实现AzureDeltaLake和AzureDatabricks，结合AzureEventHubs/Kafka摄入实时数据，通过DeltaLake实现Exactly-Once语义，实时欺诈检测（流数据写入DeltaLake，批处理模型实时更新），以及具体实现的详细步骤和关键PySpark代码。完整实现代码需要根据具体数据格式和业务规则进行调整，建议通过DatabricksR
LLM：软件测试的颠覆性力量 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM：软件测试的颠覆性力量关键词：大语言模型（LLM）、软件测试、人工智能、测试自动化、测试效率、质量保证、测试革新1.背景介绍在当今快速发展的软件行业中，测试一直是确保产品质量的关键环节。随着人工智能技术的飞速进步，特别是大语言模型（LargeLanguageModels，简称LLM）的出现，软件测试领域正经历着前所未有的变革。LLM凭借其强大的自然语言处理能力和广泛的知识储备，正在重塑我们对
卷积神经网络Batch Normalization的作用 arron8899 cnn batch 人工智能
BatchNormalization的作用（通俗版）1.像“稳定器”一样校准每层输入想象你在烤多层蛋糕，每层蛋糕的烘烤温度不同（相当于神经网络的每一层数据分布不同）。没有BN时，烤箱温度忽高忽低，导致有的层烤焦（梯度爆炸），有的层不熟（梯度消失）。BN的作用相当于给每一层装了一个自动温度调节器，实时将输入数据调整到标准温度（均值为0，方差为1），保证每层都能均匀受热，训练更稳定。2.让模型训练“少
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他