louwill12

语音识别技术概述

深度学习数据集

Author：louwill

From：深度学习笔记

语音识别（Speech Recognition）是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类的语音。除了传统语音识别技术之外，基于深度学习的语音识别技术也逐渐发展起来。本文对广义的自然语言处理应用领域之一的语音识别进行一次简单的技术综述。

概述

自动语音识别（Automatic Speech Recognition， ASR），也可以简称为语音识别。语音识别可以作为一种广义的自然语言处理技术，是用于人与人、人与机器进行更顺畅的交流的技术。语音识别目前已使用在生活的各个方面：手机端的语音识别技术，例如，苹果的siri；智能音箱助手，例如，阿里的天猫精灵，还有诸如科大讯飞一系列的智能语音产品等等。

为了能够更加清晰的定义语音识别的任务，先来看一下语音识别的输入和输出都是什么。大家都知道，声音从本质是一种波，也就是声波，这种波可以作为一种信号来进行处理，所以语音识别的输入实际上就是一段随时间播放的信号序列，而输出则是一段文本序列。语音识别的输入与输出如图1所示。

图1 语音识别的输入与输出

将语音片段输入转化为文本输出的过程就是语音识别。一个完整的语音识别系统通常包括信息处理和特征提取、声学模型、语言模型和解码搜索四个模块。一个典型的语音识别系统如图2所示。

图2 语音识别系统

信号处理和特征提取可以视作音频数据的预处理部分，一般来说，一段高保真、无噪声的语言是非常难得的，实际研究中用到的语音片段或多或少都有噪声存在，所以在正式进入声学模型之前，我们需要通过消除噪声和信道增强等预处理技术，将信号从时域转化到频域，然后为之后的声学模型提取有效的特征向量。接下来声学模型会将预处理部分得到的特征向量转化为声学模型得分，与此同时，语言模型，也就是我们前面在自然语言处理中谈到的类似N-Gram和RNN等模型，会得到一个语言模型得分，最后解码搜索阶段会针对声学模型得分和语言模型得分进行综合，将得分最高的词序列作为最后的识别结构。这便是语音识别的一般原理。图3是隐马尔可夫模型中的著名数学家安德雷·马尔可夫。

图3 安德雷·马尔可夫

因为语音识别相较于一般的自然语言处理任务特殊之处就在于声学模型，所以语言识别的关键也就是信号处理预处理技术和声学模型部分。在深度学习兴起应用到语言识别领域之前，声学模型已经有了非常成熟的模型体系，并且也有了被成功应用到实际系统中的案例。例如，经典的高斯混合模型（GMM）和隐马尔可夫模型（HMM）等。神经网络和深度学习兴起以后，循环神经网络、LSTM、编码-解码框架、注意力机制等基于深度学习的声学模型将此前各项基于传统声学模型的识别案例错误率降低了一个层次，所以基于深度学习的语音识别技术也正在逐渐成为语音识别领域的核心技术。

语音识别发展到如今，无论是基于传统声学模型的语音识别系统还是基于深度学习的识别系统，语音识别的各个模块都是分开优化的。但是语音识别本质上是一个序列识别问题，如果模型中的所有组件都能够联合优化，很可能会获取更好的识别准确度，因而端到端的自动语音识别是未来语音识别的一个最重要的发展方向。

所以，本文主要内容的介绍顺序就是先给大家介绍声波信号处理和特征提取等预处理技术，然后介绍GMM和HMM等传统的声学模型，其中重点解释语音识别的技术原理，之后后对基于深度学习的声学模型进行一个技术概览，对当前深度学习在语音识别领域的主要技术进行简单了解，最后对未来语音识别的发展方向——端到端的语音识别系统进行了解。

信号处理与特征提取

因为声波是一种信号，具体我们可以将其称为音频信号。原始的音频信号通常由于人类发声器官或者语音采集设备所带来的静音片段、混叠、噪声、高次谐波失真等因素，一定程度上会对语音信号质量产生影响。所以在正式使用声学模型进行语音识别之前，我们必须对音频信号进行预处理和特征提取。

最初始的预处理工作就是静音切除，也叫语音激活检测（Voice Activity Detection，VAD）或者语音边界检测。目的是从音频信号流里识别和消除长时间的静音片段，在截取出来的有效片段上进行后续处理会很大程度上降低静音片段带来的干扰。除此之外，还有许多其他的音频预处理技术，这里不展开多说。其次就是特征提取工作，音频信号中通常包含着非常丰富的特征参数，不同的特征向量表征着不同的声学意义，从音频信号中选择有效的音频表征的过程就是语音特征提取。常用的语音特征包括线性预测倒谱系数（LPCC）和梅尔频率倒谱系数（MFCC），其中LPCC特征是根据声管模型建立的特征参数，是对声道响应的特征表征。而MFCC特征是基于人的听觉特征提取出来的特征参数，是对人耳听觉的特征表征。所以，在对音频信号进行特征提取时通常使用MFCC特征。

MFCC主要由预加重、分帧、加窗、快速傅里叶变换（FFT）、梅尔滤波器组、离散余弦变换几部分组成，其中FFT与梅尔滤波器组是MFCC最重要的部分。图4是傅里叶变换的简单示意图，通过傅里叶变换将时域切换到频域。一个完整的MFCC算法包括如下几个步骤。

（1）快速傅里叶变换（FFT）。

（2）梅尔频率尺度转换。

（3）配置三角形滤波器组并计算每一个三角形滤波器对信号幅度谱滤波后的输出。

（4）对所有滤波器输出作对数运算，再进一步做离散余弦变换（DTC），即可得到MFCC。

图4 傅里叶变换

在实际的语音研究工作中，也不需要我们再从头构造一个MFCC特征提取方法，Python 为我们提供了pyaudio和librosa等语音处理工作库，可以直接调用MFCC 算法的相关模块快速实现音频预处理工作。图5所示是一段音频的MFCC分析。

图5 MFCC

过去在语音识别上所取得成果证明MFCC是一种行之有效的特征提取方法。但随着深度学习的发展，受限的玻尔兹曼机（RBM）、卷积神经网络（CNN）、CNN-LSTM-DNN（CLDNN）等深度神经网络模型作为一个直接学习滤波器代替梅尔滤波器组被用于自动学习的语音特征提取中，并取得良好的效果。

传统声学模型

在经过语音特征提取之后，我们就可以将这些音频特征进行进一步的处理，处理的目的是找到语音来自于某个声学符号（音素）的概率。这种通过音频特征找概率的模型就称之为声学模型。在深度学习兴起之前，混合高斯模型（GMM）和隐马尔可夫模型（HMM）一直作为非常有效的声学模型而被广泛使用，当然即使是在深度学习高速发展的今天，这些传统的声学模型在语音识别领域仍然有着一席之地。所以，作为传统声学模型的代表，我们就简单介绍下GMM和HMM模型。

所谓高斯混合模型（Gaussian Mixture Model，GMM），就是用混合的高斯随机变量的分布来拟合训练数据（音频特征）时形成的模型。原始的音频数据经过短时傅里叶变换或者取倒谱后会变成特征序列，在忽略时序信息的条件下，这种序列非常适用于使用GMM进行建模。混合高斯分布的图像如图6所示。

图6 高斯混合分布

如果一个连续随机变量服从混合高斯分布，其概率密度函数形式为：

GMM训练通常采用EM算法来进行迭代优化，以求取GMM中的加权系数及各个高斯函数的均值与方差等参数。GMM作为一种基于傅里叶频谱语音特征的统计模型，在传统语音识别系统的声学模型中发挥了重要的作用。其劣势在于不能考虑语音顺序信息，高斯混合分布也难以拟合非线性或近似非线性的数据特征。所以，当状态这个概念引入到声学模型的时候，就有了一种新的声学模型——隐马尔可夫模型（Hidden Markov model，HMM）。在随机过程领域，马尔可夫过程和马尔可夫链向来有着一席之地。当一个马尔可夫过程含有隐含未知参数时，这样的模型就称之为隐马尔可夫模型。HMM的核心概念是状态，状态本身作为一个离散随机变量，马尔可夫链的每一个状态上都增加了不确定性或者统计分布使得 HMM成为了一种双随机过程。HMM的一个时间演变结构如图7所示。

图7 隐马尔可夫模型

HMM的主要内容包括参数特征、仿真方法、参数的极大似然估计、EM估计算法以及维特比状态解码算法等细节知识，本将作为简单综述这里不做详细的展开。

基于深度学习的声学模型

一提到神经网络和深度学习在语音识别领域的应用，可能我们的第一反应就是循环神经网络RNN模型以及长短期记忆网络LSTM等。实际上，在语音识别发展的前期，就有很多将神经网络应用于语音识别和声学模型的应用了。

最早用于声学建模的神经网络就是最普通的深度神经网络（DNN），GMM等传统的声学模型存在音频信号表征的低效问题，但DNN可以在一定程度上解决这种低效表征。但在实际建模时，由于音频信号是时序连续信号，DNN则是需要固定大小的输入，所以早期使用 DNN来搭建声学模型时需要一种能够处理语音信号长度变化的方法。一种将HMM模型与 DNN模型结合起来的DNN-HMM混合系统颇具有效性。

图8 DNN-HMM框架

如图8所示，HMM用来描述语音信号的动态变化，DNN则是用来估计观察特征的概率。在给定声学观察特征的条件下，我们可以用DNN的每个输出节点来估计HMM某个状态的后验概率。由于DNN-HMM训练成本不高而且相对较高的识别概率，所以即使是到现在在语音识别领域仍然是较为常用的声学模型。

除了DNN之外，经常用于计算机视觉的CNN也可以拿来构建语音声学模型。当然，CNN也是经常会与其他模型结合使用。CNN用于声学模型方面主要包括TDNN、CNN-DNN 框架、DFCNN、CNN-LSTM-DNN（CLDNN）框架、CNN-DNN-LSTM（CDL）框架、逐层语境扩展和注意CNN框架（LACE）等。这么多基于CNN的混合模型框架都在声学模型上取得了很多成果，这里小编仅挑两个进行简单阐述。

TDNN是最早基于CNN的语音识别方法，TDNN会沿频率轴和时间轴同时进行卷积，因此能够利用可变长度的语境信息。TDNN用于语音识别分为两种情况，第一种情况下：只有TDNN，很难用于大词汇量连续性语音识别（LVCSR），原因在于可变长度的表述（utterance）与可变长度的语境信息是两回事，在LVCSR中需要处理可变长度表述问题，而TDNN 只能处理可变长度语境信息；第二种情况：TDNN-HMM 混合模型，由于HMM能够处理可变长度表述问题，因而该模型能够有效地处理LVCSR问题。

DFCNN的全称叫作全序列卷积神经网络（Deep Fully Convolutional Neural Network），是由国内语音识别领域领头羊科大讯飞于2016年提出的一种语音识别框架。DFCNN先对时域的语音信号进行傅里叶变换得到语音的语谱图，DFCNN直接将一句语音转化成一张图像作为输入，输出单元则直接与最终的识别结果（例如，音节或者汉字）相对应。DFCNN的结构中把时间和频率作为图像的两个维度，通过较多的卷积层和池化（pooling）层的组合，实现对整句语音的建模。DFCNN的原理是把语谱图看作带有特定模式的图像，而有经验的语音学专家能够从中看出里面说的内容。DFCNN结构如图9所示。

图9 DFCNN模型

最后就是循环神经网络RNN，其中更多是LSTM网络。音频信号具有明显的协同发音现象，因此必须考虑长时相关性。由于循环神经网络RNN具有更强的长时建模能力，使得 RNN也逐渐替代DNN和CNN成为语音识别主流的建模方案。例如，常见的基于seq2seq 的编码-解码框架就是一种基于 RNN 的模型。

长期的研究和实践证明：基于深度学习的声学模型要比传统的基于浅层模型的声学模型更适合语音处理任务。语音识别的应用环境常常比较复杂，选择能够应对各种情况的模型建模声学模型是工业界及学术界常用的建模方式。但单一模型都有局限性。HMM能够处理可变长度的表述，CNN能够处理可变声道，RNN/CNN能够处理可变语境信息。声学模型建模中，混合模型由于能够结合各个模型的优势，是目前乃至今后一段时间内声学建模的主流方式。

端到端的语音识别系统简介

无论是GMM和HMM这样的传统声学模型，还是基于深度学习的声学模型，它们对于整个语音识别系统都是分开优化的，但是语音识别本质上是一个序列识别问题，如果模型中的所有组件都能够联合优化，很可能会获取更好的识别准确度，所以我们需要一种端到端（End2End）的语音识别处理系统。

基于深度学习的自动语音识别流程如图10所示。主要包特征提取、DNN/RNN模型、解码器等过程。端到端的语音识别系统就是将上述组件流程进行联合优化。

图10 基于深度学习的ASR过程

基于组件联合优化后的端到端语音识别系统如图11所示。

图11 端到端语音识别系统构成

往期精彩：

【原创首发】机器学习公式推导与代码实现30讲.pdf

【原创首发】深度学习语义分割理论与实战指南.pdf

喜欢您就点个在看！

python实现二分查找（对新手友好，内容通俗易懂） dlage python 列表 python 数据结构
python实现二分查找二分查找又名折半查找。优点：查询速度快，性能好。缺点：要求查询的表为有序表原理：将表中间位置（mid）的数字与待查数字（data）做比较，如果相等：返回true，结束。如果不相等：则使用中间位置的记录将表分为前后两个子表。若data>mid则进一步查找后一个表。若datadata:last=mid-1elifalist[mid]data:last=mid-1elifalis
零基础程序员如何快速学会python Java进阶营菌程序员职场 Python python 开发语言后端 pycharm 程序人生
学会Python能做的事情也很多，常见的就有网络爬虫，数据分析，前端开发，机器学习，都能很好地提高工作效率，往任何一个领域发展，工作前景是非常不错的。接下来我从基本的软件安装开始，仔细的给大家分析新手入门应该怎样学习Python吧，如果有讲得不到位的地方也欢迎大家指正，我会及时进行修改。一、软件的安装和选择1、配置环境关系到实操，所以在选择资料的同时，你还需要安装好Python需要的软件，软件版本
新手0基础路由器刷机（小米WR30U） frank_double 路由器刷机智能路由器
准备工作：登陆恩山论坛搜237去下载刷路由器别人已经备好的各种包目录一、#######开SSH###########1、进小米路由系统设置“启用与智能网关的无线配置同步”为开启、再DHCP为自动配置DNS，最后设置wan口为第一个端口。2、将笔记本电脑与wan1口用网线连接，笔记本进入控制面板-网络管理-无线网卡-右键无线网卡属性，将网络共享给WR30U。3、CMD运行python.exeserv
一文搞懂Python的yield关键字（新手友好）蜘蛛侠在写码 python python 开发语言
在python中，yield是一个不好理解的概念，Up初学Python时看了一些教程，但还是似懂非懂。今天，Up尝试用通俗易懂的语言说清楚yield的用法和原理。想要更好的理解yield，需要先理解Python的迭代器，墙裂建议先看一下Up上一期的文章：一文搞懂Python迭代器注：本文长期有效，持续迭代完善，建议收藏。提前划重点为什么yield难理解口诀一：调用时不要看成return口诀二：ne
Python实现三维空间中的RRT避障路径规划算法 C_mony 机械臂 python 算法机器人
文章目录前言一、算法原理二、代码实现1.定义节点2.碰撞检测3.RRT算法4.完整代码运行结果前言基于快速随机搜索树（Rapidly-exploringRandomTree,RRT）的优化算法，通过对状态空间中的采样点进行碰撞检测，避免了对空间的建模，能够有效地解决高维空间和复杂约束的路径规划问题，在机械臂路径规划与避障中扮演着关键角色。RRT算法通过随机生成的树状结构来探索高维空间，尤其适合于解
Java 国密算法 SM2 加密加签，SM3 摘要加密，SM4 加密解密工具类（附完整代码）程序员白羊 java java 算法密码学安全
目录介绍开始引入BouncyCastle依赖SM2算法完整代码(SM2Util.java)测试调用1.生成公钥私钥2.加密解密3.加签验签SM3算法1.摘要加密完整代码（SM3Util.java）SM4算法1.生成随机密钥2.加密解密完整代码（SM4Util.java）下载代码（Gitee代码参考）介绍针对BouncyCastle做了封装工具类，用于实现国密算法中的SM2、SM3、SM4。国密算法
[密码学实战]Java实现国密（SM2）密钥协商详解：原理、代码与实践曼岛_ 国密实战密码学 java 开发语言
一、代码运行结果二、国密算法与密钥协商背景2.1什么是国密算法？国密算法是由中国国家密码管理局制定的商用密码标准，包括：SM2：椭圆曲线公钥密码算法（非对称加密/签名/密钥协商）SM3：密码杂凑算法（哈希）SM4：分组密码算法（对称加密）2.2密钥协商的意义在安全通信中，双方需要在不安全的信道上协商出相同的会话密钥，用于后续对称加密。SM2密钥协商协议解决了以下问题：避免预先共享密钥抵抗中间人攻击
《国密算法开发实战：从合规落地到性能优化》曼岛_ 《密码学实战》密码学 java
前言随着信息技术的飞速发展，信息安全已成为全球关注的焦点。在数字化时代，数据的保密性、完整性和可用性直接关系到国家、企业和个人的利益。为了保障信息安全，密码技术作为核心支撑，发挥着至关重要的作用。国密算法，即国家密码算法，是我国自主设计和推广的一系列密码算法，旨在满足国内信息安全需求，提升我国信息安全的自主可控能力。国密算法的背景国密算法的研发与推广是我国信息安全战略的重要组成部分。长期以来，国际
大白话解释认证JWT是什么有什么用怎么用心心祥蓉 JWT
JWT是什么？JWT（JSONWebToken）就像一张“加密的电子通行证”，用来证明你是谁、能干什么。它由三段字符串拼接而成（比如xxx.yyy.zzz），每段对应不同的信息：头（Header）：说明加密算法类型，比如“用HS256算法签名”。身体（Payload）：存用户身份信息（如用户ID、角色）、有效期等，类似快递单上的收件人和地址。签名（Signature）：用密钥对前两段内容加密生成的
支付系统设计模式总结：策略模式与工厂模式的结合 I~Lucky spring boot 后端策略模式设计模式
在支付系统中，为了支持多种支付方式（如支付宝、微信支付等），并保证代码的可扩展性和维护性，通常会使用策略模式和工厂模式。这两种设计模式可以很好地结合起来，以实现灵活的支付处理逻辑。设计模式简介策略模式（StrategyPattern）：定义一系列算法，并将每个算法封装起来，使它们可以互换。策略模式让算法独立于使用它的客户端而变化。工厂模式（FactoryPattern）：提供一个创建对象的接口，由
爬虫实战分享：高效爬取汽车官方销售排行榜的技术方案威哥说编程 python 网络爬虫
随着大数据技术的飞速发展，爬虫技术在各行各业中得到了广泛应用。汽车行业作为一个信息密集型行业，销售数据、排行榜和车型趋势等内容成为了汽车公司、市场研究者和消费者关注的重点。爬虫技术为这些数据的收集和分析提供了强有力的支持。本文将介绍如何通过爬虫技术高效爬取某汽车官方销售排行榜，并讨论常见的技术难点与解决方案。1.目标与需求分析我们的目标是从某汽车官方网站上高效地爬取官方销售排行榜。爬取内容包括：销
基数排序详解醉心编码 c/c++算法数据结构排序算法 c语言开发语言
基数排序详解一、基数排序的基本概念二、基数排序的特点二、基数排序的工作过程三、基数排序的伪代码四、基数排序的C语言代码示例五、基数排序的稳定性六、基数排序的优化与变体七、基数排序的应用场景八、结论在计算机科学中，排序算法是一种非常基础和重要的算法类型，用于对一系列数据进行有序的排列。在众多排序算法中，基数排序以其独特的工作机制和优秀的性能，得到了广泛的关注和应用。本文将详细介绍基数排序的相关知识，
Python中的__slots__ 李星星BruceL 问题集 python
在Python中，__slots__的用途是什么？以及在哪些情况下应避免使用它？简而言之（TL;DR）：特殊属性__slots__允许你明确声明对象实例应该具有的实例属性，并带来以下预期效果：更快的属性访问。节省内存空间。内存节省来自于：将值引用存储在__slots__中，而不是在__dict__中。如果父类禁止创建__dict__和__weakref__，并且你声明了__slots__，则会阻止
分布式系统中的关键技术解析：幂等性、负载均衡、限流算法及其实现 guihong004 java面试题负载均衡算法运维
在构建高效、可靠的分布式系统时，确保系统的各个组件能够正确处理重复请求（即实现幂等性）、合理分配工作负载（负载均衡）、以及有效控制访问速率以防止过载（限流），是至关重要的。这些技术不仅影响着用户体验，还直接关系到系统的稳定性和安全性。本文将深入探讨几种关键技术及其具体实现方法，包括如何保证操作的幂等性，常见的负载均衡算法有哪些，限流策略中常用的算法介绍，特别是详细解释了计数器（固定窗口）算法和滑动
【datetime】Python datetime模块常用用法晨风_Chenfeng python
1.datetime模块中的主要类date:处理日期（年、月、日）。time:处理时间（时、分、秒、微秒）。datetime:处理日期和时间。timedelta:处理时间间隔（两个日期或时间之间的差）。tzinfo:处理时区信息。2.date类date类用于表示日期（年、月、日）。2.1创建date对象fromdatetimeimportdate#使用年、月、日创建date对象d=date(202
机器学习第一章绪论太炀机器学习机器学习人工智能
1.1引言什么是机器学习（machinelearning）？机器学习是致力于研究如何通过计算手段，利用经验来改善系统自身的性能的学科。在计算机系统中，“经验”以“数据”的形式表现。通过这些数据产生模型（model）的算法，即“学习算法”（learningalgorithm）。如果说计算机科学是研究“算法”的学问，那机器学习就是研究“学习算法”的学问。ps：本系列所说“模型（model）”泛指数据学
学习笔记分享-进阶数据结构与算法-图-并查集-优化 -暮倦- #学习笔记分享-数据结构与算法学习笔记
前言图片上面的personal表示只有图片上面的一行语句是解释图片内容的、local表示这个图片所在标题下的所有语句都是解释图片内容的、global表示有多个标题下的所有语句都是解释图片内容的我是一名大二的学生，学了差不多一年java技术栈了，想记录一下自己对知识点的心得，目前还是个小白，期望大佬们可以指出我笔记中的不足之处、对知识点的认知错误、笔记结构的混乱等这些图片内容都是在观看黑马课程时的视
编程入门难？Python 十大核心知识点，手把手教你！编程咕咕gu- Python基础 python 开发语言 Python教程网络爬虫
如果你对编程感兴趣，但又不知道从哪里开始，那么Python会是你的好选择。它简单易学，是初学者学习编程的好帮手。这篇文章会用轻松的方式，带你了解Python的十个重要概念，一步步帮助你从零开始！1.Python文件与扩展名学习Python的第一步是创建一个Python文件。Python文件的名字后面都会加上.py作为扩展名。例如，你可以创建一个名为main.py的文件，这就是一个Python脚本。
8. 【.NET 8 实战--孢子记账--从单体到微服务--转向微服务】--微服务基础工具与技术--Ocelot 网关--负载均衡喵叔哟 .NET 8 .net 微服务负载均衡
负载均衡在Ocelot中作为API网关的核心功能，通过智能调度流量保障微服务架构的高效与稳定。Ocelot内置多种算法动态分配请求，例如轮询策略按顺序分发流量，最小连接数策略优先选择负载较低的实例，而基于Cookie的会话粘滞策略则能维持特定用户请求与后端服务的绑定状态，适用于需要会话一致性的场景。同时，Ocelot与服务发现工具深度集成，实时感知服务实例的上下线状态，自动剔除故障节点并调整路由策
使用 nodejs 和 ElasticSearch 快速搭建全文检索 dbLenis 数据库 java 编程语言大数据 linux
点击蓝色“有关SQL”关注我哟加个“星标”，天天与10000人一起快乐成长上次群友问我，Python怎么学，我说四个小时足够了，你们不信。这次，我用2个小时，仅仅用Google，快速搭建了一个nodejs+Elasticsearch的小Demo.足可见，在有搜索的年代，快速上手一门技术，已经不是什么难事。1安装1.1下载地址https://nodejs.org/en/download提供windo
MATLAB基础应用精讲-【数模应用】主成分(pca)分析（附python代码实现）林聪木 matlab 人工智能大数据
目录前言知识储备降维概述算法原理什么是PCAPCA降维过程PCA算法数学步骤选择主成分个数（即k的值）sklearn中参数的解释数学模型协方差协方差矩阵编辑编辑原理推导编辑编辑编辑编辑实际操作主成分分析的计算方法方法1.协方差+特征值分解方法2：奇异值分解对比不同方法计算效率物理意义算法步骤SPSSAU主成分(pca)分析说明1、信息浓缩2、权重计算3、综合得分【综合竞争力】疑难解惑成分得分后用于
基于Python的网络漏洞扫描系统的设计与实现毕设工作室_wlzytw python论文项目 python 网络开发语言 django tornado dash pygame
摘要随着互联网不断发展、贴近生活，电子化的生活安全依赖着网络安全。在漏洞泛滥的今天，网络安全状态不容乐观，许多机构都因没有及时处理漏洞导致被恶意入侵，若网络安全保护不当，将会影响现实安全。中小型网络运维人员常因为外部因素影响难以开展网络安全行动。为了应对这一问题，本文研究尝试用Python语言尝试做一个集成漏洞扫描系统的设计与实现。运用以Python为基础的DjangoWeb框架实现快速的业务开发
最大公约数和最小公倍数王嘉俊925 算法算法 c++C++
最大公约数和最小公倍数最大公约数两个数a和b的最大公约数是指它们所有公约数中最大的那个，通常记作gcd(a,b)。定义公约数：能同时整除a和b的正整数。最大公约数：所有公约数集合中的最大值。例如：gcd(12,18)=6，因为6是12和18的最大公约数。求解方法1.欧几里得算法（辗转相除法）原理：对于正整数a和b，有gcd(a,b)=gcd(b,a%b)，其中%表示取模运算（求余数）。该方法通过不
基于 Python 的漏洞扫描工具的设计与实现计算机毕业设计指导 python 开发语言信息安全
引言随着信息技术的快速发展，网络安全问题成为了各类组织和个人面临的重要挑战之一。漏洞是网络安全中的一个重要问题，黑客和恶意攻击者往往通过利用这些漏洞来侵入系统，窃取敏感信息或进行其他恶意行为。因此，及时发现和修复漏洞是确保网络安全的重要手段。本项目旨在设计和实现一个基于Python的漏洞扫描工具，帮助用户快速发现系统中的潜在漏洞，并提供修复建议。该工具将包括对Web应用程序、操作系统、服务等的漏洞
python代码实现支持神经网络对鸢尾花分类邀_灼灼其华机器学习及概率统计 python 神经网络分类 sklearn
1、导入支持向量机模型，划分数据集fromsklearnimportdatasetsfromsklearnimportsvmiris=datasets.load_iris()iris_x=iris.datairis_y=iris.targetindices=np.random.permutation(len(iris_x))iris_x_train=iris_x[indices[:-10]]iri
Sakura编辑器：高效多语言代码编辑体验就念
本文还有配套的精品资源，点击获取简介：Sakura编辑器是一款多功能的文本编辑工具，特别受到程序员和文档撰写者的青睐。它提供对多种编程语言的支持，并允许用户自定义代码高亮主题，提高代码可读性。内置的便捷编辑功能如自动完成、代码折叠和查找替换大大提升效率。其无需安装的特点增加了便携性，轻量级设计确保高效运行，而且可扩展性强，支持多种插件，适合各种工作环境。1.Sakura编辑器的概述与多语言支持简介
RabbitMQ复习 SJLoveIT rabbitmq 分布式
消息中间件的作用：（1）异步处理（2）应用解耦（3）流量削峰消息中间件的缺点：引入了新的东西，也就增加了新的故障点。比如消息中间件挂了，影响系统的可用性。两种框架：JMS和AMQP最大的区别是JMS是是javaapi,对跨平台的支持较差，但在纯java技术栈内首选。AMQP是跨平台的，序列化方式选json，不管你是java，php，C/C++,python,都能处理RabbitMQ实现的事AMQP
Kotlin 数据类与密封类 lly202406 开发语言
Kotlin数据类与密封类引言在编程语言中，数据类和密封类是两种非常有用的特性，特别是在Kotlin中。数据类用于创建不可变的数据持有类，而密封类则用于限制类的继承结构。本文将详细介绍Kotlin中的数据类与密封类，包括它们的定义、使用场景以及它们在Kotlin中的优势。数据类定义数据类在Kotlin中用于创建不可变的值对象，它自动提供构造函数、getter、toString、equals、has
完整的 Python 数据分析案例：在线游戏玩家付费预测萧十一郎@ python 机器学习人工智能
目录1.案例背景代码实现2.主要的代码难点解析2.1数据清洗-缺失值处理2.2特征工程-新特征计算与独热编码2.3特征选择2.4模型训练与评估2.5数据可视化3.可能改进的代码3.1数据清洗与特征工程改进3.2模型改进3.3可视化改进1.案例背景在在线游戏行业中，准确预测玩家是否会付费以及付费金额，对于游戏运营商制定营销策略、优化游戏设计和提高盈利能力至关重要。本案例将基于玩家的游戏行为数据（如游
利用Python实现企业微信发送文件消息林_胖 python 企业微信自动化文件 OA
最近领导希望做一个小的招标信息爬取系统，每日以邮件以及企业微信的方式进行推送。所以记录一下如何使用Python实现企业微信发送文件。第一步：登录企业微信后台，需要用有管理员权限的微信进行扫码登录。第二步：获取AgentId和Secret，获取路径：应用管理-创建应用，创建应用后即可看到。第三步：确认需要接收信息的userid，获取路径：通讯录-选择需要发送的人员-账号。第四步：获取公司ID，获取路
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/