落雪snowflake

说话人概述

技术专题】说话人识别（Speaker Verification）综述

Posted on 2018-07-10 | In Speaker Verification | | Visitors: 404

Words count in article: 4.3k | Reading time ≈ 16

技术介绍

技术应用

声纹识别（speaker verification），也称做说话人识别，是一种通过采集语音片段识别说话人身份（speaker ID)的技术。我们以前给朋友打家庭电话，朋友的家人一声“喂”，我们很容易就知道是不是朋友本人接听了。细心留意的同学还可以发现，微信有个语音解锁功能，账户主人读57386941即可解锁。虽然屏幕上显示是57386941，但是很多网友表示随意念12345678，甚至念两句诗也可以通过验证。这也说明了这技术背后用的不是ASR(自动语音识别），而是声纹识别技术。

在正常发音的情况下，每个人的声道、口腔和鼻腔都是有明显差异的，表现在声音上的差异还是很容易被人耳捕捉。不过，声纹信息在个体上的差异并没有指纹和人脸那样具有显著差异，还可以被模仿，安全性相对指纹和人脸来说略低一点。尽管如此，声纹一种生物信息，广泛应用于身份鉴定系统中。近来，声纹识别和语音合成相结合，还可以应用中跨语种的语音合成中，这项技术会在其他文章中详细介绍。

算法流程

本节将介绍典型的说话人身份识别系统的流程图，如下图所示。为了让计算机认识一个用户，我们需要先录制目标用户的声音，经过人工提取特征或者神经网络的学习，训练得到一个或多个向量存储在我们的模型库中。这属于说话人身份识别系统的前期工作。在使用的时候，当我们遇到一个未知个体，先采用同样的方法提取特征，然后和模板库中的所有candidates比较相似程度。相似程度最高的candidate信息为该个体最有可能的身份信息。识别系统性能好坏，关键就在于算法能否有效挑出个体差异信息，以及从模板库中搜索的复杂度。

技术原理

近两年来，基于深度学习的声纹识别取得了良好的进展，有很多state-of-art的模型颠覆了传统的算法。尽管如此，本文还是有必要先介绍一些传统的算法，从中学习一些可借鉴的地方。本文介绍的算法包括GMM-UBM框架及其改进，以及一些深度学习算法。

类型	主要算法
文本无关	GMM-UBM(2000) GMM-SVM(2006) JFA(2007) i-vector/PLDA(2011) DNN i-vector(2014) Deep Embedding(2017)
文本相关	GMM-UBM HMM-UBM TMM-UBM i-vector DNN-ivector

GMM-UBM框架

基于高斯模型的方法包括单高斯模型(SGM, Single Gaussian Gaussian Model)和高斯混合模型（GMM, Gaussian Mix Model)，GMM-UBM是对GMM的一种改进，解决了训练数据场景下GMM的缺陷。

SGM

(1)当一个一维向量X

服从高斯分布时，它的概率密度函数PDF定义为：

N(x;μ,σ2)=1(2πσ2)1/2exp[−12σ2(x−μ)2](1.1)

这里，μ

表示均值，σ2

表示方差。

(2)当一个多维向量X

服从高斯分布时，它的概率密度函数PDF定义为：

N(x;μ,Σ)=1(2π)D/21(|Σ|)1/2exp[−12(x−μ)TΣ−1(x−μ)]

这里，μ

表示均值，Σ表示D∗D的协方差矩阵，|Σ|

为该协方差的行列式的值。

GMM

单高斯分布模型在二维空间上近似于椭圆形，在三维空间上近似于椭球形。GMM(高斯混合模型)，顾名思义，它是将多个单高斯的pdf函数加权求和来拟合更加复杂的空间分布的pdf函数。
假设GMM模型由K个SGM组成，每个SGM称为一个component，这些component的线性加权在一起就组成了GMM的概率密度函数。

p(x)=∑k=1Kp(k)p(x|k)=∑k=1KπkN(x|μx,Σk)

这里，

表示第k个component的概率，或权重；
μk
表示第k个component的均值；
σk
第k个component的方差；
每个SGM component 表示为Nk∼(μk,θk),k=1,2,3,4,…K

,分布对应一个聚类中心，每个聚类中心的坐标可以看成是(μk,θk)，对于一个样本xi，它属于第k个聚类中心的可能性为πk，πk∼(0,1)

GMM模型的参数训练，通常使用最大似然估计MLE或者最大后验概率MAP即可完成。这在其他文章中已经有了详细介绍，本文此处不再展开讨论。

通常情况下，在数据充足的情况下，多个高斯概率分布的线性组合可以平滑地逼近任意形状的pdf函数，并且是一个易于处理的参数模型，具备对实际数据极强的表征力。GMM模型的明显缺缺陷在于：参数规模会随着模型复杂度等比例的膨胀，需要更多的数据来驱动GMM的参数训练才能得到一个更加general（或称泛化）的GMM模型。

假设对维度为50的声学特征进行建模，GMM包含1024个component，并简化多维高斯的协方差为对角矩阵，则一个GMM待估参数总量为1024（权重$\pi$参数个数）+1024×50（均值$\mu$参数个数）+1024×50（协方差$\sigma$参数个数）=103424，超过10万个参数要估计，均值和协方差的参数了都接近50%。

GMM-UBM

现实中，每一个说话人的语音数据比较有限，难以训练出高效的GMM模型。另外，由于多通道的问题，训练GMM模型的语音与测试语音存在不匹配的情况，这些因素都会降低GMM声纹识别系统的性能。DA Reynolds团队提出了通用背景模型(UBM，Universal Background Model)，先采集大量与说话人无关的语音特征训练一个UBM，然后使用少量的说话人数据，通过自适应算法(如最大后验概率MAP、最大似然线性回归MLLR等）突出了说话人的个性特征，得到目标说话人模型。

GMM-UBM本质上是一种自适应的思想，也是深度学习领域的fine turning思想。既然我们无法获取目标人大量的数据，那么我们可以先用大量的数据构建一个大型的通用GMM模型空间（均值模型），再用目标人的语音特征去自适应的时候，也突出了目标人模型和通用模型的差异，建模效果显著提升。和特征人语音合成类似，先训练一个多人的均值模型，然后再用目标人的数据去fine turning，可以更好地学习到韵律信息。GMM-UBM模型最重要的优势就是通过MAP算法对模型参数进行估计，避免了过拟合的发生，同时我们不必调整目标用户GMM的所有参数（权重，均值，方差）只需要对各个component的均值参数进行估计，就能实现最好的识别性能。显然，这种做法可以使得参数减少大约一半，越少的参数也意味着更快的收敛，不需要那么多的目标用户数据即可模型的良好训练。训练流程图如下所示：

Step 1: Feature Extraction

使用HTK工具提取HMM特征。

Step 2: 训练 Development: Training the UBM

使用EM算法训练UBM模型，其实就是对一个使用包含大量说话人语音数据的训练集训练GMM。

Step 3: 注册 Adaptation mpaAdapt

使用目标人的语音数据，使用MLE或MAP来重新估计均值，得到新的目标人GMM模型。

Step 4: 评估 Scoring score_gmm_trials

特征和模型都建立好了，用一个对数似然比的评价指标。
用测试数据分别与模型和UBM进行似然度比评价测试数据到底和模型更接近还是和UBM最接近。
最后设定一个阀值，用来进行最后的分类判断。

GMM-SVM

在GMM-UBM模型中，在自适应环节只是对UBM模型在目标人数据上做了均值的自适应。GMM-UBM算法可以解决目标人数据不足导致的建模效果太差的问题，但是不能消除由信道干扰导致的说话人信息的扰动。换句话说，你用iPhone手机在云端注册模型，换个小米手机拿来做识别就不通过了。这是因为声音是通过录音设备进行采集的，不同的型号的录音设备对语音都会造成一定程度上的畸变，同时由于背景环境和传输信道等的差异，对语音信息也会造成不同程度的损伤。

WM Campbell将支持向量机（SVM, Support Vector Machine）引入了GMM-UBM的建模中，通过将GMM每个component的均值提取出来构建一个高斯超向量（GSV, Gaussian Super Vector）作为SVM的样本，利用SVM核函数的强大非线性分类能力，在原始GMM-UBM的基础上大幅提升了识别的性能，同时基于GSV的一些规整算法，例如扰动属性投影（NAP, Nuisance Attribute Projection），类内方差规整（WCCN, Within Class Covariance Normalization，WCCN）等，都在一定程度上补偿了由于信道易变形对声纹建模带来的影响，这里不做多过展开。

JFA

在GMM-UBM的实际应用过程中，假如用户录制了5min的语音，去掉停顿和静音，只剩下有效长度三分钟左右了。从音频长度来说是很少，但是还是难以用在产品的，可以想象让用户录制五分钟的音频才能完成识别是一种多么糟糕的体验。另外，即使用了五分钟的音频，也往往只能调整部分component的均值，一些没有调整到的component只能保持原状，降低了模型的表达能力。

为了解决GMM-UBM待估参数过多的问题，学者提出了一种只用少量的参数就能控制GMM中所有component变化的思路，称为因子分析（Factor Analysis，FA）。在FA算法框架中，只用数百个基向量的线性组合就足够能表征所有GSV的变化了，这种思想和主成分分析（PCA, Principal components analysis）类似，也是一种降维的思想。这种降维的思想已经被广泛应用于图像，语音和数据的压缩技术中。因为真实数据总是带着相当多的冗余信息，我们可以做到只损失一小部分精度，甚至不损失精度，就能实现数据的压缩与降维。

为了解决GMM-UBM模型不抗信道干扰的问题，数学顶级大师Kenny提出了一种联合因子分析方法（JFA, Joint Factor Analysis）。在JFA中，GMM-UBM系统中的高斯模型均值supervector由两部分的叠加，一部分是跟说话人本身有关的向量特征，另一部分是跟信道和其他变化有关的向量特征。也就是说，将说话人GMM均值GSV所在的空间划分为本征空间、信道空间和残差空间。联合因子分析的思路是抽取跟说话人相关的特征而去掉和信道相关的特征，很好地克服了信道的影响，系统的性能得到了明显提高。JFA在05之后的NIST声纹比赛中以绝对的优势成为了性能最优的识别系统。

i-vector

JFA比较理想化地做了特征音空间与特征信道空间的独立假设，但是在现实世界中，数据之间都是具有相关性的，绝对的独立同分布是一个过于强的假设。这种独立同分布的假设虽然为数学推导提供了便利，但也限制了模型的泛化能力。

回忆一下JFA的核心思想：同一个说话人，不管怎么采集语音，采集了多少段语音，在特征音子空间上的参数映射都应该是相同的；而最终的GMM模型参数之所以有差别，都是特征信道子空间不同导致的，特征音子空间和特征信道子空间互相独立。但是这样的假设在现实中是不成立的。

2009年，Kenny的学生N.Dehak提出了一个更加宽松的假设：既然声纹信息与信道信息不能做到完全独立，那就用一个超向量子空间同时描述说话人信息和信道信息。这时候，同一个说话人，不管怎么采集语音，采集了多少段语音，在这个子空间上的映射坐标都会有差异，这也更符合实际的情况。这个即模拟说话人差异性又模拟信道差异性的空间称为全因子空间（Total Factor Matrix），每段语音在这个空间上的映射坐标称作身份向量（Identity Vector, i-vector），i-vector向量通常维度也不会太高，一般在400-600左右。

回忆一下整个基于GMM的说话人识别算法的发展，从最初95年采用的32个component的GMM，到1024、2048、甚至4096，发展的到ivector，只需要400×1的向量就够了。i-vector是如此的简洁优雅，它的出现使得说话人识别的研究一下子简化抽象为了一个数值分析与数据分析的问题：任意的一段音频，不管长度怎样，内容如何，最后都会被映射为一段低维度的定长i-vector。我们只需要找到一些优化手段与测量方法，在海量数据中能够将同一个说话人的几段i-vector尽可能分类得近一些，将不同说话人的i-vector尽可能分得远一些。同时N.Dehak在实验中还发现i-vector具有良好的空间方向区分性，即便上SVM做区分，也只需要选择一个简单的余弦核就能实现非常好的区分性。截至今日，i-vector在大多数情况下仍然是文本无关声纹识别中表现性能最好的建模框架，学者们后续的改进都是基于对i-vector进行优化，包括线性区分分析（Linear Discriminant Analysis， LDA），基于概率的线性预测区分分析（probabilistic linear discriminant analysis，PLDA）甚至是度量学习（Metric Learning）等。

然而，i-vector在文本无关声纹识别上表现优秀，但是在指定文本的识别上表现确不如传统的GMM-UBM框架更好。因为i-vector简洁的背后是它舍弃了太多的东西，其中就包括了文本差异性，在文本无关识别中，因为注册和训练的语音在内容上的差异性比较大，因此我们需要抑制这种差异性；但在文本相关识别中，我们又需要放大训练和识别语音在内容上的相似性，说话人的特征相似性被冲淡了很多，显得区分能力下降。

本节主要参考 http://www.sohu.com/a/115298334_114877
来自腾讯优图

深度学习方法

updating…

Reference

https://www.zhihu.com/question/67471632
https://blog.csdn.net/weixin_38206214/article/details/81084456
Lei, Yun, et al. “A novel scheme for speaker recognition using a phonetically-aware deep neural network.” Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014.
Variani, Ehsan, et al. “Deep neural networks for small footprint text-dependent speaker verification.” Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014.
Liu, Yuan, et al. “Deep feature for text-dependent speaker verification.” Speech Communication 73 (2015): 1-13.
Chen, Nanxin, Yanmin Qian, and Kai Yu. “Multi-task learning for text-dependent speaker verification.” Sixteenth annual conference of the international speech communication association (INTERSPEECH). 2015.
Heigold, Georg, et al. “End-to-end text-dependent speaker verification.” Acoustics, Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on. IEEE, 2016.
Zhang, Chunlei, and Kazuhito Koishida. “End-to-End Text-Independent Speaker Verification with Triplet Loss on Short Utterances.” Proc. Interspeech 2017 (2017): 1487-1491.
Li, Chao, et al. “Deep Speaker: an End-to-End Neural Speaker Embedding System.” arXiv preprint arXiv:1705.02304 (2017).
Snyder, David, et al. “Deep neural network-based speaker embeddings for end-to-end speaker verification.” Spoken Language Technology Workshop (SLT), 2016 IEEE. IEEE, 2016.
Snyder, David, et al. “Deep Neural Network Embeddings for Text-Independent Speaker Verification.” Proc. Interspeech 2017(2017): 999-1003.
Li, Lantian, et al. “Deep Speaker Feature Learning for Text-independent Speaker Verification.” arXiv preprint arXiv:1705.03670 (2017).
Villalba, Jesús, Niko Brümmer, and Najim Dehak. “Tied Variational Autoencoder Backends for i-Vector Speaker Recognition.” Proc. Interspeech 2017 (2017): 1004-1008.
https://blog.csdn.net/jinping_shi/article/details/59613054
https://wsstriving.github.io/2016/04/28/Code-Based-GMM-UBM-Tutorial/
http://www.sohu.com/a/115298334_114877
[1] http://www.itl.nist.gov/iad/mig/tests/spk/
Larcher, Anthony, et al. “RSR2015: Database for Text-Dependent Speaker Verification using Multiple Pass-Phrases.” INTERSPEECH. 2012.
Fu Tianfan, et al. “Tandem deep features for text-dependent speaker verification.” INTERSPEECH. 2014.
Vasilakakis, Vasileios, Sandro Cumani, and Pietro Laface. “Speaker recognition by means of deep belief networks.” (2013).
Kenny, Patrick. “Joint factor analysis of speaker and session variability: Theory and algorithms.” CRIM, Montreal,(Report) CRIM-06/08-13 (2005).
Dehak, Najim, et al. “Front-end factor analysis for speaker verification.” IEEE Transactions on Audio, Speech, and Language Processing 19.4 (2011): 788-798.
转载地址https://auzxb.tech/2018/07/Speaker-Verification-Overview

你可能感兴趣的:(深度学习声纹识别)

深度学习声纹识别_基于深度学习神经网络的图像识别及声纹识别系统就叫考拉北极熊吧深度学习声纹识别
前言深度学习是当今人工智能领域的核心技术，基于深度学习的技术的应用和推广，如今图像识别，声纹识别及自然语言处理得到了飞速的发展和广泛的应用。深度学习的概念深度学习是基于神经网络的技术，神经网络又分为CNN、RNN、DNN。RNN主要应用在自然语言处理，自然语言处理，包括识别文本，智能问答等，DNN主要应用在个性化推荐，根据您在网络浏览搜索的内容，推荐您可能感兴趣的东西，CNN主要应用在图像识别及声
深度学习声纹识别_深度学习课堂笔记-1 咩都唔知架深度学习声纹识别
DeepLearningNotePrerequisitecourses:Machinelearning,linearalgerbra,statistics,probabilityPythonAnefficienttoolforartificialintelligence(AI)不要太迷信DeepLearning作为leader如果研究失败奖金就没了团队可能被开掉Videocontrastconve
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号