读宗成庆老师著统计自然语言处理书笔记整理(1)

自然语言处理(natural language processing,NLP)。

(一)研究的内容:

1、机器翻译:实现一种语言到另一种语言的自动翻译。
2、自动文摘:将原文档的主要内容和含义自动归纳、提炼出来,形成摘要或缩写。
3、信息检索:也称情报检索,就是利用计算机系统从海量文档中找到符合用户需要的相关文档。
4、文档分类:也称文本分类或信息分类,就是利用计算机系用对大量的文档按照一定的分类标准(例如根据主题或内容划分等)实现自动归类。近年来情感分类技术成为本领域研究的热点,公司可以利用该技术了解客户对产品的评价,政府部门可以通过分析网民对某一事件、政策法规或社会现象的评论,实时了解百姓的态度
5、问答系统:通过计算机系统对用户提出的问题的理解,利用自动推理的手段,在有关知识资源仲自动求解答案并作出相应的问答。问答技术有时与语音技术和多模态输入输出技术以及人机交互技术等技术相结合,构成人机对话系统。
6、信息过滤:通过计算机系统自动识别和过滤那些满足特定条件的文档信息,通常指网络有害信息的自动识别和过滤,主要用于信息安全和防护、网络内容管理等。
7、信息抽取:指从文本中抽取特定的时间或事实信息,有时候又称事件抽取,例如从时事新闻报道中抽取出某一恐怖事件的基本信息等。信息抽取与信息检索不同,信息抽取直接从自然语言文本中抽取信息框架,一般是用户感兴趣的事实信息,而信息检索主要是从海量文档集合中找到与用户需求相关的文档列表。
8、文本挖掘:又称数据挖掘,从文本(多指网络文本)中获取高质量信息的过程。文本挖掘技术一般涉及文本分类、文本聚类、概念或实体抽取、粒度分类、情感分析、自动文摘和实体关系建模等多种技术。
9、舆情分析:由于网上的信息量巨大,仅仅依靠人工的方法难以应对海量信息的收集和处理,需要加强相关信息技术的研究,形成一套自动化的网络舆情分析系统,及时应对网络舆情。
10、隐喻计算:隐喻就是用乙事物或其某些特征来描述甲事物的语言现象
11、文字编辑和自动校对:对文字拼写、用词、甚至语法、文档格式等进行自动检查、校对和编排。
12、作文自动评分、光读字符识别、语音识别、文语转换、说话人识别/认证/验证等。

(二)预备知识

1、概率论

1.1概率
1.2最大似然估计
1.3条件概率
1.4贝叶斯法则
1.5随机变量
1.6二项式分布
1.7联合概率分布和条件概率分布
1.8贝叶斯决策理论
1.9期望和方差

2、信息论基本概念

2.1熵

又称为自信息,可以视为描述一个随机变量的不确定性的数量,它表示信源X每发一个符号(不论发什么符号)所提供的平均信息量,一个随机变量的熵越大,他的不确定性越大,那么正确估计其值的可能性就越小。越不确定的随机变量越需要大的信息量用以确定其值。

2.2联合熵和条件熵

联合熵H(X,Y)实际上是描述一对随机变量平均所需要的信息量
给定随机变量X的情况下,随舰变量Y的条件熵H(Y|X)
熵的连锁反应:
H(X|Y) = H(X)+H(Y|X)

2.3互信息

根据熵的连锁规则
H(X|Y) = H(X)+H(Y|X) = H(Y)+H(X|Y)
因此
H(X)-H(X|Y)=H(Y)-H(Y|X)
这个差叫做X和Y的互信息,极坐I(X;Y),或者定义为
如果(X,Y)~p(x,y),则X,Y直接的互信息
I(X;Y) = H(X)-H(X|Y)
I(X;Y)反映的是在知道了Y的值以后X的不确定性的减少的确定量,可以理解为Y的值透露了多少关于X的信息量。
两个完全相互依赖的变量之间的互信息不是一个常量,而取决于他们的熵。如果I(X;Y)大于等于0,表明X和Y是高度相关的,I(X;Y)等于0,表明X和Y是相互独立的,如果小于0,表明Y的出现不但没有使得X的不确定性减少,反而增大了X的不确定性,平均互信息量是非负的。

2.4相对熵

又称kullback-Leibler差异,简称kl距离,是衡量相同时间空间里两个概率分布相对差距的测度。显然,当两个随机分布完全相同时,其相对熵为0.当两个随机分布的差别增加时,其相对熵期望值也增大。
互信息实际上就是衡量一个联合分布与独立性差距多大的测度

2.5交叉熵

用来衡量估计模型与真实概率分布之间差异情况的。交叉熵与模型在测试语料中分配给每个单词的平均概率所表达的含义正好相反,模型的交叉熵越小,模型的表现越好。

2.6困惑度

在设计语言模型时,我们通常用困惑度来代替交叉熵衡量语言模型好坏。
语言模型设计任务就是寻找困惑度最小的模型,使其最接近真实语言的情况,在自然语言处理中,我们所说的语言模型的困惑度通常是指语言模型对于测试数据的困惑度,一般情况下把所有数据分成两部分,一部分作为训练数据,用于估计模型的参数,另一部分数据作为测试数据,用于评估语言模型的质量。

2.7噪声信道模型

信息熵可以定量地估计信源每发出一个符号所提供的平均信息量,但对于通信系统来说,最根本的问题还是在于如何定量地估算从信道输出中获取多少信息量。
噪声信道模型的目标是优化在噪声信道中信号传输的吞吐量和准确率,其基本假设是一个信道的输出以一定概率依赖于输入

3、支持向量机

支持向量机(support vector machine,SVM)是在高维特征空间使用线性函数假设空间的学习系统,在分类方面具有良好的性能。
在感知器模型中,我们可以找到多个可以分类的超平面将数据分开,并且优化时希望所有的点都离超平面尽可能的远,但是实际上离超平面足够远的点基本上都是被正确分类的,所以这个是没有意义的;反而比较关心那些离超平面很近的点,这些点比较容易分错。所以说我们只要让离超平面比较近的点尽可能的远离这个超平面,那么我们的模型分类效果应该就会比较不错。SVM其实就是这个思想。
支持向量(Support Vector):离分割超平面最近的那些点叫做支持向量。

3.1线性分类

在数据集中,如果可以找出一个超平面,将两组数据分开,那么这个数据集叫做线性可分数据。
读宗成庆老师著统计自然语言处理书笔记整理(1)_第1张图片

3.2线性不可分

在数据集中,没法找出一个超平面,能够将两组数据分开,那么这个数据集就叫做线性不可分数据。
读宗成庆老师著统计自然语言处理书笔记整理(1)_第2张图片

3.3构造核函数

核函数是特征转换函数。
1、线性核函数:这是最简单的核函数,它直接计算两个输入特征向量的内积。

  • 优点:简单高效,结果易解释,总能生成一个最简洁的线性分割超平面
  • 缺点:只适用线性可分的数据集
    2、多项式核函数:通过多项式来作为特征映射函数
  • 优点:可以拟合出复杂的分割超平面。
  • 缺点:参数太多。有γ,c,nγ,c,n三个参数要选择,选择起来比较困难;另外多项式的阶数不宜太高否则会给模型求解带来困难。

3、高斯核函数:

  • 优点:可以把特征映射到无限多维,并且没有多项式计算那么困难,参数也比较好选择。
  • 缺点:不容易解释,计算速度比较慢,容易过拟合。

你可能感兴趣的:(读宗成庆老师著统计自然语言处理书笔记整理(1))