自然语言处理部分内容---NLP

词法分析,句法分析,词嵌入与词向量。

词法分析:

中文分词和词性标注等词法分析任务一般被称为 中文词法分析。

词法分析,词与词之间没有空格界限,切分歧义消除和未登录词识别。词性标注,就是对于给定的句子判断每个词的语法范畴,确定词性,加以标注。

中文词法分析主要方法是,基于规则的,基于统计的,基于规则和统计的方法。Word Segmentation,就是让计算机在文本中的词与词之间自动加上空格或者其他边界标记。

中文分词的两种解决方法介绍如下:基于词典的方法,基于统计的方法

基于词典的分词方法,将带切分的文本与一个足够大的词典中的词语进行匹配。根据对待切分文本的扫描顺序不同,分为正向扫描法,逆向扫描法,双向扫描法。根据匹配原则不同,最大匹配法,最小匹配法,逐词匹配法,最佳匹配法。

基于统计的分词方法,词频。

关键词提取,

TF-IDF算法:对于一个单词word在一篇文档document中的重要性。如何去衡量这个重要性指标,直观上感受,该指标正比于该单词word出现在该文档document中的频率,频率越高,说明是关键词的可能性就越大;同时,该指标将反比于该单词出现在所有文档中的出现的频率,比如说,对于a,the,of,这些词在所有的文档中的出现的频率都很高,导致这个词a,the,of的标识性就不够,不够有特色,降低了该指标值。

TF-IDF,Term Frequen词频率,Inverse Document Frequency逆文档频率。

TextRank算法,类似于PageRank,其中各个词之间的联系权重,用词之间共同出现的频率作为衡量标准,定义一个包含k个词的滑动窗口,华东矿口每滑动一个词,统计窗口内所有无序对的出现次数,词之间的联系可由总权重表示,m'_{ij} = co(v_i,v_j),归一化后m_{ij} =\frac{m'_{ij}}{\sum_{j=1}^{n}m'_{ij}},其中,n表示的是文档总数。

隐马尔可夫模型,无后效性,某状态只与其前个状态有关 ,时间状态的取值都是离散的,状态转移矩阵。隐状态之间的转移概率,隐状态X的取值空间,隐状态到观测状态的输出频率。

Viterbi算法,寻找最有可能产生观测事件序列的隐含状态序列,可以用于解决隐马尔科夫模型的解码问题。

最大熵模型

命名实体识别

命名实体识别,识别文本中具有特定意义的实体。主要分为三大类,实体类、时间类和数字类,七小类,人名、机构名、地名、时间、日期、货币、百分比。命名实体识别任务主要包括两个部分,实体边界识别,确定实体识别(人名、地名、机构名或者其他)。

条件随机场

句法分析

句法分析的目标是分析输入的句子并得到其句法结构。句法分析,就是根据给定的文法,自动识别句子所包含的句法单位,以及这些句法单位之间的关系。成分句法分析和依存句法分析。结果一般是句法树。句法分析主要包括两种,基于规则的,基于统计的。

基于统计的方法:

树库:

句法分析模型性能评测指标。

概率上下文无关文法:

依存句法分析:

基于图模型的依存句法分析,基于转移模型的依存句法分析。

中文句法分析工具简介:

哈工大LTP

你可能感兴趣的:(自然语言处理,人工智能,深度学习)