【机器学习】自然语言处理中的关键技术

目录

    • 参考
    • 分词
      • 规则分词
      • 统计分析
      • 深度学习分词
      • 混合分词
    • 词性标注的定义
    • 命名实体识别
      • 深度学习NER
    • 关键词提取
      • TF-IDF算法
      • TextRank算法
      • LSA/LSI/LDA算法
      • LSA\LSI算法
      • LDA算法

参考

华为云学院

分词

中文分词(Chinese Word Segmentation):指的是将一个汉字序列切分成一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
例如:一九九八年/中国/实现/进出口/总值/达/一千零九十八点二亿/美元

规则分词

规则分词:一种机械分词方法,主要是通过维护词典,在切分语句时,将语句中的每个字符串与词表中的词进行逐一匹配,找到则切分,否则不予切分。按照匹配切分的方式,主要有:
(1)正向最大匹配法(Maximum Match Method,MM法)
(2)逆向最大匹配法(Reverse Maximum Match Method,RMM法)
(3)双向最大匹配法(Bi-direction Match Method,MM法)
特点:简单高效,词典维护困难。网络新词层出不穷,词典很难覆盖所有词。

统计分析

将分词作为字在字串中的序列标注任务来实现。每个字在构造一个特定的词语时都占据着一个确定的构词位置,如果相连的字在不同的文本中出现的次数越多,就证明这相连的字很可能就是一个词。
【机器学习】自然语言处理中的关键技术_第1张图片
步骤:
(1)建立统计语言模型
(2)对句子进行单词划分,然后对结果进行概率计算,获得概率最大的分词方式。如隐马尔科夫(HMM)、条件随机场(CRF)等。

深度学习分词

使用word2vec对词料的词进行嵌入,得到词嵌入后,用词嵌入特征输入给双向LSTM,对输出的隐层加一个线性层,然后加一个CRF得到最终实现的模型。
【机器学习】自然语言处理中的关键技术_第2张图片

混合分词

在实际工程应用中,多是基于一种分词算法,最常用的是先基于词典的方式分词,再用统计分词方式进行辅助。

词性标注的定义

词性标注是指为分词结果中的每个单词标注一个正确的词性的过程。比如一个词是名词、动词、形容词或其他词性。
词性:词汇基本的语法属性。
目的:是很多NLP任务的预处理步骤,如句法分析、信息抽取,经过词性标注后的文本会带来很大的便利性,但也不是不可或缺。
方法:基于规则的方法、基于统计的方法、基于深度学习的方法。

命名实体识别

命名实体识别(Named Entities Recognition,NER):又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。例如:冶金/n 工业部/n 洛阳/ns 耐火材料/l 研究院/n。
NER研究的命名实体一般分为3大类(实体类、时间类和数字类)和7小类(人名、地名、组织机构名、时间、日期、货币和百分比)。
与自动分词、词性标注一样,命名实体识别也是自然语言中的一个基础任务,是信息抽取、信息检索、机器翻译、问答系统等技术必不可少的组成部分。
步骤:(1)实体边界识别。(2)确定实体类别(人名、地名、机构名)
难点:(1)各类命名实体的数量众多。(2)命名实体的构成规律复杂。(3)嵌套情况复杂。(4)长度不确定

深度学习NER

【机器学习】自然语言处理中的关键技术_第3张图片

关键词提取

关键词是代表文章重要内容的一组词,现实中大量文本不包含关键词,因此自动提取关键词技术能使人们便捷地浏览和获取信息,对文本聚类、分类、自动摘要等起重要的作用。
关键词提取算法一般也可以分为有监督和无监督两类。
有监督:通过分类的方式进行,通过构建一个较为丰富和完善 的词表,然后通过判断每个文档与词表中每个词的匹配程度,以类似打标签的方式,达到提取关键词的效果。
无监督:不需要人工生成、维护的词表,不要人工标准语料辅助进行训练。例如,TF-IDF算法、TextRank算法、主题模型算法(LSA、LSI、LDA)

TF-IDF算法

词频-逆文档频率算法(Term Frequency-Inverse Document Frequency,TF-IDF):是一种基于统计的计算方法,常用于评估在一个文档集中一个词对某份文档的重要程度。
【机器学习】自然语言处理中的关键技术_第4张图片

TextRank算法

TextRank算法的基本思想来源于Google的PageRank算法。PR算法用来评价搜索系统覆盖网页重要性的一种方法。其基本思想有两条:
(1)链接数量。一个网页被越多的其他网页链接,说明这个网页越重要。
(2)链接质量。一个网页被一个越高权重的网页链接,也能说明这个网页重要。
【机器学习】自然语言处理中的关键技术_第5张图片

LSA/LSI/LDA算法

主题模型认为在词与文档之间没有直接的联系,它们应当还有一个维度将它们串联起来,这个维度称为主题。每个文档都应该你对应着一个或者多个主题,而每个主题都会有对应的词分布,通过主题可以得到每个文档的词分布。
【机器学习】自然语言处理中的关键技术_第6张图片

LSA\LSI算法

【机器学习】自然语言处理中的关键技术_第7张图片

LDA算法

【机器学习】自然语言处理中的关键技术_第8张图片
【机器学习】自然语言处理中的关键技术_第9张图片

你可能感兴趣的:(机器学习,机器学习,自然语言处理,深度学习)