自然语言处理(NLP)基础部分(一)
自然语言是指汉语、英语、法语等人们日常使用的语言,是自然而然的随着人类社会发 展演变而来的语言,而不是人造的语言,它是人类学习生活的重要工具。概括说来,自然语 言是指人类社会约定俗成的,区别于人工语言,如程序设计的语言。
NLP=NLU+NLG
NLU(natural language understanding):自然语言理解,根据文本/语音,理解意思(meaning)
NLG(natural language generation)自然语言生成,根据理解到的意思,输出文本/语音
自然语言处理相比其他的机器学习问题要难 例如比计算机视觉较难(NLP is harder than CV)
(1)多种表达方式 (multiple Ways to Express)
例如: 华为新出了一部手机。
华为推出了一部手机。
这部手机是华为新出的。
可以看的出来不同的几句话表达的意思是一样。
(2)一词多义(ambiguity)
例如:今天参观了苹果公司 (公司)
今天吃了两个苹果 (水果)
两个名词,但是意思不同。
举个例子:怎样去解决一词多意呢?
从这三个示意图可以看出,我们在解决ambiguity问题时,可以根据这个单词在所在的语料库里边的概率,选择概率高的做为结果,例如当在 国际商用机器公司 相关的预料库中interest被理解为所有权的概率高,就把他理解为所有权。这样的话我们就能够得到最为可能的答案,但关于解决一词多义问题,有很多的方法,但并没有完全能够正确达到我们想要的结果,这还是当前研究的主要问题之一。
流程: 根据输入的“中文文本” ,通过类似于字典的“中文转换英文 文本 ”统计分析得出翻译的结果,下一步“Broken English”把句子里的单词分离开,下一步通过“英文文本” 统计分析出来,上一步所到的单词如何组合是符合语法结构的英语。(上边第一个黄色方块实际上TL(Translation Model翻译模型),第二个黄色方块实际上是叫做LM(language model 语言模型)
下面用一个例子来说明上边这段文字。
今晚的电影很有意思
经过分词的方法(后边的文章为提到分词一般的实现方法,现在只知道分词就可以了)
今晚 |的 | 电影 | 很 |有意思
Tonight,of,movie,very,interesting.
经过LM 得出自由组合中概率最高(符合语法的)(movie of tonight very interesting)
这个问题其实可以优化为 将中文经过一个模块得到英文 这个模块是(d a(decoding algorithm)译码算法,例如很有名的维特比译码算法)
可以看出全球机器翻译的难点在于非英语地区。(废话)
Question Answer (问答系统)
Sentiment Analysis(情感分析)
(Sentiment Analysis)情感分析处理方法
机器翻译(machine translation)
例如谷歌翻译 上边已经举过例子
Text Summarization(自动摘要)
文本摘要方法能够对冗长文本进行简洁准确的总结,同时将重点放在传达有用信息的章节,而又不失去文章大意。
文本自动摘要旨在将冗长文档变成缩写版本,若手动完成则可能非常麻烦且成本高昂。
在生成需要的摘要文本之前,机器学习算法可被训练用以理解文档,识别传达重要事实和信息的章节。
Chatbot(聊天机器人)
聊天机器人类似于问答系统
Information Extraction(信息抽取)
下边我再提一些关于NLP的内容为后边的知识做铺垫
自然语言处理的四个维度:(自下而上)
Semantic(语义) :NLU(自然语言理解) 机器学习算法(更好的去理解语义)
Syntax(句⼦结构) :句法分析 (不同语言不一样) 依存分析(不同单词之间的关系)
Morphology(单词) :单词层面的技术(词性标注,分词,命名识别体(NER) 这三个现在技术已经可以达到理想结果 )
Phonetics(声⾳):语音识别类
看NLP论文中经常会出现这些词汇,所以应该知道这几个单词代表的层面。
例如 单词层面Morphology 分词(Words Segmentation) 用在中文中,英文分词的话可以用标间符号或者空格实现。中文则必须要有这么一个算法。
例如 上边提到的 今晚的电影很有意思 ---> 今晚| 的| 电影|很|有意思
part-of-speech(词性)
单词具有(动词,名词啊等等)
Named Entity Recognition (命名实体识别)
抽取出感兴趣的特征 例如一句话中的时间,地点。。。。
这篇文章就分享到这里,主要分享了NLP的概念,和NLP的应用方向,处理问题的一般思路,还有一些NLP相关的名词解释。希望能够对大家带来帮助。
记得点赞,欢迎交流
作者:NLProokie