自然语言处理(NLP)基础部分(一)

 

自然语言处理(NLP)基础部分(一)     

什么是NLP?

自然语言是指汉语、英语、法语等人们日常使用的语言,是自然而然的随着人类社会发 展演变而来的语言,而不是人造的语言,它是人类学习生活的重要工具。概括说来,自然语 言是指人类社会约定俗成的,区别于人工语言,如程序设计的语言。

NLP=NLU+NLG

NLU(natural language understanding):自然语言理解,根据文本/语音,理解意思(meaning)

NLG(natural language generation)自然语言生成,根据理解到的意思,输出文本/语音

自然语言处理相比其他的机器学习问题要难 例如比计算机视觉较难(NLP is harder than CV)

 

自然语言处理面临的挑战

(1)多种表达方式 (multiple Ways to Express)

例如: 华为新出了一部手机。

            华为推出了一部手机。

            这部手机是华为新出的。

可以看的出来不同的几句话表达的意思是一样。

(2)一词多义(ambiguity)

例如:今天参观了苹果公司  (公司)

          今天吃了两个苹果    (水果)

两个名词,但是意思不同。

举个例子:怎样去解决一词多意呢?

自然语言处理(NLP)基础部分(一)_第1张图片

自然语言处理(NLP)基础部分(一)_第2张图片

 

自然语言处理(NLP)基础部分(一)_第3张图片

从这三个示意图可以看出,我们在解决ambiguity问题时,可以根据这个单词在所在的语料库里边的概率,选择概率高的做为结果,例如当在  国际商用机器公司 相关的预料库中interest被理解为所有权的概率高,就把他理解为所有权。这样的话我们就能够得到最为可能的答案,但关于解决一词多义问题,有很多的方法,但并没有完全能够正确达到我们想要的结果,这还是当前研究的主要问题之一。

浅谈 NLP中的机器翻译(解决问题的思路)

 

自然语言处理(NLP)基础部分(一)_第4张图片

流程: 根据输入的“中文文本” ,通过类似于字典的“中文转换英文 文本 ”统计分析得出翻译的结果,下一步“Broken English”把句子里的单词分离开,下一步通过“英文文本” 统计分析出来,上一步所到的单词如何组合是符合语法结构的英语。(上边第一个黄色方块实际上TL(Translation Model翻译模型),第二个黄色方块实际上是叫做LM(language model 语言模型)

下面用一个例子来说明上边这段文字。

今晚的电影很有意思

经过分词的方法(后边的文章为提到分词一般的实现方法,现在只知道分词就可以了)

今晚 |的 | 电影 | 很 |有意思

Tonight,of,movie,very,interesting.

经过LM 得出自由组合中概率最高(符合语法的)(movie of tonight  very interesting)

这个问题其实可以优化为 将中文经过一个模块得到英文   这个模块是(d a(decoding  algorithm)译码算法,例如很有名的维特比译码算法)

自然语言处理(NLP)基础部分(一)_第5张图片

 

可以看出全球机器翻译的难点在于非英语地区。(废话)

 

 

NLP 的应用场景

Question Answer (问答系统

自然语言处理(NLP)基础部分(一)_第6张图片

 

Sentiment Analysis(情感分析)

自然语言处理(NLP)基础部分(一)_第7张图片

(Sentiment Analysis)情感分析处理方法

自然语言处理(NLP)基础部分(一)_第8张图片

机器翻译(machine translation)

例如谷歌翻译 上边已经举过例子

Text Summarization(自动摘要)

 

自然语言处理(NLP)基础部分(一)_第9张图片

   文本摘要方法能够对冗长文本进行简洁准确的总结,同时将重点放在传达有用信息的章节,而又不失去文章大意。

   文本自动摘要旨在将冗长文档变成缩写版本,若手动完成则可能非常麻烦且成本高昂。

   在生成需要的摘要文本之前,机器学习算法可被训练用以理解文档,识别传达重要事实和信息的章节。

Chatbot(聊天机器人)

聊天机器人类似于问答系统

 

自然语言处理(NLP)基础部分(一)_第10张图片

 

Information Extraction(信息抽取)

自然语言处理(NLP)基础部分(一)_第11张图片

 

下边我再提一些关于NLP的内容为后边的知识做铺垫

NLP的关键技术

自然语言处理的四个维度:(自下而上)

Semantic(语义)       :NLU(自然语言理解)  机器学习算法(更好的去理解语义)

Syntax(句⼦结构)   :句法分析 (不同语言不一样) 依存分析(不同单词之间的关系)

Morphology(单词) :单词层面的技术(词性标注,分词,命名识别体(NER) 这三个现在技术已经可以达到理想结果 )

Phonetics(声⾳):语音识别类

看NLP论文中经常会出现这些词汇,所以应该知道这几个单词代表的层面。

 

例如 单词层面Morphology    分词(Words Segmentation) 用在中文中,英文分词的话可以用标间符号或者空格实现。中文则必须要有这么一个算法。

例如   上边提到的     今晚的电影很有意思   --->  今晚| 的| 电影|很|有意思

 

part-of-speech(词性)

单词具有(动词,名词啊等等)

Named Entity Recognition (命名实体识别)

抽取出感兴趣的特征  例如一句话中的时间,地点。。。。

自然语言处理(NLP)基础部分(一)_第12张图片

自然语言处理(NLP)基础部分(一)_第13张图片

 

 

自然语言处理(NLP)基础部分(一)_第14张图片

 

这篇文章就分享到这里,主要分享了NLP的概念,和NLP的应用方向,处理问题的一般思路,还有一些NLP相关的名词解释。希望能够对大家带来帮助。

                                                                                                                                                                     记得点赞,欢迎交流 

                                                                                                                                                                      作者:NLProokie

 

你可能感兴趣的:(机器学习,自然语言处理,NLP,自然语言处理,人工智能,nlp,机器学习)