目录
什么是NLP
NLP的重要性
NLP的发展
NLP的任务及应用
NLP实施步骤
自然语言处理有哪些方法?
监督 NLP
非监督 NLP
自然语言理解
自然语言生成
NLP 的5个难点
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它是一种机器学习技术,目的是使计算机能够解读、处理,和生成人类生活语言,实现人机之间的信息交流。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。
随着人类进入智能时代,智能设备和数据量都空前增长,通过语音和语言进行人机交互的需求也在急速增长;让机器变得善解人意变得至关重要。
人们可以用自己最习惯的语言来使用计算机,与计算机进行有效通信,而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言;
人们也可通过它进一步了解人类的语言能力和智能的机制。
自然语言处理对于高效全面分析文本和语音数据至关重要。其可以处理日常对话中的方言、俚语和典型语法异常方面的差异。公司将其用于一些自动化任务,这种自动化流程有助于降低成本,节省座席在冗余查询上花费的时间,并提高客户满意度。
20世纪50年代到70年代——采用基于规则的方法
初期的的自然语言处理主要采用基于规则的方法[1],研究人员们认为自然语言处理的过程和人类学习认知一门语言的过程是类似的,所以大量的研究员基于这个观点来进行研究,但是基于规则的方法具有不可避免的缺点,首先规则不可能覆盖所有语句,其次这种方法对开发者的要求极高,开发者不仅要精通计算机还要精通语言学,因此,这一阶段虽然解决了一些简单的问题,但是无法从根本上将自然语言理解实用化。
70年代以后随着互联网的高速发展,丰富的语料库成为现实以及硬件不断更新完善,基于统计的方法逐渐代替了基于规则的方法。贾里尼克和他领导的IBM华生实验室是推动这一转变的关键,他们采用基于统计的方法,将当时的语音识别率从70%提升到90%。在这一阶段,自然语言处理基于数学模型和统计的方法取得了实质性的突破,从实验室走向实际应用。
2008年到2019年——深度学习的RNN、LSTM、GRU
在图像识别和语音识别领域的成果激励下,人们也逐渐开始引入深度学习来做自然语言处理研究,由最初的词向量到2013年的word2vec,将深度学习与自然语言处理的结合推向了高潮,并在机器翻译、问答系统、阅读理解等领域取得了一定成功。深度学习是一个多层的神经网络,从输入层开始经过逐层非线性的变化得到输出。从输入到输出做端到端的训练。把输入到输出对的数据准备好,设计并训练一个神经网络,即可执行预想的任务。RNN已经是自然语言处理最常用的方法之一,GRU、LSTM等模型相继引发了一轮又一轮的热潮。
2019后
近年来,预训练语言模型在自然语言处理领域有了重要进展。预训练模型指的是首先在大规模无监督的语料上进行长时间的无监督或者是自监督的预先训练(pre-training),获得通用的语言建模和表示能力。之后在应用到实际任务上时对模型不需要做大的改动,只需要在原有语言表示模型上增加针对特定任务获得输出结果的输出层,并使用任务语料对模型进行少许训练即可,这一步骤被称作微调(fine tuning)。自 ELMo、GPT、BERT 等一系列预训练语言表示模型(Pre-trained Language Representation Model)出现以来,预训练模型在绝大多数自然语言处理任务上都展现出了远远超过传统模型的效果,受到越来越多的关注,是 NLP 领域近年来最大的突破之一,是自然语言处理领域的最重要进展。
1.机器翻译
机器翻译软件使用自然语言处理将我们输入的源信息从一种语言翻译成另一种语言,在无需任何人工干预下同时保留上下文的准确性。最著名的应用程序可能是Google Translate,Amazon Translate
Google翻译基于SMT-统计机器翻译。这不是单字逐字替换的工作。Google翻译会搜集尽可能多的文本,然后对数据进行处理来找到合适的翻译。
机器翻译从最早的基于规则的方法到二十年前的基于统计的方法,再到今天的基于神经网络(编码-解码)的方法,逐渐形成了一套比较严谨的方法体系。
2.语音识别
语音识别是将输入计算机的语音数据识别转换成书面语表示。
它的应用包括移动电话,家庭自动化,视频游戏,语音助手(Siri等)。它们不是那么完美。对于更复杂的任务或是日常对话中出现的挑战,例如口音、辱骂、语调和语法使用不当,NLP和神经网络无法很好地应对其任务。但是谁知道呢,也许这个问题会随着时间很快就会解决。
语音识别的一个关键应用是转录,
3.情感分析
情感分析是一种有趣的NLP和数据挖掘任务,用于衡量人们的观点倾向,解释文本数据传达的情感。NLP 软件会分析文本中是否存在表现不满、快乐、怀疑、遗憾和其他隐藏情感的字词或短语,例如,我们可以对电影评论或由该电影引起的情绪状态进行分析。
情感分析有助于检查顾客对商品或服务是否满意。人们愿意在社交网络上分享他们的观点。搜索负面文本和识别主要的投诉可以显著地帮助改变概念、改进产品和广告,并减少不满的程度。反过来,明确的正面评论会提高收视率和需求。
4.问答系统
问答系统(QA)是一种涉及到构建能够用自然语言自动回答人类提出的问题的系统。下面是一些真正的问答应用程序:Siri、OK谷歌、和虚拟助理。虽然之前也提到过这些应用程序,但是理解语音只是其中的一半,另一个自然是给出响应与回答。
5.自动摘要
回到我们每天面对的文本数据量,信息过载是一个巨大的挑战,但是现在NLP技术让我们拥有了自动过滤和汇总的能力。这是为较长的文本文档创建简短,准确且流利的摘要的过程。使用自动摘要的最重要优点是可以减少阅读时间。
以下是可以尝试的一些API:Aylien文本分析,MeaningCloud摘要,ML分析器,文本摘要。
6.聊天机器人
目前聊天机器人广泛运用于即时通讯平台,例如Facebook Messenger、微信、LINE和Kik,以娱乐、零售行销、以及客服为目的。NLP已经成为创建聊天机器人的基础,尽管这样的系统并不是那么完美,但它们可以轻松地处理标准任务。聊天机器人当前可在多种渠道上运行,包括Internet,应用程序和消息传递平台。
7.市场预测
营销人员还使用NLP来搜索有可能或明确打算购物的人。Internet上的行为,维护社交网络上的页面以及对搜索引擎的查询提供了许多有用的非结构化客户数据。Google可以充分利用这些数据来向互联网用户销售合适的广告。每当访问者点击广告时,广告客户就要向Google付费。点击的成本从几美分到超过50美元不等。
市场情报的核心是使用多种信息源来全面了解公司的现有市场,客户,问题,竞争以及新产品和服务的增长潜力。用于分析的原始数据来源包括销售日志,调查和社交媒体等。
8.文本分类
文本分类用机器对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。通过使用NLP技术,文本分类器可以自动分析文本,然后根据其内容分配一组预定义标签或类别。
9.字符识别
字符识别系统还具有许多应用程序,例如收据字符识别,发票字符识别,支票字符识别,合法开票凭证字符识别等。是现在最常用的NLP应用之一
10.拼写检查
拼写检查器是一种软件工具,可识别并纠正文本中的所有拼写错误。大多数文本编辑器允许用户检查其文本是否包含拼写错误。最直接的例子之一是Grammarly。这是一个在线语法检查器,可扫描您的文本以查找所有类型的错误,从错别字到句子结构问题等等。
11.词性标注
在此流程中,NLP 软件根据上下文用法(例如名词、动词、形容词或副词)标记句子中的单个字词。其帮助计算机理解字词如何相互形成有含义的关系。
12.词义消歧
一些字词用于不同场景时可能具有不同的含义。例如,字词 bat 在这些句子中的含义不同:
借助词义消歧,NLP 软件通过训练语言模型或参考字典定义来识别字词的预期含义。
1. 获取语料
一般来说,NLP 流程首先从来源(例如云数据仓库、调查、电子邮件或内部业务流程应用程序)收集和准备非结构化文本或语音数据。
2.预处理
NLP 软件使用预处理技术(例如分词、词干、词形还原和停用词删除)为各种应用程序准备数据。
3.特征工程
这一步主要的工作是将分词表示成计算机识别的计算类型,一般为向量,常用的表示模型有:
传统向量表示
分布式向量表示
4. 特征选择
特征选择主要是基于第三步特征工程得到的特征,选择合适的、表达能力强的特征,常见的文本特征选择方法主要有:
统计特征词出现的文档数量,用来衡量某个特征词的重要性
互信息法用于衡量特征词与文档类别直接的信息量
信息增益法,通过某个特征词的缺失与存在的两种情况下,语料中前后信息的增加,衡量某个特征词的重要性。
CHI特征选择算法利用了统计学中的"假设检验"的基本思想:首先假设特征词与类别直接是不相关的,如果利用CHI分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备则假设:特征词与类别有着很高的关联度。
最后一个介绍的算法,是由苏大李寿山老师提出的算法。通过以上的五种算法的分析,李寿 山老师认为,"好"的特征应该有以下特点:好的特征应该有较高的文档频率;好的特征应该有较高的文档类别比例
5. 模型选择
当选择好特征后,需要进行模型选择,选择什么样的模型进行训练。常用的有机器学习模型,比如:KNN、SVM、Naive Bayes、决策树、K-means等;深度学习模型,比如:RNN、CNN、LSTM、Seq2Seq、FastText、TextCNN 等。
6. 模型训练
当选择好模型后,则进行模型训练,其中包括了模型微调等。在模型训练的过程中要注意由于在训练集上表现很好,但在测试集上表现很差的过拟合问题以及模型不能很好地拟合数据的欠拟合问题。同时,也要防止出现梯度消失和梯度爆炸问题。
7. 模型评估
模型的评价指标主要有:错误率、精准度、准确率、召回率、F1 值、ROC 曲线、AUC 曲线等。
8. 投产上线
模型的投产上线方式主要有两种:一种是线下训练模型,然后将模型进行线上部署提供服务;另一种是在线训练模型,在线训练完成后将模型 pickle 持久化,提供对外服务。
训练 NLP 算法需要向软件提供大量数据样本,以提高算法的准确性。
以下提供一些常用的自然语言处理方法[2]
监督 NLP 方法使用一套已标记或已知的输入和输出来训练软件。该程序首先处理大量已知数据,并学习如何从任何未知输入生成正确输出。例如,公司训练 NLP 工具根据特定标签对文档进行分类。
非监督 NLP 使用统计语言模型预测在提供非标签输入时出现的模式。例如,文本消息收发中的自动完成功能通过监控用户的回复来建议对句子有含义的相关字词。
自然语言理解 (NLU) 是 NLP 的一个子集,专注于分析句子背后的含义。NLU 使该软件能够在不同的句子中找到类似含义或处理具有不同含义的字词。
自然语言生成 (NLG) 专注于根据特定的关键字或主题生成像人类对话一样的对话文本。例如,具有 NLG 功能的智能聊天机器人能够以类似于客户支持人员行为的方式与客户交谈。
[1] Natural language processing. (2022, November 10). In Wikipedia. https://en.wikipedia.org/wiki/Natural_language_processing
[2]什么是自然语言处理?- NLP - AWS
[3]一文看懂自然语言处理NLP(4个应用+5个难点+6个实现步骤)