深度学习在自然语言处理中的应用

综述的大体部分

自然语言处理的基础研究主要包括词法分析、句法分析、语义分析、语用语境与篇章分析等的研究。

词向量(Word embedding 或Word representation) 方法,可以将词映射转换到一个独立的向量空间

自然语言处理技术中采用深度学习知识的原因可以总结为以下几点:

1、自然语言处理任务中首先要解决的问题是处理对象的表示形式,为了表示对象,通常必须抽取一些特征,如文本的处理中,常常用词集合来表示一个文档。传统依赖手工的方式抽取特征,费时费力,不仅获取过程比较随意,且完备性较差,同时,根据处理任务或领域的不同,特征提取工作要重复进行,无法实现表示共享。深度学习中的特征提取,即指可以自动从数据中学习获取特征,这也是考虑在自然语言处理技术中采用深度学习知识的主要原因。

2、目前大多数效果较好的自然语言处理任务和机器学习方法都依赖于标注数据,实际应用而言,自然语言中大量存在的是未标注数据。深度神经网络采用无监督方式完成预训练过程,恰恰提供了合适的训练模型。

3、深度学习结构一般由多层神经网络结点组成,其预训练过程通常需要高性能计算的支持,硬件及软件技术的发展,都为当前采用深度学习结构的自然语言处理提供了良好支撑环境。

如何将深度学习与现有自然语言处理具体任务结合:

比较直接简单的做法是,以词或短语作为原始输入,构建向量类型的表达方式,经过深度学习分层学习后得到的特征可以添加进现有基于特征的半监督学习系统中进行处理。

中文自然语言处理的难点:

首先由于每个汉字都包含不同的含义,需要为每个含义获取相应的表示。另外使用同音词或者多义词来为词语学习单一表征反而可能会影响最终的表征结果,由于多个含义之间的相互影响,不能准确表示任何一个含义。其次,需要进一步考虑训练语料问题,如何保证系统的鲁棒性、通用性,保证能够在不同领域都得到较好的效果,另外需要考虑新生词、网络用语等的识别问题。最后,需要考虑语料是否是越多越好,在训练学习的过程中,需要能够检测训练情况,避免过大的数据训练,破坏汉字的分布式表示。并且英文分词可以根据空格分词,而中文则不能简单的按照标点符号划分,需要联系上下文,考虑词性,词意。

参考文献

[1]竺宝宝, 张娜. 基于深度学习的自然语言处理[J]. 无线互联科技, 2017(10):25-26.

[2]吴轲. 基于深度学习的中文自然语言处理[D]. 东南大学, 2014.

[3]朱国进, 沈盼宇. 基于深度学习的算法知识实体识别与发现[J]. 智能计算机与应用, 2017, 7(1):17-21.

[4] 冯志伟. 自然语言处理的历史与现状[J]. 中国外语, 2008, 5(1):14-22.

[5] 姜倩盼. 自然语言处理的挑战与未来[J]. 信息与电脑:理论版, 2013(7):219-221.

[6] 翟剑锋. 深度学习在自然语言处理中的应用[J]. 电脑编程技巧与维护, 2013(18):74-76.

你可能感兴趣的:(实习)