自然语言学习计算机的关系

自然语言与我的专业的关系
我是一名计算机科学与技术的本科生,我认为在自然语言与计算机的应用主要是在处理字符和处理人工智能与人之间的交换的一种语言,它并不是我们想的什么java,python,c++.等,它是让我们知道利用这些语言去处理实际生活中的
(解决交叉歧义)
分词(Word Segmentation) :将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列
例句:致毕业和尚未毕业的同学。
分词:

  1. 致 毕业 和 尚未 毕业 的 同学
  2. 致 毕业 和尚 未 毕业 的 同学

案例2(从粒度整合未登录体词)
命名实体识别(Named Entity Recognition):识别自然语言文本中具有特定意义的实体(人、地、机构、时间、作品等)
例句:天使爱美丽在线观看
分词:天使 爱 美丽 在线 观看
实体: 天使爱美丽 -> 电影

案例3(结构歧义问题)
词性标注(Part-Speech Tagging): 为自然语言文本中的每个词汇赋予一个词性(名词、动词、形容词等) 依存句法分析(Dependency Parsing):自动分析句子中的句法成分(主语、谓语、宾语、定语、状语和补语等成分)
评论:房间里还可以欣赏日出
歧义:

  1. 房间还可以
  2. 可以欣赏日出
    词性:(???) 房间里:主语 还可以:谓语 欣赏日出: 动宾短
    案例4(词汇语言相似度)

词向量与语义相似度(Word Embedding & Semantic Similarity):对词汇进行向量化表示,并据此实现词汇的语义相似度计算。
例如:西瓜 与 (呆瓜/草莓),哪个更接近?
向量化表示: 西瓜(0.1222, 0.22333, … ) 相似度计算: 呆瓜(0.115) 草莓(0.325) 向量化表示:(-0.333, 0.1223 … ) (0.333, 0.3333, … )

案例5(文本语义相似度)

文本语义相似度(Text Semantic Similarity):依托全网海量数据和深度神经网络技术,实现文本间的语义相似度计算的能力
例如:车头如何防止车牌 与 (前牌照怎么装/如何办理北京牌照),哪个更接近?
向量化表示: 车头如何防止车牌(0.1222, 0.22333, … ) 相似度计算: 前牌照怎么装(0.762) 如何办理北京牌照(0.486) 向量化表示: (-0.333, 0.1223 … ) (0.333, 0.3333, … )

2、所以这就可以知道这个自然语言对我们专业有什么关系了,我们可以从事这个方向的工作与研究,利用自然语言我们学习机器学习与部分人工智能,还有数据处理,这些都是我们以后可以从事的职业,当然我们也是必须要有好的数学基础,这个是必然的,数学对于计算机来说的重要性,相信计算机的人都知道。自然语言处理的基础是各类自然语言处理数据集,如tc-corpus-train(语料库训练集)、面向文本分类研究的中英文新闻分类语料、以IG卡方等特征词选择方法生成的多维度ARFF格式中文VSM模型、万篇随机抽取论文中文DBLP资源、用于非监督中文分词算法的中文分词词库、UCI评价排序数据、带有初始化说明的情感分析数据集等。自然语言处理,是指用计算机对自然语言的形、音、 义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。实现人机间的信息交流,是人工智能界、计算机科学和语言学界所共同关注的重要问题。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。可以说,自然语言处理就是要计算机理解自然语言,自然语言处理机制涉及两个流程,包括自然语言理解和自然语言生成。

1、机器翻译

机器翻译(Machine Translation)是指运用机器,通过特定的计算机程序将一种书写形式 或声音形式的自然语言,翻译成另一种书写形式或声音形式的自然语言。机器翻译是一门交 叉学科(边缘学科),组成它的三门子学科分别是计算机语言学、人工智能和数理逻辑,各 自建立在语言学、计算机科学和数学的基础之上。

目前,文本翻译最为主流的工作方式依然是以传统的统计机器翻译和神经网络翻译为主。Google、Microsoft 与国内的百度、有道等公司都为用户提供了免费的在线多语言翻译系统。速度快、成本低是文本翻译的主要特点,而且应用广泛,不同行业都可以采用相应的专业翻译。但是,这一翻译过程是机械的和僵硬的,在翻译过程中会出现很多语义语境上的问题,仍然需要人工翻译来进行补充。

语音翻译可能是目前机器翻译中比较富有创新意思的领域,搜狗推出的机器同传 技术主要在会议场景出现,演讲者的语音实时转换成文本,并且进行同步翻译,低延迟显示 翻译结果,希望能够取代人工同传,实现不同语言人们低成本的有效交流。
图像翻译也有不小的进展。谷歌、微软、Facebook 和百度均拥有能够让用户搜索或者自动整理没有识别标签照片的技术。除此之外还有视频翻译和 VR 翻译也在逐渐应用中,但是目前的应用还不太成熟。

2、信息检索``
信息检索是从相关文档集合中查找用户所需信息的过程。信息检索的基本原理是将用户输入的检索关键词与数据库 中的标引词进行对比,当二者匹配成功时,检索成功。
以谷歌为代表的「关键词查询+选择性浏览」交互方式,用户用简单的关键词作为查询 提交给搜索引擎,搜索引擎并非直接把检索目标页面反馈给用户,而是提供给用户一个可能 的检索目标页面列表,用户浏览该列表并从中选择出能够满足其信息需求的页面加以浏览。

3、自动问答
自动问答是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。自动问答系统在回答用户问题时,首先要正确理解用户所提出的问题,抽取其中关键的信息,在已有的语料库或者知识库中进行检索、匹配,将获取的答案反馈给用户。这一过程 涉及了包括词法句法语义分析的基础技术,以及信息检索、知识工程、文本生成等多项技术。

根据目标数据源的不同,问答技术大致可以分为检索式问答、社区问答以及知识库问答 三种。检索式问答和社区问答的核心是浅层语义分析和关键词匹配,而知识库问答则正在逐步实现知识的深层逻辑推理。

除了这几种 NLP 应用,其它如情感分析、自动文本摘要、社会计算和信息抽取也都有广泛的应用。
我想这些都是我们可以去做与学习的方向

你可能感兴趣的:(自然语言学习计算机的关系)