自然语言处理(英语:Natural Language Processing,缩写作 NLP)是人工智慧和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。
自然语言认知和理解是让电脑把输入的语言变成有意思的符号和关系,然后根据目的再处理。自然语言生成系统则是把计算机数据转化为自然语言。
自然语言处理(Natural Language Processing)在当今世界中已经被广为应用。它涉及的领域非常广泛,包括机器翻译、智能问答、自动摘要、情感分析等。
第一,机器翻译。当前,随着全球化和信息化的加速发展,人们需要用多种语言进行有效沟通。因此,机器翻译成为了一个既重要又具有挑战性的领域。自然语言处理技术可以帮助机器翻译实现自动翻译,这对跨境交流和文化互通有着重大的推动作用。
第二,智能问答。智能问答系统依靠自然语言处理技术,通过向用户提供合理的答案来满足用户需求。例如,智能客服机器人能够根据用户的提问快速找到对应的答案,从而为用户提供更好的服务体验。智能问答的应用范围十分广泛,不仅可以应用于电商、金融、医疗等行业,还可以应用于智能语音助手以及智能家居等领域。
第三,自动摘要。在信息爆炸的时代,人们需要在短时间内快速了解一篇长文本的内容。自动摘要技术是基于自然语言处理实现的,旨在从大量文本中提取重要信息,生成简洁的概括性文本。这项技术可以广泛应用于新闻、科技、金融等行业,使得人们可以在短时间内把握重点信息。
第四,情感分析。情感分析是一种在自然语言处理领域中广泛应用的技术,它主要依靠机器学习的方法来识别出一段文本中所表达的情绪。在社交媒体、电商、舆情监测等领域,情感分析是非常有用的工具,它可以帮助企业或个人更好地理解用户或观众对某种产品或事件的情感态度,以便根据这些信息做出更好的决策。
自然语言处理大体是从1950年代开始,虽然更早期也有作为。1950年,图灵发表论文“计算机器与智能”,提出现在所谓的“图灵测试”作为判断智能的条件。
1954年的乔治城-IBM实验涉及全部自动翻译超过60句俄文成为英文。研究人员声称三到五年之内即可解决机器翻译的问题。不过实际进展远低于预期,1966年的ALPAC报告发现十年研究未达预期目标,机器翻译的研究经费遭到大幅削减。一直到1980年代末期,统计机器翻译系统发展出来,机器翻译的研究才得以更上一层楼。
1960年代发展特别成功的NLP系统包括SHRDLU——一个词汇设限、运作于受限如“积木世界”的一种自然语言系统,以及1964-1966年约瑟夫·维森鲍姆模拟“个人中心治疗”而设计的ELIZA——几乎未运用人类思想和感情的讯息,有时候却能呈现令人讶异地类似人之间的互动。“病人”提出的问题超出ELIZA 极小的知识范围之时,可能会得到空泛的回答。例如问题是“我的头痛”,回答是“为什么说你头痛?”
1970年代,程式设计师开始设计“概念本体论”(conceptual ontologies)的程式,将现实世界的资讯,架构成电脑能够理解的资料。实例有MARGIE、SAM、PAM、TaleSpin、QUALM、Politics以及Plot Unit。许多聊天机器人在这一时期写成,包括PARRY 、Racter 以及Jabberwacky 。
一直到1980年代,多数自然语言处理系统是以一套复杂、人工订定的规则为基础。不过从1980年代末期开始,语言处理引进了机器学习的演算法,NLP产生革新。成因有两个:运算能力稳定增加(参见摩尔定律);以及乔姆斯基 语言学理论渐渐丧失主导(例如转换-生成文法)。该理论的架构不倾向于语料库——机器学习处理语言所用方法的基础。有些最早期使用的机器学习演算法,例如决策树,是硬性的、“如果-则”规则组成的系统,类似当时既有的人工订定的规则。不过词性标记将隐马尔可夫模型引入NLP,并且研究日益聚焦于软性的、以机率做决定的统计模型,基础是将输入资料里每一个特性赋予代表其份量的数值。许多语音识别现今依赖的快取语言模型即是一种统计模型的例子。这种模型通常足以处理非预期的输入数据,尤其是输入有错误(真实世界的数据总免不了),并且在整合到包含多个子任务的较大系统时,结果比较可靠。
许多早期的成功属于机器翻译领域,尤其归功IBM的研究,渐次发展出更复杂的统计模型。这些系统得以利用加拿大和欧盟现有的语料库,因为其法律规定政府的会议必须翻译成所有的官方语言。不过,其他大部分系统必须特别打造自己的语料库,一直到现在这都是限制其成功的一个主要因素,于是大量的研究致力于从有限的数据更有效地学习。
近来的研究更加聚焦于非监督式学习和半监督学习的演算法。这种演算法,能够从没有人工注解理想答案的资料里学习。大体而言,这种学习比监督学习困难,并且在同量的数据下,通常产生的结果较不准确。不过没有注解的数据量极巨(包含了全球资讯网),弥补了较不准确的缺点。
自然语言处理应用在过去十年呈爆炸式增长,预计自然语言处理未来仍有望以几何级数增长。据相关调查显示,在全球市场中,与自然语言处理相关的产品和服务将在2025年增长到430亿美元,而2017年时,这一数字为30亿美元。
随着深度学习等技术的快速发展,尤其是GPT-3等超大模型的出现,NLP进入了一个新纪元。超大模型相对于大模型来说更加复杂,参数数量更高,需要更大的计算资源和训练时间,但同时也可以在处理极其复杂的输入数据和高维度的特征时提高模型的准确性和性能。在这个新纪元中,超大模型如GPT-3已经开始在各个领域产生了广泛的应用,比如文本摘要、对话系统、问答机器人、机器翻译等。NLP的新纪元已经带来了革命性的变化,将进一步推动人工智能技术的进步和应用。
ChatGPT全称聊天生成预训练转换器(英语:Chat Generative Pre-trained Transformer[2]),是OpenAI开发的人工智能聊天机器人程序,于2022年11月推出。该程序使用基于GPT-3.5、GPT-4架构的大型语言模型并以强化学习训练。ChatGPT目前仍以文字方式交互,而除了可以用人类自然对话方式来交互,还可以用于甚为复杂的语言工作,包括自动生成文本、自动问答、自动摘要等多种任务。如:在自动文本生成方面,ChatGPT可以根据输入的文本自动生成类似的文本(剧本、歌曲、企划等),在自动问答方面,ChatGPT可以根据输入的问题自动生成答案。还有编写和调试计算机程序的能力。《纽约时报》称其为“有史以来向公众发布的最佳人工智能聊天机器人”。
文心一言(英文名:ERNIE Bot)是百度全新一代知识增强大语言模型,文心大模型家族的新成员,能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。文心一言是知识增强的大语言模型,基于飞桨深度学习平台和文心知识增强大模型,持续从海量数据和大规模知识中融合学习具备知识增强、检索增强和对话增强的技术特色。自2023年2月份百度官宣“文心一言”以来,已有超过650家企业宣布接入文心一言生态。
其余的大模型还有:LaMDA,MOSS,ChatGLM和通义千问等。
NLP采用的主要方法包括:
分词:将一段文本分割成词语并进行词性标注,是NLP任务的一个起始,其好坏会影响整体模型的准确性和效率。
词嵌入:将文本中的每个词转换为具有数值意义的向量形式,以便于计算机进行处理和理解,基于这种方式的模型有Word2Vec、GloVe以及BERT等。
序列标注:通过标记语料库中的实体,并为其分配特定的类别,使得机器学习模型能够将给定文本中的实体对应到正确的类别。
语义分析:对文本进行深入分析,以提取文本中潜在的意义和信息,包括自然语言推理、情感分析和主题模型等。
生成模型:生成自然语言的模型,包括序列到序列模型,自回归模型等。
这些方法通常会结合深度学习技术,如循环神经网络(RNN)、长短期记忆网络(LSTM)和Transformer架构,来提高NLP任务的准确性和效率。
自然语言处理(NLP)是计算机科学和人工智能领域中的一支重要分支,致力于让计算机能够理解、分析和生成自然语言。NLP的主要应用包括机器翻译、语音识别、情感分析、自然语言理解、对话系统等,并在各个领域得到了广泛应用。
在历史上,早期的NLP技术主要是基于规则的方法,需要手动编写规则进行文本分析和信息提取。但这种方法很难适应各种复杂的语言规则和文本变化,因此,随着深度学习技术的发展,基于数据驱动的方法逐渐成为主流,如神经网络和深度学习模型的引入已经极大地提高了自然语言处理的准确性和效率。
由于超大模型的出现,NLP进入了一个新纪元,这为聊天机器人和文本生成等NLP任务带来了革命性的变化。ChatGPT是OpenAI开发的一款基于GPT模型的聊天机器人,可以产生高质量、流畅的自然语言回复。而文心一言是一款中文版的GPT-3模型,可以完成复杂的文本生成任务。
NLP采用的主要方法包括分词、词嵌入、序列标注、语义分析和生成模型等。这些方法通常会结合深度学习技术,如RNN、LSTM和Transformer,以提高NLP任务的准确性和效率。
总之,随着技术的不断进步和发展,NLP已经成为人工智能领域中重要的一部分,它将使计算机更加智能化和人类化,改变我们与计算机交互的方式,并为各个领域的应用打下了坚实的基础。
参考
自然语言处理 - 维基百科,自由的百科全书 (wikipedia.org)
ChatGPT爆火背后,NLP呈爆发式增长!-icspec
ChatGPT - 维基百科,自由的百科全书 (wikipedia.org)
文心一言_百度百科 (baidu.com)
什么是模型?大模型?超大模型? - 知乎 (zhihu.com)