计算机藏文论文,计算机论文:藏文陈述句复述生成之计算机研究.docx

计算机论文:藏文陈述句复述生成之计算机研究

第一章 绪论1.1 复述概述从 80 年代开始,藏文信息处理的研究已经经历了 40 年左右,过去几十年里不断放射着奇光异彩,吸引着众多藏文语言学家、藏文自然语言研究者,并取得了很好成绩。从语言构成的视角看,它包括语音、语法、语义三个部分。过去主要研究集中在语音和语法层面,近年来,语义成为藏文自然语言处理研究的热点,如:语义词典、知识图谱、表示学习等。复述在传统语言发展和语言理解层面起到了重要的作用,为了使复述在自然语言理解研究领域发挥更好地作用,有必要进行面向机器自动理解和生成的复述研究,为人机交互和机器理解做出新的贡献。1.1.1 复述定义............................1.2 藏文复述句生成的研究目的和意义这一节主要介绍藏文复述句生成研究的目的和意义。众所周知,自然语言处理的最终目的是机器理解人类语言。复述根植于语义,且在传统语言中复述更好地为近代人理解古书架设了阶梯和桥梁,帮助我们轻松通晓文意。自然语言处理中复述更好地为机器理解提供了基础和方法,使机器学会语言的多样性和复杂性。同时,复述技术在问答系统(QA),信息检索(IR),机器翻译(MT),自动文摘(Auto Text Summarization)等诸多领域具有非常重要的研究意义。1.2.1 藏文复述研究目的在信息化社会中,语言信息化处理技术水平和每年所处理的信息总量已成为衡量一个民族或国家现代化水平的重要标志之一。 在这样的社会需求下,语言本身的任务也发生了巨大的改变,过去,语言是人与人之间的交际工具,现在,语言正在成为人与机器之间的沟通工具。如今,人类已经进入了信息化时代,且随着人工智能的发展,人机交互的需求日益增长,因此,自然语言处理的研究日渐显得重要,好比人类学习一种新语言,机器也需要具备各种语言的“听说读写”能力,机器的“听说”能力属于语音处理研究领域,“读写”能力的研究则属于藏文自然语言处理研究任务范畴。自然语言理解是人工智能研究的一个分支,它包括自然语言理解和自然语言生成,前者是让机器理解人类的语言,类似于人的阅读,后者是让机器通过学习后生成符合某种语言语法语义规律的文本,类似于人的写作。实现人机交互意味着计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。藏文信息处理大约已有 40 年的历史,它在藏语言信息化和藏文化的传承和发扬方面做出了重要的贡献。语言按语言学的结构可以分为语音、语法、语义,而这三个是自然语言处理的主要研究对象,过去的藏文信息处理的研究成果集中在语音与语法层面。语音主要表现在语音合成和语音识别、文语传换、语音翻译等领域;语法则表现在分词、词性标注、命名实体识别等词法分析、句法分析、信息检索及机器翻译等方面。 近年来,藏文自然语言研究任务也转向了语义层面,如:词义研究、句义分析、相似度计算及自动文摘等。从语言的颗粒度视角看,语言包括字、词、短语、句子、段落及篇章等研究内容,过去,藏文信息处理研究对象主要集中于前三个方面,现在则转移到句子层面。...........................第二章 基于循环卷积神经网络的句类识别2.1 引言藏文信息处理从 20 世纪 80 年代开始对字、词处理进行了大量的研究,如藏文编码、字库、输入法等。到 2000 年左右对分词、词频、词性、词类、词义等研究都取得了较好的成果[46-47]。从 2010 开始对藏文句子结构[48]、句子边界识别[49-52]、句子对齐[53-54]、句子相似度[55-56]等方面进行了卓有成效的研究工作。近年来,藏文信息处理从词法、句法研究提升到了句义研究,而以机器理解为中心的研究日益突出。为了满足藏文句子在语义分析和不同自然语言处理任务中的需求,藏文句子需要进行进一步细化和研究,藏文句类识别的研究凸显了其重要的价值。在传统语言学中,句类是按语气划分的[57]。在英文和汉文中,根据不同的语调可以将句子分为陈述句、疑问句、祈使句、感叹句。但对藏文而言,句子的分类在传统文法和现代藏文信息处理工作中一直是一个薄弱的环节,没有得到足够的重视。因此,藏文句类分类需要引入一种新的分类依据,使之满足藏语自然语言处理中句法分析和句义研究的需要。到目前为止,藏文句类的自动分类及识别问题很少受到关注,而藏文因它独有的语言特性,则无法自动识别句类。藏文句类分类与文本分类、情感分类、问题分类等分析方法因为藏文句类分类是以语境为核心,而其他则是以语义关联为中心,虽然这两者研究内容有差异,但分类方法上可以相互借鉴。本文提出了以语境、语义关联和功能特征词相融合的语义信息分类方法

你可能感兴趣的:(计算机藏文论文)