可以从公开数据源下载,或者利用自有数据集,或者按照分析需求从网络抓取
一般经过分词、文本特征提取与表示、特征选择、知识或信息挖掘和具体应用等步骤。分词包括了对文本分词、去除停用词、词形归一化等;文本特征提取与表示包括了词性标注、句法分析、语义分析、特征提取与表示等;在特征选择后,通过知识提取和挖掘,具体应用到文本分类、情感分析、信息抽取和问答系统等方面。
文本特征指文本中少量的、具有代表性语义的词语。一组文本特征的集合即可代表整个文本的语义。
文本数据表示常用方法有布尔模型(boolean model)、向量空间模型(vector space model)、概率模型(probabilistic model)和图空间模型(graph space model)等。文本特征选择的方法一般有基于频率的、信息增益、互信息、CHI统计量、WLLR特征选择方法等。
TF-IDF适用范围广泛,其建立在在这样一个假设之上的:对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取tf词频作为测度,就可以体现同类文本的特点。
TF-IDF算法缺点包括:单纯以“词频”衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多(TF不高);算法中并没有体现出单词的位置信息,对于Web文档而言,权重的计算方法应该体现出HTML的结构特征;IDF的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能。
向量空间模型能把文本表示成由多维特征构成的向量空间中的点,从而通过计算向量之间的距离来判定文档和查询关键词之间的相似程度。常用的相似度计算方案有内积、Dice系数、Jaccard系数和夹角余弦值。
中文分词主要包括词的歧义切分和未登录词识别。切分歧义处理包括两部分内容:切分歧义的检测、切分歧义的消解。未登录词大致包含两大类:新涌现的通用词或专业术语等、专有名词。
中文文本分词主要分为基于词典的分词方法、基于统计的分词方法和基于规则的分词方法。在基于词典的方法中,对于给定的词,只有词典中存在的词语能够被识别,其中最受欢迎的方法是最大匹配法(MM),这种方法的效果取决于词典的覆盖度,因此随着新词不断出现,这种方法存在明显的缺点。基于统计的方法由于使用了概率或评分机制而非词典对文本进行分词而被广泛应用。基于规则的分词要求计算机理解人类语言,较难还在试验阶段。
IK分词使用了”正向迭代最细粒度切分算法“,简单说来就是: Segmenter会逐字识别词元,设输入”中华人民共和国“并且”中“单个字也是字典里的一个词,那么过程是这样的:”中“是词元也是前缀(因为有各种中开头的词),加入词元”中“;继续下一个词”华“,由于中是前缀,那么可以识别出”中华“,同时”中华“也是前缀因此加入”中华“词元,并把其作为前缀继续;接下来继续发现“华人”是词元,“中华人”是前缀,以此类推……。
命名实体识别目前主流还是基于统计的提取方式,例如最大熵、支持向量机、隐马尔可夫模型、条件随机场等,在实践中应用较广的是隐马尔可夫模型和条件随机场。最大熵模型关键是建立有效的特征模板,结合不同层次和粒度的特征建立中文实体语义知识库,所以模板设计是这一模型是否具有通用性的关键。支持向量机对于特征集的要求比较高,例如使用实体属性、词性、实体间关系等有助于提高识别的准确性,这一方法由于在细分类别上的识别效果不佳,目前应用较少。条件随机场是一种判别式概率模型,通过分析序列资料实现对目标序列建模,相较于最大熵模型,它引入了上下文信息实现对未知词汇的识别。隐马尔可夫模型依赖于训练语料的标签标记,它的速度要快一些,所以它更适用于信息检索等实时性要求较高的场景。
基于统计的方法对特征选取的要求较高,对语料库的依赖也比较大,需要从文本中选择对该项任务有影响的各种特征,而可用的大规模通用语料库又比较少,目前大部分细分领域的语料库是基于现有素材经过机器或人工的干预的方式构建的,这部分工作很难避免,也是自然语言处理的基础工作之一。
语义消歧是自然语言理解中核心的问题,在词义、句义、篇章含义层次都会出现不同的上下文(Context) 下语义不同的现象。消歧就是根据上下文来确定对象的真实语义。词义消歧方法分为以三类:
基于词典的词义消歧方法主要基于覆盖度实现,即通过计算语义词典中各词与上下文之间合理搭配程度,选择与当前语境最合适的词语。但由于词典中词义的定义通常比较简洁,粒度较租,造成消歧性能不高。并且,如果词项缺失就会导致问题。
有监督的消歧方法使用已经标记好的语义资料集构建模型,通过建立相似词语的不同特征表示实现去除歧义的目的。
半监督或无监督方法仅需要少量人工或不需要人工标注语料,但依赖于大规模的未标注语料和语料上的句法分析结果。
依存句法(Dependency Parsing, DP) 认为句法结构本质上包含词和词之间的依存关系,依存关系是指词与词之间存在修饰关系。通过分析语言单位成分之间的依存关系揭示其句法结构,将输入的文本从序列形式转化为树状结构,从而刻画句子内部词语之间的句法关系。目前主要是数据驱动的依存句法分析,通过对大规模语料进行训练得到模型。这种方式生成的模型比较容易跨领域和语言环境。比较常见的是基于图(graph-based) 的分析方法和基于转移( transition- based) 的分析方法。
短语结构句法分析的研究基于上下文无关文法(CFG),CFG主要是对句子成分结构进行建模。一个CFG由一系列规则组成,每个规则给出了语言中的符号可被组织或排列的方法,以及符号和单词构成的字典。
语义分析分为词汇级、句子级和篇章级。其中词汇级的难点主要在于词义消歧和词向量的表示。句子级语义分析分别有浅层语义分析语义角色标注和深层语义分析,其中语义角色标注包括了角色剪枝、角色识别和角色分类,在角色识别和角色分类过程中, 无论是采用基于特征向量的方法,还是基于树核的方法,其目的都是尽可能准确地计算两个对象之间的相似度,这也是其难点;深度语义分析主要面临普通文本到实体/关系谓词之间的映射、面向开放领域的语义分析等两个问题。篇章级的难点在于判定子句与子句的篇章语义关系。
文本分类技术在智能信息处理服务中有着广泛的应用。例如,大部分在线新闻门户网站(如新浪、搜狐、腾讯等)每天都会产生大量新闻文章,如果对这些新闻进行人工整理非常耗时耗力,而自动对这些新闻进行分类,将为新闻归类以及后续的个性化推荐等都提供巨大帮助。互联网还有大量网页、论文、专利和电子图书等文本数据,对其中文本内容进行分类,是实现对这些内容快速浏览与检索的重要基础。此外,许多自然语言分析任务如观点挖掘、垃圾邮件检测等,也都可以看作文本分类或聚类技术的具体应用。
结合自动摘要的方法进行讨论即可。可结合下列几种方法展开:抽取式方法相对比较简单,通常利用不同方法对文档结构单元(句子、段落等)进行评价,对每个结构单元赋予一定权重,然后选择最重要的结构单元组成摘要。而生成式方法通常需要利用自然语言理解技术对文本进行语法、语义分析,对信息进行融合,利用自然语言生成技术生成新的摘要句子。也可以利用拓展新将强的贝叶斯话题模型,对话题相关性概率进行建模。加权频数的定义可以有多种,如信息检索中常用的TF- IDF权重。还可以利用隐语义分析(LDA)得到低维隐含语义表示并加以利用。在多文档摘要任务中,重要的句子可能和更多其他句子较为相似,所以可以用相似度作为节点之间的边权,通过迭代求解基于图的排序算法来得到句子的重要性得分。
问答系统在回答用户问题时,首先需要正确理解用户所提的自然语言问题,并抽取其中的关键语义信息,然后在已有语料库、知识库或问答库中通过检索、匹配、推理的手段获取答案并返回给用户。
问答系统的核心问题在于问句理解、文本信息抽取和知识推理。给定用户问题,自动问答首先需要理解用户所提问题。用户问句的语义理解包含词法分析、句法分析、语义分析等多项关键技术,需要从文本的多个维度理解其中包含的语义内容。给定问句语义分析结果,自动问答系统需要在已有语料库、知识库或问答库中匹配相关的信息,并抽取出相应的答案。传统答案抽取构建在浅层语义分析基础之上,采用关键词匹配策略,往往只能处理限定类型的答案,系统的准确率和效率都难以满足实际应用需求。为保证信息匹配以及答案抽取的准确度,需要分析语义单元之间的语义关系,抽取文本中的结构化知识。基于分布式表示的知识表示学习方法能够将实体、概念以及它们之间的语义关系表示为低维空间中的对象(向量、矩阵等),并通过低维空间中的数值计算完成知识推理任务。虽然这类推理的效果离实用还有距离,但是我们认为这是值得探寻的方法,特别是如何将已有的基于符号表示的逻辑推理与基于分布式表示的数值推理相结合,研究融合符号逻辑和表示学习的知识推理技术,是知识推理任务中的关键科学问题。
关键步骤包括数据的提取、数据预处理和情感分析。结合具体案例进行阐述即可。
事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化呈现给用户。常用的事件抽取的方法包括模式匹配方法和机器学习方法,其中模式匹配方法是指对于某种类型事件的识别和抽取是在一些模式的指导下进行的,采用各种模式匹配算法将带抽取的事件和已知的模式进行匹配。模式匹配方法由两个基本步骤组成:模式获取和事件抽取。机器学习方法其实就是一种分类方法,它是建立在统计模型的方法上,将事件类型与事件元的识别转换成分类问题。这种方法主要是选择合适的特征值与分类器来完成相关的分类。