STITP项目笔记1

之前的国庆假期什么也没干,感觉这样下去不行啊。觉得以前的项目申报书看的有点晕,所以这里把里面的干料提出来。

当然,这里摘出来的都是我关注的部分。一些更具体的技术摘要我没有

基于观点挖掘的中国国家形象分析研究

研究目标

主要研究分析中国国家形象,利用自动化和智能化的方法从大量的分散的信息源中针对具体的分析目标进行主观信息抓取、计算及分析,从而实现对中国国家形象的主观看法的综合分析。

何为观点挖掘

观点挖掘是对描述非事实的主观文本自动进行抽取和分析的一种方法,是多学科的综合的研究领域,与文本挖掘、自然语言处理、概率论、统计数据分析、语料语言学、可视化技术等均相关。新兴的观点挖掘强调利用自动化和智能化的方法从大量分散的信息源中针对信息进行观点挖掘,可以获得国家形象的整体和各个方面的评价,从而为决策层提供更加有价值的信息。

观点挖掘的任务是从自然语言文本中抽取观点,其中一个观点是由以下要素构的元组:1)评价者,即发表观点的实体。2)评价对象,即被评价的实体。3)评价词,即能够体现评价者对评价对象的观点的词语。4)观点倾向,即通过评价词所体现的评价者对评价对象的正面或者负面的倾向。

研究内容

  1. 中国国家形象领域知识库构建

  2. 基于规则集和领域知识库的观点挖掘

我们这个课题采用基于规则集的句子级观点挖掘方法

研究内容包括:1)基于句子的依存句法关系设计观点抽取规则集,使用依存句法分析可以处理否定、被动语态、转折和浅语义分析等多种复杂语法现象;2)基于观点抽取规则集和领域知识库进行观点元组各个要素的抽取,领域知识库用来判断抽取的观点元组中的评价对象是否属于中国国家形象领域;3)根据抽取的观点元组计算对于中国国家形象各个领域的观点倾向,最后综合各个领域的观点得到对于中国国家形象的整体观点。

总结到这里,看得有点头大。

这里我用自己的话陈述一下。

首先,观点挖掘是什么,上面讲的已经很清楚了。我比较有疑问的是两点:

第一点:国家形象领域知识库是什么?

结合已有的综合国力和国家形象要素的研究,总结出国家形象战略资源所包括的主要要素并制成图表。根据表的基本维度和次级维度,并结合中国的具体国情,可以基本确定中国国家形象领域知识库的概念体系层次结构。又根据表中对次级维度的深层内涵的描述可以界定各个维度的范围,从而为半自动地获取相关领域的词汇提供依据。

知识库的概念来自两个不同的领域,一个是人工智能及其分支-知识工程领域,另一个是传统的数据库领域。那我们这个课题属于哪种呢?区分这个好像并没有多大的必要。需要注意的是,知识库是需要不断更新的。结合之前队友的想法来看,可以设想最后的实现形式是:在一台服务器上定期运行脚本,执行代码,爬取需要爬取的数据(这里应该是国外主流媒体网站对中国的报道版块),然后解析(这里先用简单的两个字概括下),更新知识库,over。

这个知识库存放“解析”出的结果,应该拥有便于查询的特性。

然而,依然不清楚知识库里放的是什么,格式是什么(比如JSON)。

再往下看到图1,发现知识库只是起到过滤和辅助抽取的作用,即过滤爬取的网页文本中与中国无关的信息以及抽取相关评价对象。

疑问依然存在。。。

第二点:关于整个观点抽取和计算环节的所有问题。

申报书上说的只是大体思路。

 

 

你可能感兴趣的:(自然语言处理)