此文章是我刚开始研究GDELT时对GDELT项目(https://www.gdeltproject.org/)官方文档的翻译汇总,另外加了一些自己的介绍,以便后续研究查用,主要翻译的内容是下面几个文档:
上面的链接从上至下是GDELT项目关于Event Database 1.0、Event Database 2.0、Global Knowledge Graph(GKG) 1.0、Global Knowledge Graph 2.0、Visual GKG的官方介绍文档。
英语好的最好是直接看官方文档,不过官方文档实在太长,下面的翻译都是借助于谷歌翻译,特别明显的错误会进行改正,不过如果要做到十分准确,工作量太大,所以应该有大量纰漏存在,可以结合官方文档一起看。
因为zhengzhi涉嫌违规,所以都用缩写zz代替了。
1.GDELT提供的数据
1.1 GDELT 1.0事件数据库(Event Database 1.0)
1.2 GDELT2.0事件数据库(Event Database 2.0)
1.3 GDELT1.0全球知识图(Global Knowledge Graph 1.0)
1.4 GDELT2.0全球知识图(Global Knowledge Graph 2.0)
1.5 GDELT视觉全球知识图(Visual Global Knowledge Graph)
1.6 GDELT GKG 特别收集
2.事件及参与者编码解释
2.1 事件编码
2.2 参与者编码
3.GDELT提供的分析服务
3.1 GDELT分析
3.2 GDELT报告
3.3 GDELT API
4.GDELT相关论文(部分)
------------------------------------------------------------------------------
GDELT项目涵盖从1979年至今的所有新闻数据,它每日对全球新闻报道进行自动抓取,并通过文本分析从不同维度提取信息。
所有GDELT数据获取方式均为从网页下载ZIP类型数据压缩包,解压后为CSV格式。
GDELT事件数据库记录了世界各地的300多种事件,收集从1979年1月1日至今整个世界的数据,并提供了地理参考信息。
GDELT1.0中,从1979至2005收集的为整年数据,2006至2013年3月收集的为分月数据,2013年4月至今收集的为每天数据。
每个CSV文件内的数据均有58个字段(2013年3月以前的数据仅有57个字段,缺少SOURCEURL字段)。
这58个字段分为EVENTID AND DATE ATTRIBUTES(事件ID和时间属性),ACTOR ATTRIBUTES(参与者信息),EVENT ACTION ATTRIBUTES(事件行为属性),EVENT GEOGRAPHY(事件及参与者的地理参考信息),DATA MANAGEMENT FIELDS(事件管理字段)这五部分。
(1)EVENT AND DATE ATTRIBUTES
这一部分的字段记录了捕捉事件的全局唯一标识符号码,事件发生的日期和日期的不同版本格式,这有助于信息被记录在可能有特定的日期格式要求的不同的分析程序中。所包含的字段有:
GlobalEventID:数据类型为整数型,它是一条记录的唯一标识符,通常它是递增标识的。
Day:记录事件发生的日期,格式为YYYYMMDD
MonthYear:记录事件发生的年月,格式为YYYYMM
Year:记录事件发生的年份,格式为YYYY
FractionDate:记录事件发生的日期,格式为YYYY.FFFF,其中FFFF为到该日期为止在当前年份所占的百分比,通过公式(MONTH * 30 + DAY) / 365进行近似计算。
(2)ACTOR ATTRIBUTES
这一部分字段描述了事件的两个参与者的CAMEO码、名称和特征属性。
注:除了CountryCode之外的其他字段都来自于TABARI ACTORS字典,而不是直接来自于文本,也就是说如果文本中为“恐怖分子”,而TABARI ACTORS字典标记为“叛乱分子”,后者将被采用。而CountryCode反映字典和文字的集合,字典优先,如文本为“法国助理部长史密斯在莫斯科”,那么CountryCode为法国,而后面将提到的地理信息字段为莫斯科。
在复杂事件或仅有一个参与者的事件中另一个参与者的属性值可能为空,在GDELT系统无法识别参与者时参与者属性也可能为空。每个参与者的各项属性在缺省的情况下也会为空值。所包含的字段有:
Actor1Code:参与者1的CAMEO码。CAMEO包含一组编码属性指示参与者的地理、阶级、民族和宗教信仰和他的角色信息(zz精英、军官、反对派等)。每个属性均为3个字母的缩写,以任何可能的顺序排列组成CAMEO码。
Actor1Name:参与者1的名称。对于zz领袖或组织,这将是领导人的正式名称(如乔治·W·布什、联合国);地理比赛将是该国或首都/主要城市名称。
Actor1CountryCode:参与者1国家信息的CAMEO码(3字母缩写),它可能为Actor1Code中的CAMEO码,也可能为空。它标识了受到该事件影响的地理区域。
Actor1KnownGroupCode:如果参与者1是一个已知的组织/非政府组织/反叛组织(如联合国、世界银行、基地组织等),该字段将包含其CAMEO码。
Actor1EthnicCode:如果系统能识别出参与者1的民族信息并且该民族具有CAMEO码,该字段将包含其CAMEO码。 注意 :该新增字段仍处于实验阶段。
Actor1Religion1Code:如果系统能识别出参与者1的宗教信息并且该宗教具有CAMEO码,该字段将包含其CAMEO码。 注意 :该新增字段仍处于实验阶段。
Actor1Religion2Code:如果参与者1包含多重宗教信息,该字段将包含其二级代码。一些宗教将自动使用两个代码,如Catholic将调用Christianity作为第一个代码,Catholicism作为第二个。
Actor1Type1Code:此处的三位CAMEO代码将指代参与者1的类型或角色信息。这可能是一个特定的角色,如警察、政府、军队、zz反对派,反对派等,或是如教育、精英、媒体、难民这样的广泛的角色类型,或是有组织的团体,例如民间运动。特殊的代码如“温和的”和“激进的”可能指一组的操作策略。
Actor1Type2Code:如果参与者1具有多重角色,此处将包含其CAMEO码。
Actor1Type3Code:如果参与者1具有多重角色,此处将包含其CAMEO码。
参与者2将重复以上所有属性。
(3)EVENT ACTION ATTRIBUTES
这部分字段将包含事件行为(即参与者1对参与者2所做的事)的各类属性,并将提供几种机制来评估事件的重要性和其造成的短期影响。
IsRootEvent:此字段标识了该事件在事件流中是否处于根节点位置。
EventCode:此字段通过CAMEO码描述了事件参与者1对参与者2的行为。
EventBaseCode:这里是一个三级分类法标识的CAMEO码。对于第三级的事件,此处包含其二级事件的叶节点。例如编码“0251”(“Appeal for easing of administrative sanctions”) ,此处即为“025” (“Appeal to yield”)。对于二级事件和一级事件,此处即为其EventCode。
EventRootCode:与上面类似,此处标识了事件的根节点。 如“0251” (“Appeal for easing of administrative sanctions”) ,此处即为“02” (“Appeal”)。
QuadClass:这个字段指定事件类型主要分类,所有事件将被划分为以下四个分类之一:1=口头合作,2=物质合作,3=口头冲突,4=物质冲突。
GoldsteinScale:每个事件将被分配一个在-10到+10之间的数值,用以衡量理论上该事件对国家产生的潜在影响。 注意 :这个分数的判定是基于事件类型而非事件的细节,因此一个10人参与的事件与一个1000人参与的事件都将获得同样的分数。
NumMentions:该属性值为数据库内所有文章提及该事件的次数。这可以用作评估事件的重要性的方法:讨论该事件越多,越有可能是重要的。(如果新闻文章发表之后这个事件引发了讨论,该字段数值会更新,例如,一个事件在几周后的可能引发一个舆论热潮,会有无数的新闻文章发表提到原始新闻;在新的发展背景下,某一事件在一周年时可能会有进一步的报道),但是在每天的数据中仅包括该天发现的事件而不包括这些更新。
NumSources:该属性值为所有提及该事件的数据源数值。同上一个属性一样,这也可以用作评估事件的重要性的方法。与上一个一样更新也不会被包括在每天的数据中。
NumArticles:该属性值为所有提及该事件的文章数。同上一个属性一样,这也可以用作评估事件的重要性的方法。与上一个一样更新也不会被包括在每天的数据中。
AvgTone:该属性值为所有文章提及该事件时“语气”的平均值。分数范围从-100(极其消极的)到+100(极积极的)。共同的价值观分数范围在-10和+10之间,0表示中立。这可以用作过滤事件的“上下文”的方法,从而衡量一个事件的重要性和其影响。例如,轻微负面语气的事件很可能是一个小事件,而如果是极其负面的语气,这表明可能是一个更严重的事件。而具有积极分数的事件则可能表明上下文中正在描述一个积极的事(如每天攻击的数量已经大大减少了)。
(4)EVENT GEOGRAPHY
这一部分属性值描述了事件参与者与事件的地理位置信息,包含如下字段:
Actor1Geo_Type:该字段取值如下:1=COUNTRY (match was at the country level), 2=USSTATE (match was to a US state), 3=USCITY (match was to a US city or landmark), 4=WORLDCITY (match was to a city or landmark outside the US), 5=WORLDSTATE (match was to an Administrative Division 1 outside the US – roughly equivalent to a US state)
Actor1Geo_Fullname:此处为参与者1的完整地理名称,格式为“城市/地标,州,国家”。 注意 :同一地点可能具有不同拼写或名称,所以该属性无法用来确定唯一的地理信息。利用下面的FeatureID属性可确定两个不同名字的位置指的是同一个地方。
Actor1Geo_CountryCode:标识参与者1国家地理信息的FIPS10-4国家编码。
Actor1Geo_ADM1Code:此处为2位FIPS10-4国家编码和2位FIPS10-4行政区划1(ADM1)编码,标识了参与者1的行政区划地理信息。
Actor1Geo_Lat:参与者1所处地理位置的纬度。
Actor1Geo_Long:参与者1所处地理位置的经度。
Actor1Geo_FeatureID:参与者1地理位置的GNS或GNIS标识。
参与者2和事件将重复以上所有属性。
(5)DATA MANAGEMENT FIELDS
提供事件管理信息,在对数据库的镜像执行更新时,这非常有用,因为今天发布的新闻报道可能会添加来自遥远过去的事件,日期字段包含的为事件实际发生的日期,而下面提供的DATEADDED字段为事件加入数据库的日期。
DATEADDED:事件加入数据库的日期。
SOURCEURL:事件被发现的新闻链接,如果被多次提到,只会包含一个链接。
每月或每年的数据在10-100M左右(随着日期增加逐渐变大),每天的数据在10M左右。
每天的数据在10-20万条左右,每条数据57或58个字段。
获取HTML地址:http://data.gdeltproject.org/events/index.html。
给出ZIP格式包,可以点击直接下载。
GDELT2.0加入了大量新的特征到事件数据库中,并且包括了65中实时翻译的以各种语言发布的文章,核心列与1.0相同,添加了一些新列,并添加了一个“mention”表以及其他的一些更改,数据每15分钟更新一次。
GDELT2.0的数据目前只能到2015年2月19日上午,之前的数据暂时没有,如果用户需要进行历史分析,应该使用GDELT1.0的数据,GDELT2.0的数据用于实时分析。
每15分钟生成4个CSV格式表格,分别为英文事件表、其他语言翻译事件表、英文Mention表、其它语言翻译Mention表。
(1)事件表
GDELT2.0的事件表中有61个字段,其中58个字段与GDELT中完全相同,新增的3个字段为在EVENT GEOGRAPHY中参与者1、参与者2和事件都增加了一个Geo_ADM2Code属性。
Geo_ADM2Code:对于国际地区,这是分配给每个全球位置的数字全球行政单位层(GAUL)行政区划2(ADM2)代码,而对于美国地区,这是州名称的两个字符的缩写(例如德克萨斯州的“TX” ),后跟3位数的县代码(遵循GNIS中使用的INCITS 31:200x标准)。
与GDELT1.0相同的58个属性,其属性描述也是相同的,不同的是在GDELT2.0中,EVENT ACTION ATTRIBUTES中的NumMentions、NumSources、NumArticles、AvgTone四个属性值由对每天的统计变为对每15分钟的统计。以及DATA MANAGEMENT FIELDS中的DATEADDED属性由之前只精确到天到现在改为精确到每15分钟。
(2)Mentions表
Mentions表格是GDELT 2.0的一个新增内容,它记录事件表中事件的每次提及,使得可以跟踪在全球媒体系统中流动的轨迹和网络结构。每提到一个事件,都会在提及表中收到它自己的条目,因此,一个在100篇文章中提到的事件将在提及表中列出100次。无论原始事件发生的日期如何,都会记录提及事件,这意味着今天提及的一年之后的事件仍将被记录下来,从而可以追踪“周年事件”或重新化为现在行动的历史事件的讨论。如果新闻报道提及多个事件,则每个提及都被单独记录在该表中。对于翻译的文件,事件提及的记录均以英文翻译为准。
记录在Mentions表中的几个新属性让我们可以根据GDELT提取该事件的自信程度来更好地过滤事件。当试图理解跨越全球的新闻媒体时,人们会发现新闻模棱两可,充满了复杂的背景知识和语言结构。GDELT利用一系列自然语言处理算法来处理文本。虽然这极大地提高了GDELT理解和提取模糊和语言复杂事件的能力,但这样的提取也具有更高的错误可能性。在GDELT1.0中,NumMentions字段被设计为提及事件的文档的数量和重复提及次数。在GDELT 2.0中,文章每提到了一个事件,Mentions表中都会有一个单独的记录,而新的Confidence字段记录了GDELT对从该特定文章中提取该事件的置信度。这是一个百分比,范围从10到100%,指出GDELT从该文章中提取事件的困难程度。通过这个属性对所有提及的事件进行排序使得能够确定对事件讨论的最强烈和最明确的文章。
Mentions表共包括16个字段,介绍如下:
GlobalEventID:在文章中提到的事件的ID。
EventTimeDate:是事件首次被GDELT数据库发现的时间(即原始数据的DATAADDED字段),是一个15分钟的时间戳。
MentionTimeDate:是当前更新时间的一个15分钟的时间戳,在整个Mentions表中这个字段将是一样的。
MentionType:是数据源的一个数字标识符,用来解释下面的MentionIdentifier字段,它指定如何解释MentionIdentifier字段来定位文档。
MentionSourceName:这是文档来源的人性化标识符。 对于源自开放网站的带有URL的材料,该字段将包含该页面来自的顶级域。 对于BBC的监测材料,它将包含“BBC Monitoring”,而对于JSTOR材料,它将包含“JSTOR”。该字段主要用于显示主要来源,以及按来源进行信息流的网络分析,避免了对执行域或其他MentionIdentifier字段的解析。
MentionIdentifier:这是源文档的唯一外部标识符。它可以用来唯一标识文档并访问源文档,如果源数据是公开访问的或者被订阅的。
SentenceID:事件在文章中被提到的句子位置(从第一句开始为1,第二句为2,第三句为3,等等)。 这可以类似于下面的CharOffset字段,但是是根据句子而不是字符来报告事件在文章中的位置,这更适合于在文章中定位事件的“重要性”的某些度量。
Actor1CharOffset:参与者1在文章中被找到的位置(以英文字符表示的文档)。 这可以与GKG或其他分析结合使用来进一步识别演员的特征和属性。
Actor2CharOffset:参与者2在文章中被找到的位置(以英文字符表示的文档)。
ActionCharOffset:事件在文章中被找到的位置(以英文字符表示的文档)。
InRawText:这记录事件是否在原始未改变的原始文章中找到(值为1),或者是在需要高级自然语言处理算法来合成和重写文章文本以识别事件的文章中找到(值为0)。
Confidence:从文章中提取事件的置信度。
MentionDocLen:源文档的英文字符的长度(可以过滤出针对特定事件的短文章而不是随便提及事件的长篇文章)。
MentionDocTone:与事件表中的AvgTone字段的内容相同,但针对此特定文章计算。
MentionDocTranslationInfo:该字段在内部用分号分隔,用于记录机器翻译文档的出处信息,表明原始源语言和翻译系统的引用,用于对翻译文档进行处理。原文为英文的文件将是空白的。
Extras:该字段目前是空白的,但保留供将来使用,以便为所选材料特殊附加评估进行编码。
每15分钟的事件表的大小在100-200KB左右,每15分钟的Mention表在200-300KB左右。
每15分钟的事件表数据在1000-2000条左右,每15分钟的Mention表数据在4000-7000条左右。
获取HTML地址:英文:http://data.gdeltproject.org/gdeltv2/masterfilelist.txt。
翻译所得数据:http://data.gdeltproject.org/gdeltv2/masterfilelist-translation.txt。
给出获取ZIP包的下载HTML地址。
GDELT 1.0全球知识图开始于2013年4月1日,每天更新。由两个并行数据流组成,一个编码整个知识图及其所有字段,另一个编码图的子集,记录一组预定义的类别,例如抗议者数量,死亡数字等。这种计数事件可能独立于主要GDELT事件流中的CAMEO事件发生,例如提及在工业事故中死亡的人员(未在CAMEO中捕获的事件)或因自然灾害而流离失所或因疾病流行而恶化的人员。通过这种方式,可以使用GKG计数文件来生成一个每日“死亡跟踪器”来绘制每天在世界各地提到的所有死亡事件,或者使用“受影响的跟踪器”来指示每天有多少人感染/流离失所/滞留(至少与全球新闻媒体记录的一样)。文件每周7天每天早上6 AM发布。
第二个文件是完整的图形文件,其中包含每天连接所有人员,组织,位置,情绪,主题,计数,事件和来源的实际图形。它还包含与提取的信息在同一篇文章中找到的每个事件的EventID列表,从而实现丰富的事件上下文。
全球知识图形目前处于“alpha”版本,随着引入新的功能并扩展其底层算法,可能会随着时间而改变。
全球知识图扩展了GDELT量化全球人类社会的能力,而不仅仅是物理事件的编目,而是真实地代表全球新闻的所有潜在维度,地理和网络结构。一个句子总结GKG,它将地球上每个人,组织,位置,数量,主题,新闻来源和事件连接成一个巨大的网络,捕捉世界各地每一天正在发生的事情,它的背景是什么,谁参与其中,以及世界的感受。
(1)GKGCounts表
Counts表共包括15个字段,分为主属性(PRIMARY ATTRIBUTES)、地理参考信息(GEOGRAPHY)、相关事件和源信息(LINKED EVENTS AND SOURCE INFORMATION)三个部分。
1、主属性(PRIMARY ATTRIBUTES)
DATE:YYYYMMDD格式,记录构建GKG文件的新闻媒体发布文章的时间,在一个GKG文件中,所有行的这个属性都相同。
NUMARTS:这是包含一个或多个提及此计数事件的源文档的总数。这可以用来评估 “重要性”,讨论越多的有可能是重要的。源文件的总体情况随着时间的推移而变化,所以建议在感兴趣的时间段内,通过计算全局的平均值或其他度量标准化该字段。
COUNTTYPE:这是表格中“名称”字段的值,指示此计数事件属于哪个类别。通常是AFFECT,ARREST,KIDNAP,KILL,PROTEST,SEIZE或WOUND,尽管在某些情况下,其他类别也可能出现在这些类别中,其他计数类别随着时间的推移而增加。
NUMBER:这是被报告的实际数量。 如果CountType为“PROTEST”且此字段的数字为126,则表示源文章包含126个抗议者。
OBJECTTYPE:这记录了关于数字涉及的任何识别信息。例如,提到“20名基督教传教士被捕”,那么“基督教传教士”将被作为识别信息。如果不能识别其识别信息,这个字段将是空白的。
2、地理参考信息(GEOGRAPHY)
这组字段捕捉与计数事件最密切相关的位置。为此,使用全文地理编码和自动消歧来处理源文档的全文,以识别每个地理参考信息。
要查找位于特定城市或地理地标中或与之相关的所有计数事件,应使用Geo_FeatureID列,而不是Geo_Fullname列。 这是因为Geo_Fullname列捕获文本中所表示的位置的名称,因此反映了音译,替代拼写和相同位置的替代名称的差异 例如,麦加经常拼写麦加,而吉达拼写吉达或Jaddah。Geo_Fullname列将反映这些不同的拼写,而Geo_FeatureID列将全部解析为相同的唯一GNS或GNIS特征标识号。
GEO_TYPE:此字段匹配类型的地理分辨率,为以下值之一:1 = COUNTRY(匹配在国家/地区级别),2 = USSTATE(匹配到美国州),3 = USCITY(匹配 美国的城市或地标),4 = WORLDCITY(与美国之外的城市或地标相匹配),5 = WORLDSTATE(与美国以外的行政区划相当,相当于一个美国州)。 这可以用于按地理特征过滤计数,例如,仅提取具有地标级地理分辨率的那些计数以进行映射。 请注意,与代码1(COUNTRY),2(USSTATE)和5(WORLDSTATE)的匹配仍然会提供一个纬度/经度对,该纬度/经度对将是该国家/地区的中心,但的FeatureID字段将为空白。
GEO_FULLNAME:这是匹配位置的全部可读名称。 在一个国家的情况下,它只是国名。对于美国和世界的各州来说,它的格式是“州,国名”,而所有其他的则是“城市/地标,州,国家”的格式。在地图上放置时,可以使用这个标签来标记位置。 注意:这个字段反映了文本本身中用于引用位置的精确名称,这意味着它可能包含同一位置的多个拼写,可以使用FeatureID列来确定两个位置名称是否引用相同的位置。
GEO_COUNTRYCODE:国家地理信息的FIPS10-4国家编码。
GEO_ADM1Code:此处为2位FIPS10-4国家编码和2位FIPS10-4行政区划1(ADM1)编码,标识了参与者1的行政区划地理信息。
GEO_LAT:参与者1所处地理位置的纬度。
GEO_LONG:参与者1所处地理位置的经度。
GEO_ FEATUREID:参与者1地理位置的GNS或GNIS标识。
3、相关事件和源信息(LINKED EVENTS AND SOURCE INFORMATION)
捕获来自主GDELT事件流的任何链接事件以及此计数事件的源信息。
CAMEOEVENTIDS:该字段包含来自在发现该计数的同一篇文章中发现的事件的主GDELT事件流的GlobalEventID的逗号分隔列表。 例如,这可以用来将主要GDELT事件数据库中的任何抗议事件与同样文章中发现的任何“抗议”计数事件相关联,以编制抗议者参与的基本度量。 这很有用,因为抗议的GDELT事件记录对许多其他变量进行编码,例如涉及的特定参与者及其属性,而Count记录仅记录文章中提到的一定数量的抗议者。 如果在提及该事件的同一文章中发现多个计数事件,或者在具有不同计数数字的多个新闻文章中提及该事件(反映有关该事件的详细信息的冲突或不断变化的信息),则同一个GlobalEventID可能出现在多个条目中。
SOURCES:这是一个以分号分隔的所有发布提及这个计数的文章的来源列表。 对于基于网页的新闻资料,这是该网页的顶级域名,而对于BBC监控服务资料,则会出现“BBC Monitoring”。因此,要注意该字段将包含顶级域名和短语“BBC Monitoring”的混合。
SOURCEURLS:这是提到这个数字的所有文章的分隔列表。 由于URL可以包含各种各样的字符,短语“
(2)GKG表
GKG围绕它所谓的“名称集(namesets)”进行操作,它实质上是一组名称和其他信息在一组文章中出现的唯一配对。每天早上,GDELT GKG引擎会处理前一天的每篇新闻文章(不管是否包含GDELT事件),并编制一份所有人名,组织名称,地点,整体情感列表,以及任何提及到一组预定义的指标(十一个类别(截止文档写作),例如逮捕和死亡),任何GDELT事件的提及,以及在该文章中提及预定义的主题目录(超过150个主题(截止文档写作))。然后将所有文章分组在一起,其中包含文章中列出的同一组相同的人员,组织,地点,次数,事件和主题(文章可能是完全不同的主题,并且可能具有非常不同的情感分数,只要它们包含相同的名称,地点,计数和主题列表)。这一套人名,组织名称,地点,计数和主题的独特配对称为“名称集”。因此,一篇提到奥巴马,约翰·克里,弗拉基米尔·普京,俄罗斯和谈判的文章将导致“巴拉克·奥巴马 - 约翰·克里 - 弗拉基米尔·普京 - 俄罗斯谈判”的独特名称(实际的“unique key”比这个稍微复杂一些并避免字符碰撞)。GKG Graph文件的最终输出格式是每行唯一的名称集,每一行都包含所有包含该名称集的文章的列表。
使用GKG时要时刻牢记的一个考虑因素是名称集只表示一组给定的计数,主题,位置,人员和组织在一组给定的文章中出现在一起。这些名字一起出现并没有暗示相关性,但是传统上可以推断那些表征多个名字集的关系暗示某种类型的语义或结构相关性。例如,某篇文章可能会在约翰·克里(John Kerry),弗拉基米尔·普京(Vladimir Putin)和哈桑·鲁哈尼(Hassan Rouhani)的人事地区,美国,俄罗斯和伊朗在地点领域,以及在主题领域的制裁。这显然不表示约翰·克里来自俄罗斯或伊朗,或者美国正在进行制裁,而是表明约翰·克里通过一些活动与这两个地点和那个主题有某种联系。当从这些数据构建关系网络时,过滤数据排除的只出现在少数文档中的名称以及放弃的仅在几个文档中一起出现的名称之间的连接通常是最有价值的。例如,由于两国政要或哈桑·鲁哈尼(Hassan Rouhani)之间的访问,由于两国积极对话,约翰·克里可能在某一天与爱沙尼亚外交部长乌玛斯·帕特(Urmas Paet)有联系,一段时间内,他与奥巴马和美国关系最为密切。因此,在约翰·克里周围的连接上短时间观察,将会产生那个时期重要的外交和新兴联系,包括短暂的国事访问和短暂的交流,而延伸到更长和更长的时间段将表现出更长期的优先事项和新闻工作者的隶属关系。
随着时间的推移监测变化通常非常有用。例如,美国往往与制裁的讨论高度相关,因为它往往会导致对一个国家的制裁。因此,简单地在与制裁最密切相关的那些地点的每一天建造地图或列表,往往使美国排在最高位。相反,随着时间的推移寻找变化将导致美国从名单上大幅下降,因为其排名很少发生变化,而其他国家在名单上的排名将经历巨大的变化,因为对制裁的讨论会增加或减少。同样重要的是要记住,主题只是围绕某个主题进行讨论,而不一定是针对该主题的行动。例如,2013年9月哈桑·鲁哈尼访问联合国期间,伊朗经历了与制裁相关的巨大浪潮,因为伊朗与美国之间解冻关系的可能性引发了对伊朗制裁是否会放松的大量讨论。媒体对伊朗经济制裁的大幅度增加,仅仅反映了对伊朗兴趣和讨论的强烈增加,而不是当时的实际行动。因此,重要的是了解某个主题相对于某个人或某个位置的存在是如何表示意义的。主题应该被认为是讨论的核心主题围绕某个实体,而不是围绕该实体的行动。
人员,组织和地点之间的联系也可能反映了新闻环境的性质。例如,如果某个记者比其他人更频繁地报道某个公司或zz领袖,那么他或她可能会出现在与该领导者紧密联系的图表中,而公共关系人员和媒体发言人在人员中往往非常突出从他们的公司的文章领域,因为他们往往是记者引用或引用该公司。因此,找到一个与恐怖组织密切相关的大学教授或与外国领导或行业密切相关的记者是常见的,反映这些人经常在新闻评论或报道这些组织,领导和行业。人们必须时刻记住,GKG是基于名称的共同出现,而不是对组织关系的更深层次的结构性理解。通过这种方式,GKG反映了新闻媒体中的名称是如何背景化的,而不是捕获“组织结构图”的等价物。这往往会导致名称之间出现奇怪的联系,这些联系可能看起来没有任何关系,但实际上是捕捉新闻媒体如何讨论这些个人。
新闻媒体经常试图通过提供背景信息来解释为什么事件具有重要意义和背景,从而为事件提供背景。 2013年10月16日,塔利班在2012年被塔利班枪杀的年轻巴基斯坦女孩马拉拉·优素福扎(Marala Yousafzai)于2013年10月16日获得加拿大公民资格后,报道了其他加拿大人曾向其提供类似报价的其他人。 记者专注于她所在的好公司,指出拉乌尔·瓦伦堡,纳尔逊·曼德拉,达赖喇嘛,昂山素季和阿迦汗都曾被提出类似的要约。 因此,当天GKG将显示马拉拉和这五位国际名流之间的联系,反映她不一定已经访问过甚至与这些人有过接触,而是说新闻媒体正在讨论她。
重要的是要认识到,GKG的输出是对新闻内容的直接反映。从新兴事件到知名组织和领导者的新闻报道可能并不总是准确的,或者能捕获整个可用的信息环境。与主要的GDELT事件流一样,GKG执行极其复杂的地理消歧,但是它不执行人名消歧。确定关于“约翰·史密斯”的两篇不同的文章是指同一个人还是不同的人,是一个非常复杂的话题。围绕这个过程有一个完整的学术领域,还有大量的消除歧义的算法。一个简单的方法可以很好地工作,就是保持每个名字的运行状态,这个名字在新闻中出现了多少天。一旦名称出现在特定天数之后,计算与该名称一致的位置,组织和其他名称的直方图,并将该名称与和它同时发生最常见的位置,组织和功能参与者关联。这样一来,提到奥巴马总统就会与美国政府,美国和总统的功能参与者关系最为密切。这个消息中提到奥巴马的一些人可能是指在世界其他地方同名的人,但可以肯定的是,大多数人都提到美国总统。对于不是国家元首的个人或者信息混合程度更高的个人而言,这是非常复杂的,强烈建议那些需要高度精确的名字消歧和解析的用户参考最新的文献和算法。
使用GKG的最后一个重要注意事项是,在数字时代,新闻报道可以在网上发布之后发生变化,包括对文章文本的大量添加,删除和编辑。虽然很少见,但是一篇文章在我们处理完毕后发生了巨大的变化的确有出现,因此,当文章被访问时,我们之前记录的文章中的人,组织,位置,主题和事件可能不再存在。出现在来自不同来源的多篇文章中的事件仍应存在于所引用的文章中的至少一篇中,因此当追溯实体,主题或事件的附加细节时,用户有时可能必须通读引用的文章如果一个或多个源文章发生了变化。这通常发生在重大的突发事件中,当文章首次发布时,实质性的信息是未知的,并且新闻出版商在未来几小时更新原始故事并提供额外的信息。
GKG表共包括11个字段,分为主属性(PRIMARY ATTRIBUTES)、情感(EMOTION)以及相关事件和源信息(LINKED EVENTS AND SOURCE INFORMATION)三个部分。
1、主属性(PRIMARY ATTRIBUTES)
DATE:YYYYMMDD格式,记录构建GKG文件的新闻媒体发布文章的时间,在一个GKG文件中,所有行的这个属性都相同。
NUMARTS:这是包含一个或多个包括该名称集的源文档的总数。这可以用来评估“重要性”,讨论越多的有可能是重要的。源文件的总体情况随着时间的推移而变化,所以建议在感兴趣的时间段内,通过计算全局的平均值或其他度量标准化该字段。
COUNTS:这是在这个名称集中找到的计数事件列表。找到的每个计数事件都用分号分隔,而计数内的字段由磅符号(“#”)分隔。这捕获了计数文件中的所有信息,因此当使用GKG图形文件时,不需要单独下载同一天的计数文件(计数文件是为那些只想处理计数的人生成的,不需要完整的GKG图形文件的所有附加功能)。
THEMES:这是在名称集中找到的所有主题的列表。有关可能的主题的完整列表,请参阅类别列表表格。系统目前已经确认了超过150个主题(截止文章写作)。
LOCATIONS:这是通过Leetaru算法提取的文本中找到的所有位置的列表。为了提取每个可能的位置参考,算法在这里比一般情况下运行得更加积极,所以可能会有轻微的误报。
PERSONS:这是通过Leetaru算法提取的文本中找到的所有人名的列表。这种名称识别算法的独特之处在于它专门用来识别非洲,亚洲和中东地区的名称。
ORGANIZATIONS:这是通过Leetaru算法提取的文本中找到的所有公司和组织名称的列表。这是一个由公司,政府间组织,非政府组织和其他当地组织组成的组合,或者当地的一个展会或理事会。这款引擎具有高度的自适应性,目前被调整为在包容性方面犯错,以确保匹配不太确定时全球范围内小型组织的最大召回率,这对GKG的许多用户来说是特别感兴趣的。 相反,某些名称和背景不足以提供足够识别锁定的小公司可能会错过或有时根据上下文错误分类为人名。建议用户对“人员和组织”字段的结果进行直方图分析,放弃仅出现一次或两次的名称,以消除大部分这些误报匹配。
2、情感(EMOTION)
TONE:这个字段包含六个核心情绪维度的逗号分隔列表,下面会详细介绍这六种情绪维度。每个记录为一个单精度浮点数。
3、相关事件和源信息(LINKED EVENTS AND SOURCE INFORMATION)
CAMEOEVENTIDS:该字段包含与发现该名称集的同一文章中发现的主GDELT事件流中的GlobalEventID的逗号分隔列表。
SOURCES:这是一个以分号分隔的所有发布提及这个计数的文章的来源列表。 对于基于网页的新闻资料,这是该网页的顶级域名,而对于BBC监控服务资料,则会出现“BBC Monitoring”。因此,要注意该字段将包含顶级域名和短语“BBC Monitoring”的混合。
SOURCEURLS:这是提到这个数字的所有文章的分隔列表。 由于URL可以包含各种各样的字符,短语“
每天的GKG文件大小在10-70MB左右(随日期增加而变大),GKGCounts文件大小在200KB-10M左右(随日期增加而变大)。
GKG文件数据在10-20万条左右,GKGCounts文件数据在1-4万条左右。
获取HTML地址:http://data.gdeltproject.org/gkg/index.html。
给出ZIP格式包,可以点击直接下载。
GKG2.0发布于2015年2月,格式很大程度上不变,但是添加了一些字段并对GKG系统做了一些重要的改进。并且加入对65种语言的实时翻译以及变为每15分钟更新一次。引入全球内容分析模块The GDELT Global Content Analysis Measures (GCAM) module,可以评估2300多种情感以及更多的主题。
从概念的角度来看,GKG 2.1/2.0格式和GKG 1.0之间的两个关键区别在于条目是如何分组的,以及GKG流中包含的文章的最低标准。
在GKG 1.0格式下,将类似于事件流的重复数据删除过程应用于日常GKG导出,将所有产生相同GKG元数据的文章分组在一起。因此,列出同一组位置,主题,人员和组织的两篇文章将被排列在一起,NumArticles值为2。随着引入新的GCAM系统,可以评估2,300多个情感和每篇文章的主题,这清楚地表明,GKG 1.0方法将不再起作用,因为产生相同位置,主题,人员和组织的多篇文章可能使用完全不同的语言来讨论它们,从而产生非常不同的GCAM分数。另外,将实时翻译引入到GDELT体系结构中需要能够在文档级识别元数据的出处。因此,GKG 2.1不再基于共享元数据将文档聚类在一起——如果20篇文章全部包含相同的位置,主题,人员和组织列表,则它们将在GKG流中显示为20个单独的条目。然而,GKG1.0仍将继续执行聚类。
除了聚类改变之外,GKG 2.1还改变了在GKG中出现的文章的最低纳入标准。根据GKG1.0和2.0,要求文章至少有一个成功识别和地理编码的地理位置,然后才能包含在GKG输出中。但是,网络安全,宪法讨论和重大政策讨论等方面的许多议题往往没有很强的地域集中性,许多文章甚至没有提到一个地方。这从GKG系统中排除了大量与GDELT用户社区高度相关的内容。因此,从GKG 2.1开始,如果包含任何成功提取的信息(包括GCAM情绪分数),则GKG流中会包含一篇文章。现在,一篇不包含可识别的地理名词,但列出若干zz领导人,或提及立宪主义或即将出台的政策公告的论文,现在将被包含在GKG流中。同样,一篇没有可识别的元数据,但确实能够产生GCAM情感/主题评分的文章也将包括在内。
以“V1”开头的字段表示它们在格式上与以前的GKG格式相同。那些以“V1.5”开头的字段意味着它们大致相似,但有一些变化。那些以“V2”开头的字段为新格式。每一行代表由GKG编纂的一个文件。
GKGRECORDID:每个GKG记录都被分配一个全球唯一的标识符。与使用半连续编号为每个事件记录分配数字ID的EVENT系统不同,GKG系统使用面向日期的序列号。每个GKG记录ID采用“YYYYMMDDHHMMSS-X”或“YYYYMMDDHHMMSS-TX”格式,其中ID的第一部分是创建该记录的15分钟更新批次的完整日期+时间,后面是短划线,然后按顺序编号,作为该更新批次的一部分创建的所有GKG记录。源自GDELT Translingual翻译的文件的记录将在短划线之后立即显示大写字母“T”,以允许通过其记录标识符过滤英文/非英文材料。因此,在2015年2月3日凌晨3:30生成的作为更新批次的一部分创建的第五个GKG记录将具有“20150203033000-5”的GKGRECORDID,并且如果它基于翻译的法语文档,有ID“20150203033000-T5”。这个ID可以用来在整个GKG数据库中唯一地识别这个特定的记录。
V2.1DATE:这是新闻媒体用于构建GKG文件的YYYYMMDDHHMMSS格式的日期。与主要的GDELT事件流文件不同,此日期表示从其中提取信息的文档的发布日期——如果文章讨论过去的事件,那么日期不会像GDELT事件那样发生时移流。该日期对于文件中的所有行是相同的,并且从数据处理的角度来看是冗余的,但是为了更容易将GKG文件直接加载到SQL数据库中进行分析。
V2SOURCECOLLECTIONIDENTIFIER:是数据源的一个数字标识符,用来解释下面的DocumentIdentifier字段,它指定如何解释DocumentIdentifier字段来定位文档。共有六种类型,与Mentions表中介绍的MentionType六种类型相同。
V2SOURCECOMMONNAME:这是文档来源的人性化标识符。 对于源自开放网站的带有URL的材料,该字段将包含该页面来自的顶级域。 对于BBC的监测材料,它将包含“BBC Monitoring”,而对于JSTOR材料,它将包含“JSTOR”。该字段主要用于显示主要来源,以及按来源进行信息流的网络分析,避免了对执行域或其他MentionIdentifier字段的解析。
V2DOCUMENTIDENTIFIER:这是源文档的唯一外部标识符。如果您有必要的订阅或授权的文档是公开访问的,它可以用来唯一标识文档并访问它。该字段可以包含一系列值,从打开的网页资源的URL到打印或广播材料的文本引用到各个文档库的DOI标识符。例如,如果SOURCECOLLECTION等于1,则该字段将包含适合直接访问的完全限定的URL。如果SOURCECOLLECTION等于2,则该字段将包含类似于在引用该文档的学术期刊文章中将出现的文本引文(注意,实际引用格式将会不同(通常在APA,芝加哥,哈佛或MLA之间)取决于由于目前向GDELT提供这些数据的方式,未来的努力将集中在将该领域标准化为标准引用格式,因此目前应该对其确切格式做出很多因素的假设。如果SOURCECOLLECTION为3,则该字段将包含数字或字母数字DOI,如果您的机构有JSTOR订阅,则可以键入到JSTOR的搜索引擎中以访问该文档。
V1COUNTS:这是本文档中的计数列表。找到的每个计数事件都用分号分隔,而计数事件内的字段由磅符号(“#”)分隔。这个字段在格式和人口上与GKG1.0格式的相应字段相同。
这个字段中共包括10个子字段,其中前三个字段为CountType、Number、ObjectType,这三个字段解释与GKG1.0Counts表中的解释相同,即一个CountType = KILL,Number = 47,ObjectType =“jihadists”的条目表明该文章指出有47名圣战者被杀害。
其它7个字段为位置信息属性,即Location Type、FullName、CountryCode、ADM1Code、Latitude、Longitude、FeatureID。具体解释在下面V1Locations中。
V2.1COUNTS:该字段与V1COUNTS字段都相同除了它在每个条目的末尾添加了一个最终附加字段,用于标识在文档中位置的近似字符偏移量,从而允许将其与其他出现在它最接近的地方的“V2ENHANCED”字段(或事件)联系起来。 注意:与其他位置相关的字段不同,Counts字段此时不添加ADM2支持。这是为了保持与许多应用程序对“计数”字段内容的假设的兼容性。那些需要对计数进行ADM2支持的应用程序应该将给定Count的FeatureID字段与V2Locations字段进行交叉引用,以确定其ADM2值。
V1THEMES:这是在文档中找到的所有主题的列表。有关可能的主题的完整列表,请参阅类别列表表格。截止撰写本文时,系统目前已经确认了超过275个主题。这个字段在格式上与GKG1.0格式的相应字段相同。
V2ENHANCEDTHEMES:这包含文档中引用的所有GKG主题的列表,以及大概在文档中的哪个位置的字符偏移量。截止撰写本文时,系统目前已经确认了300多个主题。每个主题引用以分号分隔,在每个引用内,首先指定主题的名称,然后是逗号,然后是文档中该主题的引用的近似字符偏移量,从而允许将其和与其最接近的其他“V2ENHANCED”字段联系起来。如果在文档中多次提到主题,则每个提及都将单独出现在该字段中。
V1LOCATIONS:其中7个子字段与GKG1.0中的解释完全相同。
V2ENHANCEDLOCATIONS:在最后一个字段FeatureID后加了一个标识在文档中哪个位置的字符偏移量值,如果文章中多次提及位置,那么会在字段中分别列出,并且在ADM1Code字段后添加了一个ADM2Code字段。注意:在2015-2-19到2015-3-1此字段的CountryCode有错误。
V1PERSONS:与GKG1.0中解释相同。
V2ENHANCEDPERSONS:在人物名字后加了一个标识在文档中哪个位置的位置偏移量。多次出现会被多次记录。
V1ORGANIZATIONS:与GKG1.0中解释相同。
V2ENHANCEDORGANIZATIONS:在机构名称后加了一个标识在文档中哪个位置的位置偏移量。多次出现会被多次记录。
V1.5TONE:其中包括七个字段,前六个与GKG1.0中介绍的相同。最后添加的字段为WordCount,记录文档中的总词数。
V2.1ENHANCEDDATES:这包含文档中所有日期引用的列表,以及文档中大约在哪里找到的字符偏移量。如果在文档中多次提到日期,则会在该字段中出现多次,每次提及一次。每个日期引用用分号分隔,而日期中的字段用逗号分隔。注意:该字段与GKG 2.0相同,唯一的例外是增加了一个额外的日期分辨率类型(4 =包括月份和日期,但不包括一年的日期)。
o年这是日期的一年。对于包含月份和日期,但不包含一年的分辨率= 4的日期,此字段将包含0。
o偏移。这是文档中日期的字符偏移量,大致指出了在文档中发现的位置。这可以用来将日期与其他“V2ENHANCED”字段中与其最接近的条目相关联。
V2GCAM:全球内容分析措施(GCAM)系统在每个文件上运行一系列内容分析系统,并将其结果编辑到这个字段。随着时间的推移,新的内容分析系统将不断添加到GCAM中,这意味着可用字段的集合将随着时间的推移而不断增长。GCAM系统正在推出超过2300个维度,未来几个月可能会增加几千个维度,不同之处在于其编码方式与GKG的原生编码系统不同。它不是显示内容分析字典或维度的完整英文名称,而是为每个字典分配一个唯一的数字标识符(DictionaryID),并且该字典中的每个维度都被赋予一个唯一的标识符,从1到字典中的维数(DimensionID)。每个字典的每个维度都在一个文档上进行评估,并且只报告那些在文档上有一个或多个匹配的维度。如果维度未在文档上有任何匹配项,则不报告以节省空间。因此,在这个领域缺乏维度可以被解释为0分。
将每个维度的分数写入以逗号分隔的V2GCAM字段。对于每个维度,数字“键”以“DictionaryID.DimensionID”的形式标识它,后面跟着一个冒号,后面跟着它的分数。大多数字典都是以数字为基础的,也就是说他们会报告文档中找到该字典多少字。因此,18分就意味着文档中18个词在该词典中找到。基于计数的维度具有以“c”开头的键。一些字典,如SentiWordNet和SentiWords实际上分配每个单词的数字分数,工具的输出是该文档的分数的平均值。对于这些词典,以“v”而不是“c”开头的单独条目将报告其浮点平均值。该字段中的第一个条目以“wc”,报告文档中的字的总数——这可以用于将任何字数字段的分数转换为百分比密度分数。
V2.1SHARINGIMAGE:许多新闻网站为每篇文章指定了一个所谓的“分享图像”,其中当通过社交媒体或其他格式共享文章时,新闻指定要显示的特定图像。并非所有新闻媒体都指定了分享图片,有些网站只是简单地使用他们的标志,但是对于那些使用这个领域的人来说,它代表了媒体对于单一图片的选择,以最好地捕捉整个故事的焦点和内容。 GDELT目前识别了用于指定该图像的各种格式,包括Open Graph,Twitter卡,Google+,IMAGE_SRC和SailThru格式等。
V2.1RELATEDIMAGES:新闻文章通常包括照片,图形和其他图像来说明故事,从顶部的单个说明照片到散布在整篇文章中的照片。GDELT使用一套非常复杂的算法来实际上按照人类的方式“阅读”每篇文章,根据定位,字幕,引用和上下文来评估每个图像以确定其相关性,并编制与文章最相关的图像的URL列表。因此,不相关的内嵌框,广告和其他图像被忽略,并且该字段只包含最能说明故事核心的图像列表。这个特性为alpha版本,涉及到一些协同工作的高度复杂的算法,因此可能会出错。随着时间的推移,我们将会改进这个算法。
V2.1SOCIALIMAGEEMBEDS:新闻网站正在越来越多地将基于图像的社交媒体帖子嵌入到他们的文章中,GDELT目前认可基于嵌入式图像的Twitter和Instagram的帖子,并在这个字段记录他们的网址。 只有包含图像的帖子才会包含在此字段中。新闻媒体通过大量的社交媒体反应或报道具体情况,并选择被认为具有最大关联性,重要性,可信度和/或兴趣的关键图像帖子给他们的观众。
V2.1SOCIALVIDEOEMBEDS:新闻网站正在越来越多地将视频嵌入到他们的文章中,一些同时拥有电视媒体的新闻媒体可能会将他们的电视报道交叉链接到他们的网络报告中。 GDELT目前认可嵌入到文章中的YouTube,DailyMotion,Vimeo和Vine视频,并在该字段中记录其URL。
V2.1QUOTATIONS:新闻报道通常以事件参与者和/或受其影响的事件为摘录陈述,这些引文可以提供关于该事件周围不同观点和情绪的重要见解。 GDELT识别并提取每篇文章中引用的所有语句,并试图找出引用该语句的动词以帮助提供额外的背景,将“约翰反驳的...”与“约翰同意...”分开,以表明发言者是否同意或拒绝该语句被制造。每个带引号的语句用“#”字符分隔,并在每个块内出现下列字段,用(“|”)符号分隔:
V2.1ALLNAMES:此字段包含文档中引用的所有专有名称的列表,以及文档中的大约位置的字符偏移量。与V2ENHANCEDPERSONS和V2ENHANCEDORGANISATIONS字段不同,它们分别仅限于个人和组织名称,该字段记录文章中引用的所有专有名称,从橙色革命,伞运动和阿拉伯之春等命名事件到民间权利运动,像戛纳电影节和世界杯这样的节日和事件,像第一次世界大战这样的命名战争,像马丁·路德·金纪念日和大屠杀纪念日这样的命名日期,像伊朗无核武器法,医疗法和Rouge国家城市公园计划的命名立法。这个领域超出了个人和组织的范围,从而在每篇文章中捕捉到更为广泛的命名事件,对象,倡议,法律和其他类型的名称。每个名称引用以分号分隔,在每个引用中,首先指定名称,然后是逗号,然后是文档中该名称的引用的近似字符偏移量。如果文件中多次提及某个名称,则每个提及都将单独出现在该字段中。这个字段的设计是最大限度的包容性的,在模棱两可的情况下,错误地包含一个名字。
V2.1AMOUNTS:该字段包含文档中引用的所有精确数字量的列表,以及大约在文档中发现的位置的字符偏移量。它的主要作用是允许对不断变化的情况进行快速的数字评估(例如提到从受影响家庭的数量到估计的美元损失数量的救援卡车和部队被送入该地区的损失)和地理和主题的一般评估。支持文本和数字格式(“二十五辆卡车”,“花费了12.5亿美元”,等)。在这个时候,由于有意义的解密需要大量额外的文档上下文,所以百分比不被支持(“减少45%”是没有意义的,不知道是什么减少了,减少是好还是坏,通常需要查看整个在上下文中附上段落)。这个领域被设计成最大限度地包容性的,并且在含糊不清的情况下,即使数量的对象更难以破译,也可能在包含数量方面犯错。
V2.1TRANSLATIONINFO:该字段用于记录机器翻译文档的出处信息,指明原始源语言和用于翻译文档以供处理的翻译系统的引用。原文为英文的文件将是空白的。此时该字段对于由人工翻译器翻译的文档也是空白的,将来,该字段可能会扩展为包含人工翻译的信息,但目前仅限于捕获机器翻译材料的信息。
V2EXTRASXML:该字段保留用于保存适用于GDELT集合的特殊子集的特殊非标准数据。相比GKG的其他字段是独特的,它是XML格式的,并且该字段内给定块的特定格式是高度定制的。在撰写本文时,它目前用于保存学术期刊文章子集的引用列表,对于新闻内容是空白的。
每15分钟的GKG文件大小在10-30MB左右,2000-7000条左右数据。
与1.2.4中GDELT2.0事件数据库获取地址相同。该HTML地址给出EVENTS、Mentions、GKG三个数据。
GDELT视觉知识图将Google最强大的深度学习算法应用于全球新闻图像,以便实时对世界媒体的视觉叙述进行整理。由谷歌云视觉API支持,VGKG扩展了GDELT理解全球新闻媒体的能力,使其首次能够理解伴随着世界新闻的大量视觉叙述。
每天GDELT监视来自全球各地的50万到100万幅原始图像,捕捉几乎每个地球上几乎所有可以想到的事件和主题。这些图像为整个地球上的全球事件和日常生活提供了一个生动而丰富的可视化,远远超出了文本叙述本身所能提供的,让GDELT能像人类一样真实地理解世界新闻的图像。
这是这个强试验性的数据,发布的为alpha版本,也就是说随时会变。VGKG是处理上个15分钟GKG中收集的SocialSharingImage数据,所以VGKG数据会比GKG数据晚发布一段时间,如果GKG中的图像在VGKG中没有找到,则说明在15分钟间隔不足以处理完所有图像,有些图像没来得及处理。
共12个字段,具体解释如下:
DATE:YYYYMMDDHHMMSS格式,为包含该图像的文章被GDELT发现的日期和时间。
DOCUMENTIDENTIFIER:这是发现图片的文章的网址。它与主GKG和EVENT表中使用的URL相同,可以进行交叉引用和连接。
IMAGEURL:这是分析文章中特定图像的URL,因为文章可能包含多个图像。在撰写本文时,我们目前只处理每篇文章的SocialSharingImage。
LABELS:这是描述图像内容的标签注释列表。每个标签包含三个由“
GEOLANDMARKS:这是拍摄图像的估计地理位置的列表。 每个标签包含三个由“
LOGOS:这是在图像中找到的图标列表。 每个标签包含三个由“
SAFESEARCH:这是图片上Google SafeSearch算法的输出。估计图像中有暴力、医学性质、欺骗性、成人性质的程度,值是-2(非常不可能),-1(不太可能),1(可能)或2(非常可能)。
FACES:这是在图像中找到的面孔的列表。 每个记录包含一系列 “
OCR:这是在图像中找到的检测到的文本区域的列表。 每个区域由“
每15分钟的Visual GKG文件大小在40MB左右。
获取HTML地址:http://data.gdeltproject.org/gdeltv2_cloudvision/lastupdate.txt。
给出最新的一个数据ZIP包的下载HTML地址。
GKG除了收集全球的新闻报道之外,还有许多特别的GKG收藏集,专注于特定的专业信息来源或主题,包括美国电视GKG,非洲和中东学术GKG、人权知识图、美国的历史书籍档案。
HTML地址:https://blog.gdeltproject.org/the-datasets-of-gdelt-as-of-february-2016/。
给出了一些特别收集的数据的说明和获取地址。
Event Database中的EventCode字段为事件描述,通过CAMEO码描述了事件参与者1对参与者2的行为。
CAMEO(http://data.gdeltproject.org/documentation/CAMEO.Manual.1.1b3.pdf)(Conflict and Mediation Event Observations)的中文全名是“冲突与调解事件观察”,是用于分析国家间政策相互影响的一种新的事件数据框架。CAMEO共定义了20大类和将近300小类的冲突与调解事件,其中20大类事件编码及其描述见下表。
编码 |
描述 |
1 |
发表公开声明(MAKE PUBLIC STATEMENT ) |
2 |
呼吁(APPEAL) |
3 |
表明合作意愿(EXPRESS TNTENT TO COOPERATE) |
4 |
商议(CONSULT) |
5 |
进行外交合作(ENGAGE IN DIPLOMATIC COOPERATION) |
6 |
进行实质性合作(ENGAGE IN MATERIAL COOPERATION) |
7 |
提供援助(PROVIDE AID) |
8 |
让步,屈服(YIELD ) |
9 |
调查(INVESTIGATE |
10 |
要求(DEMAND) |
11 |
反对(DISAPPROVE) |
12 |
拒绝(REJECT) |
13 |
威胁(THREATEN) |
14 |
抗议(PROTEST) |
15 |
武力展示(EXHIBIT FORCE POSTURE ) |
16 |
削弱关系(REDUCE RELATIONS) |
17 |
强制措施(COERCE) |
18 |
袭击(ASSAULT) |
19 |
战争(FIGHT ) |
20 |
使用非常规大规模暴力(USE UNCONVENTIONAL MASS VIOLENCE) |
参与者编码比事件编码要复杂一些,对参与者的编码有ActorCode、ActorCountryCode、ActorKnownGroupCode、ActorEthnicCode、ActorReligionCode、ActorTypeCode。
其中ActorCode为参与者的CAMEO码。CAMEO是一组编码属性,指示参与者的各种信息,每个属性信息均3个字母的缩写,以可能的顺序排列组成CAMEO码。而ActorCountryCode、ActorKnownGroupCode、ActorEthnicCode、ActorReligionCode、ActorTypeCode则为参与者的各个分属性,当参与者的国家信息、所属组织、民族信息、宗教信息、角色信息已知时,将它们单独列出,是ActorCode中的一个部分三位编码,也可能和ActorCode相同。
ActorCode由一系列三个字母组成,按照层级图的顺序编写。
给予任何参与者的编码长度取决于适用于参与者的这些组的编号,不过TABARI目前将总字符限制为十五个,即五个三个字母的编码。一些参与者可能被认为足够重要,拥有他们自己独特的三字符代码,但大多数只是使用特定和通用代码的组合。任何参与者的编码遵循两个基本规则:
1. 从一般到具体。
2. 在选择合适的三个字母分级的分级放置时,保持一致的模式。
没有参与者会使用层级图中列出的所有类别,但规则和层次结构为编码人员提供了如何分解参与者编码信息的途径,并确保各个研究之间的一致性。
CAMEO编码方案中有两种类型的参与者:国内和国际。参与者如何编码取决于参与者是哪种类型。
对于国内参与者,CAMEO代码的前三个字符表示参与者的国家。联合国标准三字母国家代码清单被用来识别国家。联合国网站上可以找到目前的清单以及更改和添加的代码清单。(http://unstats.un.org/unsd/methods/m49/m49.htm)。
非国家身份的参与者可以采取国际代码。不同的通用代码被用来区分各种国际和跨国行为者。 IGO(国际政府组织),IMG(国际军事组织),NGO(非政府组织),NGM(非政府运动)和MNC(跨国公司)是主要的通用代码。它们既可以单独使用也可以作为更详细代码的前三个字符。一些特殊情况下的宗教团体,种族和国际区域作为国际参与者来处理,但不以的国际代码开头。
另外,我们有代码UIS(未经证实的国家行为者),当一个参与者被认为是一个国家或政府,或者已知代表一个国家或国家行事时使用这个代码,但是这个特定的身份国家在报告中并没有披露(例如“外交官”),同样,如果一个国际参与者不能以任何理由归类,INT可以作为最后的代码。
通用角色代码被分配给参与者,以便在各自国家内表明其角色和状态。它们附在最初的国家和地区代码上。通用角色代码的全面列表可以如下表所示。我们对主要角色代码、次级角色代码和三级角色代码进行了重要的区分。在合理的情况下,编码者应使用主要代码来确定国内参与者的角色,其中GOV,MIL,OPP,INS或SEP(以前的REB)实际上是最常用的。
分级 |
代码 |
角色描述 |
Description |
主要角色代码 |
COP |
警察部门警察机关 |
Police forces, officers, criminal investigative units, protective agencies |
GOV |
政府 |
Government: the executive, governing parties, coalitions partners, executive divisions |
|
INS |
叛乱分子 |
Insurgents (rebels): all rebels who attempt to overthrow their national government |
|
JUD |
司法部门 |
Judiciary: judges, courts |
|
MIL |
军事 |
Military: troops, soldiers, all state-military personnel/equipment |
|
OPP |
zz抗争 |
Political opposition: opposition parties, individuals, anti-government activists |
|
REB |
谋反 |
Rebels: armed and violent opposition groups, individuals |
|
SEP |
分裂主义叛乱分子 |
Separatist rebels: all rebels who try to emancipate their region from its country |
|
SPY |
国家情报 |
State intelligence services and members including covert operations groups as well as intelligence collection and analyses |
|
UAF |
不结盟武装部队 |
Armed forces aligned neither with nor against their government |
|
次级角色代码 |
AGR |
农业 |
Agriculture: individuals and groups involved in the practices of crop cultivation including government agencies whose primary concern is agricultural issues |
BUS |
商业 |
Business: businessmen, companies, and enterprises, not including MNCs |
|
CRM |
犯罪 |
Criminal: corresponding to individuals involved in or allegedly involved in the deliberate breaking of state or international laws primarily for profit |
|
CVL |
平民 |
Civilian individuals or groups sometimes used as catch-all for individuals or groups for whom no other role category is appropriate |
|
DEV |
发展 |
Development: individuals or groups concerned primarily with development issues of varying types including infrastructure creation, democratization et al. |
|
EDU |
教育 |
Education: educators, schools, students, or organizations dealing with education |
|
ELI |
精英 |
Elites: former government o |
|
ENV |
环境 |
Environmental: entities for whom environmental and ecological issues are their primary focus, includes wildlife preservation, climate change, etc. |
|
HLH |
健康 |
Health: individuals, groups and organizations dealing with health and social welfare practices (doctors, Doctors Without Borders) |
|
HRI |
人权 |
Human Rights: actors for whom their primary area of operation or expertise is with documenting and/or correcting human rights concerns |
|
LAB |
劳动 |
Labor: specially individuals in or elements of organized labor, organizations concerned with labor issues |
|
LEG |
立法机关 |
Legislature: parliaments, assemblies, lawmakers, references to specific legislative entities or sub-entities such as committees |
|
MED |
媒体 |
Media: journalists, newspapers, television stations also includes providers of internet services and other forms of mass information dissemination |
|
REF |
难民 |
Refugees: also refers to agencies or MNCs dealing with population migration and relocation issues |
|
三级角色代码 |
MOD |
温和的 |
Moderate: "moderate", "mainstream", etc. |
RAD |
激进的 |
Radical: "radical"," extremist", "fundamentalist," etc. |
对参与者并非都来自一个国家的进行国际编码,大多数国际参与者以国际代码开头,下表是一些通用的国际代码。
代码 |
描述 |
例子 |
例子编码 |
IGO |
国家或地区 政府间组织 |
the United Nations |
IGOUNO |
World Trade Organization |
IGOWTO |
||
IMG |
国家或地区 国际军事化组织 |
al-Qaeda |
IMGMOSALQ |
Abu Sayaaf |
IMGSEAMOSASF |
||
INT |
未知的国际参与者 |
international envoy |
INT |
international observer |
INT |
||
world community |
INT |
||
MNC |
跨国公司 |
Halliburton |
MNC |
multinational firm |
MNC |
||
Shell oil company |
MNC |
||
NGM |
无政府运动 |
Greenpeace |
NGMENVGRP |
anti-WTO activists |
NGM |
||
human rights advocate |
NGM |
||
NGO |
无政府组织 |
aid worker |
NGO |
Amnesty International |
NGOHRIAMN |
||
Red Cross |
NGOHLHIRC |
||
UIS |
未知的国家参与者 |
foreign diplomat |
UIS |
world governments |
UIS |
在确定国内还是国际后,参与者按照其属性进行编码,即ActorCountryCode、ActorKnownGroupCode、ActorEthnicCode、ActorReligionCode、ActorTypeCode,这些代码及描述如下面的网址给出。
Country Code:https://www.gdeltproject.org/data/lookups/CAMEO.country.txt
Group:https://www.gdeltproject.org/data/lookups/CAMEO.knowngroup.txt
Ethnic:https://www.gdeltproject.org/data/lookups/CAMEO.ethnic.txt
Religion:https://www.gdeltproject.org/data/lookups/CAMEO.religion.txt
Type:https://www.gdeltproject.org/data/lookups/CAMEO.type.txt
GDELT分析服务(http://analysis.gdeltproject.org/)是一个免费的基于云的服务,提供各种工具和服务,包括地理、时间、网络、文本分析。共提供14种分析服务,使用者不需要任何技术背景,输入查询条件,结果会在10分钟内发到指定的邮件中。
(1)事件表子集获取
通过查询条件获得符合条件的数据,会以CSV表格形式发送,目前只提供获取20000行以内的数据。
查询条件:起止日期、参与者1/2国家和类型、事件类型。
(2)事件地理网络可视化
根据查询条件中规定的参与者1/2的位置建立连接,生成KML和Gephi中可用的文件。
查询条件:起止日期、参与者1/2国家和类型、事件类型、位置权重(事件总数/提及次数)、截断阈值。
(3)事件热力图
根据查询条件中规定的参与者1/2的位置统计事件数/提及文章数据,生成浏览器热力图和CSV文件。
查询条件:起止日期、参与者1/2国家和类型、事件类型、位置权重(事件总数/提及次数)。
(4)事件时间线可视化
事件网格可视化,X轴代表一年中的每一天,Y轴代表年份,根据GDELT的增长进行归一化。生成图像及CSV文件。
查询条件:起止日期、参与者1/2国家和类型、事件类型。
(5)事件时空可视化
根据在每个地方发生的事件进行聚类,可以通过时间滑块滑动查看不同时间的事件数变化,生成KML和CSV文件。
查询条件:起止日期、参与者1/2国家和类型、事件类型、位置权重(事件总数/提及次数)。
(6)GKG网络可视化
根据名称集的共现性建立连接组成网络。节点可以是人名、组织、主题、国家地点,生成Web、Gephi、pajek以及中心性文件。
查询条件:起止日期、所包含或去除的名称集属性、节点类型、边权重(事件总数/提及次数)。
(7)GKG热力图
根据查询条件中规定的人名、主题、地点等信息统计在各个地点的名称集/新闻数量,生成浏览器热力图和CSV文件。
查询条件:起止日期、所包含或去除的名称集属性、位置权重(名称集/新闻数量)。
(8)GKG国家时间轴
根据查询条件中规定的人名、主题、地点等信息根据在新闻中的共现性统计各个国家关于该条件的名称集/新闻数量,X轴为国家,Y轴为时间。
查询条件:起止日期、所包含或去除的名称集属性、位置权重(名称集/新闻数量)。
(9)GKG子集获取
根据查询条件中规定的人名、主题、地点等信息查询符合条件的GKG子集,会以CSV表格形式发送,以及一个文章来源列表,目前只提供获取20000行以内的数据。
查询条件:起止日期、所包含或去除的名称集属性。
(10)GKG地理可视化网络
根据名称集的共现性建立其中地理位置的连接,生成Web、Gephi、pajek以及中心性文件。
查询条件:起止日期、所包含或去除的名称集属性、节点类型、边权重(事件总数/提及次数)。
(11)GKG词云可视化
根据名称集的共现性生成词云,词云主题可以是人名、组织、主题、国家地点,提取出现前100的主题字段,生成图片和CSV文件。
查询条件:起止日期、所包含或去除的名称集属性、词云字段类型、强度权重(事件总数/提及次数)。
(12)GKG语气时间轴可视化
根据查询条件中规定的人名、主题、地点等信息根据在新闻中的共现性统计关于该条件的新闻平均语气变化。
查询条件:起止日期、所包含或去除的名称集属性、强度权重(名称集/新闻数量)。
(13)GKG时间轴可视化
根据查询条件中规定的人名、主题、地点等信息根据在新闻中的共现性统计关于该条件的名称集/新闻数量。
查询条件:起止日期、所包含或去除的名称集属性、强度权重(名称集/新闻数量)。
(14)GKG主题时间轴可视化
根据查询条件中规定的人名、主题、地点等信息根据在新闻中的共现性统计各个主题关于该条件的名称集/新闻数量,X轴为主题,Y轴为时间。
查询条件:起止日期、所包含或去除的名称集属性、位置权重(名称集/新闻数量)。
GDELT提供两个报告,都是每天早上会更新,可以通过URL地址进行访问,以PDF的形式提供。
(1)Daily Conflict Trends Report(每日冲突趋势报告)
http://data.gdeltproject.org/dailytrendreport/GDELT_Trend_Report-2018-01-09.pdf
上面网址是访问网址,修改后面的日期就可以获取相应的报告。
报告是从2013.12.15开始到现在。
报告是每天将全球在过去48小时之内的实质冲突与之前的48小时进行比较,生成一个冲突趋势全球地图,然后提取出实质性冲突增幅最大的前10个国家,并为每个生成一页PDF包括地点、主题、参与者等冲突有关信息的图表报告。
(2)Daily World Leaders Index(世界领导人指数)
http://data.gdeltproject.org/worldleadersindex/GDELT_Leaders_Index-2018-01-09.pdf
上面网址是访问网址,修改后面的日期就可以获取相应的报告。
报告是从2014.2.8开始到现在。
报告是比较在过去的48小时内在世界各地的媒体中,提到每个领导人的所有文章的平均“语调”,是从“极度正面”(一个+100)到“极度负面”(一个-100)计算出来的。并且为每个领导人生成过去90天内语调变化的趋势图,不过只有两天中关于该领导人的新闻报告数量足够多的时候才会显示。
GDELT提供的API很多,功能也十分强大,我还没有整理,或许之后会补充~
(1)Big data analysis of economic news: Hints to forecast macroeconomic indicators
数据:Events,提取出与商业合作相关的事件,2010.1.1-2016.3.31,共1700000条数据,提取主要的参与者国家。
方法:构建国家间的网络(利用CountryCode),利用网络的中心性等指标进行三种经济指标的预测,利用Multilevel regression,并和一般的预测进行比较。
(2)Exploring inter-country connection in mass media: A case study of China
数据:Events,提取出中国参与的事件。
方法:计算其它国家与中国在事件中的共现性,研究空间衰减效应,和对与中国共现模式的Time Series进行聚类,提取不同的模式。
(3)Predicting Social Unrest Events with Hidden Markov Models Using GDELT
数据:Events,提取与社会动荡(EventCode:14)以及之前的一些呼吁增强等事件,构建一个社会动荡爆发链。
方法:利用隐马尔科夫和贝叶斯进行预测,并与逻辑回归模型结果进行比较。
(4)Using GDELT Data to Evaluate the Confidence on the Spanish Government Energy Policy
数据:GKG,提取与石油价格等主题相关的新闻,分析其语气,通过所给的原网址进行文本分析提取与主题相关的文章。
方法:主要是用统计图发现规律,利用相关分析发现价格和需求的关系。
(5)Tracking Disaster Response and Relief Efforts Following the 2015 Nepal Earthquake
数据:Events,利用GDELT和一些公开援助数据,分析在地震发生一段时间内的新闻覆盖量、事件类型、援助量的变化。
方法:主要是利用图表分析,对比口头与实际援助的国家区别。
(6)Computational Approach to Detecting and Predicting Occupy Protest Events
数据:Events,建立actor之间的交互,分为OPE和非OPE事件。
方法:利用gspan频繁子图探测,SVM分类,线性逻辑回归预测。
(7)A contrast of the degree of activity among the three major powers, USA, China, and Russia: insights from media reports
数据:Events,提取各个国家间交互的Goldstein数值。
方法:通过基于衡量zz参与者之间的合作/冲突的正负Goldstein量表数据的每日总和来执行矩阵的SVD,提出了一个衡量一个国家活动程度的创新方案。
(8)A First Look at Global News Coverage of Disasters by Using the GDELT Dataset
数据:GKG,提取与灾难相关主题的报导,分析各个指标与各个国家关于不同类型灾难新闻报导数量之间的关系。
方法:多层回归。
(9)Interconnections among the United States, Russia and China: Does Kissinger's American Leadership Formula Apply?(无全文)
内容:2014年经济,zz,人道主义和军事四个方面的Goldstein量表数据,评价中美俄之间的关系。
(10)The Impact of US Cyber Policies on Cyber-Attacks Trend(无全文)
内容:美国网络攻击—利用GDelt数据,发现2014-2015年网络事件的新闻量有所增加,但这种消息所表达的情绪变得更为消极。
(11)Possibility of using GDELT to research on the country's spatial portrait – the Polish example(无全文)
内容:本文的基本目标是在GIS软件中使用GDELT数据。下载RAW GDELT数据并使用R环境分析数据库结构。除了数据外,GDELT项目还提供可视化的工具(分析服务),或者使用Google BigQuery以无限的规模进行分析。本文介绍了这些工具,并分析了它们在制作波兰空间描述时使用的结果。GDELT数据,在波兰的NUTS4单位上大地测量与制图总部提供的开放式空间数据以及与经济和人口统计相关的统计数据统一并汇总。最后,利用GIS软件的空间分析工具创建了波兰空间描述的原型。
(12)Massive Media Event Data Analysis to Assess World-Wide Political Conflict and Instability
数据:Events,统计Goldstein数值、各个国家事件数、国家之间的交互。
方法:通过图表发现数据满足Zipf定律,发现国家的长时相关性与国家发生事件之间的关系。
(13)Revealing the Hidden Patterns of News Photos: Analysis of Millions of News Photos through GDELT and Deep Learning-based Vision APIs
数据:GKG和VGKG数据,通过URL进行连接,提取2016年1月数据。
方法:主要通过统计和图表发现规律,分析了很多方面,新闻的类别和新闻中图片包含信息的关系,新闻图像面部分析的一些基本统计(比如面部情感主要是正面情感),新闻语调和新闻中图片人物笑容强度的关系,新闻中人物不同性别占比,新闻中zz人物的动作和情感分析。
上面都是2018年整理的了,后面有很多关于GDELT的研究涌现,没有在上面列出了,部分文献的综述在我文章中的引言中有所介绍,可以参考。
秦昆,罗萍,姚博睿. GDELT 数据网络化挖掘与国际关系分析[J].地球信息科学学报,2019,21(1):14-24.