用全球新闻报道去分析、观察乃至预测人类社会是一种什么样的情况?
由谷歌理念所倡导的GDELT项目旨在创建一个实时、开放的世界新媒体资料索引库,与全世界一同分享以编码形式存在的源数据。GDELT库是世界上最大的关于全球化社会的开放数据集,它的复杂性、增长率和分析负荷,使得对数据的理解和获取具有特别的挑战。GDELT多元的用户群和应用范围意味着其访问模式难以有章可循——各式各样的查询仅通过一次分析便可获取几十条相关信息,完全不同于传统索引数据库的使用方法。
由于从每篇文章中归纳出的主题和情感种类逐渐增多,GDELT的结构必须支持有效存储和获取数百万维度信息。此外,越来越多的查询将针对整个文档范围内的宏观层面的查询。鉴于常规查询甚至都需要运用复杂算法才能处理TB字节的数据,所以数据库内执行也就变得非常必要。
作为一个倡议数据开放的活动,GDELT项目的目标就是使其数据更加快捷、自由地呈现在世人面前。然而,该数据的量级和特征给分享带来了很大困难。我们正是要通过Google BigQuery(谷歌查询系统)平台来帮助用户获取和查询这一不断增长的数据库。本文将讨论GDELT和谷歌查询系统如何共同致力于应对世界新媒体,这一数据分析学的新挑战。
GDELT项目是什么?
GDELT 项目使用与全球合作伙伴合作开发的大型新媒体库,它对全球每一个可获取的印刷品、广播和网上新闻报道进行实时监控,并特别监控那些以当地语言报道的当地新闻。GDELT监控的每一篇文章首先经过机器翻译成英语(一小部分材料为人工翻译),然后通过大量的算法渠道进行加工。这些算法可以识别数百种事件(从抗议到和平呼吁),数千种情感(从焦虑到激动),数百万种叙事主题(从女权到获得清洁水源)以及地点、任务、组织和其他指标。
然后这种以编码形式存在的源数据(并非文章的实际文本)以一种开放的数据流形式发布,每15分钟更新一次,形成一种多语言、带注解的全球新闻索引。将背景引入该实时数据流也是经过同样的一系列加工过程,其中包括涵盖JSTOR、DTIC在内、近二百一十亿字、长达七十年的学术文献和近一百七十亿字的网络PDF文档;五十年的世界人权报告记录;五十万小时的美国电视新闻;还有近二百年内出现的书籍。
Google BigQuery谷歌查询系统又是什么?
谷歌查询系统是一个基于云的分析数据库,其创建是为了服务于像GDELT这样的海量数据源。通过使用谷歌的基本架构,它将数PB字级的数据组和十万亿行的文档数据转化为结构化查询语言(SQL)。查询通过编程接口进行提交,并以标准的SQL表达出来,该结构化语言还可通过用户设定的Java程序语言功能进行扩展并用于高级搜索。每天数百太字节(TB)的新数据(批处理和流运行)经客户载入大查询系统后便可供即时查询使用。数千个处理器可同时用于一次搜索,无需检索或分隔数据即可快速显示结果。
GDELT项目如何通过谷歌查询系统应对大数据挑战?
鉴于GDELT数据组的巨大数量级和繁多的种类,分享渠道也是一大难题。从三亿一千万行五十九列的传统表到每行数百万维度乘以数百万维度并实时增长的高流动性表,什么才是分享万亿个数据点数据库的最佳方式?尽管所有的数据在网上都有CSV文件格式可供下载,而有磁盘和处理能力去下载TB字节数据并有效查询和分析的人却是寥寥无几。这也就是谷歌查询平台特别符合GDELT的需求之处。谷歌查询平台的下列特征使用户能够有效地与GDELT数据组进行互动:
运营中的谷歌查询平台和GDELT
谷歌查询平台几乎能够使实时搜索GDELT的海量文档成为现实,并以互动的方式查询、分析并形象表达文档的观点。通常,谷歌查询平台可用于观察一国的抗议或冲突的纵向趋势,把当前的动荡放在其历史背景下分析。例如:图一表示了智利自1979年以来的动荡,看出1983——1998年皮诺切特政权的起义运动出现的高峰值、十年后1998年10月皮诺切特被捕的动荡和国家自此以后的稳定。最近这一方法还用于对比过去四十年来欧盟境内的反动趋势。该种分析的优势就在于能够尽览几十年间发生的数百万全球事件,并快速生成对某一个国家稳定性的量化时间表,准确表示动荡局面的起起落落。
图一:借GDELT和谷歌查询平台之眼看到的智利国家的稳定幅度(Y轴代表不稳定强度)(贡献者:菲利普·霍法)
另一个GDELT数据组则是记录了每一个被监测新闻文章中所有的任务、组织、地点、主题和情感类型,据此信息构建了一个大型的源数据索引。仅仅通过SQL语言,谷歌查询系统便浏览了一亿五千万条新闻记录,编纂了一千五百组姓名,这些姓名在希腊救助公投的新闻报道中均高频同时出现。
该行为在几秒钟内即可完成。然后谷歌查询系统输出了能将Gephi可视化的CSV文件,并合成了如图二的网络图表。这种图表使用户能够快速了解某一个话题是如何在世界新闻媒体中呈现,中心人物是谁以及他们是如何相互产生联系等。在本例中,例如德国的Angela Merkel和Wolfgang Schaeuble、卢森堡的Jean-Claude Juncker和法国的Francois Hollande等欧盟领导人的关键作用都在图中清晰可见。
图二:2015年7月1日至15日希腊新闻报道中高频出现人物网络图 (贡献者:卡列夫·李塔鲁/GDELT)
GDELT常用谷歌查询系统的另一个方式就是在特定主题上下文中定位。谷歌查询系统的用户利用Java语言设定功能使任意复杂的应用作为查询的一部分,例如嵌套循环,以及在一个文件中将每个主题与其最近位置相连等,以使整个分析途径在谷歌查询系统中能独家运行。图三中,在有关2015年2至6月野生动物犯罪的背景中提到的定位都用CartoDB绘制了出来。该图已被用来表示野生动物犯罪的广泛性。其他由GDELT和谷歌查询系统生成的地图还包括:反坦克武器、气候变化、200年记录、希腊债务危机以及伊斯兰国有关的背景定位等。
图三:2015年2月至6月全球野生动物犯罪新闻报道中提到的地点在全球范围内的定位 (贡献者:卡列夫·李塔鲁/GDELT)
毕尔巴鄂比斯开银行(BBVA)跨国新兴市场组织的研究人员,运用GDELT和谷歌查询系统已经做出了从当前的欧洲难民危机(见图四)到更加复杂的社会动荡动力学建模等方面的一系列分析。在下图中,BBVA跟踪了今年上半年欧洲和北美范围内难民的流入(橘色)和流出(红色)情况。这种将从数百万新闻报道中发现的趋势,并以清晰的图形方式呈现的方式,表达了对事件的批判性观点,预测了近期有可能造成重大动荡与不安之危机的地理分布。
图四:2015年1月14日至6月15日欧洲和北美范围内难民流动图 (贡献者:BBVA跨国新兴市场集团,已获使用许可)
研究的未来
GDELT项目由高度多样化的数据模型、实时与历时查询、数据库内计算和含有数十万亿数据点的开放性可获得数据组组成。因为它们开始接纳大数据——云服务,这就是传统上和社会科学领域一样的“小数据”领域的研究未来,例如谷歌查询系统,将能直观地处理缩放和数据管理,使研究人员专注于解答问题,进而激发新观念、启发新思考。
翻译:灯塔大数据