分享好友 最新动态首页 最新动态分类 切换频道
分析世界新闻:通过谷歌查询系统探索GDELT项目
2024-11-10 13:37

用全球新闻报道去分析、观察乃至预测人类社会是一种什么样的情况?

分析世界新闻:通过谷歌查询系统探索GDELT项目

由谷歌理念所倡导的GDELT项目旨在创建一个实时、开放的世界新媒体资料索引库,与全世界一同分享以编码形式存在的源数据。GDELT库是世界上最大的关于全球化社会的开放数据集,它的复杂性、增长率和分析负荷,使得对数据的理解和获取具有特别的挑战。GDELT多元的用户群和应用范围意味着其访问模式难以有章可循——各式各样的查询仅通过一次分析便可获取几十条相关信息,完全不同于传统索引数据库的使用方法。

由于从每篇文章中归纳出的主题和情感种类逐渐增多,GDELT的结构必须支持有效存储和获取数百万维度信息。此外,越来越多的查询将针对整个文档范围内的宏观层面的查询。鉴于常规查询甚至都需要运用复杂算法才能处理TB字节的数据,所以数据库内执行也就变得非常必要。

作为一个倡议数据开放的活动,GDELT项目的目标就是使其数据更加快捷、自由地呈现在世人面前。然而,该数据的量级和特征给分享带来了很大困难。我们正是要通过Google BigQuery(谷歌查询系统)平台来帮助用户获取和查询这一不断增长的数据库。本文将讨论GDELT和谷歌查询系统如何共同致力于应对世界新媒体,这一数据分析学的新挑战。

GDELT项目是什么?

GDELT 项目使用与全球合作伙伴合作开发的大型新媒体库,它对全球每一个可获取的印刷品、广播和网上新闻报道进行实时监控,并特别监控那些以当地语言报道的当地新闻。GDELT监控的每一篇文章首先经过机器翻译成英语(一小部分材料为人工翻译),然后通过大量的算法渠道进行加工。这些算法可以识别数百种事件(从抗议到和平呼吁),数千种情感(从焦虑到激动),数百万种叙事主题(从女权到获得清洁水源)以及地点、任务、组织和其他指标。

然后这种以编码形式存在的源数据(并非文章的实际文本)以一种开放的数据流形式发布,每15分钟更新一次,形成一种多语言、带注解的全球新闻索引。将背景引入该实时数据流也是经过同样的一系列加工过程,其中包括涵盖JSTOR、DTIC在内、近二百一十亿字、长达七十年的学术文献和近一百七十亿字的网络PDF文档;五十年的世界人权报告记录;五十万小时的美国电视新闻;还有近二百年内出现的书籍。

Google BigQuery谷歌查询系统又是什么?

谷歌查询系统是一个基于云的分析数据库,其创建是为了服务于像GDELT这样的海量数据源。通过使用谷歌的基本架构,它将数PB字级的数据组和十万亿行的文档数据转化为结构化查询语言(SQL)。查询通过编程接口进行提交,并以标准的SQL表达出来,该结构化语言还可通过用户设定的Java程序语言功能进行扩展并用于高级搜索。每天数百太字节(TB)的新数据(批处理和流运行)经客户载入大查询系统后便可供即时查询使用。数千个处理器可同时用于一次搜索,无需检索或分隔数据即可快速显示结果。

GDELT项目如何通过谷歌查询系统应对大数据挑战?

鉴于GDELT数据组的巨大数量级和繁多的种类,分享渠道也是一大难题。从三亿一千万行五十九列的传统表到每行数百万维度乘以数百万维度并实时增长的高流动性表,什么才是分享万亿个数据点数据库的最佳方式?尽管所有的数据在网上都有CSV文件格式可供下载,而有磁盘和处理能力去下载TB字节数据并有效查询和分析的人却是寥寥无几。这也就是谷歌查询平台特别符合GDELT的需求之处。谷歌查询平台的下列特征使用户能够有效地与GDELT数据组进行互动:

运营中的谷歌查询平台和GDELT

谷歌查询平台几乎能够使实时搜索GDELT的海量文档成为现实,并以互动的方式查询、分析并形象表达文档的观点。通常,谷歌查询平台可用于观察一国的抗议或冲突的纵向趋势,把当前的动荡放在其历史背景下分析。例如:图一表示了智利自1979年以来的动荡,看出1983——1998年皮诺切特政权的起义运动出现的高峰值、十年后1998年10月皮诺切特被捕的动荡和国家自此以后的稳定。最近这一方法还用于对比过去四十年来欧盟境内的反动趋势。该种分析的优势就在于能够尽览几十年间发生的数百万全球事件,并快速生成对某一个国家稳定性的量化时间表,准确表示动荡局面的起起落落。

图一:借GDELT和谷歌查询平台之眼看到的智利国家的稳定幅度(Y轴代表不稳定强度)(贡献者:菲利普·霍法)

另一个GDELT数据组则是记录了每一个被监测新闻文章中所有的任务、组织、地点、主题和情感类型,据此信息构建了一个大型的源数据索引。仅仅通过SQL语言,谷歌查询系统便浏览了一亿五千万条新闻记录,编纂了一千五百组姓名,这些姓名在希腊救助公投的新闻报道中均高频同时出现。

该行为在几秒钟内即可完成。然后谷歌查询系统输出了能将Gephi可视化的CSV文件,并合成了如图二的网络图表。这种图表使用户能够快速了解某一个话题是如何在世界新闻媒体中呈现,中心人物是谁以及他们是如何相互产生联系等。在本例中,例如德国的Angela Merkel和Wolfgang Schaeuble、卢森堡的Jean-Claude Juncker和法国的Francois Hollande等欧盟领导人的关键作用都在图中清晰可见。

图二:2015年7月1日至15日希腊新闻报道中高频出现人物网络图 (贡献者:卡列夫·李塔鲁/GDELT)

GDELT常用谷歌查询系统的另一个方式就是在特定主题上下文中定位。谷歌查询系统的用户利用Java语言设定功能使任意复杂的应用作为查询的一部分,例如嵌套循环,以及在一个文件中将每个主题与其最近位置相连等,以使整个分析途径在谷歌查询系统中能独家运行。图三中,在有关2015年2至6月野生动物犯罪的背景中提到的定位都用CartoDB绘制了出来。该图已被用来表示野生动物犯罪的广泛性。其他由GDELT和谷歌查询系统生成的地图还包括:反坦克武器、气候变化、200年记录、希腊债务危机以及伊斯兰国有关的背景定位等。

图三:2015年2月至6月全球野生动物犯罪新闻报道中提到的地点在全球范围内的定位 (贡献者:卡列夫·李塔鲁/GDELT)

毕尔巴鄂比斯开银行(BBVA)跨国新兴市场组织的研究人员,运用GDELT和谷歌查询系统已经做出了从当前的欧洲难民危机(见图四)到更加复杂的社会动荡动力学建模等方面的一系列分析。在下图中,BBVA跟踪了今年上半年欧洲和北美范围内难民的流入(橘色)和流出(红色)情况。这种将从数百万新闻报道中发现的趋势,并以清晰的图形方式呈现的方式,表达了对事件的批判性观点,预测了近期有可能造成重大动荡与不安之危机的地理分布。

图四:2015年1月14日至6月15日欧洲和北美范围内难民流动图 (贡献者:BBVA跨国新兴市场集团,已获使用许可)

研究的未来

GDELT项目由高度多样化的数据模型、实时与历时查询、数据库内计算和含有数十万亿数据点的开放性可获得数据组组成。因为它们开始接纳大数据——云服务,这就是传统上和社会科学领域一样的“小数据”领域的研究未来,例如谷歌查询系统,将能直观地处理缩放和数据管理,使研究人员专注于解答问题,进而激发新观念、启发新思考。

翻译:灯塔大数据

最新文章
微信跳转抖音链接生成步骤,在线免费创建
市场营销获客工具【爱短链】全域跳转工具,打通私域引流关键一步:轻松将公域流量,引导至私域,通过链接点击直达,方便快捷,无风险提示跳转,助力企业/商家高速获客》》点此生成链接
Desk平台设计_今日desk设计教程
摘要:Desk平台设计,今日desk设计教程,新片场素材小编谈梓Desk平台设计,今日desk设计教程相关内容整理,如果您对Desk平台设计,今日desk设计教程感兴趣欢迎访问免费阅读。Desk平台设计,今日desk设计教程一、Desk平台在线设计教程介绍Udesk
新股速递 | 360金融,互联网巨头旗下金融科技公司上市第一股
本文由“华盛证券”供稿,文中观点不代表智通财经观点。360金融是由360金服(北京奇步天下科技有限公司运营的集团)孵化,成立于2016年7月,并于2018年9月拆分独立运营发展,自成立到赴美上市,时间不足三年。根据招股书,从放款额算,360
WordPress后台上传文件大小受限制解除方法
WordPress后台上传文件大小受限制解除方法最近刚录了一个外贸photoshop教程一,录制后想把视频上传到网站,然后就遇到了一个问题,就是视频太大,后台无法上传。wordpress后台默认支持上传文件的大小是50M, 但我录制的视频教程经压缩后还
华为云数智融合平台支撑MetaERP计划引擎更智能更实时
计划引擎是ERP系统中计划组件的大脑,要能根据实时的供需数据运算得出精准的计划指令。华为的供应链覆盖了数万种采购物料,每年交易额超过千亿,物料清单层级高达十层,约束条件和场景多达上百个。每次计划引擎的输入量都达到千万级,需要
SEO神器揭秘,提升网站排名的优化技术软件解析
《揭秘SEO排名技术软件:高效提升网站搜索引擎优化》一文深入解析了SEO排名技术软件的原理与功能,介绍如何利用该利器助力网站在搜索引擎中实现快速排名,显著提高SEO优化效率。随着互联网的飞速发展,搜索引擎优化(SEO)已经成为企业网站
免费seo优化诊断推广(免费seo推广计划)
大家好,今天小编关注到一个比较有意思的话题,就是关于免费seo优化诊断推广的问题,于是小编就整理了5个相关介绍免费seo优化诊断推广的解答,让我们一起看看吧。seo优化推广多少钱?什么叫seo优化?做百度推广SEO优化赚钱吗,利润可观吗?
LOL-2021季中赛RNG夺冠荣耀头像领取网址大揭秘:独家分享-庆祝胜利荣耀时刻
在电子竞技的浩瀚星空中,有一支队伍如流星划过,带来了耀眼的荣光。他们就是英雄联盟(League of Legends,简称LOL)赛场上的巨擘——RNG战队。当2021季中赛的胜利属于他们时,无数的粉丝为之欢腾,为这支队伍的荣耀时刻献上最热烈的掌声
天猫母婴店铺开通需要什么条件?母婴类目入驻天猫有哪些要求?
新亲子互动交易时代的来临,针对母婴电商而言即是机会,都是考验,依据大数据显示少年儿童群体规模在过去十年展现增长势头,经济发展水平的不断提高推动儿童经济销售市场非常大的市场潜力。那样天猫母婴类店面如何开通呢?天猫数据表明,婴
为什么SEO优化应该与独立站的营销战略紧密结合?提升网站流量与品牌曝
- SEO优化能够提升独立站的自然流量,增强品牌曝光度。SEO优化是提升独立站自然流量和增强品牌曝光度的重要手段之一。首先,SEO优化能够通过提高网站在搜索引擎结果页面(SERP)中的排名,吸引更多的潜在客户。当用户在搜索引擎中输入与品
相关文章
推荐文章
发表评论
0评