分享好友 最新动态首页 最新动态分类 切换频道
分析世界新闻:通过谷歌查询系统探索GDELT项目
2024-11-10 13:37

用全球新闻报道去分析、观察乃至预测人类社会是一种什么样的情况?

分析世界新闻:通过谷歌查询系统探索GDELT项目

由谷歌理念所倡导的GDELT项目旨在创建一个实时、开放的世界新媒体资料索引库,与全世界一同分享以编码形式存在的源数据。GDELT库是世界上最大的关于全球化社会的开放数据集,它的复杂性、增长率和分析负荷,使得对数据的理解和获取具有特别的挑战。GDELT多元的用户群和应用范围意味着其访问模式难以有章可循——各式各样的查询仅通过一次分析便可获取几十条相关信息,完全不同于传统索引数据库的使用方法。

由于从每篇文章中归纳出的主题和情感种类逐渐增多,GDELT的结构必须支持有效存储和获取数百万维度信息。此外,越来越多的查询将针对整个文档范围内的宏观层面的查询。鉴于常规查询甚至都需要运用复杂算法才能处理TB字节的数据,所以数据库内执行也就变得非常必要。

作为一个倡议数据开放的活动,GDELT项目的目标就是使其数据更加快捷、自由地呈现在世人面前。然而,该数据的量级和特征给分享带来了很大困难。我们正是要通过Google BigQuery(谷歌查询系统)平台来帮助用户获取和查询这一不断增长的数据库。本文将讨论GDELT和谷歌查询系统如何共同致力于应对世界新媒体,这一数据分析学的新挑战。

GDELT项目是什么?

GDELT 项目使用与全球合作伙伴合作开发的大型新媒体库,它对全球每一个可获取的印刷品、广播和网上新闻报道进行实时监控,并特别监控那些以当地语言报道的当地新闻。GDELT监控的每一篇文章首先经过机器翻译成英语(一小部分材料为人工翻译),然后通过大量的算法渠道进行加工。这些算法可以识别数百种事件(从抗议到和平呼吁),数千种情感(从焦虑到激动),数百万种叙事主题(从女权到获得清洁水源)以及地点、任务、组织和其他指标。

然后这种以编码形式存在的源数据(并非文章的实际文本)以一种开放的数据流形式发布,每15分钟更新一次,形成一种多语言、带注解的全球新闻索引。将背景引入该实时数据流也是经过同样的一系列加工过程,其中包括涵盖JSTOR、DTIC在内、近二百一十亿字、长达七十年的学术文献和近一百七十亿字的网络PDF文档;五十年的世界人权报告记录;五十万小时的美国电视新闻;还有近二百年内出现的书籍。

Google BigQuery谷歌查询系统又是什么?

谷歌查询系统是一个基于云的分析数据库,其创建是为了服务于像GDELT这样的海量数据源。通过使用谷歌的基本架构,它将数PB字级的数据组和十万亿行的文档数据转化为结构化查询语言(SQL)。查询通过编程接口进行提交,并以标准的SQL表达出来,该结构化语言还可通过用户设定的Java程序语言功能进行扩展并用于高级搜索。每天数百太字节(TB)的新数据(批处理和流运行)经客户载入大查询系统后便可供即时查询使用。数千个处理器可同时用于一次搜索,无需检索或分隔数据即可快速显示结果。

GDELT项目如何通过谷歌查询系统应对大数据挑战?

鉴于GDELT数据组的巨大数量级和繁多的种类,分享渠道也是一大难题。从三亿一千万行五十九列的传统表到每行数百万维度乘以数百万维度并实时增长的高流动性表,什么才是分享万亿个数据点数据库的最佳方式?尽管所有的数据在网上都有CSV文件格式可供下载,而有磁盘和处理能力去下载TB字节数据并有效查询和分析的人却是寥寥无几。这也就是谷歌查询平台特别符合GDELT的需求之处。谷歌查询平台的下列特征使用户能够有效地与GDELT数据组进行互动:

运营中的谷歌查询平台和GDELT

谷歌查询平台几乎能够使实时搜索GDELT的海量文档成为现实,并以互动的方式查询、分析并形象表达文档的观点。通常,谷歌查询平台可用于观察一国的抗议或冲突的纵向趋势,把当前的动荡放在其历史背景下分析。例如:图一表示了智利自1979年以来的动荡,看出1983——1998年皮诺切特政权的起义运动出现的高峰值、十年后1998年10月皮诺切特被捕的动荡和国家自此以后的稳定。最近这一方法还用于对比过去四十年来欧盟境内的反动趋势。该种分析的优势就在于能够尽览几十年间发生的数百万全球事件,并快速生成对某一个国家稳定性的量化时间表,准确表示动荡局面的起起落落。

图一:借GDELT和谷歌查询平台之眼看到的智利国家的稳定幅度(Y轴代表不稳定强度)(贡献者:菲利普·霍法)

另一个GDELT数据组则是记录了每一个被监测新闻文章中所有的任务、组织、地点、主题和情感类型,据此信息构建了一个大型的源数据索引。仅仅通过SQL语言,谷歌查询系统便浏览了一亿五千万条新闻记录,编纂了一千五百组姓名,这些姓名在希腊救助公投的新闻报道中均高频同时出现。

该行为在几秒钟内即可完成。然后谷歌查询系统输出了能将Gephi可视化的CSV文件,并合成了如图二的网络图表。这种图表使用户能够快速了解某一个话题是如何在世界新闻媒体中呈现,中心人物是谁以及他们是如何相互产生联系等。在本例中,例如德国的Angela Merkel和Wolfgang Schaeuble、卢森堡的Jean-Claude Juncker和法国的Francois Hollande等欧盟领导人的关键作用都在图中清晰可见。

图二:2015年7月1日至15日希腊新闻报道中高频出现人物网络图 (贡献者:卡列夫·李塔鲁/GDELT)

GDELT常用谷歌查询系统的另一个方式就是在特定主题上下文中定位。谷歌查询系统的用户利用Java语言设定功能使任意复杂的应用作为查询的一部分,例如嵌套循环,以及在一个文件中将每个主题与其最近位置相连等,以使整个分析途径在谷歌查询系统中能独家运行。图三中,在有关2015年2至6月野生动物犯罪的背景中提到的定位都用CartoDB绘制了出来。该图已被用来表示野生动物犯罪的广泛性。其他由GDELT和谷歌查询系统生成的地图还包括:反坦克武器、气候变化、200年记录、希腊债务危机以及伊斯兰国有关的背景定位等。

图三:2015年2月至6月全球野生动物犯罪新闻报道中提到的地点在全球范围内的定位 (贡献者:卡列夫·李塔鲁/GDELT)

毕尔巴鄂比斯开银行(BBVA)跨国新兴市场组织的研究人员,运用GDELT和谷歌查询系统已经做出了从当前的欧洲难民危机(见图四)到更加复杂的社会动荡动力学建模等方面的一系列分析。在下图中,BBVA跟踪了今年上半年欧洲和北美范围内难民的流入(橘色)和流出(红色)情况。这种将从数百万新闻报道中发现的趋势,并以清晰的图形方式呈现的方式,表达了对事件的批判性观点,预测了近期有可能造成重大动荡与不安之危机的地理分布。

图四:2015年1月14日至6月15日欧洲和北美范围内难民流动图 (贡献者:BBVA跨国新兴市场集团,已获使用许可)

研究的未来

GDELT项目由高度多样化的数据模型、实时与历时查询、数据库内计算和含有数十万亿数据点的开放性可获得数据组组成。因为它们开始接纳大数据——云服务,这就是传统上和社会科学领域一样的“小数据”领域的研究未来,例如谷歌查询系统,将能直观地处理缩放和数据管理,使研究人员专注于解答问题,进而激发新观念、启发新思考。

翻译:灯塔大数据

    以上就是本篇文章【分析世界新闻:通过谷歌查询系统探索GDELT项目】的全部内容了,欢迎阅览 ! 文章地址:http://yy520w.xhstdz.com/quote/3722.html 
     行业      资讯      企业新闻      行情      企业黄页      同类资讯      网站地图      返回首页 物流网资讯 http://gzhdwind.xhstdz.com/ , 查看更多   
最新新闻
《南方周末》2024新年献词金句摘抄|守住不惑的底线,选择做最值得的自己
守住不惑的底线选择做最值得的自己1.穿越惑与不惑的边界,求索东方古国现代文明进步的答案,内蕴于我们的基因与使命。2.我们追求真、歌颂善、呈现美,我们抗拒假、斗争恶、暴露丑;我们持续见证、诉说并努力参与那场壮丽的春天的故事,又从
2022跨年祝福语 虎年新年祝福文案大全
  告别2021年,步入,我们又迎来了崭新的一年,新的一年,新的气象,在这新的一年,我们大部分的人都会给身边的亲朋好友,发一些,希望他们在新的一年,身体健康,万事顺利,财源广进,那么我们可以参考一下以下的文案,来送上自己的祝福
公务员考试题库及答案4000题百度网盘资源免费下载地址哪里找资料整理了夸克网盘
公务员考试题库及答案4000题百度网盘资源免费下载地址哪里找资料整理了夸克网盘链接:https://pan.quark.cn/s/64f643af3ac8提示(建议复制后浏览器搜索打开即可,手机用户长按复制打开)资源完全免费,收集与互联网公开分享。说到公务员考试
充满阳光的正能量句子
充满阳光的正能量句子大全  在学习、工作或生活中,大家肯定对各类句子都很熟悉吧,句子由词或词组部分和语调所表示的语气部分组成。究竟什么样的句子才是好的句子呢?以下是小编整理的充满阳光的正能量句子大全,仅供参考,大家一起来看
0门槛0成本15天加满5000微信好友的实操秘籍!
过完年,又要开始寻找目标客户了。客户是什么,客户就是流量,流量在哪里,一个是线下,一个是互联网上。尤其对于微商来说,微信好友就是钱脉,但更多人都无法突破一个微信号,也就是5000人。所以,我想,正因为你需要流量,你才会关注微电
AnyTXT Searcher中文免费版 v1.3.1205
AnyTXT Searcher中文免费版是一款简单好用的文件快速检索工具,用户可以在AnyTXT Searcher中文免费版快速的进行各种文档的检索,适用于各种文档、文本的检索,页面简单轻松功能强大,检索效率高,可以很快的帮助用户找到自己需要的内容,感
分析世界新闻:通过谷歌查询系统探索GDELT项目
用全球新闻报道去分析、观察乃至预测人类社会是一种什么样的情况?由谷歌理念所倡导的GDELT项目旨在创建一个实时、开放的世界新媒体资料索引库,与全世界一同分享以编码形式存在的源数据。GDELT库是世界上最大的关于全球化社会的开放数据集
2022年活跃用户画像趋势报告(小红书平台)
随着用户体量壮大和平台多元化发展,小红书用户的兴趣点,早已从美妆独大变为渗透生活领域的各个方面。那么2022年,小红书不同行业下的用户呈现出什么样的差异化特征?又有哪些发展趋势值得关注?千瓜数据独家推出《2022年千瓜活跃用户画像
今日头条下载安装 app介绍
● 拍照权限允许访问摄像头进行拍照● 使用蓝牙允许程序连接配对过的蓝牙设备● 使用振动允许振动● 使用闪光灯允许访问闪光灯● 录音录制声音通过手机或耳机的麦克● 获取WiFi状态获取当前WiFi接入的状态以及WLAN热点的信息● 改变WiFi状
1年烧光70亿,上海“巨无霸”项目爆冷!烂尾20年3次易主,凉了?
作者:曾有为坐落于上海黄浦老城厢的东北部,临近上海外滩的上海城隍庙与上海豫园,是外地游客“魔都打卡必选”的经典之一,同样也是上海人休闲娱乐的好去处。沿着这片区域的老街漫步,会发现见证上海历史变迁的老式建筑随处可见,风格独特
本企业新闻
推荐企业新闻
发表评论
0评