相关文章
Shark:针对大数据的实时查询和分析
2024-11-10 18:23

Hadoop的优势在于批处理,MapReduce并不特别适用于交互/特殊指定的查询。 实时(Real-time)1SQL查询(在Hadoop数据上)通常使用自定义连接器来执行MPP数据库。实际上这意味着在独立的Hadoop和数据库集群之间有连接器。在过去几个月中,一些提供快速的系统Hadoop集群中的SQL访问受到关注。 Hadoop和快速MPP数据库集群之间的连接器并没有消失,但是人们越来越感兴趣于将许多交互式SQL任务转移到与Hadoop共存于同一集群上的系统中。

Shark:针对大数据的实时查询和分析

拥有支持快速/交互式SQL查询的Hadoop集群可以追溯到几年前HadoopDB,一个来自耶鲁的开源项目。 HadoopDB的创建者此后开始了一家商业软件公司(Hadapt),旨在构建一个将Hadoop /MapReduce和SQL相结合的系统。在Hadapt中,(Postgres)数据库放置在Hadoop集群的节点中,形成一个系统2可以使用MapReduce、SQL和搜索(Solr)。从版本2.0开始,Hadapt是容错系统,具有分析功能(HDK),可以通过SQL使用。

开源系统本文的其余部分介绍了两个相对较新的开源工具:Impala和Shark。 自Strata NYC发布以来,Cloudera的Impala系统产生的嗡嗡声突出显示了大数据社区需要Hadoop中的实时查询系统的程度。自从发布以来,已经有许多关于Impala的优秀文章(参见这里和这里),所以这里不会深入涉及它的设计细节。我会强调一下Cloudera展现的令人印象深刻的性能数据。

对于纯粹的I/O绑定查询,我们通常会看到3-4倍范围内的性能提升。 …对于至少有一次连接的查询,我们已经看到7-45X的性能提升。 …如果通过查询访问的数据从缓存中提取出来,由于Impala的卓越效率,加速将更加激烈。在这些情况下,即使在简单的聚合查询中,我们也看到了Hive上20倍-90倍的加速。

Shark Shark是一个Spark组件,一个开源的分布式和容错内存分析系统,可以安装在与Hadoop相同的集群上。特别是,Shark完全兼容Hive和支持HiveQL,Hive数据格式和用户自定义功能。另外Shark可以用来查询来自4在HDFS,Hbase和Amazon S3的数据。

Shark的创作者刚刚发表了一篇论文,在文中他们系统地比较了它与Hive的表现,Hadoop和MPP数据库。他们发现Shark比Hive在各种查询上快得多:大概来说,Shark在磁盘上的速度要快5-10倍,而Shark内存模式的速度要快100倍。重要的是,Shark的表现收益是与MPP数据库中观察到的相当!

在这个阶段,用户至少有两个可用于Hadoop中快速/交互式SQL的开源系统。虽然Impala引起了更多的关注,但Shark团队已悄悄地将高扩展系统集成在一起,该系统具有引人注目的功能包括数据联合分区(co-partitioning),容错(fault-tolerance)以及将机器学习(machine-learning)集成到分析师的工作流程中。

内存列存储和列压缩使用Impala时获得的最佳性能是通过使用Trevni列存储格式实现的。在Shark的情况下,他们的自定义列式存储和压缩将存储和查询时间缩短了大约5倍。

控制数据分区=>快速,分散式JOINSShark让用户使用指定的键分区表。特别是如果表经常是“joined”,那么可以使用通用(“join”)键对它们进行分区。 Co-partitioning是许多MPP数据库用来加速“joins”涉及大量表的技巧。

容错(Fault-tolerance)Shark可以从节点故障中优雅地恢复6,并且在重建丢失的(数据)分区之后继续执行查询。对大数据集的初始测试表明恢复对性能的影响很小(并且比re-executing查询快得多)。

SQL “optimizer”Shark已经实现了一个简单的优化器(部分DAG执行或PDE)使用数据统计(重击者,近似直方图)在需要时动态地改变查询计划。例如,Shark的PDE系统使用数据统计信息为“joins”执行run-time优化。

机器学习(Machine-learning)支持 RDD的是分散式可以缓存在跨计算节点集群内存中的对象。它们是Spark中使用的基本数据对象。用户可以创建RDD(使用sql2rdd命令)并将machine-learning函数应用于它们。目前machine-learning和分析函数可以用Scala和Java编写,并且即将支持Python。用户不仅可以从相同的内部获得执行简单SQL查询和复杂计算的好处7框架,而且Shark比Hadoop快100倍:

与BI工具集成Impala与Tableau和QlikView的。有Shark用户使用Tableau之类的工具,但BI集成是Shark内的相对未探索(“unexplored”)区域。

总结Impala和Shark是Hadoop的交互式SQL系统。一个新文章显示Shark提供加速与MPP数据库中观察到的相当。除了比Hive for SQL快100倍以外,Shark的框架比(迭代式)machine-learning算法的Hadoop快100倍。

    以上就是本篇文章【Shark:针对大数据的实时查询和分析】的全部内容了,欢迎阅览 ! 文章地址:http://gzhdwind.xhstdz.com/news/5279.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://gzhdwind.xhstdz.com/mobile/ , 查看更多   
最新文章
适合中老年游戏活动的项目有哪些?
引言:为何中老年游戏活动尤为重要 随着社会的不断发展和生活水平的提升,中老年人的生活方式也随之改变。对于他们来说,健康和快乐成为了生活的重要组成部分。而游戏活动,不仅能够增加社交互动,还能锻炼身体与思维。因此,选择适合中老
上海旅游攻略:探访繁华之都的风情韵味
引言:开启上海的奇妙之旅 上海,这座迷人的城市,拥有着深厚的文化底蕴与现代化的繁华景象,无论是初次造访还是再次归来,都会让人惊叹于它独特的风情韵味。在这里,历史与现代交融,传统与创新并存,等待着你去探索这座繁华之都的每个角
高新企业网站优化方法大揭秘!
高新企业网站的重要性 随着互联网的快速发展,企业网站已经成为企业宣传、推广和营销的重要渠道。对于高新技术企业来说,网站更是展示企业形象、产品技术、行业影响力的窗口。因此,如何优化企业网站,提升网站的曝光率和用户体验成为了高
探索旅游景区的独特魅力:人文、自然与体验的完美结合”
引言:旅游景区的魅力所在 在如今快节奏的生活中,越来越多的人选择通过旅行来放松身心,寻找内心的宁静。在旅游的过程中,景区的选择则显得尤为重要。一个优质的旅游景区不仅仅是壮丽的自然风光,还有深厚的人文底蕴和丰富的体验活动。本
提升健康与活力:探索运动健身的多样化内容与方法
引言:健身的时代已来临 随着人们生活水平的提高,越来越多的人开始关注自身的健康与活力。运动健身不再是一种单一的方式,而是发展出了多样化的内容与方法。无论是为了减肥、塑形,还是增强体质,运动健身都成为了许多人的日常习惯和生活
80岁老人旅游规定的常见问题及注意事项解析
引言:老年人的旅游热潮 随着社会的发展和生活水平的提升,越来越多的老年人开始积极参与到旅游活动中。他们用实际行动证明,年龄并不是旅途的限制,反而是丰富人生经验的体现。虽然老年游客在旅途中享有更多的自由和乐趣,但在旅游规定及
AI写作论文是否会被检测?解密检测机制!
引言:AI写作的崛起 近年来,人工智能(AI)技术的发展迅猛,尤其是在写作领域。AI写作工具不仅能生成高质量的文章,还能满足不同用户的需求,成为内容创作的得力助手。然而,伴随着AI写作的普及,一个新的问题也逐渐显现出来:AI写作论文
几月份去兰州旅游最宜?
探索兰州的四季魅力 兰州,作为甘肃省的省会,坐落于黄河之畔,是一座历史悠久的城市,兼具独特的自然风貌与深厚的人文底蕴。每个季节,兰州展现出不同的面貌,吸引着四面八方的游客前来探索。那到底几月份去兰州旅游最为宜人呢?接下来,
探索中国旅游标志的原型与文化内涵的深度解读
探索中国旅游标志的原型与文化内涵 中国作为一个拥有悠久历史和丰富文化的国家,其旅游标志更是象征着一种独特的文化内涵。中国旅游标志的原型多取材于中国传统艺术元素,加之对中国文化的理解与诠释,形成了独具魅力的形象。 中国国徽与中
轻松搞定!服务器配置RAID:提高性能数据安全双保险!
轻松搞定!服务器配置RAID:提高性能数据安全双保险! 随着信息技术的不断发展,服务器在企业中扮演着至关重要的角色。为了提高性能和数据安全,服务器配置RAID已经成为了一种常见的选择。RAID(Redundant Array of Independent Disks)即
相关文章