Apache Hadoop和亚马逊Redshift的区别

Hadoop是一个建立在机器集群上的开源软件框架。它被用于分布式存储和分布式处理非常大的数据集,即大数据。它是使用Map-Reduce编程模型完成的。用Java实现,一个开发友好的工具支持大数据应用。它很容易在商品服务器集群上处理大量的数据。它可以挖掘任何形式的数据,即结构化、非结构化或半结构化。它是高度可扩展的。它由3个部分组成:

  • HDFS:可靠的存储系统,世界上一半的数据都存储在其中。
  • Map Reduce:该层由分布式处理器组成。
  • Yarn:该层由一个资源管理器组成。

亚马逊RedShift是一个基于云的大规模数据仓库服务。亚马逊Redshift有一个商业许可,是亚马逊网络服务的一部分。它处理大规模的数据,并以其可扩展性而闻名。它可以对多个数据进行并行处理。它使用ACID属性作为其工作原则,非常受欢迎。它是用C语言实现的,具有高可用性。亚马逊Redshift的特点—快速、简单、经济的数据仓库服务。

下面是Apache Hadoop与Amazon Redshift之间的差异表。

Apache Hadoop 亚马逊RedShift
Hadoop的成本是Redshift的10倍。它每月的费用约为200美元。 Redshift比Hadoop便宜,每月花费20美元,因为价格取决于服务器的区域。
Hadoop中的Map Reduce作业比较慢。 Redshift的性能比Hadoop集群快得多。比如说。Redshift的16个节点集群比Hive/Elastic Map Reduce的44个节点集群执行得快很多。
Hadoop有一个存储层,将数据存储为文件,不考虑任何底层数据结构。 Redshift是一个列式数据库,被设计用来处理跨越数百万行的复杂查询。数据以表的形式排列,支持基于PostgreSQL标准的结构。
使用HDFS的set和get shell命令来复制数据到Hadoop集群。 Redshift中的数据首先通过使用Amazon S3复制,然后通过复制命令复制。
在Hadoop中,扩展并不是一个限制性因素,因为通过适当的管理和整合节点进程,可以扩展到任何数量的存储空间。 Redshift只能扩展到2PB。
与Redshift相比,速度较慢。运行1.2TB的数据需要1491秒(24.85分钟) 比Hadoop快十倍。运行1.2TB的数据需要155秒(2.5分钟)。
Hadoop是Apache项目的一个开源框架。 RedShift是由亚马逊提供的有价服务。
Hadoop更灵活,有本地文件系统和任何数据库 Redshift只能从Amazon S3或DynamoDB加载数据。
在Hadoop中,管理活动很复杂,处理起来比较棘手。 Redshift有自动备份到Amazon S3和数据仓库管理。
它由Hortonworks和Cloudera供应商等提供, Redshift是由亚马逊网络服务开发和提供的。
在可扩展性方面有一些限制。 在可扩展性方面没有这样的限制。