MapReduce

MapReduce是一种在Hadoop上工作的模型,可以有效地访问存储在HDFS(Hadoop分布式文件系统)中的大数据。它是Hadoop的核心组件,它将大数据分成小块,并对其进行并行处理。

MapReduce的特点:

  • MapReduce可以在不同的服务器上存储和分配巨大的数据。
  • MapReduce允许用户以地图和还原的形式存储数据,以获得处理。
  • MapReduce能保护系统不被任何未经授权的访问。
  • MapReduce支持并行处理模式。

Pig

Pig是一个开源工具,建立在Hadoop生态系统上,提供更好的大数据处理。它是一种类似于SQL的语言。它是一种高级脚本语言,通常被称为Pig Latin脚本。Pig脚本能够创建用户定义的函数来分析和处理数据。它在HDFS(Hadoop分布式文件系统)上工作,支持使用各种类型的数据。即使没有良好的Java知识,也可以通过使用Pig轻松完成MapReduce任务。

Pig的特点:

  • Pig允许用户创建自定义的用户定义函数。
  • Pig的使用是可扩展的。
  • Pig支持各种数据类型,如:char,long,float,schema和函数。
  • 在HDFS上提供不同的操作,如:GROUP, FILTER, JOIN, SORT。

MapReduce和Pig的比较和区别

序号 MapReduce Pig
1 MapReduce是一种数据处理语言。 MapReduce是一种数据流语言。
2 MapReduce将工作转换为map-reduce函数。 MapReduce将查询转换为map-reduce函数。
3 MapReduce是一种低级别的语言。 MapReduce是一种高级语言
4 使用户难以执行连接操作。 使得用户很容易执行连接操作。
5 用户需要编写比Pig多10倍的代码来完成类似的任务。 用户需要写更少的代码行,因为它支持多查询方法。
6 MapReduce有多个作业,因此执行时间更长。 由于Pig运算器将其转换为MapReduce作业,所以它的编译时间较短。
7 MapReduce被最近版本的Hadoop所支持。 所有版本的Hadoop都支持它。