Apache Hadoop(4)---MapReduce框架背后的事情

MapReduce作为Hadoop的编程框架,把数据的操作抽象成map和reduce操作,简化了大数据编程的复杂度,但是MapReduce是如何执行的呢?

对于每一个MapReduce,都对应着一个map,一个reduce(可能没有),以及一个job描述,当提交这个任务时,Hadoop框架会解析这个job,然后按照描述来启动mapper、reducer,并且将输入文件灌入mapper,同时接收mapper输出,处理之后再喂给reducer,对reducer的结果处理之后就得到了最终结果。

MapReduce Anatomy

Mapper

默认情况下,对于HDFS数据文件的每一个block,Hadoop都会启动一个mapper,也就是说一个mapper负责处理一个block,这样在资源充足的情况下能大大加快处理速度。HDFS的文件格式有很多,当它是默认的文本格式时,框架会读取这个block并且循环调用mapper的map方法,每次喂入一行,KV键值对分别是偏移量和文本内容。

对于接收到的内容,mapper在处理之后通过context输出新的若干键值对,框架会接收这些键值对。为了减少磁盘读写,这些输出首先被存储在缓冲区中,当缓冲区达到一定阈值之后开始将缓冲区内容写入到磁盘中。对于这些内容,首先按照后续处理的reducer不同划分成一个个小的分片(根据哈希等策略),然后针对每一个分片做一个内存内排序,如果MapReduce指定了combiner,再在分片上做一次combine操作,然后将结果合并后按照round-robin策略写入到不同的磁盘中,当mapper处理完所有数据后,再次合并所有的小文件,形成一个大的有序且分区的大文件。如果小文件的数量超过一定阈值,会在新的文件上再做一次combine操作,进一步减少文件大小,减少后续reducer的复制通信量以及加快硬盘读写。

Reducer

默认情况下,每个MapReduce只有一个reducer,但是可以根据需求,设置多个reducer。在每个reducer启动初期,会去每一个机器(application manager存放着所有该任务中的mapper和机器)上通过http协议拉取属于自己的那份数据,然后对于所有的有序文件集做排序和合并操作,形成一个新的大文件。需要注意的是,如果文件大小较少,则会直接进行内存内排序跟合并,而不会落盘。同样,如果文件数很多,会多次执行combine操作。

MapReduce single reducer

MapReduce multiple reducers

然后框架按照键组织所有的键值对,每次喂入一个键以及所有的值,当reducer处理并生成新的键值对后,对结果做排序操作,然后写入HDFS相应目录。

当所有的reducer执行完毕之后,做收尾工作,删除mapper和reducer节点上生成的中间数据并释放资源。

由于不同机器性能不同等原因,不同的mapper结束时间不同,为了加快处理速度,reducer不会等到所有mapper处理完毕之后才开始启动,而是当一定比例的mapper执行结束后提前启动,然后拉取数据合并,这样等剩下的mapper结束之后能尽快的拉取剩下的数据,开始reduce操作。

容错

大数据中,一个必须要考虑的因素就是容错,在MapReduce中,如果一个mapper在执行时出现故障,只需要重新处理相应的block即可;可如果reducer出错,它就需要重新拉取相应mapper的结果,为了避免这种情况下带来的大量mapper重新处理,mapper的处理结果会等到整个任务完成之后才统一删除。