Linux企业实战（六十二）——Hadoop（四）

原创于 2021-01-16 23:14:45 发布 · 288 阅读

本内容遵循CC 4.0 BY-SA版权协议

MapReduce是Hadoop中用于批量处理海量数据的框架。它简化了分布式计算的复杂性，使得开发人员能专注于业务逻辑。工作流程涉及客户端、ResourceManager、NodeManager、ApplicationMaster和HDFS等组件。MapReduce作业包括Map、Reduce、Combiner等步骤，通过YARN进行资源管理和任务调度。在部署过程中，涉及配置文件编写、变量定义、白名单设置、YARN启动等步骤。完成作业后，会进行资源清理和历史信息存储。

MapReduce 的原理以及部署实现

MapReduce简介

mapreduce是hadoop中一个批量计算的框架，在整个mapreduce作业的过程中，包括从数据的输入，数据的处理，数据的数据输入这些部分，而其中数据的处理部分就要map，reduce，combiner等操作组成。在一个mapreduce的作业中必定会涉及到如下一些组件：
- 客户端，提交mapreduce作业；
- yarn资源管理器，负责集群上计算资源的协调；
- yarn节点管理器，负责启动和监控集群中机器上的计算容器（container）；
- mapreduce的application master，负责协调运行mapreduce的作业；
- hdfs，分布式文件系统，负责与其他实体共享作业文件。

为什么需要Mapreduce

海量数据在单机上处理因为硬件资源限制，无法胜任；
而一旦将单机版程序扩展到集群来分布式运行，将极大增加程序的复杂度和开发难度；
引入 MapReduce 框架后，开发人员可以将绝大部分工作集中在业务逻辑的开发上，而将分布式计算中的复杂性交由框架来处理。

Mapreduce的工作原理

在这里插入图片描述

第一步：客户端通过调用job.waitForCompletion()方法向整个集群提交MapReduces任务；
第二步：客户端通过getNewApplication方法向ResouceManager申请新应用，成功的话，ResourceManager会返回一个Applicationld；
第三步：客户端根据ApplicationId在HDFS上创建一个文件夹用于复制作业需要的资源文件，包括jar程序包，配置文件，以及输入split；
第四步：客户端通过submitApplications方法向ResourceManager提交作业；
第五步：ResourceManager在收到submitApplications请求后，会将该请求发送给scheduler(调度器)，调度器会分配一个container，用来运行MRAppMaster应用程序，该应用管理器由所在的nodeManager负责监控；
第六步：MRAppMaster会对作业进行初始化，创建一些bookkeeping对象来监控作业的进度，获得任务进度和完成报告；
第七步：MRAppMaster会从HDFS上获取输入split，然后为每个split分配创建一个map任务；
第八步：MRAppMaster会根据Map和Reduce任务向ResorceManager申请container资源来运行这些任务；这些请求是通过心跳传输的，请求信息中包含Map和Reduce运行的数据块位置信息(如host和rack)，资源调度器收到请求后，会尽量将Map/Reduce任务分配到存储数据块的节点或者分配到存有输入split节点的机架上的其他节点；
第九步：MRAppMaster会在资源调度器分配container后，联系对应的NodeManager启动container，运行一个YarnChlid的java应用程序；
第十步：YarnChild应用程序会从HDFS上获取jar文件，作业配置以及相应的资源文件；
第十一步： YarnChild通过.jar程序运行对应的Map或者Reduce任务；
第十二步：任务执行情况上报：Yarn将任务的执行情况和状态(包括container)上报给MRAppMaster,客户端定时刷新任务状态；
第十三步：作业完成后，会将作业状态进行清理包括MRAppMaster和Container，以及OutputCommiter上的作业清理方法也将会被调用，最后作业的历史信息将会被存储以备查询；