Linux企业实战(六十二)——Hadoop(四)

MapReduce是Hadoop中用于批量处理海量数据的框架。它简化了分布式计算的复杂性,使得开发人员能专注于业务逻辑。工作流程涉及客户端、ResourceManager、NodeManager、ApplicationMaster和HDFS等组件。MapReduce作业包括Map、Reduce、Combiner等步骤,通过YARN进行资源管理和任务调度。在部署过程中,涉及配置文件编写、变量定义、白名单设置、YARN启动等步骤。完成作业后,会进行资源清理和历史信息存储。

MapReduce 的原理以及部署实现

MapReduce简介

  • mapreduce是hadoop中一个批量计算的框架,在整个mapreduce作业的过程中,包括从数据的输入,数据的处理,数据的数据输入这些部分,而其中数据的处理部分就要map,reduce,combiner等操作组成。在一个mapreduce的作业中必定会涉及到如下一些组件:

    • 客户端,提交mapreduce作业;
    • yarn资源管理器,负责集群上计算资源的协调;
    • yarn节点管理器,负责启动和监控集群中机器上的计算容器(container);
    • mapreduce的application master,负责协调运行mapreduce的作业;
    • hdfs,分布式文件系统,负责与其他实体共享作业文件。

为什么需要Mapreduce

  • 海量数据在单机上处理因为硬件资源限制,无法胜任;
  • 而一旦将单机版程序扩展到集群来分布式运行,将极大增加程序的复杂度和开发难度;
  • 引入 MapReduce 框架后,开发人员可以将绝大部分工作集中在业务逻辑的开发上,而将 分布式计算中的复杂性交由框架来处理。

Mapreduce的工作原理

在这里插入图片描述

  • 第一步:客户端通过调用job.waitForCompletion()方法向整个集群提交MapReduces任务;
  • 第二步:客户端通过getNewApplication方法向ResouceManager申请新应用,成功的话,ResourceManager会返回一个Applicationld;
  • 第三步:客户端根据ApplicationId在HDFS上创建一个文件夹用于复制作业需要的资源文件,包括jar程序包,配置文件,以及输入split;
  • 第四步:客户端通过submitApplications方法向ResourceManager提交作业;
  • 第五步:ResourceManager在收到submitApplications请求后,会将该请求发送给scheduler(调度器),调度器会分配一个container,用来运行MRAppMaster应用程序,该应用管理器由所在的nodeManager负责监控;
  • 第六步:MRAppMaster会对作业进行初始化,创建一些bookkeeping对象来监控作业的进度,获得任务进度和完成报告;
  • 第七步:MRAppMaster会从HDFS上获取输入split,然后为每个split分配创建一个map任务;
  • 第八步:MRAppMaster会根据Map和Reduce任务向ResorceManager申请container资源来运行这些任务;这些请求是通过心跳传输的,请求信息中包含Map和Reduce运行的数据块位置信息(如host和rack),资源调度器收到请求后,会尽量将Map/Reduce任务分配到存储数据块的节点或者分配到存有输入split节点的机架上的其他节点;
  • 第九步:MRAppMaster会在资源调度器分配container后,联系对应的NodeManager启动container,运行一个YarnChlid的java应用程序;
  • 第十步:YarnChild应用程序会从HDFS上获取jar文件,作业配置以及相应的资源文件;
  • 第十一步: YarnChild通过.jar程序运行对应的Map或者Reduce任务;
  • 第十二步:任务执行情况上报:Yarn将任务的执行情况和状态(包括container)上报给MRAppMaster,客户端定时刷新任务状态;
  • 第十三步:作业完成后,会将作业状态进行清理包括MRAppMaster和Container,以及OutputCommiter上的作业清理方法也将会被调用,最后作业的历史信息将会被存储以备查询;

部署Mapreduce的过程

我们在server2上进行部署

  • 步骤一:编写配置文件
    在这里插入图片描述
    在这里插入图片描述
  • 步骤二:定义变量
    在这里插入图片描述
    在这里插入图片描述
  • 步骤三:设置白名单
    在这里插入图片描述
    在这里插入图片描述
  • 步骤四:启动yarn,并查看
    在这里插入图片描述
    在这里插入图片描述
    注意:实际中,最好将ResourceManager和namenode分别安装在不同主机上,因为它们都是cpu密集型的

在所有的datanode中,会打开一个NodeManager
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 步骤五:访问server2的8088端口
    在这里插入图片描述
    这是一个管理界面
内容概要:本文围绕可变桨叶旋翼无人机的规范控制与点对点运动模拟展开,重点研究优化推力分配策略在翻转动作中的应用与性能比较。通过Matlab代码实现,构建了旋翼动力学模型,并设计了多种控制算法以实现精确的姿态调整与轨迹跟踪。研究对比了不同推力分配方案在执行高机动性翻转动作时的稳定性、能耗效率与响应速度,旨在提升无人机在复杂飞行任务中的动态性能与控制精度。该仿真研究为无人机飞控系统的设计与优化提供了理论依据和技术支持。; 适合人群:具备一定自动控制理论基础和Matlab编程能力,从事无人机控制、飞行器动力学或机器人系统研究的科研人员及研究生。; 使用场景及目标:① 实现旋翼无人机在三维空间中的精确点对点运动控制;② 对比分析不同推力分配策略在执行翻转等高难度动作时的控制效果与能耗表现,优化飞行性能;③ 为无人机自主飞行、特技飞行及复杂环境下的机动控制提供算法验证平台。; 阅读建议:此资源以Matlab仿真为核心,建议读者结合相关控制理论知识,深入理解代码实现细节,重点关注动力学建模、控制律设计与推力分配模块。在学习过程中,应动手调试参数,复现文中翻转动作的仿真结果,并尝试拓展至其他复杂飞行任务,以加深对无人机控制机理的理解。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值