Spring学习 - 自定义动态数据源 git进阶经验- git提交 log 的模板配置 Spring学习 - 自定义Spring 的 bean扫描器 Spring源码学习 - Scanner的工作原理 Spring源码学习 - bean的名称的生成方式 java源码学习之 Boolean 和 Byte 深入分析 Volatile 的实现原理 java各版本新特性 java源码学习之Short java源码学习之Integer 常见 MQ 的比较 - Kafka、RocketMQ、RabbitMQ的优劣势比较 Docker技术入门与实战 - 使用 dockerfile定制镜像 I love log 读书笔记 flink 入门程序-wordcount flink 配置项介绍 在 Mac 上搭建 Flink 的开发环境 lambda 架构问题的阅读笔记 IDEA常用插件 Mybatis源码分析(1) - Mybatis关键类 Mybatis源码分析(1) - Mybatis包目录简介 tair 1:tair学习 dataflow论文阅读笔记 Polysh的安装使用 SnappyData排序函数比较 Squirrel-sql客户端连接SnappyData手册 在虚拟机里显示Hello World spark学习博客推荐 SnappyData学习博客和官网文章 Docker常用命令 MyBatis支持的OGNL语法 mysql性能优化 mysql性能优化-优化Sql语句 mac上命令行操作 explain输出格式 从文件中读取zk配置——ZooKeeper编程技能(1) git进阶经验-从项目中删除移除的目录 Mongodb 学习之shell命令操作(3) mysql命令 git进阶经验-从多模块项目中分理子模块 从零学hadoop-搭建基础(单点)的Hdfs环境 ZooKeeper集群操作脚本 Vue安装使用 2 初学JVM之问答式记住类加载机制 2 初学JVM之问答式记住虚拟机性能监控与故障处理工具 2 初学JVM之问答式记住垃圾收集器 log4j2 按天生成日志文件 1 初学JVM之问答式记住java自动内存管理 MapReduce学习心得之MapReduce初识 log4j2 日志发送到kafka配置实战 log4j2 日志配置实战 Mongodb 学习之shell命令操作(二) Mongodb 学习之linux版本安装(一) Dubbo的初级使用 ServiceLoader内部实现分析 ServiceLoader 初级应用 log4j日志发送邮件配置实战 红黑树笔记 IDEA首次使用之前的配置 java源码学习之Enum java源码学习之String 自定义Spring tag标签 编写一键发布脚本 记一次Spring Scheduler莫名不执行的一次堆栈分析 kafka的基本操作 nginx 5:Nginx内部变量 nginx 4:Nginx日志管理 提高hadoop配置效率的shell脚本 Hive编程指南之一 Hive的安装 Ambari服务器安装 Ambari服务器管理集群 HBase分布式安装 windows下Eclipse远程调试运行MR程序 基于MapReduce新的API的编程Demo-wordCount window下Eclipse远程只读HDFS上的文件 YARN上节点标签 编写第一个MapReduce的wordcount程序 NodeManager的重启 搭建JStorm集群 YARN上的web应用代理 YARN上的ResourceManager的高可用方案 配置vmware中的虚拟机使用宿主机的共享网络 YARN架构简述 HDFS 架构 Spring的统一异常处理机制 Tomcat 配置服务 HDFS的viewfs指南 HDFS的Federation之路 HDFS基于QJM的HA之路 nginx 3:Nginx反向代理 mybatis操作主体流程 1.正则表达式学习-基础篇 log4j日志配置详解 mysql的时间函数 nginx 2:Nginx模块配置理论及实战 HashMap相关解析和测试文章 工作一年后的面试 用私有构造器或枚举类型强化Singleton属性 java中比较重要的图 mybatis处理枚举类 mybatis集成进spring Spring比较重要的几个截图 21.hadoop-2.7.2官网文档翻译-使用NFS的HDFS高可用性 20.hadoop-2.7.2官网文档翻译-使用仲裁日志管理器的HDFS高可用性 markdown在jekyll中支持的一些操作 Spring项目中配置sl4j和log4j的日志配置 19.hadoop-2.7.2官网文档翻译-HDFS命令指南 Spring的profile机制介绍 mybatis-generator反向生成 18.hadoop-2.7.2官网文档翻译-HDFS用户指南 17.hadoop-2.7.2官网文档翻译-实现Hadoop中Dapper-like追踪 16.hadoop-2.7.2官网文档翻译-Hadoop的KMS(key 管理服务器)-文档集 15.hadoop-2.7.2官网文档翻译-Hadoop的http web认证 14.hadoop-2.7.2官网文档翻译-服务级别的授权指南 13.hadoop-2.7.2官网文档翻译-安全模式中的Hadoop 09.hadoop-2.7.2官网文档翻译-Hadoop命令行微型集群 12.hadoop-2.7.2官网文档翻译-机架感知 11.hadoop-2.7.2官网文档翻译-代理用户-超级用户对其他用户的代表 10.hadoop-2.7.2官网文档翻译-原生库指南 08.hadoop-2.7.2官网文档翻译-文件系统规范 07.hadoop-2.7.2官网文档翻译-Hadoop接口类别 (转)浅析 Decorator 模式,兼谈 CDI Decorator 注解 06.hadoop-2.7.2官网文档翻译-Hadoop的兼容性 05.hadoop-2.7.2官网文档翻译-文件系统命令 04.hadoop-2.7.2官网文档翻译-Hadoop命令指南 03.hadoop-2.7.2官网文档翻译-集群安装 02.hadoop-2.7.2官网文档翻译-单节点集群安装 01.hadoop-2.7.2官网文档翻译-概述 Http 协议相应状态码大全及常用状态码 IDEA快捷键 JDBC Type与Java Type redis 12:redis 操作集合 mybatis-generator错误集合 redis 11:redis 错误集合 nginx 1:nginx的安装 redis 10:redis cluster命令操作 redis 9:redis实例集群安装 java设计模式 hadoop集群学习笔记(1) Apache Shiro 简介 vim编辑神器的进阶命令 Eclipse配置 Eclipse快捷键 Linux 测试题 Linux脚本学习(1) Linux启动简要过程 Centos7上安装Mysql hadoop集群学习笔记(1) (转)分布式发布订阅消息系统 Kafka 架构设计 maven 命令 Kafka集群安装 Kafka初步使用 redis 8:redis server 和 scripting命令操作 redis 7:redis transaction 和 connection命令操作 redis 6:redis hash 命令操作 redis 5:redis sorted_set 命令操作 搭建本地Jekyll+Markdown+Github的开发环境 Spring源码阅读笔记(2) redis 4:redis set命令操作 Spring添加任务调度配置 redis 3:Redis list命令操作 redis 2:redis 一般命令操作 redis 1:redis单机安装笔记 redis 0:redis配置属性描述 Spring源码阅读笔记(1) spark 错误集锦 spark集群安装 Linux 基本命令操作 Hadoop错误信息处理 Hadoop代码拾忆 从零开始搭建spring-springmvc-mybatis-mysql和dubbo项目 java知识点札记 java排错 Google Java Style 中文版 git进阶经验 github使用经验 MongoDB用户角色授权与AUTH启用 MongoDB 命令 MongoDB 特定规范 Spring MVC实现跳转的几种方式 史上最全最强SpringMVC详细示例实战教程 Spring 零星笔记 js中(function(){…})()立即执行函数写法理解 如何解决跨域问题 创建ajax简单过程 前端定位 设置MYSQL允许通过IP访问 mybatis异常 :元素内容必须由格式正确的字符数据或标记组成 如何为 WordPress 绑定多个域名的方法s WordPress工作原理之程序文件执行顺序(传说中的架构源码分析) Spring源码导入Eclipse中 基于PHPnow搭建Eclipse开发环境 解决wordpress首页文章内容截断处理的几种方法 ZooKeeper理论知识 ZooKeeper集群安装配置 Git常用命令速查表 Linux 4:磁盘与文件系统管理 Linux 3:文件与目录管理 Linux 2:文件权限与目录配置 Markdown输入LaTeX数学公式
从零学hadoop-搭建基础(单点)的Hdfs环境 MapReduce学习心得之MapReduce初识 Ambari服务器安装 Ambari服务器管理集群 windows下Eclipse远程调试运行MR程序 基于MapReduce新的API的编程Demo-wordCount window下Eclipse远程只读HDFS上的文件 YARN上节点标签 编写第一个MapReduce的wordcount程序 NodeManager的重启 YARN上的web应用代理 YARN上的ResourceManager的高可用方案 YARN架构简述 HDFS 架构 HDFS的viewfs指南 HDFS的Federation之路 HDFS基于QJM的HA之路 21.hadoop-2.7.2官网文档翻译-使用NFS的HDFS高可用性 20.hadoop-2.7.2官网文档翻译-使用仲裁日志管理器的HDFS高可用性 19.hadoop-2.7.2官网文档翻译-HDFS命令指南 18.hadoop-2.7.2官网文档翻译-HDFS用户指南 17.hadoop-2.7.2官网文档翻译-实现Hadoop中Dapper-like追踪 16.hadoop-2.7.2官网文档翻译-Hadoop的KMS(key 管理服务器)-文档集 15.hadoop-2.7.2官网文档翻译-Hadoop的http web认证 14.hadoop-2.7.2官网文档翻译-服务级别的授权指南 13.hadoop-2.7.2官网文档翻译-安全模式中的Hadoop 09.hadoop-2.7.2官网文档翻译-Hadoop命令行微型集群 12.hadoop-2.7.2官网文档翻译-机架感知 11.hadoop-2.7.2官网文档翻译-代理用户-超级用户对其他用户的代表 10.hadoop-2.7.2官网文档翻译-原生库指南 08.hadoop-2.7.2官网文档翻译-文件系统规范 07.hadoop-2.7.2官网文档翻译-Hadoop接口类别 06.hadoop-2.7.2官网文档翻译-Hadoop的兼容性 05.hadoop-2.7.2官网文档翻译-文件系统命令 04.hadoop-2.7.2官网文档翻译-Hadoop命令指南 03.hadoop-2.7.2官网文档翻译-集群安装 02.hadoop-2.7.2官网文档翻译-单节点集群安装 01.hadoop-2.7.2官网文档翻译-概述 hadoop集群学习笔记(1) hadoop集群学习笔记(1) Hadoop错误信息处理 Hadoop代码拾忆

YARN上的ResourceManager的高可用方案

创建时间:2016年12月07日
摘要:YARN上的ResourceManager的高可用方案

介绍

该指南提供了对YARN上的ResourceManager(RM)的高可用概述,并详细讲解了怎样配置和使用该特性。 RM负责跟踪寄去哪上的资源,并调度应用(比如,Mapreduce任务)。在Hadoop2.4之前,RM在整个的YARN集群中存在单点故障。 高可用的特性会以主从RM对的方式增加冗余来避免单点故障。

架构

YARN架构

RM故障切换

RM的HA是通过主备架构实现的-在任何时间点上都有一个RM是活跃节点另一个或多个处于备用模式等待在异常发生时转换为活跃。通过管理员命令或在自动故障切换开启时整合的故障切换控制器都可以触发切换到活跃状态。

手动故障切换

当自动故障切换未开启时,管理员不得不手动将RM中的一个切换为活跃状态。为了一个节点到另一个节点的故障切换,他们期望先将活跃RM切换到备用节点状态,并将一备用节点转为活跃节点。

所有这些可以使用命令yarn rmadmin 来完成。

自动故障切换

RM有一个选项嵌入基于zookeeper的主备选择器来决定哪个RM应该是活跃的。当主节点宕机或没有响应时,另一个RM会自动被选择为活跃状态然后接管以前的任务。

注意:不需要在HDFS上分别运行ZKFC实例,因为嵌入在RM中的主备选择器扮演了故障切换的监测者和替代单独的ZKFC进程作为选举器。

RM故障切换上的客户端,ApplicationMaster 和NodeManager

当有多个RM时,客户端和节点使用的配置(yarn-sote.xml)希望列出所有的RM。客户端,AM和NM尝试以循环方式连接RM直到集中活跃的RM。如果活跃节点失效了,他们会重新循环轮询直到击中新的活跃节点。

默认重试的逻辑需要实现org.apache.hadoop.yarn.client.ConfiguredRMFailoverProxyProvider

你可以通过实现org.apache.hadoop.yarn.client.RMFailoverProxyProvider 来覆盖逻辑并设置yarn.client.failover-proxy-provider的值到该类的全限定名称。

恢复先前的活跃RM的状态

启用了RM的重启后,被确认为活跃状态的RM会载入RM的内部状态并根据RM的重启功能尽可能的继续从先前活跃节点失效的位置继续操作。

会为每个已经提交到RM的管理应用程序触发新的尝试。应用程序可以定期检查点避免丢失任何工作。状态存储必须对RM的主备节点都可见的。当前,有两个RMStateStore实现持久化-FileSystemRMStateStore ZKRMStateStore

ZKRMStateStore默认允许在任何时候及时写并读到一个单一RM,因此推荐将其存储在高可用的集群中。在使用ZKRMStateStore时,不需要单独的回避机器来解决潜在的脑裂的情况(多个RM被任务是活跃角色的情况)。当使用ZKRMStateStore时,不建议在ZK集群上设置zookeeper.DigestAuthenticationProvider.superDigest属性来确保ZK的管理员不能访问YARN应用或用户凭证数据。

部署

配置

大部分的故障切换功能可以使用多种配置属性调节。 下面的列表是必须的而且是很重要的。yarn-defaylt.xml携带了设置的完全列表。

可以查看yarn-default.xml获得更多包括默认值在内的信息。看RM重启来了解设置状态存储的信息。

配置属性 描述
yarn.resourcemanager.zk-address ZK仲裁的地址,用于状态存储和内嵌leader选举
yarn.resourcemanager.ha.enabled 启用RM的高可用
yarn.resourcemanager.ha.rm-ids RM的逻辑ID列表,如:rm1,rm22
yarn.resourcemanager.hostname.rm-id 针对每一个rm-id,指定RM相应的主机名,另外也可以是指每个Rm的服务地址(ip地址)
yarn.resourcemanager.address.rm-id 针对每个rm-id,为客户端指定提交job的host和port。如果设置了,会覆盖yarn.resourcemanager.hostname.rm-id中设置的主机名
yarn.resourcemanager.scheduler.address.rm-id 针对每个rm-id,为AM指定获取资源的host和port。如果设置了,会覆盖yarn.resourcemanager.hostname.rm-id中设置的主机名
yarn.resourcemanager.resource-tracker.address.rm-id 针对每个rm-id,Nm连接的host和port。如果设置了,会覆盖yarn.resourcemanager.hostname.rm-id中设置的主机名
yarn.resourcemanager.admin.address.rm-id 针对每个rm-id,为管理命令指定的host和port。如果设置了,会覆盖yarn.resourcemanager.hostname.rm-id中设置的主机名
yarn.resourcemanager.webapp.address.rm-id 针对每个rm-id,为RM的web应用通信指定host和port。如果设置了yarn.http.policyHTTPS_ONLY就不需要改配置。如果设置了,会覆盖yarn.resourcemanager.hostname.rm-id中设置的主机名
yarn.resourcemanager.ha.id RM的总标识
yarn.resourcemanager.ha.automatic-failover.enabled 启用自动故障切换;默认当启动高可用时就启动该配置
yarn.resourcemanager.ha.automatic-failover.embedded 当自动故障切换开启时,使用嵌入的leader选举来投票胡月的Rm。默认当启动高可用时就启动该配置
yarn.resourcemanager.cluster-id 集群的标识,确保选举为活跃的RM不是另一个集群的节点。
yarn.client.failover-proxy-provider 客户端,AM,NM用于故障切换到活跃RM的类
yarn.client.failover-max-attempts 故障切换代理提供者尝试故障切换的最大次数
yarn.client.failover-sleep-base-ms 用于计算故障间延迟的睡眠基础(毫秒)
yarn.client.failover-sleep-max-ms 故障切换最大睡眠时间(毫秒)
yarn.client.failover-retries 每次试图连接到RM的重试数量
yarn.client.failover-retries-on-socket-timeouts 每次试图连接到RM的重试数量的超时时间

样例配置

这是RM故障切换最简单的样例设置

<property>
  <name>yarn.resourcemanager.ha.enabled</name>
  <value>true</value>
</property>
<property>
  <name>yarn.resourcemanager.cluster-id</name>
  <value>cluster1</value>
</property>
<property>
  <name>yarn.resourcemanager.ha.rm-ids</name>
  <value>rm1,rm2</value>
</property>
<property>
  <name>yarn.resourcemanager.hostname.rm1</name>
  <value>master1</value>
</property>
<property>
  <name>yarn.resourcemanager.hostname.rm2</name>
  <value>master2</value>
</property>
<property>
  <name>yarn.resourcemanager.webapp.address.rm1</name>
  <value>master1:8088</value>
</property>
<property>
  <name>yarn.resourcemanager.webapp.address.rm2</name>
  <value>master2:8088</value>
</property>
<property>
  <name>yarn.resourcemanager.zk-address</name>
  <value>zk1:2181,zk2:2181,zk3:2181</value>
</property>

示例配置

这是在实际搭建中的示例配置

<configuration>

<!-- Site specific YARN configuration properties -->
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
        <property>
                <name>yarn.resourcemanager.scheduler.class</name>
                <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>
        </property>
        <property>
                <name>yarn.log-aggregation-enable</name>
                <value>true</value>
        </property>
        <property>
                <name>yarn.resourcemanager.webapp.address</name>
                <value>h2m1:8088</value>
        </property>
        <property>
                <name>yarn.log-aggregation.retain-seconds</name>
                <value>864000</value>
        </property>
        <property>
                <name>yarn.log-aggregation.retain-seconds</name>
                <value>764000</value>
        </property>
        <property>
                <name>yarn.resourcemanager.scheduler.class</name>
                <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>
        </property>
          <property>
                <name>yarn.resourcemanager.zk-address</name>
                <value>h2m1:2181,h2s1:2181,h2s2:2181</value>
        </property>
        <property>
                <name>yarn.resourcemanager.ha.enabled</name>
                <value>true</value>
        </property>
        <property>
                <name>yarn.resourcemanager.cluster-id</name>
                <value>hadoop-cluster-jingzz-rm</value>
        </property>
        <property>
                <name>yarn.resourcemanager.ha.rm-ids</name>
                <value>rm1,rm2</value>
        </property>
        <property>
                <name>yarn.resourcemanager.hostname.rm1</name>
                <value>h2m1</value>
        </property>
        <property>
                <name>yarn.resourcemanager.hostname.rm2</name>
                <value>h2s1</value>
        </property>
        <property>
                <name>yarn.resourcemanager.webapp.address.rm1</name>
                <value>h2m1:8088</value>
        </property>
        <property>
                <name>yarn.resourcemanager.webapp.address.rm2</name>
                <value>h2s1:8088</value>
        </property>               
        <property>
                <name>yarn.resourcemanager.ha.automatic-failover.enabled</name>
                <value>true</value>
        </property>
        <property>
                <name>yarn.resourcemanager.recovery.enabled</name>
                <value>true</value>
        </property>

        <property>
                <name>yarn.resourcemanager.store.class</name>
                <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
        </property>
</configuration>

管理员命令

yarn rmadmin有多个HA的具体命令操作来检查RM的健康和状态,并且切换主备状态。

命令中使用的HA的是在`yarn.resourcemanager.ha.rm-ids `中设置的值作为参数。

$ yarn rmadmin -getServiceState rm1
 active

 $ yarn rmadmin -getServiceState rm2
 standby

如果自动故障切换已经开启,就不能手动执行切换命令了,尽管你可以通过使用–forcemanual参数覆盖掉,但还是小心为妙。

$ yarn rmadmin -transitionToStandby rm1
 Automatic failover is enabled for org.apache.hadoop.yarn.client.RMHAServiceTarget@1d8299fd
 Refusing to manually manage HA state, since it may cause
 a split-brain scenario or other incorrect state.
 If you are very sure you know what you are doing, please
 specify the forcemanual flag.

RM的web界面服务

假定备用RM设置并启用,备用自动重定向所有的web请求到主节点,除非是“关于”页面。

web Service

假定备用RM设置并启用,RM的web-service的描述在RM的Rest API处,当调用一个备用RM请求会自动重定向到主RM节点。

注意:需要在RM的每个节点上执行${hadoop_home}/sbin/yarn-daemon.sh --config $YARN_CONF_DIR start resourcemanager