IDEA常用插件 Mybatis源码分析(1) - Mybatis包目录简介 tair 1:tair学习 dataflow论文阅读笔记 Polysh的安装使用 SnappyData排序函数比较 Squirrel-sql客户端连接SnappyData手册 在虚拟机里显示Hello World spark学习博客推荐 SnappyData学习博客和官网文章 Docker常用命令 MyBatis支持的OGNL语法 mysql性能优化 mysql性能优化-优化Sql语句 java各版本新特性 mac上命令行操作 explain输出格式 从文件中读取zk配置——ZooKeeper编程技能(1) git进阶经验-从项目中删除移除的目录 Mongodb 学习之shell命令操作(3) mysql命令 git进阶经验-从多模块项目中分理子模块 从零学hadoop-搭建基础(单点)的Hdfs环境 ZooKeeper集群操作脚本 Vue安装使用 2 初学JVM之问答式记住类加载机制 2 初学JVM之问答式记住虚拟机性能监控与故障处理工具 2 初学JVM之问答式记住垃圾收集器 log4j2 按天生成日志文件 1 初学JVM之问答式记住java自动内存管理 MapReduce学习心得之MapReduce初识 log4j2 日志发送到kafka配置实战 log4j2 日志配置实战 Mongodb 学习之shell命令操作(二) Mongodb 学习之linux版本安装(一) Dubbo的初级使用 ServiceLoader内部实现分析 ServiceLoader 初级应用 log4j日志发送邮件配置实战 红黑树笔记 IDEA首次使用之前的配置 java源码学习之Enum java源码学习之String 自定义Spring tag标签 编写一键发布脚本 记一次Spring Scheduler莫名不执行的一次堆栈分析 kafka的基本操作 nginx 5:Nginx内部变量 nginx 4:Nginx日志管理 提高hadoop配置效率的shell脚本 Hive编程指南之一 Hive的安装 Ambari服务器安装 Ambari服务器管理集群 HBase分布式安装 windows下Eclipse远程调试运行MR程序 基于MapReduce新的API的编程Demo-wordCount window下Eclipse远程只读HDFS上的文件 YARN上节点标签 编写第一个MapReduce的wordcount程序 NodeManager的重启 搭建JStorm集群 YARN上的web应用代理 YARN上的ResourceManager的高可用方案 配置vmware中的虚拟机使用宿主机的共享网络 YARN架构简述 HDFS 架构 Spring的统一异常处理机制 Tomcat 配置服务 HDFS的viewfs指南 HDFS的Federation之路 HDFS基于QJM的HA之路 nginx 3:Nginx反向代理 mybatis操作主体流程 1.正则表达式学习-基础篇 log4j日志配置详解 mysql的时间函数 nginx 2:Nginx模块配置理论及实战 HashMap相关解析和测试文章 工作一年后的面试 用私有构造器或枚举类型强化Singleton属性 java中比较重要的图 mybatis处理枚举类 mybatis集成进spring Spring比较重要的几个截图 21.hadoop-2.7.2官网文档翻译-使用NFS的HDFS高可用性 20.hadoop-2.7.2官网文档翻译-使用仲裁日志管理器的HDFS高可用性 markdown在jekyll中支持的一些操作 Spring项目中配置sl4j和log4j的日志配置 19.hadoop-2.7.2官网文档翻译-HDFS命令指南 Spring的profile机制介绍 mybatis-generator反向生成 18.hadoop-2.7.2官网文档翻译-HDFS用户指南 17.hadoop-2.7.2官网文档翻译-实现Hadoop中Dapper-like追踪 16.hadoop-2.7.2官网文档翻译-Hadoop的KMS(key 管理服务器)-文档集 15.hadoop-2.7.2官网文档翻译-Hadoop的http web认证 14.hadoop-2.7.2官网文档翻译-服务级别的授权指南 13.hadoop-2.7.2官网文档翻译-安全模式中的Hadoop 09.hadoop-2.7.2官网文档翻译-Hadoop命令行微型集群 12.hadoop-2.7.2官网文档翻译-机架感知 11.hadoop-2.7.2官网文档翻译-代理用户-超级用户对其他用户的代表 10.hadoop-2.7.2官网文档翻译-原生库指南 08.hadoop-2.7.2官网文档翻译-文件系统规范 07.hadoop-2.7.2官网文档翻译-Hadoop接口类别 (转)浅析 Decorator 模式,兼谈 CDI Decorator 注解 06.hadoop-2.7.2官网文档翻译-Hadoop的兼容性 05.hadoop-2.7.2官网文档翻译-文件系统命令 04.hadoop-2.7.2官网文档翻译-Hadoop命令指南 03.hadoop-2.7.2官网文档翻译-集群安装 02.hadoop-2.7.2官网文档翻译-单节点集群安装 01.hadoop-2.7.2官网文档翻译-概述 Http 协议相应状态码大全及常用状态码 IDEA快捷键 JDBC Type与Java Type redis 12:redis 操作集合 mybatis-generator错误集合 redis 11:redis 错误集合 nginx 1:nginx的安装 redis 10:redis cluster命令操作 redis 9:redis实例集群安装 java设计模式 hadoop集群学习笔记(1) Apache Shiro 简介 vim编辑神器的进阶命令 Eclipse配置 Eclipse快捷键 Linux 测试题 Linux脚本学习(1) Linux启动简要过程 Centos7上安装Mysql hadoop集群学习笔记(1) (转)分布式发布订阅消息系统 Kafka 架构设计 maven 命令 Kafka集群安装 Kafka初步使用 redis 8:redis server 和 scripting命令操作 redis 7:redis transaction 和 connection命令操作 redis 6:redis hash 命令操作 redis 5:redis sorted_set 命令操作 搭建本地Jekyll+Markdown+Github的开发环境 Spring源码阅读笔记(2) redis 4:redis set命令操作 Spring添加任务调度配置 redis 3:Redis list命令操作 redis 2:redis 一般命令操作 redis 1:redis单机安装笔记 redis 0:redis配置属性描述 Spring源码阅读笔记(1) spark 错误集锦 spark集群安装 Linux 基本命令操作 Hadoop错误信息处理 Hadoop代码拾忆 从零开始搭建spring-springmvc-mybatis-mysql和dubbo项目 java知识点札记 java排错 Google Java Style 中文版 git进阶经验 github使用经验 MongoDB用户角色授权与AUTH启用 MongoDB 命令 MongoDB 特定规范 Spring MVC实现跳转的几种方式 史上最全最强SpringMVC详细示例实战教程 Spring 零星笔记 js中(function(){…})()立即执行函数写法理解 如何解决跨域问题 创建ajax简单过程 前端定位 设置MYSQL允许通过IP访问 mybatis异常 :元素内容必须由格式正确的字符数据或标记组成 如何为 WordPress 绑定多个域名的方法s WordPress工作原理之程序文件执行顺序(传说中的架构源码分析) Spring源码导入Eclipse中 基于PHPnow搭建Eclipse开发环境 解决wordpress首页文章内容截断处理的几种方法 ZooKeeper理论知识 ZooKeeper集群安装配置 Git常用命令速查表 Linux 4:磁盘与文件系统管理 Linux 3:文件与目录管理 Linux 2:文件权限与目录配置 Markdown输入LaTeX数学公式
从零学hadoop-搭建基础(单点)的Hdfs环境 MapReduce学习心得之MapReduce初识 Ambari服务器安装 Ambari服务器管理集群 windows下Eclipse远程调试运行MR程序 基于MapReduce新的API的编程Demo-wordCount window下Eclipse远程只读HDFS上的文件 YARN上节点标签 编写第一个MapReduce的wordcount程序 NodeManager的重启 YARN上的web应用代理 YARN上的ResourceManager的高可用方案 YARN架构简述 HDFS 架构 HDFS的viewfs指南 HDFS的Federation之路 HDFS基于QJM的HA之路 21.hadoop-2.7.2官网文档翻译-使用NFS的HDFS高可用性 20.hadoop-2.7.2官网文档翻译-使用仲裁日志管理器的HDFS高可用性 19.hadoop-2.7.2官网文档翻译-HDFS命令指南 18.hadoop-2.7.2官网文档翻译-HDFS用户指南 17.hadoop-2.7.2官网文档翻译-实现Hadoop中Dapper-like追踪 16.hadoop-2.7.2官网文档翻译-Hadoop的KMS(key 管理服务器)-文档集 15.hadoop-2.7.2官网文档翻译-Hadoop的http web认证 14.hadoop-2.7.2官网文档翻译-服务级别的授权指南 13.hadoop-2.7.2官网文档翻译-安全模式中的Hadoop 09.hadoop-2.7.2官网文档翻译-Hadoop命令行微型集群 12.hadoop-2.7.2官网文档翻译-机架感知 11.hadoop-2.7.2官网文档翻译-代理用户-超级用户对其他用户的代表 10.hadoop-2.7.2官网文档翻译-原生库指南 08.hadoop-2.7.2官网文档翻译-文件系统规范 07.hadoop-2.7.2官网文档翻译-Hadoop接口类别 06.hadoop-2.7.2官网文档翻译-Hadoop的兼容性 05.hadoop-2.7.2官网文档翻译-文件系统命令 04.hadoop-2.7.2官网文档翻译-Hadoop命令指南 03.hadoop-2.7.2官网文档翻译-集群安装 02.hadoop-2.7.2官网文档翻译-单节点集群安装 01.hadoop-2.7.2官网文档翻译-概述 hadoop集群学习笔记(1) hadoop集群学习笔记(1) Hadoop错误信息处理 Hadoop代码拾忆

YARN上节点标签

2016年12月13日
摘要:YARN上节点标签

节点标签是一组具有相似特征的节点,应用程序可以指定在哪里运行。

现在只支持节点分区,如下:

  • 一个节点只有一个节点分区,因此一个集群可以通过节点分区分割为互不相交的几个子集群。默认,节点属于DEFAULT分区(partition=”“)。

  • 用户需要配置每个分区上不同的队列有多少资源可以使用。

  • 以下有两种节点分区:

    • 专有的:会通过精确匹配节点分区将容器分配到节点。比如,请求“X”分区将会给节点分配分区“X”,请求“DEFAULT”分区将会分配到“DEFAULT”分区节点。

    • 非专有的: 如果一个分区为非专有的,它会分享闲置资源给请求DEFAULT分区的容器。

用户可以指定可以被每个队列访问的节点标签的集合,一个应用只可以使用包含该应用的队列可访问节点标签的子集。

特性

节点标签现在支持一下几点功能:

  • 集群分区 -每个节点可以被指定一个标签,因此集群可以被分隔为几个互斥的更小的分区。

  • 队列上的节点标签的ACL -用户可以在每个队列上设置可访问的节点标签。因此一些节点只可以被指定的队列访问。

  • 指定一个队列可访问分区上资源的百分率 - 用户可以像这样设置百分率:队列A可以访问节点(label=hbase)上30%的资源。 这样的百分率会在资源管理器中保持一致。

  • 在资源请求中指定所需要的节点标签 只有节点具有相同的标签时才会被分配。如果没有资源请求中指定的节点标签,那么资源请求只会被分配DEFAULT分区上的资源。

  • 可操作性

    • 节点标签和节点标签映射可以在RM重启后恢复。
    • 更新节点标签 -在RM运行时,管理员可以在节点上和队列上的标签。

配置

设置资源管理器启用节点标签

yarn-site.xml中设置一下属性

属性
yarn.node-labels.fs-store.root-dir hdfs://namenode:port/path/to/store/node-labels/
yarn.node-labels.enabled true

注意:

  • 确保yarn.node-labels.fs-store.root-dir设置的目录已经创建并且RM有权限访问该目录。

  • 如果用户想要将节点标签存储到RM的本地文件系统(替代HDFS),路径配置要像这样:file:///home/yarn/node-label

添加/修改节点标签列表并node-to-labels映射到YARN

  • 添加集群的节点标签列表:

    • 执行yarn rmadmin -addToClusterNodeLabels "label-1"来添加节点标签。

    • 如果用户没有指定(exclusive=…),默认为true。

    • 运行 yarn cluster --list-node-labels 或者yarn cluster -lnl检查新添加的标签在集群中可见。

  • 添加标签到节点:

    • 执行yarn rmadmin -replaceLabelsOnNode "node1[:port]=label1,label3 node2=label2",添加label1和label3到节点node1,添加label2到节点node2。 如果用户没有指定端口号,会直接将标签添加到该节点上运行的所有NM上。而且该标签名必须在集群的节点标签列表中存在。

注意:

标签名称只能包含:范围为{0-9, a-z, A-Z, -, _},符号为英文的
node1和node2为运行NM的主机名。

节点标签的Schedulers配置

Capacity Scheduler配置

属性
yarn.scheduler.capacity.<queue-path>.capacity 设置队列可以访问的DEFAULT分区的节点的百分率。DEFAULT分区下属子节点的和必须等于100
yarn.scheduler.capacity.<queue-path>.accessible-node-labels 管理员需要制定每个队列可以访问的标签,以逗号分隔,比如”hbase,storm”意味着队列可以访问访问标签hbase和storm。所有队列都可以访问没有标签的节点,用户不能制定。如果没有指定该属性,将会集成它的parent。如果用户想明确指定队列可以访问的没有标签的节点,只输入空格作为值
yarn.scheduler.capacity.<queue-path>.accessible-node-labels.<label>.capacity 设置队列可以访问的属于label分区的节点的百分率。label管理的子节点的容量的总和必须等于100,默认为0
yarn.scheduler.capacity.<queue-path>.accessible-node-labels.<label>.maximum-capacity yarn.scheduler.capacity.<queue-path>.maximum-capacity类似,每个队列的最大标签容量,默认为100
yarn.scheduler.capacity.<queue-path>.default-node-label-expression hbase这样的值,意味着如果应用在提交到队列时的资源请求没有指定节点标签,会使用’hbase’作为默认节点标签表达式。默认为空,因此应用会从没有标签的节点获取资源。

节点标签配置的例子

假设我们的队列结构如下:

	       root
		/    |   \
engineer   sales  marketing

在集群中有5个节点(主机名为:h1…h5),每个24G内存,24个虚核,h5有GPU,因此管理员添加GPU标签给h5。

假定用户的Capacity Scheduler配置如下:

yarn.scheduler.capacity.root.queues=engineering,marketing,sales
yarn.scheduler.capacity.root.engineering.capacity=33
yarn.scheduler.capacity.root.marketing.capacity=34
yarn.scheduler.capacity.root.sales.capacity=33

yarn.scheduler.capacity.root.engineering.accessible-node-labels=GPU
yarn.scheduler.capacity.root.marketing.accessible-node-labels=GPU

yarn.scheduler.capacity.root.engineering.accessible-node-labels.GPU.capacity=50
yarn.scheduler.capacity.root.marketing.accessible-node-labels.GPU.capacity=50

yarn.scheduler.capacity.root.engineering.default-node-label-expression=GPU

说明:root.engineering/marketing/sales.capacity=33,因此每个队列可以保证没有分区的资源的三分之一,因此他们可以使用h1…h4的三分之一的资源,即24 * 4 * (1/3) = (32G内存,32虚核)

并且engineering/marketing有权限访问GPU分区。每个engineering/marketing队列可以获取分区GPU上的二分之一的资源。24 * 0.5 =(12G内存,12虚核)

注意:

  • 完成CapacityScheduler配置后,需要执行yarn rmadmin -refreshQueues来应用改变。

  • 去RM的WEB页面的scheduler 页面检查是否配置成功。

为应用指定节点标签

应用可以使用一下的java接口指定节点标签

  • ApplicationSubmissionContext.setNodeLabelExpression(..) 设置应用所有容器的节点标签表达式。

  • ResourceRequest.setNodeLabelExpression(..) 为个别的资源请求设置节点标签表达式。

  • ApplicationSubmissionContext指定setAMContainerResourceRequest.setNodeLabelExpression指明AM容器期望的节点标签。

监控

通过web页面监控

通过下面的web连接监控标签相关的属性

命令行监控

  • 使用命令yarn cluster --list-node-labels yarn cluster -lnl获取集群标签

  • 使用命令yarn node -status <NodeId>获取给定的节点的节点状态。此处的NodeId为NM的host:port,可以通过yarn node -list查看。

报告示例:

Node Report : 
        Node-Id : h2m1:56512
        Rack : /default-rack
        Node-State : RUNNING
        Node-Http-Address : h2m1:8042
        Last-Health-Update : Tue 13/Dec/16 12:52:19:691PST
        Health-Report : 
        Containers : 0
        Memory-Used : 0MB
        Memory-Capacity : 8192MB
        CPU-Used : 0 vcores
        CPU-Capacity : 8 vcores
        Node-Labels : label1