dataflow论文阅读笔记 Polysh的安装使用 SnappyData排序函数比较 Squirrel-sql客户端连接SnappyData手册 在虚拟机里显示Hello World spark学习博客推荐 SnappyData学习博客和官网文章 Docker常用命令 MyBatis支持的OGNL语法 mysql性能优化 mysql性能优化-优化Sql语句 java各版本新特性 mac上命令行操作 explain输出格式 从文件中读取zk配置——ZooKeeper编程技能(1) git进阶经验-从项目中删除移除的目录 Mongodb 学习之shell命令操作(3) mysql命令 git进阶经验-从多模块项目中分理子模块 从零学hadoop-搭建基础(单点)的Hdfs环境 ZooKeeper集群操作脚本 Vue安装使用 2 初学JVM之问答式记住类加载机制 2 初学JVM之问答式记住虚拟机性能监控与故障处理工具 2 初学JVM之问答式记住垃圾收集器 log4j2 按天生成日志文件 1 初学JVM之问答式记住java自动内存管理 MapReduce学习心得之MapReduce初识 log4j2 日志发送到kafka配置实战 log4j2 日志配置实战 Mongodb 学习之shell命令操作(二) Mongodb 学习之linux版本安装(一) Dubbo的初级使用 ServiceLoader内部实现分析 ServiceLoader 初级应用 log4j日志发送邮件配置实战 红黑树笔记 IDEA首次使用之前的配置 java源码学习之Enum java源码学习之String 自定义Spring tag标签 编写一键发布脚本 记一次Spring Scheduler莫名不执行的一次堆栈分析 kafka的基本操作 nginx 5:Nginx内部变量 nginx 4:Nginx日志管理 提高hadoop配置效率的shell脚本 Hive编程指南之一 Hive的安装 Ambari服务器安装 Ambari服务器管理集群 HBase分布式安装 windows下Eclipse远程调试运行MR程序 基于MapReduce新的API的编程Demo-wordCount window下Eclipse远程只读HDFS上的文件 YARN上节点标签 编写第一个MapReduce的wordcount程序 NodeManager的重启 搭建JStorm集群 YARN上的web应用代理 YARN上的ResourceManager的高可用方案 配置vmware中的虚拟机使用宿主机的共享网络 YARN架构简述 HDFS 架构 Spring的统一异常处理机制 Tomcat 配置服务 HDFS的viewfs指南 HDFS的Federation之路 HDFS基于QJM的HA之路 nginx 3:Nginx反向代理 mybatis操作主体流程 1.正则表达式学习-基础篇 log4j日志配置详解 mysql的时间函数 nginx 2:Nginx模块配置理论及实战 HashMap相关解析和测试文章 工作一年后的面试 用私有构造器或枚举类型强化Singleton属性 java中比较重要的图 mybatis处理枚举类 mybatis集成进spring Spring比较重要的几个截图 21.hadoop-2.7.2官网文档翻译-使用NFS的HDFS高可用性 20.hadoop-2.7.2官网文档翻译-使用仲裁日志管理器的HDFS高可用性 markdown在jekyll中支持的一些操作 Spring项目中配置sl4j和log4j的日志配置 19.hadoop-2.7.2官网文档翻译-HDFS命令指南 Spring的profile机制介绍 mybatis-generator反向生成 18.hadoop-2.7.2官网文档翻译-HDFS用户指南 17.hadoop-2.7.2官网文档翻译-实现Hadoop中Dapper-like追踪 16.hadoop-2.7.2官网文档翻译-Hadoop的KMS(key 管理服务器)-文档集 15.hadoop-2.7.2官网文档翻译-Hadoop的http web认证 14.hadoop-2.7.2官网文档翻译-服务级别的授权指南 13.hadoop-2.7.2官网文档翻译-安全模式中的Hadoop 09.hadoop-2.7.2官网文档翻译-Hadoop命令行微型集群 12.hadoop-2.7.2官网文档翻译-机架感知 11.hadoop-2.7.2官网文档翻译-代理用户-超级用户对其他用户的代表 10.hadoop-2.7.2官网文档翻译-原生库指南 08.hadoop-2.7.2官网文档翻译-文件系统规范 07.hadoop-2.7.2官网文档翻译-Hadoop接口类别 (转)浅析 Decorator 模式,兼谈 CDI Decorator 注解 06.hadoop-2.7.2官网文档翻译-Hadoop的兼容性 05.hadoop-2.7.2官网文档翻译-文件系统命令 04.hadoop-2.7.2官网文档翻译-Hadoop命令指南 03.hadoop-2.7.2官网文档翻译-集群安装 02.hadoop-2.7.2官网文档翻译-单节点集群安装 01.hadoop-2.7.2官网文档翻译-概述 Http 协议相应状态码大全及常用状态码 IDEA快捷键 JDBC Type与Java Type redis 12:redis 操作集合 mybatis-generator错误集合 redis 11:redis 错误集合 nginx 1:nginx的安装 redis 10:redis cluster命令操作 redis 9:redis实例集群安装 java设计模式 hadoop集群学习笔记(1) Apache Shiro 简介 vim编辑神器的进阶命令 Eclipse配置 Eclipse快捷键 Linux 测试题 Linux脚本学习(1) Linux启动简要过程 Centos7上安装Mysql hadoop集群学习笔记(1) (转)分布式发布订阅消息系统 Kafka 架构设计 maven 命令 Kafka集群安装 Kafka初步使用 redis 8:redis server 和 scripting命令操作 redis 7:redis transaction 和 connection命令操作 redis 6:redis hash 命令操作 redis 5:redis sorted_set 命令操作 搭建本地Jekyll+Markdown+Github的开发环境 Spring源码阅读笔记(2) redis 4:redis set命令操作 Spring添加任务调度配置 redis 3:Redis list命令操作 redis 2:redis 一般命令操作 redis 1:redis单机安装笔记 redis 0:redis配置属性描述 Spring源码阅读笔记(1) spark 错误集锦 spark集群安装 Linux 基本命令操作 Hadoop错误信息处理 Hadoop代码拾忆 从零开始搭建spring-springmvc-mybatis-mysql和dubbo项目 java知识点札记 java排错 Google Java Style 中文版 git进阶经验 github使用经验 MongoDB用户角色授权与AUTH启用 MongoDB 命令 MongoDB 特定规范 Spring MVC实现跳转的几种方式 史上最全最强SpringMVC详细示例实战教程 Spring 零星笔记 js中(function(){…})()立即执行函数写法理解 如何解决跨域问题 创建ajax简单过程 前端定位 设置MYSQL允许通过IP访问 mybatis异常 :元素内容必须由格式正确的字符数据或标记组成 如何为 WordPress 绑定多个域名的方法s WordPress工作原理之程序文件执行顺序(传说中的架构源码分析) Spring源码导入Eclipse中 基于PHPnow搭建Eclipse开发环境 解决wordpress首页文章内容截断处理的几种方法 ZooKeeper理论知识 ZooKeeper集群安装配置 Git常用命令速查表 Linux 4:磁盘与文件系统管理 Linux 3:文件与目录管理 Linux 2:文件权限与目录配置 Markdown输入LaTeX数学公式
从零学hadoop-搭建基础(单点)的Hdfs环境 MapReduce学习心得之MapReduce初识 Ambari服务器安装 Ambari服务器管理集群 windows下Eclipse远程调试运行MR程序 基于MapReduce新的API的编程Demo-wordCount window下Eclipse远程只读HDFS上的文件 YARN上节点标签 编写第一个MapReduce的wordcount程序 NodeManager的重启 YARN上的web应用代理 YARN上的ResourceManager的高可用方案 YARN架构简述 HDFS 架构 HDFS的viewfs指南 HDFS的Federation之路 HDFS基于QJM的HA之路 21.hadoop-2.7.2官网文档翻译-使用NFS的HDFS高可用性 20.hadoop-2.7.2官网文档翻译-使用仲裁日志管理器的HDFS高可用性 19.hadoop-2.7.2官网文档翻译-HDFS命令指南 18.hadoop-2.7.2官网文档翻译-HDFS用户指南 17.hadoop-2.7.2官网文档翻译-实现Hadoop中Dapper-like追踪 16.hadoop-2.7.2官网文档翻译-Hadoop的KMS(key 管理服务器)-文档集 15.hadoop-2.7.2官网文档翻译-Hadoop的http web认证 14.hadoop-2.7.2官网文档翻译-服务级别的授权指南 13.hadoop-2.7.2官网文档翻译-安全模式中的Hadoop 09.hadoop-2.7.2官网文档翻译-Hadoop命令行微型集群 12.hadoop-2.7.2官网文档翻译-机架感知 11.hadoop-2.7.2官网文档翻译-代理用户-超级用户对其他用户的代表 10.hadoop-2.7.2官网文档翻译-原生库指南 08.hadoop-2.7.2官网文档翻译-文件系统规范 07.hadoop-2.7.2官网文档翻译-Hadoop接口类别 06.hadoop-2.7.2官网文档翻译-Hadoop的兼容性 05.hadoop-2.7.2官网文档翻译-文件系统命令 04.hadoop-2.7.2官网文档翻译-Hadoop命令指南 03.hadoop-2.7.2官网文档翻译-集群安装 02.hadoop-2.7.2官网文档翻译-单节点集群安装 01.hadoop-2.7.2官网文档翻译-概述 hadoop集群学习笔记(1) hadoop集群学习笔记(1) Hadoop错误信息处理 Hadoop代码拾忆

HDFS的viewfs指南

2016年11月16日
摘要:HDFS的viewfs指南

介绍

可视化文件系统(ViewFS)提供了一种管理多个Hadoop文件系统命名空间(或成命名空间卷)的方式。 对于在HDFS的Federation有多个NN,多个NS的集群是非常有效的。ViewFS类似于一些Unix/Linux系统的客户端安装表。 ViewFS可以用来创建个性化的NS视图和每个集群公用的视图。

该指南的上下文提出了Hadoop系统有多个集群,每个集群可以联合在多个命名空间内,也描述了联邦HDFS中的ViewFS提供给每个集群全局的NS, 因此应用可以以类似于单个联邦的方式运转。

古老世界(联邦之前)

单NN集群

在HDFS Federation之前的古老时间中呢,一个集群只有一个NN,其为集群提供单一的文件系统命名空间。

假如有多个集群,每个集群的文件系统命名空间(FSNS)都是完全独立和互斥的。

此外,集群间也没有物理存储的共享(比如,DN不会在集群间共享)。

每个集群的core-site.xml都有一个配置属性设置了集群的NN的默认文件系统。

<property>
  <name>fs.default.name</name>
  <value>hdfs://namenodeOfClusterX:port</value>
</property>

这样的配置属性允许你使用相对命名来解决相对于集群NN的路径问题。 比如,路径/foo/bar使用上面的配置映射为hdfs://namenodeOfClusterX:port/foo/bar

该配置属性在集群的每个网关都会设置,并且在集群的关键服务,如JobTracker和Oozie上也会有。

路径名用法方式

因此在core-site.xml设置如上的集群X中,典型的路径名为:

  1. /foo/bar
    • 该方式与hdfs://namenodeOfClusterX:port/foo/bar相等。
  2. hdfs://namenodeOfClusterX:port/foo/bar
    • 如果这是合法路径,这种方式比/foo/bar更好,因为在需要时,它允许应用和它的数据显式的移动到另一个集群中
  3. hdfs://namenodeOfClusterY:port/foo/bar
    • 这是另一个集群,如集群Y,的路径名的URL。 另外,该命令用于从Y集群将文件复制到Z集群。distcp hdfs://namenodeClusterY:port/pathSrc hdfs://namenodeClusterZ:port/pathDest
  4. webhdfs://namenodeClusterX:http_port/foo/barhftp://namenodeClusterX:http_port/foo/bar

    • 这两个分别是是通过WEebHDFS文件系统和HFTP文件系统访问文件的文件系统URL。 注意:WebHDFS 和HFTP使用NN上的HTTP端口,而不是RPC端口。
  5. http://namenodeClusterX:http_port/webhdfs/v1/foo/bar http://proxyClusterX:http_port/foo/bar
    • 这两个分别是通过WEBHDFS 的REST接口和HDFS代理访问文件的HTTP协议的URL。

路径名使用最佳实践

当使用集群时,推荐使用第一中类型的路径名而不是全限定的像URL的方式。全限定的URL像地址,不允许应用移动他们的数据。

新世界 - Federation 和ViewFs

如何看集群

假如这有多个集群,每个集群有一到多个NN,每个NN有它自己的NS。一个NN仅仅属于一个集群。集群内的NN共享集群的物理存储。 跨集群的NS像以前一样独立。

基于存储需要,操作会决定存储在集群内的每一个NN上。比如,他们可能在一个NN中放置了所有的用户数据(/user/<username>), 所有的食物数据(/data)在另一个NN上,所有的项目(/project)也在两一个NN上等等。

每个集群使用ViewFS的全局NS

为了古老世界提供透明度,ViewFS文件系统用于创意每个集群有一个独立的集群NS视图,与古老世界的NS相似。 客户端安装表就像Unix的安装表,他们使用古老的命名约定安置新的NS卷。接下来会展示安装表安装四个NS卷(/user,/data,/project,/tmp)

每个集群典型的安装表

ViewFs实现了Hadoop文件系统接口,就像HDFS一样和本地文件系统。

感觉上这是比较琐细的的文件系统,只允许连接到其他文件系统。因为ViewFS实现了Hadoop文件系统接口,对Hadoop工具是透明的。比如,所有的shell命令可以在VIewFS工作,就像在HDFS和本地文件系统上一样。

安装表的安装点在标准的Hadoop配置文件中指定。在每个集群的配置中,那些集群的默认文件系统设置到安装表,如:

<property>
  <name>fs.default.name</name>
  <value>viewfs://clusterX</value>
</property>

在URL中的vierFs://后的授权是安装表的名字。推荐一个集群的安装表的名字以集群的名字命名。 然后如上配置,Hadoop文件系统会在Hadoop配置文件中寻找名叫“clusterX”的安装表。 对于整个集群操作会安排所有的网关和服务机器包含该安装表,因此,对于每个集群,就像上面说的,针对哪个集群的默认文件系统会设置到ViewFS中。

路径名用法方式

core-site.xml中设置的默认文件系统使用安装表的集群X上,典型的路径名是:

  1. /foo/bar
    • 该写法与viewfs://clusterX/foo/bar相等。如果这样的路径名用于古老的无联邦的世界里,然后可以透明的过渡到联邦上。
  2. viewfs://clusterX/foo/bar
    • 如果是合法路径名,比/foo/bar号,因为应用和它的数据可以在需要的时候透明的移到另一个集群上。
  3. viewfs://clusterY/foo/bar
    • 这是另一个集群Y的路径名的URL引用。另外,该命令可以将文件从集群Y复制到Z: ` distcp viewfs://clusterY:/pathSrc viewfs://clusterZ/pathDest`
  4. viewfs://clusterX-webhdfs/foo/barviewfs://clusterX-hftp/foo/bar 这些是分别通过WEBHDFS文件系统和HFTP文件系统访问文件的接口

  5. http://namenodeClusterX:http_port/webhdfs/v1/foo/barhttp://proxyClusterX:http_port/foo/bar
    • 这些是分别通过WEBHDFS的REST接口和HDFS代理访问文件的HTTP协议的URL。

路径名用法最佳实践

在一个集群中时,推荐使用类型1替代类型2的全限定URL。进一步说,应用不应该使用安装点的知识,并使用像 hdfs://namenodeContainingUserDirs:port/joe/foo/bar的路径在个别NN中引用文件,而应该使用/user/joe/foo/bar

rename /user/joe/myStuff /data/foo/bar

在新世界中,如果/user/data存储在一个集群的不同NN上,如上命令做法是行不通的。