常见 MQ 的比较 - Kafka、RocketMQ、RabbitMQ的优劣势比较 GFS 论文学习和 HDFS 实现的比较 Docker技术入门与实战 - 使用 dockerfile定制镜像 I love log 读书笔记 flink 入门程序-wordcount flink 配置项介绍 在 Mac 上搭建 Flink 的开发环境 lambda 架构问题的阅读笔记 IDEA常用插件 Mybatis源码分析(1) - Mybatis关键类 Mybatis源码分析(1) - Mybatis包目录简介 tair 1:tair学习 dataflow论文阅读笔记 Polysh的安装使用 SnappyData排序函数比较 Squirrel-sql客户端连接SnappyData手册 在虚拟机里显示Hello World spark学习博客推荐 SnappyData学习博客和官网文章 Docker常用命令 MyBatis支持的OGNL语法 mysql性能优化 mysql性能优化-优化Sql语句 java各版本新特性 mac上命令行操作 explain输出格式 从文件中读取zk配置——ZooKeeper编程技能(1) git进阶经验-从项目中删除移除的目录 Mongodb 学习之shell命令操作(3) mysql命令 git进阶经验-从多模块项目中分理子模块 从零学hadoop-搭建基础(单点)的Hdfs环境 ZooKeeper集群操作脚本 Vue安装使用 2 初学JVM之问答式记住类加载机制 2 初学JVM之问答式记住虚拟机性能监控与故障处理工具 2 初学JVM之问答式记住垃圾收集器 log4j2 按天生成日志文件 1 初学JVM之问答式记住java自动内存管理 MapReduce学习心得之MapReduce初识 log4j2 日志发送到kafka配置实战 log4j2 日志配置实战 Mongodb 学习之shell命令操作(二) Mongodb 学习之linux版本安装(一) Dubbo的初级使用 ServiceLoader内部实现分析 ServiceLoader 初级应用 log4j日志发送邮件配置实战 红黑树笔记 IDEA首次使用之前的配置 java源码学习之Enum java源码学习之String 自定义Spring tag标签 编写一键发布脚本 记一次Spring Scheduler莫名不执行的一次堆栈分析 kafka的基本操作 nginx 5:Nginx内部变量 nginx 4:Nginx日志管理 提高hadoop配置效率的shell脚本 Hive编程指南之一 Hive的安装 Ambari服务器安装 Ambari服务器管理集群 HBase分布式安装 windows下Eclipse远程调试运行MR程序 基于MapReduce新的API的编程Demo-wordCount window下Eclipse远程只读HDFS上的文件 YARN上节点标签 编写第一个MapReduce的wordcount程序 NodeManager的重启 搭建JStorm集群 YARN上的web应用代理 YARN上的ResourceManager的高可用方案 配置vmware中的虚拟机使用宿主机的共享网络 YARN架构简述 HDFS 架构 Spring的统一异常处理机制 Tomcat 配置服务 HDFS的viewfs指南 HDFS的Federation之路 HDFS基于QJM的HA之路 nginx 3:Nginx反向代理 mybatis操作主体流程 1.正则表达式学习-基础篇 log4j日志配置详解 mysql的时间函数 nginx 2:Nginx模块配置理论及实战 HashMap相关解析和测试文章 工作一年后的面试 用私有构造器或枚举类型强化Singleton属性 java中比较重要的图 mybatis处理枚举类 mybatis集成进spring Spring比较重要的几个截图 21.hadoop-2.7.2官网文档翻译-使用NFS的HDFS高可用性 20.hadoop-2.7.2官网文档翻译-使用仲裁日志管理器的HDFS高可用性 markdown在jekyll中支持的一些操作 Spring项目中配置sl4j和log4j的日志配置 19.hadoop-2.7.2官网文档翻译-HDFS命令指南 Spring的profile机制介绍 mybatis-generator反向生成 18.hadoop-2.7.2官网文档翻译-HDFS用户指南 17.hadoop-2.7.2官网文档翻译-实现Hadoop中Dapper-like追踪 16.hadoop-2.7.2官网文档翻译-Hadoop的KMS(key 管理服务器)-文档集 15.hadoop-2.7.2官网文档翻译-Hadoop的http web认证 14.hadoop-2.7.2官网文档翻译-服务级别的授权指南 13.hadoop-2.7.2官网文档翻译-安全模式中的Hadoop 09.hadoop-2.7.2官网文档翻译-Hadoop命令行微型集群 12.hadoop-2.7.2官网文档翻译-机架感知 11.hadoop-2.7.2官网文档翻译-代理用户-超级用户对其他用户的代表 10.hadoop-2.7.2官网文档翻译-原生库指南 08.hadoop-2.7.2官网文档翻译-文件系统规范 07.hadoop-2.7.2官网文档翻译-Hadoop接口类别 (转)浅析 Decorator 模式,兼谈 CDI Decorator 注解 06.hadoop-2.7.2官网文档翻译-Hadoop的兼容性 05.hadoop-2.7.2官网文档翻译-文件系统命令 04.hadoop-2.7.2官网文档翻译-Hadoop命令指南 03.hadoop-2.7.2官网文档翻译-集群安装 02.hadoop-2.7.2官网文档翻译-单节点集群安装 01.hadoop-2.7.2官网文档翻译-概述 Http 协议相应状态码大全及常用状态码 IDEA快捷键 JDBC Type与Java Type redis 12:redis 操作集合 mybatis-generator错误集合 redis 11:redis 错误集合 nginx 1:nginx的安装 redis 10:redis cluster命令操作 redis 9:redis实例集群安装 java设计模式 hadoop集群学习笔记(1) Apache Shiro 简介 vim编辑神器的进阶命令 Eclipse配置 Eclipse快捷键 Linux 测试题 Linux脚本学习(1) Linux启动简要过程 Centos7上安装Mysql hadoop集群学习笔记(1) (转)分布式发布订阅消息系统 Kafka 架构设计 maven 命令 Kafka集群安装 Kafka初步使用 redis 8:redis server 和 scripting命令操作 redis 7:redis transaction 和 connection命令操作 redis 6:redis hash 命令操作 redis 5:redis sorted_set 命令操作 搭建本地Jekyll+Markdown+Github的开发环境 Spring源码阅读笔记(2) redis 4:redis set命令操作 Spring添加任务调度配置 redis 3:Redis list命令操作 redis 2:redis 一般命令操作 redis 1:redis单机安装笔记 redis 0:redis配置属性描述 Spring源码阅读笔记(1) spark 错误集锦 spark集群安装 Linux 基本命令操作 Hadoop错误信息处理 Hadoop代码拾忆 从零开始搭建spring-springmvc-mybatis-mysql和dubbo项目 java知识点札记 java排错 Google Java Style 中文版 git进阶经验 github使用经验 MongoDB用户角色授权与AUTH启用 MongoDB 命令 MongoDB 特定规范 Spring MVC实现跳转的几种方式 史上最全最强SpringMVC详细示例实战教程 Spring 零星笔记 js中(function(){…})()立即执行函数写法理解 如何解决跨域问题 创建ajax简单过程 前端定位 设置MYSQL允许通过IP访问 mybatis异常 :元素内容必须由格式正确的字符数据或标记组成 如何为 WordPress 绑定多个域名的方法s WordPress工作原理之程序文件执行顺序(传说中的架构源码分析) Spring源码导入Eclipse中 基于PHPnow搭建Eclipse开发环境 解决wordpress首页文章内容截断处理的几种方法 ZooKeeper理论知识 ZooKeeper集群安装配置 Git常用命令速查表 Linux 4:磁盘与文件系统管理 Linux 3:文件与目录管理 Linux 2:文件权限与目录配置 Markdown输入LaTeX数学公式
从零学hadoop-搭建基础(单点)的Hdfs环境 MapReduce学习心得之MapReduce初识 Ambari服务器安装 Ambari服务器管理集群 windows下Eclipse远程调试运行MR程序 基于MapReduce新的API的编程Demo-wordCount window下Eclipse远程只读HDFS上的文件 YARN上节点标签 编写第一个MapReduce的wordcount程序 NodeManager的重启 YARN上的web应用代理 YARN上的ResourceManager的高可用方案 YARN架构简述 HDFS 架构 HDFS的viewfs指南 HDFS的Federation之路 HDFS基于QJM的HA之路 21.hadoop-2.7.2官网文档翻译-使用NFS的HDFS高可用性 20.hadoop-2.7.2官网文档翻译-使用仲裁日志管理器的HDFS高可用性 19.hadoop-2.7.2官网文档翻译-HDFS命令指南 18.hadoop-2.7.2官网文档翻译-HDFS用户指南 17.hadoop-2.7.2官网文档翻译-实现Hadoop中Dapper-like追踪 16.hadoop-2.7.2官网文档翻译-Hadoop的KMS(key 管理服务器)-文档集 15.hadoop-2.7.2官网文档翻译-Hadoop的http web认证 14.hadoop-2.7.2官网文档翻译-服务级别的授权指南 13.hadoop-2.7.2官网文档翻译-安全模式中的Hadoop 09.hadoop-2.7.2官网文档翻译-Hadoop命令行微型集群 12.hadoop-2.7.2官网文档翻译-机架感知 11.hadoop-2.7.2官网文档翻译-代理用户-超级用户对其他用户的代表 10.hadoop-2.7.2官网文档翻译-原生库指南 08.hadoop-2.7.2官网文档翻译-文件系统规范 07.hadoop-2.7.2官网文档翻译-Hadoop接口类别 06.hadoop-2.7.2官网文档翻译-Hadoop的兼容性 05.hadoop-2.7.2官网文档翻译-文件系统命令 04.hadoop-2.7.2官网文档翻译-Hadoop命令指南 03.hadoop-2.7.2官网文档翻译-集群安装 02.hadoop-2.7.2官网文档翻译-单节点集群安装 01.hadoop-2.7.2官网文档翻译-概述 hadoop集群学习笔记(1) hadoop集群学习笔记(1) Hadoop错误信息处理 Hadoop代码拾忆

Hive的安装

2016年12月20日
摘要:

Hive安装

注意点:

在正常运行hive之前,必须先正常启动HDFS和YARN(带有MR)集群。

下载包

wget https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-2.1.1/apache-hive-2.1.1-bin.tar.gz

解压更名

tar -xzvf apache-hive-2.1.1-bin.tar.gz 
mv apache-hive-2.1.1-bin /usr/local/
mv apache-hive-2.1.1-bin/ hive211

添加环境变量

vim /etc/profile
	export HIVE_HOME=/usr/local/hive211
	export PATH=$PATH:$HIVE_HOME/bin

source /etc/profile

修改hive的配置

cp hive-env.sh.template  hive-env.sh
cp hive-default.xml.template hive-site.xml

conf/hive-site.xml文件内的

将值改为false,否则会报错message:Version information not found in metastore.

<property>
	<name>hive.metastore.schema.verification</name>
	<value>false</value>
</property>

在最后添加上

  <property>
        <name>javax.jdo.option.ConnectionURL</name>
        <value>jdbc:mysql://host:port/hive?createDatabaseIfNotExist=true</value>
  </property>
  <property>
        <name>javax.jdo.option.ConnectionDriverName</name>
        <value>com.mysql.jdbc.Driver</value>
  </property>
  <property>
        <name>javax.jdo.option.ConnectionUserName</name>
        <value>root</value>
  </property>
  <property>
        <name>javax.jdo.option.ConnectionPassword</name>
        <value>root</value>
  </property>

安装mysql

卸载自带mysql,重新安装新的mysql

# 查看mysql是否安装
rpm -qa | grep mysql

#普通删除
rpm -e mysql

#强力删除
rpm -e --nodeps mysql

#yum查找mysql版本
yum list | grep mysql

#安装mysql
yum install -y mysql-server mysql mysql-deve

#查看mysql安装版本
rpm -qi mysql-server

#启动mysql服务
service mysqld start

#停止mysql服务
service mysqld stop

#检查mysql是否开机启动
chkconfig --list | grep mysqld

#设置mysql开机启动
chkconfig mysqld on

#在第一次未设置mysql的root用户密码情况下设置用户密码
mysqladmin -u root password 'root'

修改mysql的users表,使得root用户允许远程登录
mysql>update user set host = '%' where user = 'root' limit 1;

启动hive

直接执行hive,会报错Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient,因为没有启动hive的Metastore Server服务

启动Metastore Server

后台启动:hive --service metastore &

启动hive会提示:Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. tez, spark) or using Hive 1.X releases 即在hive2.x版本中,MapReduce作为计算框架已经过期了,推荐使用tez或者spark作为计算框架。

启动hiveserver2服务,可以通过web页面访问

修改配置

<property>
	<name>hive.server2.webui.host</name>
	<value>h2m1</value>
	<description>The host address the HiveServer2 WebUI will listen on</description>
</property>
<property>
	<name>hive.server2.webui.port</name>
	<value>10002</value>
	<description>The port the HiveServer2 WebUI will listen on. This can beset to 0 or a negative integer to disable the web UI</description>
</property>

启动:hive --service hiveserver2 &

浏览器访问:http://h2m1:10002

表信息存储在mysql的hive数据库的TBLS表中。

产生的错误信息

错误信息 原因 解决方案
Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient 没有正常启动Hive 的 Metastore Server服务进程。 启动Hive 的 Metastore Server服务进程:hive –service metastore &
message:Version information not found in metastore. schema校验默认开启了 “关闭校验:<property><name>hive.metastore.schema.verification</name><value>false</value></property>
datanucleus.autoCreateTables 需要设置允许自动创建表格 设置属性: <property><name>datanucleus.schema.autoCreateTables</name><value>true</value></property>
java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: rwx--x--x 当前用户没有写权限 更改目录权限:hadoop fs -chmod 777 /tmp/hive
${system:java.io.tmpdir%7D/$%7Bsystem:user.name%7D 没有指定本地存储的临时目录 指定配置:" <property><name>system:java.io.tmpdir</name><value>/usr/local/hive211/tmp</value></property><property><name>system:user.name</name><value>hive</value></property>"
message:One or more instances could not be made persistent   执行${HIVE_HOME}/bin/schematool -dbType mysql -initSchema
Attempt to do update or delete using transaction manager that does not support these operations   查看该文章:https://cwiki.apache.org/confluence/display/Hive/Hive+Transactions#HiveTransactions-NewConfigurationParametersforTransactions
Attempt to do update or delete on table default.t1 that does not use an AcidOutputFormat or is not bucketed 目前只有ORCFileformat支持AcidOutputFormat,默认格式为TextInputFormat,不仅如此建表时必须指定参数(‘transactional’ = true) 直接在创建表时指定桶和转换。如:create table test(id int ,name string )clustered by (id) into 2 buckets stored as orc TBLPROPERTIES('transactional'='true');

执行示例

查看所有数据库

hive>show databases;

应用指定数据库

hive>use dbName;

查看所有表

hive>show tables;

创建表

hive> create table t1(a int ,b string);

插入表数据

hive> insert into t1(a,b) values(12,"jingzz")

获取表数据

该操作不会执行MR任务

hive> select a,b from t1;

获取总记录数

该操作也会启动MR任务

hive> select count(a) from t1;

删除表

将MySql中指定表的描述删除,将HDFS上存储的表对应的数据删除;

hive>drop table t1;

重命名表

将test表重命名为t1。

hive> alter table test rename to t1;

示例配置

成功执行增删改查和ACID操作后的配置为:


  <!-- 应用mysql相关配置-->
 <property>
        <name>javax.jdo.option.ConnectionURL</name>
        <value>jdbc:mysql://h2m1:3306/hive?createDatabaseIfNotExist=true</value>
  </property>
  <property>
        <name>javax.jdo.option.ConnectionDriverName</name>
        <value>com.mysql.jdbc.Driver</value>
  </property>
  <property>
        <name>javax.jdo.option.ConnectionUserName</name>
        <value>root</value>
  </property>
  <property>
        <name>javax.jdo.option.ConnectionPassword</name>
        <value>root</value>
  </property>
  
  <!-- 允许自动创建表 -->
  <property>
        <name>datanucleus.schema.autoCreateTables</name>
        <value>true</value>
  </property>

   <!-- 指定临时目录和用户 -->
  <property>
        <name>system:java.io.tmpdir</name>
        <value>/usr/local/hive211/tmp</value>
  </property>
  <property>
        <name>system:user.name</name>
        <value>hive</value>
  </property>
  <property>
        <name>hive.support.concurrency</name>
        <value>true</value>
  </property>
  <property>
        <name>hive.exec.dynamic.partition.mode</name>
        <value>nonstrict</value>
  </property>
  <property>
        <name>hive.txn.manager</name>
        <value>org.apache.hadoop.hive.ql.lockmgr.DbTxnManager</value>
  </property>
  <property>
        <name>hive.compactor.initiator.on</name>
        <value>true</value>
  </property>
  <property>
        <name>hive.compactor.worker.threads</name>
        <value>2</value>
  </property>

参考文献:

1.Hive的ACID特性参考文章:https://cwiki.apache.org/confluence/display/Hive/Hive+Transactions