登录 |  注册
首页 >  云计算&大数据 >  Hive数据仓库 >  Hive简介

Hive简介

什么是 Hive?

Hive 是基于 Hadoop 的一个数据仓库工具,可以将 HDFS 中结构化的数据文件映射为一张表,并提供类 SQL 查询功能,本质是将 HQL 转化为 mapreduce 程序。

mapreduce 理解

mapreduce 数据以一条记录为单位经过 map 方法映射成 KV,相同的 key 为一组,这一组数据用一次 reduce 方法,在方法内迭代计算一组数据。

hive1.png

Hive 与传统数据库比较


HiveRDBMS
查询语言HQLSQL
数据存储HDFS本地文件或者块设备
执行MapReduceExcutor
执行延迟
处理数据规模
索引
数据更新不支持支持


Hive 优缺点

优点:

  • 简单容易上手:提供了类 SQL 查询语言 HQL;

  • 可扩展:为超大数据集设计了计算/扩展能力(MR 作为计算引擎,HDFS 作为存储系统)。一般情况下不需要重启服务 Hive 可以自由的扩展集群的规模;

  • 提供统一的元数据管理 ;

  • 延展性:Hive 支持用户自定义函数,用户可以根据自己的需求来实现自己的函数  ;

  • 容错:良好的容错性,节点出现问题 SQL 仍可完成执行。

缺点:

  • hive 的 HQL 表达能力有限。迭代式算法无法表达,比如 pagerank;数据挖掘方面不擅长,比如kmeans;

  • hive 的效率比较低。hive 自动生成的 mapreduce 作业,通常情况下不够智能化;hive 调优比较困难,粒度较粗。


原文链接: https://www.yukx.com/bigdata/article/details/1456.html 优科学习网Hive简介

下一课程>>
推荐文章
  • Raft协议分区容忍的一致性协议的核心思想:一致性的保证不一定非要所有节点都保持一致,只要大多数节点更新了,对于整个分布式系统来说数据也是一致性的。Raft协议将概念分解成:Leaderelection、Logreplication、Safety。Raft把一致性协议划分为Leader选举、Memb
  • Paxos、Raft分布式一致性算法应用场景一文讲述了分布式一致性问题与分布式一致性算法的典型应用场景。作为分布式一致性代名词的Paxos算法号称是最难理解的算法。本文试图用通俗易懂的语言讲述Paxos算法。 Paxos算法简介Paxos算法是1990年LeslieLamport在论文《ThePar
  • 一、准备工作搭建hadoop伪分布式环境;见hadoop伪分布式搭建下载hive安装包;下载路径http://archive.apache.org/dist/hive/二、设置环境变量将安装包解压到/opt目录下$ tar xvzf apache-hive-0.13.0-bin.tar.gz设置环境
  • 什么是Hive?Hive是基于Hadoop的一个数据仓库工具,可以将HDFS中结构化的数据文件映射为一张表,并提供类SQL查询功能,本质是将HQL转化为mapreduce程序。mapreduce理解mapreduce数据以一条记录为单位经过map方法映射成KV,相同的key为一组,这一组数据用一次r
  • Docker使用客户端-服务器(C/S)架构模式,使用远程API来管理和创建Docker容器。Docker容器通过Docker镜像来创建。容器与镜像的关系相似于面向对象编程中的对象与类。Docker总
  • Docker是什么?Docker是一个开源的应用容器引擎,基于Go语言并遵从Apache2.0协议开源。Docker可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行
学习大纲