首页 > 云计算&大数据 > Spark > SparkSQLHive表

SparkSQLHive表

4500

Hive表

Spark SQL也支持从Apache Hive中读出和写入数据。然而，Hive有大量的依赖，所以它不包含在Spark集合中。可以通过-Phive和-Phive-thriftserver参数构建Spark，使其支持Hive。注意这个重新构建的jar包必须存在于所有的worker节点中，因为它们需要通过Hive的序列化和反序列化库访问存储在Hive中的数据。

当和Hive一起工作是，开发者需要提供HiveContext。HiveContext从SQLContext继承而来，它增加了在MetaStore中发现表以及利用HiveSql写查询的功能。没有Hive部署的用户也可以创建HiveContext。当没有通过hive-site.xml配置，上下文将会在当前目录自动地创建metastore_db和warehouse。

// sc is an existing SparkContext.
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)

sqlContext.sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING)")
sqlContext.sql("LOAD DATA LOCAL INPATH 'examples/src/main/resources/kv1.txt' INTO TABLE src")

// Queries are expressed in HiveQL
sqlContext.sql("FROM src SELECT key, value").collect().foreach(println)

原文链接: https://www.yukx.com/bigdata/article/details/850.html 优科学习网SparkSQLHive表

上一篇: SparkSQLJSON数据集

下一篇: SparkGraphX开始

推荐文章

MD5加密算法

MD5（Message-DigestAlgorithm5）是一种广泛使用的散列函数（哈希函数），由美国密码学家罗纳德·李维斯特（RonaldL.Rivest）在1991年设计。MD5的作用是对任意长度的信息生成一个固定长度（128位，即32个十六进制字符）的“指纹”或“消息摘要”，并且几乎不可能找到
CRC循环冗余校验（Cyclic Redundancy Check，CRC）

循环冗余校验（CyclicRedundancyCheck，CRC）是一种用于检测数据传输和存储过程中发生错误的技术，属于一种基于数学原理的错误检测编码（ErrorDetectionCoding）方法。它通过在原始数据上附加一个固定长度的校验码，使得接收端可以通过同样的计算规则对收到的数据进行校验，确
AES加密算法(对称加密算法)

AES（AdvancedEncryptionStandard）是一种广泛使用的对称密钥加密算法，它是美国国家标准与技术研究院（NIST）于2001年制定的加密标准，用于替代原有的DES（DataEncryptionStandard）。AES算法以其高效性、安全性和可靠性而著称，在众多应用领域中被广泛
RSA非对称加密算法

RSA（Rivest-Shamir-Adleman）是一种广泛应用的非对称加密算法，由RonRivest、AdiShamir和LenAdleman在1977年提出。其安全性基于数学上的大数因子分解难题，即对于足够大的两个素数p和q而言，已知它们的乘积很容易，但想要从这个乘积中恢复原始的素数则异常困难
最小生成树算法

最小生成树（MinimumSpanningTree,MST）是一种图论算法，用于在一个带权重的无向连通图中找到一棵包括所有顶点且总权重尽可能小的树。常见的最小生成树算法有两种：Prim算法和Kruskal算法。Prim算法原理：Prim算法是一种贪心算法，它从图中的一个顶点开始，逐步增加边，每次都添
最短路径算法

关于最短路径算法的Java实现，这里简述一下几种常用的算法及其基本原理，并给出一个Dijkstra算法的基本实现框架。Dijkstra算法（适用于无负权边的图）Dijkstra算法用于寻找图中一个顶点到其他所有顶点的最短路径。它维护了一个距离表，用来存储从源点到各个顶点的已知最短距离，并且每次都会选

学习大纲

Spark快速入门

编程指南

Spark共享变量

快速上手

Spark独立应用程序

Spark运行程序

Spark RDDs

Spark并行集合

Spark外部数据集

SparkRDD持久化

Spark Streaming

SparkStreaming示例

基本概念

SparkStreaming关联

初始化StreamingContext

SparkStreaming离散流

DStream中的转换

DStream的输出操作

DStreams缓存或持久化

SparkStreamingCheckpointing

SparkStreaming部署应用程序

SparkStreaming监控应用程序

Spark Streaming性能调优

SparkStreaming优化批数据执行时间

SparkStreaming批容量

SparkStreaming内存调优

SparkStreaming容错语义

Spark SQL

SparkSQL性能调优

SparkSQL其他接口

编写语言集成(Language-Integrated)的相关查询

SparkSQL数据类型

Spark SQL数据源

SparkSQLparquet文件

SparkSQLJSON数据集

SparkSQLHive表

GraphX编程指南

SparkGraphX开始

SparkGraphX图算法

SparkGraphX例子

SparkGraphX提交应用程序

独立运行Spark

在yarn上运行Spark

SparkGraphX属性图

SparkGraphX图操作符

SparkGraphXPregelAPI

SparkGraphX图构造者

SparkGraphX顶点和边RDDs

优秀文章