首页 > 云计算&大数据 > Spark > SparkSQL性能调优

SparkSQL性能调优

2865

Spark SQL性能调优

对于某些工作负载，可以在通过在内存中缓存数据或者打开一些实验选项来提高性能。

在内存中缓存数据

Spark SQL可以通过调用sqlContext.cacheTable("tableName")方法来缓存使用柱状格式的表。然后，Spark将会仅仅浏览需要的列并且自动地压缩数据以减少内存的使用以及垃圾回收的压力。你可以通过调用sqlContext.uncacheTable("tableName")方法在内存中删除表。

注意，如果你调用schemaRDD.cache()而不是sqlContext.cacheTable(...),表将不会用柱状格式来缓存。在这种情况下，sqlContext.cacheTable(...)是强烈推荐的用法。

可以在SQLContext上使用setConf方法或者在用SQL时运行SET key=value命令来配置内存缓存。

Property Name	Default	Meaning
spark.sql.inMemoryColumnarStorage.compressed	true	当设置为true时，Spark SQL将为基于数据统计信息的每列自动选择一个压缩算法。
spark.sql.inMemoryColumnarStorage.batchSize	10000	柱状缓存的批数据大小。更大的批数据可以提高内存的利用率以及压缩效率，但有OOMs的风险

其它的配置选项

以下的选项也可以用来调整查询执行的性能。有可能这些选项会在以后的版本中弃用，这是因为更多的优化会自动执行。

Property Name	Default	Meaning
spark.sql.autoBroadcastJoinThreshold	10485760(10m)	配置一个表的最大大小(byte)。当执行join操作时，这个表将会广播到所有的worker节点。可以将值设置为-1来禁用广播。注意，目前的统计数据只支持Hive Metastore表，命令`ANALYZE TABLE <tableName> COMPUTE STATISTICS noscan`已经在这个表中运行。
spark.sql.codegen	false	当为true时，特定查询中的表达式求值的代码将会在运行时动态生成。对于一些拥有复杂表达式的查询，此选项可导致显著速度提升。然而，对于简单的查询，这个选项会减慢查询的执行
spark.sql.shuffle.partitions	200	配置join或者聚合操作shuffle数据时分区的数量

原文链接: https://www.yukx.com/bigdata/article/details/843.html 优科学习网SparkSQL性能调优

上一篇: SparkSQL开始

下一篇: SparkSQL其他接口

推荐文章

MD5加密算法

MD5（Message-DigestAlgorithm5）是一种广泛使用的散列函数（哈希函数），由美国密码学家罗纳德·李维斯特（RonaldL.Rivest）在1991年设计。MD5的作用是对任意长度的信息生成一个固定长度（128位，即32个十六进制字符）的“指纹”或“消息摘要”，并且几乎不可能找到
CRC循环冗余校验（Cyclic Redundancy Check，CRC）

循环冗余校验（CyclicRedundancyCheck，CRC）是一种用于检测数据传输和存储过程中发生错误的技术，属于一种基于数学原理的错误检测编码（ErrorDetectionCoding）方法。它通过在原始数据上附加一个固定长度的校验码，使得接收端可以通过同样的计算规则对收到的数据进行校验，确
AES加密算法(对称加密算法)

AES（AdvancedEncryptionStandard）是一种广泛使用的对称密钥加密算法，它是美国国家标准与技术研究院（NIST）于2001年制定的加密标准，用于替代原有的DES（DataEncryptionStandard）。AES算法以其高效性、安全性和可靠性而著称，在众多应用领域中被广泛
RSA非对称加密算法

RSA（Rivest-Shamir-Adleman）是一种广泛应用的非对称加密算法，由RonRivest、AdiShamir和LenAdleman在1977年提出。其安全性基于数学上的大数因子分解难题，即对于足够大的两个素数p和q而言，已知它们的乘积很容易，但想要从这个乘积中恢复原始的素数则异常困难
最小生成树算法

最小生成树（MinimumSpanningTree,MST）是一种图论算法，用于在一个带权重的无向连通图中找到一棵包括所有顶点且总权重尽可能小的树。常见的最小生成树算法有两种：Prim算法和Kruskal算法。Prim算法原理：Prim算法是一种贪心算法，它从图中的一个顶点开始，逐步增加边，每次都添
最短路径算法

关于最短路径算法的Java实现，这里简述一下几种常用的算法及其基本原理，并给出一个Dijkstra算法的基本实现框架。Dijkstra算法（适用于无负权边的图）Dijkstra算法用于寻找图中一个顶点到其他所有顶点的最短路径。它维护了一个距离表，用来存储从源点到各个顶点的已知最短距离，并且每次都会选

学习大纲

Spark快速入门

编程指南

Spark共享变量

快速上手

Spark独立应用程序

Spark运行程序

Spark RDDs

Spark并行集合

Spark外部数据集

SparkRDD持久化

Spark Streaming

SparkStreaming示例

基本概念

SparkStreaming关联

初始化StreamingContext

SparkStreaming离散流

DStream中的转换

DStream的输出操作

DStreams缓存或持久化

SparkStreamingCheckpointing

SparkStreaming部署应用程序

SparkStreaming监控应用程序

Spark Streaming性能调优

SparkStreaming优化批数据执行时间

SparkStreaming批容量

SparkStreaming内存调优

SparkStreaming容错语义

Spark SQL

SparkSQL性能调优

SparkSQL其他接口

编写语言集成(Language-Integrated)的相关查询

SparkSQL数据类型

Spark SQL数据源

SparkSQLparquet文件

SparkSQLJSON数据集

SparkSQLHive表

GraphX编程指南

SparkGraphX开始

SparkGraphX图算法

SparkGraphX例子

SparkGraphX提交应用程序

独立运行Spark

在yarn上运行Spark

SparkGraphX属性图

SparkGraphX图操作符

SparkGraphXPregelAPI

SparkGraphX图构造者

SparkGraphX顶点和边RDDs

优秀文章