首页 > 云计算&大数据 > Spark > SparkStreaming内存调优

SparkStreaming内存调优

4162

内存调优

调整内存的使用以及Spark应用程序的垃圾回收行为已经在Spark优化指南中详细介绍。在这一节，我们重点介绍几个强烈推荐的自定义选项，它们可以减少Spark Streaming应用程序垃圾回收的相关暂停，获得更稳定的批处理时间。

Default persistence level of DStreams：和RDDs不一样的是，默认的持久化级别是序列化数据到内存中（DStream是StorageLevel.MEMORY_ONLY_SER，RDD是StorageLevel.MEMORY_ONLY）。即使保存数据为序列化形态会增加序列化/反序列化的开销，但是可以明显的减少垃圾回收的暂停。
Clearing persistent RDDs：默认情况下，通过Spark内置策略（LUR），Spark Streaming生成的持久化RDD将会从内存中清理掉。如果spark.cleaner.ttl已经设置了，比这个时间存在更老的持久化RDD将会被定时的清理掉。正如前面提到的那样，这个值需要根据Spark Streaming应用程序的操作小心设置。然而，可以设置配置选项spark.streaming.unpersist为true来更智能的去持久化（unpersist）RDD。这个配置使系统找出那些不需要经常保有的RDD，然后去持久化它们。这可以减少Spark RDD的内存使用，也可能改善垃圾回收的行为。
Concurrent garbage collector：使用并发的标记-清除垃圾回收可以进一步减少垃圾回收的暂停时间。尽管并发的垃圾回收会减少系统的整体吞吐量，但是仍然推荐使用它以获得更稳定的批处理时间。

原文链接: https://www.yukx.com/bigdata/article/details/840.html 优科学习网SparkStreaming内存调优

上一篇: SparkStreaming批容量

下一篇: SparkStreaming容错语义

推荐文章

MD5加密算法

MD5（Message-DigestAlgorithm5）是一种广泛使用的散列函数（哈希函数），由美国密码学家罗纳德·李维斯特（RonaldL.Rivest）在1991年设计。MD5的作用是对任意长度的信息生成一个固定长度（128位，即32个十六进制字符）的“指纹”或“消息摘要”，并且几乎不可能找到
CRC循环冗余校验（Cyclic Redundancy Check，CRC）

循环冗余校验（CyclicRedundancyCheck，CRC）是一种用于检测数据传输和存储过程中发生错误的技术，属于一种基于数学原理的错误检测编码（ErrorDetectionCoding）方法。它通过在原始数据上附加一个固定长度的校验码，使得接收端可以通过同样的计算规则对收到的数据进行校验，确
AES加密算法(对称加密算法)

AES（AdvancedEncryptionStandard）是一种广泛使用的对称密钥加密算法，它是美国国家标准与技术研究院（NIST）于2001年制定的加密标准，用于替代原有的DES（DataEncryptionStandard）。AES算法以其高效性、安全性和可靠性而著称，在众多应用领域中被广泛
RSA非对称加密算法

RSA（Rivest-Shamir-Adleman）是一种广泛应用的非对称加密算法，由RonRivest、AdiShamir和LenAdleman在1977年提出。其安全性基于数学上的大数因子分解难题，即对于足够大的两个素数p和q而言，已知它们的乘积很容易，但想要从这个乘积中恢复原始的素数则异常困难
最小生成树算法

最小生成树（MinimumSpanningTree,MST）是一种图论算法，用于在一个带权重的无向连通图中找到一棵包括所有顶点且总权重尽可能小的树。常见的最小生成树算法有两种：Prim算法和Kruskal算法。Prim算法原理：Prim算法是一种贪心算法，它从图中的一个顶点开始，逐步增加边，每次都添
最短路径算法

关于最短路径算法的Java实现，这里简述一下几种常用的算法及其基本原理，并给出一个Dijkstra算法的基本实现框架。Dijkstra算法（适用于无负权边的图）Dijkstra算法用于寻找图中一个顶点到其他所有顶点的最短路径。它维护了一个距离表，用来存储从源点到各个顶点的已知最短距离，并且每次都会选

学习大纲

Spark快速入门

编程指南

Spark共享变量

快速上手

Spark独立应用程序

Spark运行程序

Spark RDDs

Spark并行集合

Spark外部数据集

SparkRDD持久化

Spark Streaming

SparkStreaming示例

基本概念

SparkStreaming关联

初始化StreamingContext

SparkStreaming离散流

DStream中的转换

DStream的输出操作

DStreams缓存或持久化

SparkStreamingCheckpointing

SparkStreaming部署应用程序

SparkStreaming监控应用程序

Spark Streaming性能调优

SparkStreaming优化批数据执行时间

SparkStreaming批容量

SparkStreaming内存调优

SparkStreaming容错语义

Spark SQL

SparkSQL性能调优

SparkSQL其他接口

编写语言集成(Language-Integrated)的相关查询

SparkSQL数据类型

Spark SQL数据源

SparkSQLparquet文件

SparkSQLJSON数据集

SparkSQLHive表

GraphX编程指南

SparkGraphX开始

SparkGraphX图算法

SparkGraphX例子

SparkGraphX提交应用程序

独立运行Spark

在yarn上运行Spark

SparkGraphX属性图

SparkGraphX图操作符

SparkGraphXPregelAPI

SparkGraphX图构造者

SparkGraphX顶点和边RDDs

优秀文章