Spark
简介:专为大规模数据处理而设计的快速通用的计算引擎
目录(共57篇文章)
- Spark介绍
- Spark快速入门
-
编程指南
开始阅读 - 引入Spark
- 初始化Spark
- Spark共享变量
-
快速上手
开始阅读 - Spark独立应用程序
- SparkShell
- Spark运行程序
-
Spark RDDs
开始阅读 - Spark并行集合
- Spark外部数据集
- SparkRDD操作
- SparkRDD持久化
-
Spark Streaming
开始阅读 - SparkStreaming示例
-
基本概念
开始阅读 - SparkStreaming关联
- 初始化StreamingContext
- SparkStreaming离散流
- 输入DStreams
- DStream中的转换
- DStream的输出操作
- DStreams缓存或持久化
- SparkStreamingCheckpointing
- SparkStreaming部署应用程序
- SparkStreaming监控应用程序
-
Spark Streaming性能调优
开始阅读 - SparkStreaming优化批数据执行时间
- SparkStreaming批容量
- SparkStreaming内存调优
- SparkStreaming容错语义
-
Spark SQL
开始阅读 - SparkSQL开始
- SparkSQL性能调优
- SparkSQL其他接口
- 编写语言集成(Language-Integrated)的相关查询
- SparkSQL数据类型
-
Spark SQL数据源
开始阅读 - SparkSQLRDDs
- SparkSQLparquet文件
- SparkSQLJSON数据集
- SparkSQLHive表
-
GraphX编程指南
开始阅读 - SparkGraphX开始
- SparkGraphX图算法
- SparkGraphX例子
- SparkGraphX提交应用程序
- 独立运行Spark
- 在yarn上运行Spark
- SparkGraphX属性图
- Spark配置
- SparkGraphX图操作符
- SparkGraphXPregelAPI
- SparkGraphX图构造者
- SparkGraphX顶点和边RDDs