Spark外部数据集

3821

外部数据集

Spark 可以从任何一个 Hadoop 支持的存储源创建分布式数据集，包括你的本地文件系统，HDFS，Cassandra，HBase，Amazon S3等。 Spark 支持文本文件(text files)，SequenceFiles 和其他 Hadoop InputFormat。

文本文件 RDDs 可以使用 SparkContext 的 textFile 方法创建。在这个方法里传入文件的 URI (机器上的本地路径或 hdfs://，s3n:// 等)，然后它会将文件读取成一个行集合。这里是一个调用例子：

scala> val distFile = sc.textFile("data.txt")
distFile: RDD[String] = MappedRDD@1d4cee08

一旦创建完成，distFiile 就能做数据集操作。例如，我们可以用下面的方式使用 map 和 reduce 操作将所有行的长度相加：distFile.map(s => s.length).reduce((a, b) => a + b)。

注意，Spark 读文件时：

如果使用本地文件系统路径，文件必须能在 work 节点上用相同的路径访问到。要么复制文件到所有的 workers，要么使用网络的方式共享文件系统。
所有 Spark 的基于文件的方法，包括 textFile，能很好地支持文件目录，压缩过的文件和通配符。例如，你可以使用 textFile("/my/文件目录")，textFile("/my/文件目录/*.txt") 和 textFile("/my/文件目录/*.gz")。
textFile 方法也可以选择第二个可选参数来控制切片(slices)的数目。默认情况下，Spark 为每一个文件块(HDFS 默认文件块大小是 64M)创建一个切片(slice)。但是你也可以通过一个更大的值来设置一个更高的切片数目。注意，你不能设置一个小于文件块数目的切片值。

除了文本文件，Spark 的 Scala API 支持其他几种数据格式：

SparkContext.sholeTextFiles 让你读取一个包含多个小文本文件的文件目录并且返回每一个(filename, content)对。与 textFile 的差异是：它记录的是每个文件中的每一行。
对于 SequenceFiles，可以使用 SparkContext 的 sequenceFile[K, V] 方法创建，K 和 V 分别对应的是 key 和 values 的类型。像 IntWritable 与 Text 一样，它们必须是 Hadoop 的 Writable 接口的子类。另外，对于几种通用的 Writables，Spark 允许你指定原声类型来替代。例如： sequenceFile[Int, String] 将会自动读取 IntWritables 和 Text。
对于其他的 Hadoop InputFormats，你可以使用 SparkContext.hadoopRDD 方法，它可以指定任意的 JobConf，输入格式(InputFormat)，key 类型，values 类型。你可以跟设置 Hadoop job 一样的方法设置输入源。你还可以在新的 MapReduce 接口(org.apache.hadoop.mapreduce)基础上使用 SparkContext.newAPIHadoopRDD(译者注：老的接口是 SparkContext.newHadoopRDD)。
RDD.saveAsObjectFile 和 SparkContext.objectFile 支持保存一个RDD，保存格式是一个简单的 Java 对象序列化格式。这是一种效率不高的专有格式，如 Avro，它提供了简单的方法来保存任何一个 RDD。

原文链接: https://www.yukx.com/bigdata/article/details/824.html 优科学习网Spark外部数据集

上一篇: Spark并行集合

下一篇: SparkRDD操作

推荐文章

MD5加密算法

MD5（Message-DigestAlgorithm5）是一种广泛使用的散列函数（哈希函数），由美国密码学家罗纳德·李维斯特（RonaldL.Rivest）在1991年设计。MD5的作用是对任意长度的信息生成一个固定长度（128位，即32个十六进制字符）的“指纹”或“消息摘要”，并且几乎不可能找到
CRC循环冗余校验（Cyclic Redundancy Check，CRC）

循环冗余校验（CyclicRedundancyCheck，CRC）是一种用于检测数据传输和存储过程中发生错误的技术，属于一种基于数学原理的错误检测编码（ErrorDetectionCoding）方法。它通过在原始数据上附加一个固定长度的校验码，使得接收端可以通过同样的计算规则对收到的数据进行校验，确
AES加密算法(对称加密算法)

AES（AdvancedEncryptionStandard）是一种广泛使用的对称密钥加密算法，它是美国国家标准与技术研究院（NIST）于2001年制定的加密标准，用于替代原有的DES（DataEncryptionStandard）。AES算法以其高效性、安全性和可靠性而著称，在众多应用领域中被广泛
RSA非对称加密算法

RSA（Rivest-Shamir-Adleman）是一种广泛应用的非对称加密算法，由RonRivest、AdiShamir和LenAdleman在1977年提出。其安全性基于数学上的大数因子分解难题，即对于足够大的两个素数p和q而言，已知它们的乘积很容易，但想要从这个乘积中恢复原始的素数则异常困难
最小生成树算法

最小生成树（MinimumSpanningTree,MST）是一种图论算法，用于在一个带权重的无向连通图中找到一棵包括所有顶点且总权重尽可能小的树。常见的最小生成树算法有两种：Prim算法和Kruskal算法。Prim算法原理：Prim算法是一种贪心算法，它从图中的一个顶点开始，逐步增加边，每次都添
最短路径算法

关于最短路径算法的Java实现，这里简述一下几种常用的算法及其基本原理，并给出一个Dijkstra算法的基本实现框架。Dijkstra算法（适用于无负权边的图）Dijkstra算法用于寻找图中一个顶点到其他所有顶点的最短路径。它维护了一个距离表，用来存储从源点到各个顶点的已知最短距离，并且每次都会选