SparkSQL数据类型

4165

Spark SQL数据类型

数字类型
ByteType：代表一个字节的整数。范围是-128到127
ShortType：代表两个字节的整数。范围是-32768到32767
IntegerType：代表4个字节的整数。范围是-2147483648到2147483647
LongType：代表8个字节的整数。范围是-9223372036854775808到9223372036854775807
FloatType：代表4字节的单精度浮点数
DoubleType：代表8字节的双精度浮点数
DecimalType：代表任意精度的10进制数据。通过内部的java.math.BigDecimal支持。BigDecimal由一个任意精度的整型非标度值和一个32位整数组成
StringType：代表一个字符串值
BinaryType：代表一个byte序列值
BooleanType：代表boolean值
Datetime类型
TimestampType：代表包含字段年，月，日，时，分，秒的值
DateType：代表包含字段年，月，日的值
复杂类型
ArrayType(elementType, containsNull)：代表由elementType类型元素组成的序列值。containsNull用来指明ArrayType中的值是否有null值
MapType(keyType, valueType, valueContainsNull)：表示包括一组键 - 值对的值。通过keyType表示key数据的类型，通过valueType表示value数据的类型。valueContainsNull用来指明MapType中的值是否有null值
StructType(fields):表示一个拥有StructFields (fields)序列结构的值
StructField(name, dataType, nullable):代表StructType中的一个字段，字段的名字通过name指定，dataType指定field的数据类型，nullable表示字段的值是否有null值。

Spark的所有数据类型都定义在包org.apache.spark.sql中，你可以通过import org.apache.spark.sql._访问它们。

数据类型	Scala中的值类型	访问或者创建数据类型的API
ByteType	Byte	ByteType
ShortType	Short	ShortType
IntegerType	Int	IntegerType
LongType	Long	LongType
FloatType	Float	FloatType
DoubleType	Double	DoubleType
DecimalType	scala.math.BigDecimal	DecimalType
StringType	String	StringType
BinaryType	Array[Byte]	BinaryType
BooleanType	Boolean	BooleanType
TimestampType	java.sql.Timestamp	TimestampType
DateType	java.sql.Date	DateType
ArrayType	scala.collection.Seq	ArrayType(elementType, [containsNull]) 注意containsNull默认为true
MapType	scala.collection.Map	MapType(keyType, valueType, [valueContainsNull]) 注意valueContainsNull默认为true
StructType	org.apache.spark.sql.Row	StructType(fields) ，注意fields是一个StructField序列，相同名字的两个StructField不被允许
StructField	The value type in Scala of the data type of this field (For example, Int for a StructField with the data type IntegerType)	StructField(name, dataType, nullable)

原文链接: https://www.yukx.com/bigdata/article/details/846.html 优科学习网SparkSQL数据类型

上一篇: 编写语言集成(Language-Integrated)的相关查询

下一篇: SparkSQLRDDs

推荐文章

MD5加密算法

MD5（Message-DigestAlgorithm5）是一种广泛使用的散列函数（哈希函数），由美国密码学家罗纳德·李维斯特（RonaldL.Rivest）在1991年设计。MD5的作用是对任意长度的信息生成一个固定长度（128位，即32个十六进制字符）的“指纹”或“消息摘要”，并且几乎不可能找到
CRC循环冗余校验（Cyclic Redundancy Check，CRC）

循环冗余校验（CyclicRedundancyCheck，CRC）是一种用于检测数据传输和存储过程中发生错误的技术，属于一种基于数学原理的错误检测编码（ErrorDetectionCoding）方法。它通过在原始数据上附加一个固定长度的校验码，使得接收端可以通过同样的计算规则对收到的数据进行校验，确
AES加密算法(对称加密算法)

AES（AdvancedEncryptionStandard）是一种广泛使用的对称密钥加密算法，它是美国国家标准与技术研究院（NIST）于2001年制定的加密标准，用于替代原有的DES（DataEncryptionStandard）。AES算法以其高效性、安全性和可靠性而著称，在众多应用领域中被广泛
RSA非对称加密算法

RSA（Rivest-Shamir-Adleman）是一种广泛应用的非对称加密算法，由RonRivest、AdiShamir和LenAdleman在1977年提出。其安全性基于数学上的大数因子分解难题，即对于足够大的两个素数p和q而言，已知它们的乘积很容易，但想要从这个乘积中恢复原始的素数则异常困难
最小生成树算法

最小生成树（MinimumSpanningTree,MST）是一种图论算法，用于在一个带权重的无向连通图中找到一棵包括所有顶点且总权重尽可能小的树。常见的最小生成树算法有两种：Prim算法和Kruskal算法。Prim算法原理：Prim算法是一种贪心算法，它从图中的一个顶点开始，逐步增加边，每次都添
最短路径算法

关于最短路径算法的Java实现，这里简述一下几种常用的算法及其基本原理，并给出一个Dijkstra算法的基本实现框架。Dijkstra算法（适用于无负权边的图）Dijkstra算法用于寻找图中一个顶点到其他所有顶点的最短路径。它维护了一个距离表，用来存储从源点到各个顶点的已知最短距离，并且每次都会选