Spark 数据读取与保存

文件格式与文件系统
对于存储在本地文件系统或分布式文件系统(比如NFS、HDFS、Amazon S3 等)中的数据,Spark 可以访问很多种不同的文件格式,包括文本文件、JSON、SequenceFile,
以及protocol buffer。我们会展示几种常见格式的用法,以及Spark 针对不同文件系统的配置和压缩选项。


Spark SQL中的结构化数据源:介绍Spark SQL 模块,它针对包括JSON 和Apache Hive 在内的结构化数据源,为我们提供了一套更加简洁高效的API。此处会粗略地介绍一下如何使用Spark

• 数据库与键值存储

Spark 自带的库和一些第三方库,它们可以用来连接Cassandra、HBase、Elasticsearch 以及JDBC 源。

你可能感兴趣的:(Spark 数据读取与保存)