21 DataFrame入门

1 DataFrame的组成

21 DataFrame入门_第1张图片
21 DataFrame入门_第2张图片

2 DataFrame的代码构建 - 基于RDD方式1

21 DataFrame入门_第3张图片
21 DataFrame入门_第4张图片
21 DataFrame入门_第5张图片
21 DataFrame入门_第6张图片
21 DataFrame入门_第7张图片
21 DataFrame入门_第8张图片
21 DataFrame入门_第9张图片
21 DataFrame入门_第10张图片
21 DataFrame入门_第11张图片

3 DataFrame的入门操作

21 DataFrame入门_第12张图片
21 DataFrame入门_第13张图片
21 DataFrame入门_第14张图片
21 DataFrame入门_第15张图片
21 DataFrame入门_第16张图片
21 DataFrame入门_第17张图片
21 DataFrame入门_第18张图片
21 DataFrame入门_第19张图片
21 DataFrame入门_第20张图片
21 DataFrame入门_第21张图片

4 词频统计案例练习

21 DataFrame入门_第22张图片

5 电影评分数据分析案例

21 DataFrame入门_第23张图片
21 DataFrame入门_第24张图片

6 SparkSQL Shuffle 分区数目

21 DataFrame入门_第25张图片

7 SparkSQL 数据清洗API

21 DataFrame入门_第26张图片
21 DataFrame入门_第27张图片
21 DataFrame入门_第28张图片

8 DataFrame数据写出

21 DataFrame入门_第29张图片
21 DataFrame入门_第30张图片

9 DataFrame 通过JDBC读写数据库(MySQL示例)

21 DataFrame入门_第31张图片
21 DataFrame入门_第32张图片
21 DataFrame入门_第33张图片

  1. DataFrame 在结构层面上由StructField组成列描述,由
    StructType构造表描述。在数据层面上,Column对象记录列数据
    ,Row对象记录行数据
  2. DataFrame可以从RDD转换、Pandas DF转换、读取文件、读取
    JDBC等方法构建
  3. spark.read.format()和df.write.format() 是DataFrame读取和写出
    的统一化标准API
  4. SparkSQL默认在Shuffle阶段200个分区,可以修改参数获得最好
    性能
  5. dropDuplicates可以去重、dropna可以删除缺失值、fillna可以填
    充缺失值
  6. SparkSQL支持JDBC读写,可用标准API对数据库进行读写操作

你可能感兴趣的:(spark,hadoop,hdfs,big,data)