DateFrame的用法

由于公司项目转型,从java开发现在转做大数据开发已经有两个月了,通过查阅spark官方文档Spark-2.1.0,现在简单谈一下DataFrame的基本应用。 http://spark.apache.org/docs/2.1.0/sql-programming-guide.html

1 使用的价值     

     spark中DateFrame可以理解成为关系型数据库中的一张表,关系型数据库中对表的select ,group by,jion,filter ...等操作,DateFrame中都有类是的操作,这样方便了熟悉sql的同学开发,同时DateFrame在执行时,自动优化执行策略,所以在实际生产中还是比较常用。

     同时 (官网:DataFrames loaded from any data source type can be converted into other types using this syntax.)通过这种语法规则,DataFrames能够实现将jsonparquetjdbcorclibsvmcsvtext 数据格式互相转换 ,连接 ,由此可见其功能比较丰富。


DataFrame是列式存储的

最好的证明:                                                      studentDF.filter("SUBSTR(name,0,1)='M'").select("email").show     不会报错

   studentDF.select("email").filter("SUBSTR(name,0,1)='M'").show         会报错  原因是select("email")时,只会取出email这一列数据,在通过name条件过滤的时候发现没有name,因此会报错。

2实际操作

    光说不练假把式

      


  

你可能感兴趣的:(DateFrame的用法)