大数据:sparkSQL编程语法,DSL风格,SQL风格,select,filter,where,groupBy,createTempView,sql.functions

大数据:sparkSQL编程语法

2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲 最最最重要的就是大数据,什么行测和面试都是小问题,最难最最重要的就是大数据技术相关的知识笔试


文章目录

  • 大数据:sparkSQL编程语法
    • @[TOC](文章目录)
  • 大数据:sparkSQL编程语法
  • 总结

大数据:sparkSQL编程语法

大数据:sparkSQL编程语法,DSL风格,SQL风格,select,filter,where,groupBy,createTempView,sql.functions_第1张图片
领域DSL风格,SQL风格
DSL直接调用函数后缀
select()
就是抽取,骚
column对象,很骚
大数据:sparkSQL编程语法,DSL风格,SQL风格,select,filter,where,groupBy,createTempView,sql.functions_第2张图片
filter过滤
直接写表达式,跟python一样的
column对象也能用
where和filter一样
大数据:sparkSQL编程语法,DSL风格,SQL风格,select,filter,where,groupBy,createTempView,sql.functions_第3张图片
对字段分组,然后统计
大数据:sparkSQL编程语法,DSL风格,SQL风格,select,filter,where,groupBy,createTempView,sql.functions_第4张图片
df中groupBy的返回值不是DataFrame对象
踏实GroupData,有分组关系的数据结构,有api对分组做聚合的话,就能方便处理了
count,sum,avg,min,max
它不能直接show,
它需要聚合,然后才能show
懂了???
大数据:sparkSQL编程语法,DSL风格,SQL风格,select,filter,where,groupBy,createTempView,sql.functions_第5张图片
利用df,直接注册表:
注册临时表,在当前对象下使用,相当于局部变量
注册或者替换
注册全局表,跨sparkSession对象使用,前面带上global_temp.表名使用
大数据:sparkSQL编程语法,DSL风格,SQL风格,select,filter,where,groupBy,createTempView,sql.functions_第6张图片
spark.sql()中间写sql语句
然后当做DataFrame使用
大数据:sparkSQL编程语法,DSL风格,SQL风格,select,filter,where,groupBy,createTempView,sql.functions_第7张图片
读取文件
转DF
单词切分出来
变为二维表

df穿件表格
可以通过api搞它

withColumn方法
对列操作value列
F切分空格
再爆炸explode为一个数组
大数据:sparkSQL编程语法,DSL风格,SQL风格,select,filter,where,groupBy,createTempView,sql.functions_第8张图片
大数据:sparkSQL编程语法,DSL风格,SQL风格,select,filter,where,groupBy,createTempView,sql.functions_第9张图片
df2还能继续完
直接分组,然后count,show
大数据:sparkSQL编程语法,DSL风格,SQL风格,select,filter,where,groupBy,createTempView,sql.functions_第10张图片
withColumnRename
改名
大数据:sparkSQL编程语法,DSL风格,SQL风格,select,filter,where,groupBy,createTempView,sql.functions_第11张图片


总结

提示:重要经验:

1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。

你可能感兴趣的:(数据挖掘,大数据,sql,functions,createTempView,filter,where,sparkSQL)