大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load

大数据:sparkSQL

2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲 最最最重要的就是大数据,什么行测和面试都是小问题,最难最最重要的就是大数据技术相关的知识笔试


文章目录

  • 大数据:sparkSQL
    • @[TOC](文章目录)
  • 大数据:sparkSQL
  • 总结

大数据:sparkSQL

大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第1张图片
大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第2张图片
大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第3张图片
大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第4张图片大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第5张图片
大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第6张图片
大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第7张图片
大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第8张图片
大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第9张图片
大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第10张图片
structField定义字段
整体是structType,相当于定义一个表

大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第11张图片
大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第12张图片
大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第13张图片
大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第14张图片
大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第15张图片
大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第16张图片
大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第17张图片
用最原始的pandas构建数据
然后一句话转化为分布式DataFrame

大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第18张图片

大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第19张图片
api读取外部数据
大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第20张图片
schema最好是构建structType标准的列和类型
它默认txt的一行是一个列哦

然后读取
大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第21张图片
json自带schema信息
json就直接load
大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第22张图片
大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第23张图片
csv文件呢
option是sep分隔符
header是表头,我们有表头
encoding是字符编码utf-8
表头就直接投射schema了,可以直接用逗号分割写字段名
牛的,这spark直接read,就行了
大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第24张图片
大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第25张图片
大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第26张图片
序列化数据

这算法有说过怎么序列化

大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第27张图片
pycharm插件
大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load_第28张图片
可以查看parquet文件


总结

提示:重要经验:

1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。

你可能感兴趣的:(数据挖掘,pandas,大数据,createDataFrame,schema.load,sparkSQL)