Python玩转大数据—221人已学习
课程介绍
该课程采用时下后的编程语言Python讲解,囊括了当前火的大数据技术Spark/Hadoop/Hive知识,学习环境是基于Docker搭建的5个容器。通过这门课程不仅可以学到Spark/Hadoop/Hive大数据知识,还可以学到当下后的云计算技术Docker.
课程收益
通过这门课程,带领广大学员入门大数据,胜任大数据Spark开发工作,熟悉Docker云计算容器技术,掌握Spark基于RDD的原理知识,熟练使用Spark Sql进行数据分析,挑战Spark ML机器学习。
讲师介绍
张敏 更多讲师课程
大数据工程师/算法工程师/大数据讲师,毕业于西华大学软件工程专业。在大数据领域有着丰富的实战经验。 擅长领域:Spark/Hadoop、算法设计及系统架构、数据挖掘、机器学习~。在Spark内核方面有深入的研究,参与Scala基础入门,Spark内核及性能优化相关书籍部分内容的编写工作。
课程大纲
第1章:课程简介
1. 课程学习路径简介 13:23
第2章:Docker知识快速入门
1. 什么是Docker技术 8:21
2. 为什么要使用Docker 4:53
3. Docker中的基本概念 5:42
4. Docker安装 4:14
5. Docker获取镜像 8:19
6. Docker创建镜像(1) 9:06
7. Docker创建镜像(2) 10:25
8. Docker本地导入镜像 7:26
9. Docker保存、载入、删除镜像 5:14
10. Docker容器的创建、启动和停止 11:19
11. Docker命令进入容器后台 8:59
12. Docker命令导入导出和删除容器 7:46
13. Docker公有仓库Docker Hub 10:26
14. Docker私有仓库的创建 8:36
15. Docker中的数据卷 15:26
16. Docker制作数据卷容器 10:30
17. Docker数据卷容器实现备份、恢复和迁移 11:06
18. Docker容器绑定外部端口和IP 11:26
19. 容器互联 8:19
20. 一个完整的例子 35:10
21. Dockerfile基本结构讲解 8:33
22. Dockerfile中常见的13中指令 21:48
第3章:Docker搭建Spark学习环境,一键部署So Easy!
1. Spark基础核心讲解 18:59
2. 镜像制作方案和集群网络规划及子网配置和SSH无密钥登录配置 17:04
3. Hadoop、HDFS、Yarn配置文件详解 18:04
4. Spark及Hive配置文件详解 13:11
5. Dockerfile制作Hadoop/Spark/Hive镜像 26:51
6. 启动5个容器并启动Hadoop/Spark/Hive集群 38:11
第4章:pyspark基础及原理快速入门,细致详尽
1. pyspark模块介绍 14:12
2. SparkContext编程入口及Accumulator 17:45
3. addFile方法和SparkFiles的get方法详解 22:24
4. binaryFiles读取二进制文件 5:02
5. Broadcast广播变量原理及setLogLevel设置日志级别 17:05
6. 文件的读取和保存及runJob方法和parallelize创建RDD 23:31
7. union方法和statusTracker详解 7:16
8. aggregate和aggregateByKey的异同 16:48
9. collectAsMap和fold方法的立即及正确使用 16:42
10. foreach和foreachPartitions原理及性能对比 6:16
11. histogram和lookup方法作用及使用 17:47
12. reduce、sampleStdev等方法详解 16:54
13. 使用sequenceFile读写序列文件 6:44
14. takeSample,treeAggregate方法使用 17:55
15. coalesce,repartition方法使用技巧及原理 20:41
16. cogroup、combineByKey、aggregateByKey的异同及性能对比 17:07
17. foldByKey,groupBy,groupWith三个方法的对比及原理 18:14
18. 集合操作intersection,subtract,union的使用 4:39
19. join,fullOuterJoin等RDD的关联操作详解 5:58
20. glom,mapPartions,mapValues详解 13:20
21. pipe,randomSplit,sampleByKey等方法详解 8:03
22. sortBy,sortByKey,values,zip等方法详解 9:25
23. StorageLevel中常见的存储级别及使用 4:34
24. SparkConf对象详解 11:04
25. 广播变量深入讲解 6:36
26. Accumulator累加器详解 4:05
27. StatusTracker对Spark作业运行状态监控 4:49
28. Catalog对象详解 36:07
第5章:pyspark之SparkSQL,入门到精通
1. pyspark之SparkSQL模块介绍 14:29
2. SparkSession编程入口 13:20
3. 掌握创建DataFrame的八种方法 21:13
4. range和udf用户自定义函数讲解 20:39
5. agg聚合方法及设置数据缓存 21:17
6. colRegex及corr计算皮尔森相关系数 19:57
7. crossJoin笛卡尔积和cube多维数据立方体 18:25
8. explain,dropna及filter和where算子详解 19:33
9. groupBy,intersect,join方法详解 19:22
10. rollup,replace和randomSplit方法详解 18:22
11. summary统计方法及toPandas转换为Pandas对象 29:56
12. GroupedData对象 30:05
13. Column对象(上) 30:24
14. Column对象(下) 19:06
15. Row对象详解 5:35
16. DataFrameNaFunctions空数据处理 12:24
17. DataFrameStatFunctions统计模块详解 11:05
18. DataFrameReader读取外部数据生成DF 20:04
19. DataFrameWriter当DF写入外部存储 22:19
20. types类型详解 15:03
21. functions函数模块详解 16:06
第6章:pyspark机器学习,挑战高薪
1. 本地密集、稀疏向量和LabeledPoint向量 22:55
2. 本地矩阵和四种分布式矩阵 32:24
3. Statistics基本的统计方法 20:18
4. 假设检验、随机数据的生成和核密度估计 13:23
5. Piplines构建机器学习工作流 43:43
6. TF-IDF词频逆文档数和Word2vec词向量表示 27:45
7. CountVectorizer和Tokenizer和正则特征 14:17
8. PCA主成分分析、多项式核函数扩展特征空间、数据正则化 34:13
9. 分桶器、向量组合器、SQL转换器及元素缩放器 17:22
10. 特征个数过滤器、缺失值处理器、类别编码器、向量类别判断器 21:26
11. 逻辑回归算法、原理、公式推导及二分类、多分类实践 28:43
12. 完全理解L1、L2正则化及其作用 22:26
13. 决策树算法原理,随机森林,梯度提升树代码实践 41:45
14. 多层感知机分类算法 13:05
15. SVM支持向量机分类算法 21:41
16. OneVsRest多分类算法 5:37
17. Naive Bayes朴素贝叶斯分类器 10:03
18. Linear Regression线性回归 24:15
19. GLMs广义线性模型 7:00
20. 回归树 11:22
21. K-Means聚类算法 21:06
22. 二分K均值分类 6:24
23. GMM高斯混合模型 7:30
24. 基于ALS交替最小二乘的协同过滤推荐算法电影推荐实践 37:14
25. FP-Growth频繁项集推荐算法 14:39
26. 超参数网格搜索 21:22
27. 大数据生态圈的十年 2:56
大家可以点击【 查看详情】查看我的课程