Python玩转大数据-张敏-专题视频课程

Python玩转大数据—221人已学习
课程介绍    
Python玩转大数据-张敏-专题视频课程_第1张图片
    该课程采用时下后的编程语言Python讲解,囊括了当前火的大数据技术Spark/Hadoop/Hive知识,学习环境是基于Docker搭建的5个容器。通过这门课程不仅可以学到Spark/Hadoop/Hive大数据知识,还可以学到当下后的云计算技术Docker.
课程收益
    通过这门课程,带领广大学员入门大数据,胜任大数据Spark开发工作,熟悉Docker云计算容器技术,掌握Spark基于RDD的原理知识,熟练使用Spark Sql进行数据分析,挑战Spark ML机器学习。
讲师介绍
    张敏 更多讲师课程
    大数据工程师/算法工程师/大数据讲师,毕业于西华大学软件工程专业。在大数据领域有着丰富的实战经验。 擅长领域:Spark/Hadoop、算法设计及系统架构、数据挖掘、机器学习~。在Spark内核方面有深入的研究,参与Scala基础入门,Spark内核及性能优化相关书籍部分内容的编写工作。
课程大纲
  第1章:课程简介
    1. 课程学习路径简介  13:23
  第2章:Docker知识快速入门
    1. 什么是Docker技术  8:21
    2. 为什么要使用Docker  4:53
    3. Docker中的基本概念  5:42
    4. Docker安装  4:14
    5. Docker获取镜像  8:19
    6. Docker创建镜像(1)  9:06
    7. Docker创建镜像(2)  10:25
    8. Docker本地导入镜像  7:26
    9. Docker保存、载入、删除镜像  5:14
    10. Docker容器的创建、启动和停止  11:19
    11. Docker命令进入容器后台  8:59
    12. Docker命令导入导出和删除容器  7:46
    13. Docker公有仓库Docker Hub  10:26
    14. Docker私有仓库的创建  8:36
    15. Docker中的数据卷  15:26
    16. Docker制作数据卷容器  10:30
    17. Docker数据卷容器实现备份、恢复和迁移  11:06
    18. Docker容器绑定外部端口和IP  11:26
    19. 容器互联  8:19
    20. 一个完整的例子  35:10
    21. Dockerfile基本结构讲解  8:33
    22. Dockerfile中常见的13中指令  21:48
  第3章:Docker搭建Spark学习环境,一键部署So Easy!
    1. Spark基础核心讲解  18:59
    2. 镜像制作方案和集群网络规划及子网配置和SSH无密钥登录配置  17:04
    3. Hadoop、HDFS、Yarn配置文件详解  18:04
    4. Spark及Hive配置文件详解  13:11
    5. Dockerfile制作Hadoop/Spark/Hive镜像  26:51
    6. 启动5个容器并启动Hadoop/Spark/Hive集群  38:11
  第4章:pyspark基础及原理快速入门,细致详尽
    1. pyspark模块介绍  14:12
    2. SparkContext编程入口及Accumulator  17:45
    3. addFile方法和SparkFiles的get方法详解  22:24
    4. binaryFiles读取二进制文件  5:02
    5. Broadcast广播变量原理及setLogLevel设置日志级别  17:05
    6. 文件的读取和保存及runJob方法和parallelize创建RDD  23:31
    7. union方法和statusTracker详解  7:16
    8. aggregate和aggregateByKey的异同  16:48
    9. collectAsMap和fold方法的立即及正确使用  16:42
    10. foreach和foreachPartitions原理及性能对比  6:16
    11. histogram和lookup方法作用及使用  17:47
    12. reduce、sampleStdev等方法详解  16:54
    13. 使用sequenceFile读写序列文件  6:44
    14. takeSample,treeAggregate方法使用  17:55
    15. coalesce,repartition方法使用技巧及原理  20:41
    16. cogroup、combineByKey、aggregateByKey的异同及性能对比  17:07
    17. foldByKey,groupBy,groupWith三个方法的对比及原理  18:14
    18. 集合操作intersection,subtract,union的使用  4:39
    19. join,fullOuterJoin等RDD的关联操作详解  5:58
    20. glom,mapPartions,mapValues详解  13:20
    21. pipe,randomSplit,sampleByKey等方法详解  8:03
    22. sortBy,sortByKey,values,zip等方法详解  9:25
    23. StorageLevel中常见的存储级别及使用  4:34
    24. SparkConf对象详解  11:04
    25. 广播变量深入讲解  6:36
    26. Accumulator累加器详解  4:05
    27. StatusTracker对Spark作业运行状态监控  4:49
    28. Catalog对象详解  36:07
  第5章:pyspark之SparkSQL,入门到精通
    1. pyspark之SparkSQL模块介绍  14:29
    2. SparkSession编程入口  13:20
    3. 掌握创建DataFrame的八种方法  21:13
    4. range和udf用户自定义函数讲解  20:39
    5. agg聚合方法及设置数据缓存  21:17
    6. colRegex及corr计算皮尔森相关系数  19:57
    7. crossJoin笛卡尔积和cube多维数据立方体  18:25
    8. explain,dropna及filter和where算子详解  19:33
    9. groupBy,intersect,join方法详解  19:22
    10. rollup,replace和randomSplit方法详解  18:22
    11. summary统计方法及toPandas转换为Pandas对象  29:56
    12. GroupedData对象  30:05
    13. Column对象(上)  30:24
    14. Column对象(下)  19:06
    15. Row对象详解  5:35
    16. DataFrameNaFunctions空数据处理  12:24
    17. DataFrameStatFunctions统计模块详解  11:05
    18. DataFrameReader读取外部数据生成DF  20:04
    19. DataFrameWriter当DF写入外部存储  22:19
    20. types类型详解  15:03
    21. functions函数模块详解  16:06
  第6章:pyspark机器学习,挑战高薪
    1. 本地密集、稀疏向量和LabeledPoint向量  22:55
    2. 本地矩阵和四种分布式矩阵  32:24
    3. Statistics基本的统计方法  20:18
    4. 假设检验、随机数据的生成和核密度估计  13:23
    5. Piplines构建机器学习工作流  43:43
    6. TF-IDF词频逆文档数和Word2vec词向量表示  27:45
    7. CountVectorizer和Tokenizer和正则特征  14:17
    8. PCA主成分分析、多项式核函数扩展特征空间、数据正则化  34:13
    9. 分桶器、向量组合器、SQL转换器及元素缩放器  17:22
    10. 特征个数过滤器、缺失值处理器、类别编码器、向量类别判断器  21:26
    11. 逻辑回归算法、原理、公式推导及二分类、多分类实践  28:43
    12. 完全理解L1、L2正则化及其作用  22:26
    13. 决策树算法原理,随机森林,梯度提升树代码实践  41:45
    14. 多层感知机分类算法  13:05
    15. SVM支持向量机分类算法  21:41
    16. OneVsRest多分类算法  5:37
    17. Naive Bayes朴素贝叶斯分类器  10:03
    18. Linear Regression线性回归  24:15
    19. GLMs广义线性模型  7:00
    20. 回归树  11:22
    21. K-Means聚类算法  21:06
    22. 二分K均值分类  6:24
    23. GMM高斯混合模型  7:30
    24. 基于ALS交替最小二乘的协同过滤推荐算法电影推荐实践  37:14
    25. FP-Growth频繁项集推荐算法  14:39
    26. 超参数网格搜索  21:22
    27. 大数据生态圈的十年  2:56
大家可以点击【 查看详情】查看我的课程

你可能感兴趣的:(视频教程)