春节期间自我培训计划

获取数据(约3h):

  1. 获取互联网上的公开数据集
  2. 用网站 API 爬取网页数据
  3. 爬虫所需的 HTML 基础
  4. 基于 HTML 的爬虫,Python(Beautifulsoup)实现
  5. 网络爬虫高级技巧:使用代理和反爬虫机制
  6. 应用案例:爬取豆瓣 TOP250 电影信息并存储


    image.png

数据存储与预处理(3h)

  • review SQL;
  • 数据库进阶操作:数据过滤与分组聚合
  • 用 Python 进行数据库连接与数据查询
  • 其他类型数据库:SQLite&MongoDB
  • 用 Pandas 进行数据预处理:数据清洗与可视化

统计学基础与 Python 数据分析
)探索型数据分析:绘制统计图形展示数据分布
2)通过统计图形探究数据分布的潜在规律
3)描述统计学:总体、样本和误差,基本统计量
4)推断统计学:概率分布和假设检验
5)在实际分析中应用不同的假设检验
6)预测型数据分析:线性回归
7)Python中进行线性回归(scikit-learn实现)

  1. 预测型数据分析:分类及逻辑回归
  2. 其它常用算法(k近邻、决策树、随机森林)
  3. 预测型数据分析:聚类算法(k均值、DBSCAN)
  4. 用特征选择方法优化模型
  5. 用 scikit-learn 实现数据挖掘建模全过程
  6. 用 rapidminer 解决商业分析关键问题
  7. 高级数据分析工具:机器学习、深度学习初探

先复习台湾交通大学统计学基础、进阶
统计学:http://ocw.nctu.edu.tw/upload/classbfs12090115581527.pdf
http://ocw.nctu.edu.tw/upload/classbfs120901161347184.pdf
高级统计学课件:http://ocw.nctu.edu.tw/upload/classbfs1209012042138837.pdf
尽量完成机器学习实战的主要不熟悉部分代码(决策树、randomforest、svm、kmeans)
周志华的机器学习理论推导辅助理解
svm以及高维量的推导涉及到向量运算(求导),给出台湾交通大学课件http://ocw.nctu.edu.tw/course_detail-s.php?bgid=1&gid=1&nid=14

你可能感兴趣的:(春节期间自我培训计划)