Udacity-数据科学方向框架总结

最近一直在Udacity上学习数据科学的相关方知识:
课程框架:

第一章:数据分析入门(资料记录在本地和博客上  python+SQL)

 1.1 数据分析过程:question-wrangle-explore-draw conclusion-communicate

wrangle: gather data -- assess data -- clean data 

 1.2 数据分析过程-案例研究1(分析红葡萄酒和白葡萄酒化学性质以及相关质量)

 1.3 数据分析过程-案例研究2(分析2008年到2018年不同汽车车型的燃油经济性情况)

 1.4 数据分析的编程工作流 (上面四个部分都是利用Python语言进行的数据分析,相应具体的处理代码和数据集信息,请多次重复翻阅和实践)

1.5 基本SQL (2.5基本SQL知识)

1.6 SQL JOIN(2.6 SQL JOIN)

1.7 SQL 聚合(2.7 SQL聚合函数)

1.8 SQL子查询和临时表格(2.8 SQL子查询和临时表格)

1.9 SQL 数据清理(2.9 SQL数据清理)

 

第二章 数据清理(资料记录在全部在本地  python)

2.1 数据整理简介:整个流程是wrangle: gather data -- assess data -- clean data 

收集数据(总结):

   1)根据数据来源的不同,采用不同的数据收集方法。

评估数据(总结):以可视化或者程序的方式,确定数据质量和整洁度的问题

    1)非描述性的列标题

   2)缺少值(Nan)

   3) 值表示方法不一致(例如,有的全称或简称)

   4)数据集杂乱(messy data)

清洗数据(总结):

将观察结果从评估步骤转换成定义的问题,将这些定义转换为复杂的代码来修复,再测试(define-code-test),可使用assert语句来确保正常操作。

2.2 收集数据

2.3 评估数据

2.4 清理数据

总结:::
*** 收集数据

# 根据数据来源及其格式,收集的数据的步骤各有不同

# 高级收集过程:获取数据(从互联网下载文件,抓取网页,查询API等方式),然后将该数据集导入到编程环境

*** 评估数据

# 数据待评估部分:

  # 质量问题:内容问题(数据丢失-数据无效,不合乎逻辑-数据不准确,与真实情况不等-数据不一致,如同一列的量纲不同)

 # 整洁度:使得问题难以进行,应保证(每个变量一列- 每个观察结果形成一行-每种观察单位构成一个表格)

# 评估类型: 

  # 目测评估:利用excel或者Googlesheet等工具进行目测评估

 # 编程评估:使用代码来查看数据的特定部分和摘要(head(),tail(),info(),shape,dtypes().val_count()等)

*** 清洗

清洗类型:手动 or 编程

清洗过程:define --  code  -- test

注意:清洗数据之前,记得备份原始数据

 

***重新评估数据与迭代

*** 存储 store

Udacity-数据科学方向框架总结_第1张图片

 

第三章:探索性数据分析(EDA)(主要是讲解利用R语言进行的数据分析和可视化,资料在R的路径下)

3.1 什么是EDA?

3.2 R基础

3.3探索单一变量 lesson3.rmd

习题集:探索单一变量  practice_lesson3.r

3.4 探索两个变量 lessong_4.rmd

习题集:探索两个变量 practice_lesson4.r

3.5 探索多个变量 lesson_5.rmd

习题集:探索多个变量 practice_lesson.r

3.6 砖石与价格预测

主要是根据砖石的数据,考虑了以下三组变量的关系
   克拉重量、纯度与价格的关系

克拉重量、切工与价格的关系

克拉重量、颜色与价格的关系

 

 

 

 

 

 

 

你可能感兴趣的:(Python学习,Finance,with,python,SQL学习,R学习)