数据科学导论复习 第1,2章内容

总内容

数据科学导论复习 第1,2章内容_第1张图片

一数据科学简介:

(1)大数据的“5V”特点

1)  Volume(体量):数据量大,包括采集、存储和计算的量都非常大。
2) Variety(多样性):种类和来源多样化。
3) Value(价值):数据价值密度相对较低。

4) Velocity(时效性):数据增长速度快,处理速度也快,时效性要求高。
5) Veracity(准确性):数据的准确性和可信赖度,即数据的质量。

(2)数据科学的概念:数据科学是关于对数据进行分析、抽取信息和知识的过程提供指导和支持的基本原则和方法的科学

数据科学的核心任务是:数据中提取信息、发现知识;

(3)基本原则: 

1,相关性不同于因果关系       相关性:有雷可能有电,是相关但没因果. A发生导致B发生这是因果

2,

(4)大数据产生的两基础: 计算机技术发展是技术基础   互联网和物联网的发展是数据基础

二数据改写  

有内容:

:数据科学导论复习 第1,2章内容_第2张图片

1.数据科学过程:  数据获取  数据改写    数据分析   数据可视化

2.Pamdas   

(1) pandas 是基于Numpy的一种工具,为解决数据分析任务创建,纳入标准的数据模型,能快速便捷德处理数据的函数和方法

(2)两个核心数据结构: -Series (一维数据)  -DataFrame(多特征数据有行列索引)

(3)pandas 的一些操作:

显示数据  iris.head() 显示前         iris.tail 显示后       iris.columns显示数据列名称    我们要按某列名称输出整行内容用语句

3.python 的语法:    有严格的缩进要求,且四个空格为一个单位 运算符两侧各加一空格 逗号后一个空格数据科学导论复习 第1,2章内容_第3张图片

 扩展库导入

方式一:  import 模块名[as 别名]       下是导入库并运用库中的函数数据科学导论复习 第1,2章内容_第4张图片   

方式二: from 模块名 import 对象名[as 别名]

数据科学导论复习 第1,2章内容_第5张图片

方式三:from 模块名 import * (不推荐使用)

 

字符串       

数据科学导论复习 第1,2章内容_第6张图片

如: re.findall r‘f[a-z]’,'which foot or hand fell first'   在后句中找出以f 开头的单词

数据科学导论复习 第1,2章内容_第7张图片

数据科学导论复习 第1,2章内容_第8张图片

数据科学导论复习 第1,2章内容_第9张图片

数据科学导论复习 第1,2章内容_第10张图片

 

你可能感兴趣的:(专业学习笔记)