NEFU数据科学导论(二)获取数据1

一·、获取数据途径·

NEFU数据科学导论(二)获取数据1_第1张图片

NEFU数据科学导论(二)获取数据1_第2张图片 

 二、数据收集特征

2.1日志收集系统特征·:高可用性,高可靠性,可扩展性

NEFU数据科学导论(二)获取数据1_第3张图片

 2.2网络数据收集

 2.3数据库收集

NEFU数据科学导论(二)获取数据1_第4张图片

关系型数据库(mysql,oracle)

 非关系型数据库(redis)

2.4公开出版刊物

2.5开发数据平台

NEFU数据科学导论(二)获取数据1_第5张图片

 2.6市场调查

NEFU数据科学导论(二)获取数据1_第6张图片

 三、数据质量检验

3.1原因

NEFU数据科学导论(二)获取数据1_第7张图片

3.2导致现象

NEFU数据科学导论(二)获取数据1_第8张图片 

 3.3 脏数据:缺失値  昇常値  不一致的値  重夏値

缺失値

原因:

 NEFU数据科学导论(二)获取数据1_第9张图片

结果 :

NEFU数据科学导论(二)获取数据1_第10张图片

 昇常値:1.简单统计量分析  2. 3P原则    3.箱型图分析

原因

NEFU数据科学导论(二)获取数据1_第11张图片

 结果:

NEFU数据科学导论(二)获取数据1_第12张图片

 不一致的値

原因

NEFU数据科学导论(二)获取数据1_第13张图片

重夏値

形式

NEFU数据科学导论(二)获取数据1_第14张图片

 

你可能感兴趣的:(数据库)