数据挖掘学习报告一

1.观看学习了学堂在线《数据科学导论》

1.1了解了一些数据科学发展史:

中国已将大数据发展确定为国家战略。

1.2认识了一些基本概念:

(1)“数据”指的是以有组织(以行列结构存储)和无组织(通常指文本、原始音频/信号、图片等)格式聚集在一起的信息。

(2)机器学习中常用到概率模型统计模型。

(3)探索式数据分析(EDA):清洗和规整数据,并快速获得洞察。将无组织数据转换为有(4)组织数据,同时填充缺失值,修复错误数据点。

(5)数据挖掘:发现数据间的关系。

(6)大数据:体量巨大以至于单机难以处理。

1.3复习了数据科学相关的数学知识和统计学知识

微积分、线性代数、概率论等相关知识。

1.4重点学习了数据科学流程及数据科学技术

1.4.1数据科学流程

        包括数据生产、数据处理、探索式数据分析(EDA)、数据分析与洞见、结果展现(最常用数据可视化方法)、提供数据产品等。

        数据科学流程如下图所示:

数据挖掘学习报告一_第1张图片

        其中数据分析的类型有描述型分析、诊断型分析、预测型分析、规范性分析。结果展现最常用的方法是数据可视化方法。

1.4.2数据科学技术

        包含数据获取技术、数据存储技术、数据预处理技术、数据分析技术、数据可视化技术。

        体系框架如下图所示:

数据挖掘学习报告一_第2张图片

1.4.2.1数据获取技术

  1. 数据生产阶段及相应获取方式如下表所示:

阶段

时期

数据来源

数据特征

获取方式

阶段1

20世纪90年代,单机时代

企业数据库系统、企业信息管理系统

结构化数据集

数据抽取Sqoop

阶段2

2000年前后,Web1.0时代

搜索引擎、门户网站、电子博客、电子商务

半结构化和无结构的数据

网络爬虫技术

阶段3

2010年前后,Web2.0时代

智能手机、平板、移动APP、物联网

结构化、半结构化、无结构化数据

日志抓取技术、消息队列Flume等

        2.三种数据获取技术:

(1)Web爬虫技术:

          有Snoopy、ForeSpider和八爪鱼三种网页采集的主流工具。

(2)日志抓取技术:

        目前使用最广泛的、用于系统日志采集的海量数据采集工具有:Apache Flume、Hadoop Chukwa、Facebook Scribe、Linkedln Kafka

(3)Kafka数据采集技术:

数据挖掘学习报告一_第3张图片

 

1.4.2.2数据存储技术

  1. 关系型数据存储技术

        用到关系数据库。

     2.大数据存储技术

        包括键值存储数据库、列式存储数据库、文档存储数据库、图形存储数据库。

1.4.2.3数据预处理技术

        包括数据清洗、数据集成和数据变换。

1.4.2.4数据分析技术

  1. 离线分析框架(批量处理框架)

        MapReduce模式、DAG模式

     2.实时分析框架(流式处理框架)

        Storm模式、Spark Streaming模式

1.4.2.4数据可视化技术

  1. 十二种数据可视化技术

        包括散点图技术、直方图技术、线图技术、柱状图和饼图技术、树状结构图技术、圆锥树技术、Tree Map技术、信息立方体技术、飞行任务轨道三维可视化技术、社交网络可视化技术、数据流可视化技术、地图信息可视化技术。

     2.三种数据可视化工具

        包括D3.js、Matplotlib、Prefuse。

2.了解You-get的简单使用:

(1)“-o”(小写o)后边空一格,接要存放的路径;

(2)“-O”(大写O)后边空一格,接要替换原视频名字的名称;

(3)“-i”后边空一格,在下载之前也可以先查询可下载格式 ;、

数据挖掘学习报告一_第4张图片

(4)下载想要的清晰度(比如dash-flv480格式),输入you-get --format=dash-flv480 ,接要存放的路径即可。

数据挖掘学习报告一_第5张图片

         以下为下载好的视频,一般默认存储在当前用户下。

 

 

你可能感兴趣的:(数据挖掘,机器学习,人工智能)