大师兄的数据分析学习笔记(一):关于数据分析

大师兄的数据分析学习笔记(二):探索性数据分析(一)

一、关于数据分析

1. 什么是数据分析
  • 数据分析就是利用统计概率的方法,在数据中提取有用的信息,并进行总结与概括的过程。
2. 数据分析的一般流程
  • 数据分析

(1) 数据获取
(2) 探索分析与可视化

  • 数据建模与挖掘

(3) 数据预处理
(4) 分析模型
(5) 模型评估

3. 分析工具
  • 使用Python做数据分析涉及以下包:
作用
numpy 定义了更高效快速的数据结构。
scipy 基于numpy数据结构实现数据科学计算。
matplotlib / pyecharts 实现数据可视化。
pandas 基于numpy提供数据模型和操作工具。
scikit-learn 提供数据挖掘算法。
keras 提供复杂数据模型和深度神经网络工具。
  • 这部分可以参考:大师兄的Python机器学习笔记:Pandas库 和大师兄的Python机器学习笔记:Numpy库、Scipy库和Matplotlib库(一)

二、数据获取

  • 数据获取常用手段如下:
1. 数据仓库DW
  • 数据仓库就是业务数据汇总处理。
  • 特点1:记录了全部的事实。
  • 特点2:可以方便地以不同维度抽取和整理数据。(数据集市-DM)
  • 数据仓库业务型数据库的区别如下:
  • 区别1:数据仓库面向主题存储;数据库面向业务存储。
  • 区别2:数据仓库面向分析(Online Analysis Processing);数据库面向应用(Online Transaction Processing)。
  • 区别3:数据仓库可能有比较大的冗余,变化大,数据量大; 数据库组织规范。
2. 检测与抓取
  • 监测是使用监测设备或算法直接获取数据。
  • 抓取是直接通过获取网页内容进行解析与分析的过程。
  • Python的抓取工具可以参考大师兄的Python学习笔记(二十): 爬虫(一)。
3. 填写、日志、埋点
  • 填写就是需要用户填写的信息。
  • 埋点指在App或网页中针对特定流程收集一定的信息,用来跟踪App或网页服务被使用的情况,埋点大致可以分为两种:

第一种:页面统计。
第二种:统计操作行为。

  • 操作日志和数据仓库有共同的作用,只是更精简,以文本形式记录,通常也需要被汇总到数据仓库中。
4. 计算
  • 计算就是通过已有数据计算生成衍生数据。

你可能感兴趣的:(大师兄的数据分析学习笔记(一):关于数据分析)