(1)学习笔记——数据分析全景图

数据分析的三个重要组成部分

1、数据采集

数据采集采集过程,常用的数据源包括:开源数据源、爬虫抓取、日志采集、传感器等
常用的自动抓取数据分工具有:八爪鱼、搜集客、火车采集器等
Python爬虫:Selenuim、lxml、Scrapy、phantomjs

2、数据挖掘
数据挖掘基本流程:
商业理解→数据理解→数据准备→模型建立→模型评估→上线发布

商业理解:从商业的角度理解项目需求,在此基础上对数据挖掘的目标进行定义
数据理解:尝试收集部分数据并对数据进行探索,包括数据描述、数据质量验证等
数据准备:开始收集数据,并对数据进行清洗和预处理等操作
模型建立:选择和应用各种数据挖掘模型并进行优化,以便得到最好的结果
模型评估:对模型进行评价,检查构建模型的每个步骤,确认模型是否实现了预定商业目标
上线发布:呈现的形式可以是一份报告,也可以是实现一个比较复杂的可重复的数据挖掘过程,如果是日常运营的一部分,后续的监控和维护也很重要

数据挖掘十大算法:
(1)分类算法:C4.5、朴素贝叶斯、SVM、KNN、Adaboost、CART
(2)聚类算法:K-means、EM
(3)关联分析:Apriori
(4)连接分析:PageRank

各个算法的基本介绍:
C4.5:是一种决策树算法,在构建决策树的过程中进行了剪枝,并可以处理连续的属性,也能对不完整的数据进行处理,是决策树分类中具有里程碑式意义的算法。

朴素贝叶斯(Naive Bayes):基于概率论的原理,思想:对于给出的未知物体进行分析,需要求解在这个未知物体出现的条件下各个类别出现的概率,哪个最大就认为未知物体属于哪一类。

SVM(Support Vector Machine):支持向量机,在训练中建立一个超平面的分类模型。

KNN(K-Nearest Neighbor):也叫K最近邻算法,所谓K近邻即每个样本都可以用它最接近的K个邻居来代表。

Adaboost:是构建分类器的提升算法,可以让多个弱分类器组合成一个强的分类器。

CART:代表分类和回归树(Classification and Regression Tree),它构建了两棵树,一棵树是分类树,一棵树是回归树,和C4.5一样,也是决策树学习方法。

K-means:是一种聚类算法,要把物体划分成K个类,每个类都有个簇中心,根据样本点到K个簇中心的距离来决定样本属于哪一个簇,并不断迭代直至簇中心点不变为止。

EM:最大期望算法,是求参数的最大似然估计的一种算法。

Apriori:是一种挖掘关联规则(association rules)的算法,通过挖掘频繁项集(frequent items set)来揭示物品之间的关联关系。

Page Rank:起源于论文影响力的计算方式,论文被引入的次数越多代表论文的影响力越大,被创造性地应用到网页权重计算中。

数据挖掘的数学原理:
(1)概率论与数理统计
(2)线性代数
(3)图论
(4)最优化方法

3、 数据可视化
数据可视化方法有两种
(1)使用Python:Matplotlib、seaborn
(2)第三方工具:微图、DataV、Data GIF Maker

你可能感兴趣的:(数据分析学习笔记)