数据分析: 用适当的统计分析方法对收集来的大量数据进行详细研究和概括总结,以求最大化地发挥数据的作用,提取有用信息和形成结论
数据挖掘: 从大量数据中通过算法搜索隐藏于其中信息的过程.
数据分析的三大作用:现状分析、原因分析、预测分析。
1. 明确目的与思路:先决条件、提供方向
2. 数据收集:数据库、其他媒介(使用爬虫, 网站下载)
3. 数据处理:清洗、转化、提取、计算(保留原始数据)
4. 数据分析:统计分析、数据挖掘(找规律)
5. 数据展现(建模):图表->表格->文字
6. 报告撰写:框架清晰、明确结论、提出建议
1.分析目的不明确,为分析而分析。
2.缺乏业务知识,分析结果偏离实际:数据分析师的任务不是单纯做数学题,数据分析师还必须懂营销,懂管理,更要懂策略。
3.一味追求使用高级分析方法,热衷研究模型。
懂业务,懂管理,懂分析,懂工具,还要懂设计。
基本的分析方法有:对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析法等;高级的分析方法有:相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列等。
懂工具中,常用的数据分析工具有Excel、Access、SPSS、SAS,先学会用Excel,它能解决80%甚至100%的问题。
懂设计中,图表的设计是大学问,如图形的选择、版式的设计、颜色的搭配等,都需要掌握一定的设计原则
平均数
绝对数(总数)
相对数(倍数、百分数、番数(2n))
频数(重复出现次数)/ 频率(频数占总数比值)
同比(2011年9月/2010年9月)、环比(2011年9月/2011年8月)
Numpy 可以高效处理数据,提供数组支持,很多模块都依赖它,比如,pandas,scipy,matplotlib都依赖它
pandas 主要用于进行数据探索和数据分析
matplotlib 作图模块, 可视化处理 主要开发2D图表,百度echart
scipy 主要进行数值计算, 支持矩阵运算, 提供了很多高等数学等数据处理功能
statsmodels 主要用于统计分析
Gensim 主要用于文本挖掘
sklearn , keras 前者机器学习, 后者深度学习
虚拟环境中: mkvirtualenv -p /user/local/bin/python3 ai
matplotlib==2.2.2
numpy==1.14.2
pandas==0.20.3
TA-Lib==0.4.16
tables==3.4.2
jupyter==1.0.0
使用pip命令安装
pip install -r requirements.txt
Ta-Lib安装会出现问题,需要先安装依赖库,按照以下步骤安装:
# 获取源码库
sudo wget http://prdownloads.sourceforge.net/ta-lib/ta-lib-0.4.0-src.tar.gz# 解压进入目录
tar -zxvf ta-lib-0.4.0-src.tar.gz
cd ta-lib/# 编译安装
sudo ./configure --prefix=/usr
sudo make
sudo make install# 重新安装python的TA-Lib库
pip install TA-Lib
或者一键式安装:
Windows:Anaconda3-5.0.1-Windows-x86_64.exe
Linux: Anaconda3-5.1.0-Linux-x86_64.sh 脚本直接安装
Mac:Anaconda3-5.1.0-MacOSX-x86_64.pkg 双击安装
这里选择使用jupyter Notebook
是IPython的加强网页版,一个开源Web应用程序
是一款程序员和科学工作者的编程/文档/笔记/展示软件
.ipynb文件格式是用于计算型叙述的JSON文档格式的正式规范
传统软件开发:工程/目标明确
需求分析,设计架构,开发模块,测试
数据挖掘:艺术/目标不明确
目的是具体的洞察目标,而不是机械的完成任务
通过执行代码来理解问题
迭代式地改进代码来改进解决方法