py作为数据分析工具

    首先提出问题,根据数据凭借已有经验选择合适方法,(调查问卷用exel,SQL稍微大,更大用多普集群),数据来源。

数据分析范围很大

    数据检验,假设检验(数据分布和缺失值),自动化需求有监控报表。


py作为数据分析工具_第1张图片

ETL抓取数据  分析假设检验  预测建模(分析不同因子在模型中的重要性)  可视化模型

反馈回到提出问题的阶段

(敏捷开发)通过快速迭代得到更好地结果       

数据分析任务 1 数据获取ETL 2数据处理类: 交互可视化,信息汇总 量的产生,机器学习,假设检验 3后期自动化:后来对分析进行自动化:1自动可视化2 自动建模和假设检验 ;对数据平台的监控


py作为数据分析工具_第2张图片

最后一点 自动化的报告 而非手动


py作为数据分析工具_第3张图片

R有点错过了分布式计算的洪流

2012的数据科学家的问题:


py作为数据分析工具_第4张图片

1:后期参与决策,数据科学家没有参加,改不了;

2:自动化程度低,实际应用低


2017:

py作为数据分析工具_第5张图片

大公司不怎么做模型,而是做周围的产品,比如在云平台部署(如上图的工具特点)


py作为数据分析工具_第6张图片



py作为数据分析工具_第7张图片
py作为数据分析工具_第8张图片

三块五的表(笑哭)


py作为数据分析工具_第9张图片

数据提取:

SQL对不规则的,文本不方便  R:要安装包,麻烦  Py一个包解决 

数据预处理:

R Py给操作人员自由度

可视化:

很大数据要在服务器端进行,而不在内存里,再在可视化,ELK平台好点,平常的话炸服务器

实战部署:

SQL有数据库就不用部署了。R生态有不同软件包等等所以很麻烦。

问卷:

有大的平台支持了,很简单入手了,很完备,但是自由度不大,虽然对各个方面很细。


1  前期处理类:SQL R Py,自动化比较少,但交互式强;2  全站处理类:不适合交互式分析,或只是常见场景

流程:前期用交互性强的初期分析,后期结果要自动化再用自动化工具简化流程

R Py生态,前期二选一,成熟后用全站的工具自动化



py作为数据分析工具_第10张图片


py作为数据分析工具_第11张图片

R里的包 生物信息学里重要的包:billconnector?  R有太多小众的统计包,写法可能都不一样

Py 使用一下的通用软件包就行了


py作为数据分析工具_第12张图片
py作为数据分析工具_第13张图片

第四个:数据读取汇总  5  监督非监督式 


py作为数据分析工具_第14张图片
fit和pridict函数训练和预测

py的借口标准化可移植


py作为数据分析工具_第15张图片

你可能感兴趣的:(py作为数据分析工具)