《Python数据分析与挖掘实战》张良均,第一章学习笔记

第一章从餐饮行业来引出数据挖掘

【有问题或错误,请私信我将及时改正;借鉴文章标明出处,谢谢】

刚开始讲到了T餐饮企业的管理系统(5个管理系统),因为多方面管理系统加强了此企业的信息化管理,提高了工作效率,但是积累的这些大量的历史数据中提取有用的数据需要大量的精力,人力,更重要的是时间上的浪费,在企业的竞争中优胜劣汰,物竞天择,导致最终企业倒闭。

那能不能让电脑来解决数据,挖掘有用的数据最后自动分析,从而从数据上提出方案减低企业运营成本、增加盈利能力、实现精准营销、策划促销活动等。从而引出数据挖掘,那企业得到的数据存放问题呢,从而又引出了"分布式数据库"。那数据存放地有了,不光要弃糟粕,还要吸取精华,实现企业的多样化资源(例如菜品),网络资源上相关的爬取,这就引出了“爬虫技术”。进一步丰富就有了:数据采集(爬虫技术)—>数据预处理(预处理技术)—>数据存储(分布式数据库)—>数据分析挖掘(数据分析与挖掘)—>数据可视化(可视化技术),大数据就这样运用于了生活中,大数据的时代。

从餐饮企业经营过程中存在的困惑,引出了数据挖掘的基本任务、建模过程及常用工具,下面进行简单阐述。

1.数据挖掘的基本任务:
分类与预测、聚类分析、关联规则、时序模型、偏差检测、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力

2.数据挖掘建模的基本过程:
定义挖掘目标、数据采样、数据探索、数据预处理、挖掘建模、模型评价

1>怎样定义挖掘目标:
先分析应用领域,包括应用中的各种知识和应用目标,了解相关的领域情况,熟悉背景知识,弄清用户需求,决定好到底想干什么

2>数据取样中学习如何进行数据取样?衡量数据取样的标准是什么?
①一是相关性,二是可靠性,三是有效性,而不是动用全部企业数据
②衡量数据取量的标准是:资料完整无缺,各类指标项齐全;数据准确无误,反映的都是正常(而不是异常)状态下的水平
③数据取样的具体方式有:随机抽样、等距抽样、分层抽样、从起始顺序抽样、分类抽样

3>数据探索的含义:
拿到一个样本数据集后,看他是否达到我们原来设想的要求;样本中有没有什么明显的规律和趋势;有没有出现从未设想过的数据状态;属性之间有什么相关性;他们可区分成怎样一些类别,这就是数据探索的内容

数据探索的具体方法有:
异常值分析、缺失值分析、相关分析和周期性分析等

4>数据预处理主要包括:
数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据归约等

为什么必须进行数据预处理?
因为采集的数据中常常包含有噪声、不完整、甚至不一致的数据,改善数据质量以此最终达到完善最终数据挖掘结果的目的。

5>挖掘建模主要包括基于关联规则算法的动态菜品智能推荐、基于聚类算法的餐饮客户价值分析、基于分类与预测算法的菜品销售预测、基于整体优化的新店选址。
以菜品销量预测为例,模型构建是对菜品历史销量,是综合考虑了节假日、气候和竞争对手等采样数据轨迹的概括,他反应的是采样数据内部结构的一般特征,并与该采样数据的具体结构基本吻合。模型具体化就是菜品销量预测公式,公式可以产生与观察值有相似结构的输出,这就是预测值

6>模型评价就是建模过程中会得到一系列的分析结果,从模型中自动找出一个最好的模型,另外就是要根据业务对模型进行解释和应用

3.数据挖掘建模的工具:

1>Python具备强大的科学及工程计算能力,它具有以矩阵计算为基础的强大数学计算能力和分析功 能,而且还具有丰富的可视化图形表现功能和方便的程序设计能力。Python并不提供一个专门的数据挖掘环境 ,但是它提供非常多的相关算法的实现函数,是学习和开发数据挖掘算法的很好选择。

2>Enterprise Mincr(EM)是SAS推出的一个集成的数据挖掘系统,允许使用和比较不同的技术。同时还集成了复杂的数据库管理软件 。它的运行方式是通过在一个工作空间 (workspace)中按照一定的顺序添加各种可以实现不同功能的节点,然后对不同节点进行相 应的设置,最后运行整个工作流程(workflow),便可以得到相应的结果。

3>IBM SPSS Modeler,它封装最先进的统计学和数据挖掘技术来获得预测知识,并将相应的决策方案部署到现有的业务系统和业务过程中,从而提高企业的效益。IBM SPSS Modeler拥有直观的操作界面,自动化的数据准备和成熟的预测分析模切,结合商业技术外以快速建立预测性模型。

4>SQL Server 中集成广数挖掘组件—Analysis Servers,借助 SQL Server的数据库管理功能,可以无缝地集成在SQL Server数据库中。在SQL Server 2008中提供了决策树货法、聚类分析W法、Naive Bayes 法、关联规则算法、时序算法、神经网络算法、线性回归算法等9种常用的数据挖掘算法。但是,预测建模的实现是基于SQL Server平台的,平台移植性相对较差。

5>WEKA ( Waikato Environment for Knowledge Analysis),高级用户可以通过Java编程和命令行来调用其分析组件。WBKA为普通用户提供了图形化界面,称为WEKA Knowledge Flow Environment和WEKA Explorer, 可以实现预处理、分类、聚类、关联规则、文本挖掘、可视化等。

6>ICNIME 是基于Java开发的,可以扩展使用Weka中的挖掘算法。KNIME采用类似数据流(data flow)的方式来建立分析挖掘流程。挖掘流程由一系列功能节点组成,每个节点符输入/输出端口,用于接收数据或模型,导出结果。

7>RapidMiner 也称为 YALE,提供图形化界面,采用类似Windows资源管理器中的树状结构来组织分析组件,树上每个节点 表示不同的运算符(operator)。YALE中提供了大量的运算符,包括数据处理、变换、探索、建模、评估等各个环节。YALE是用Java开发的,基于Weka来构造,可以调用Weka中的各种分析组件。RapidMiner拓展的套件Radoop,可以和Hadoop集成起来,在Hadoop集群上运行任务。

8>TipDM (顶尖数据挖掘平台)使用Java语言开发,能从各种数据源获取数据,建立多种数椐挖掘模型。TipDM目前已集成数十种预测算法和分析技术,基本覆盖了国外主流挖掘系统支持的算法。TipDM支持数据挖掘流程所需的主要过程:数据探索(相关性分析、主成分 分析、周期性分析);数据预处理(属性选择、特征提取、坏数据处理、空值处理);预测建模(参数设置、交叉验证、模型训练、模型验证、模型预测)聚类分析、关联规则挖掘等一系列功能。

在今后的几章节中我们重点学习Python数据分析工具、数据探索、数据预处理、挖掘建模这几个板块

从第一章中总结,数据挖掘作用就是,能够从数据中自动或半自动地发现有用数据,相关知识和解决方案,应用到生活极大的提高企业的决策水平和竞争能力,帮助企业提取数据中蕴含的商业价值,减少人力,物力,财力等等没有必要的开支。

【有问题或错误,请私信我将及时改正;借鉴文章标明出处,谢谢】

你可能感兴趣的:(数据分析与挖掘)