数据挖掘基础

数据挖掘基础

1.1 某知名连锁餐饮企业的困惑

T餐饮公司:

  • 成立于1998年,具有一定知名度。
  • 公司员工1000多人,拥有16家直营分店,年营业额近亿元。
  • 旗下各分店坐落在繁华市区主干道,环境极佳,菜品精美,服务规范。

面临的问题:

随着原材料成本、人力成本和房租成本的上升,如何在保持产品质量的同时提高企业效率呢?

T餐饮通过加强信息化管理来提高效率,目前已上线的管理系统包括以下几个:

  • 客户关系管理系统
  • 前厅管理系统
  • 后厨管理系统
  • 财务管理系统
  • 物资管理系统

客户关系管理系统

该系统详细记录了每位客人的喜好,为顾客提供个性化的服务,满足客户的个性化需求。通过客户关怀,提高客户的忠诚度。

例如:企业能随时查询今天那位客人过生日或其他纪念日,根据客人的价值分类给予相应的关怀,如送鲜花、生日蛋糕、寿面、打折等。

通过本系统,还可以对客户行为进行深入分析,包括客户价值分析新客户分析与发展,并根据其价值情况将有关信息提供给管理者,为企业提供决策支持

前厅管理系统

该系统通过掌上电脑无线点在方式,改变了传统“饭店点菜、下单、结账,一支笔、一张纸,服务员来回跑”的局面,可以快速完成点菜过程。通过厨房自动传达信息,服务员不需要再手写点菜单,歇菜速度加快,同时传菜部也轻松不少,菜单会通过电脑自动打印出来,降低差错率,也不存在厨房人员看不清服务员字迹而出现错误的问题。

后厨管理系统

信息化技术可实现后厨与前厅无障碍沟通,客人菜单可瞬间传到厨房。服务员只需点击掌上电脑的发送键,客人的菜单即被传送到收银管理系统中,由系统的电脑发出指令,设在厨房等处的打印机立即打印出相应的菜单,然后初始按单做菜。与此同时,收银台也打印出一张同样的菜单放在客人桌上,作为客人查询及结账凭据,使客人清除消费明细。

财务管理系统

该系统完成销售统计、销售分析、财务审计,实现对日常经营销售的管理。通过报表,企业管理者很容易掌握前台的销售情况,从而实现对财务的控制。

通过表格和图形可现实餐厅的销售情况,如菜品排行榜、日客户流量、日销售收入分析等

数据挖掘基础_第1张图片

统计每天的出菜情况,可以了解哪些是滞销菜,哪些是畅销菜,从而了解顾客的品味,有针对性的制定出一套及时和餐饮企业发展又能迎合顾客品味的菜肴体系和定价策略。

物资管理系统

该系统主要完成对物资的进销存管理,实际上就是一套融采购(入库、供应商管理、账款管理)、销售(通过配菜卡与前台销售联动)、盘存为一体的物流管理系统。对于连锁企业,还涉及统一配送管理等。

数据挖掘基础_第2张图片

思考:

1)针对大量历史数据,有没有一种方法可以帮助企业中从这些数据中洞察商机,提升价值呢?

2)在当前市场竞争中,如何找到以前不存在的“漏”和“缺”?

1.2 从餐饮服务到数据挖掘

企业经营的目的: 盈利

餐饮企业盈利的核心:菜品和顾客(产品和服务对象)

  • 推出什么样的菜系和种类会吸引更多的用户呢?
  • 顾客的喜好是什么呢?
  • 不同时段是不是有不同的菜品畅销呢?
  • 几种不同的菜品组合在一起推出时是不是能够得到更好的效果?
  • 未来一段时间内菜品原材料应该采购多少?
  • ……

经验:

1)在点餐过程中,由有经验的服务员根据顾客特点进行菜品推荐,一方面可以提高菜品的销量,另一方面可以减少顾客点餐的时间和频率,提升用户体验。

2)根据菜品历史销售情况,综合考虑节假日、气候和竞争对手等影响因素,对菜品销售量进行预测,以便于餐饮企业提前准备原材料。

3)定期对菜品销售情况进行统计,分类统计出好评菜和差评菜,为促销活动和新菜品推出提供支持。

4)根据就餐频率和消费金额对顾客的就餐行为进行评分,筛选出优质客户,定期回访并送去关怀。

对业务数据极为熟悉、有很强的数据分析能力、有一定的决策能力,且需要花费大量的时间和精力。

数据挖掘基础_第3张图片

如果有一套工具或系统,能够从业务数据中自动或半自动地发现相关的知识和解决方案,能够极大的提高企业的决策水平和竞争能力。

从数据中“淘金”,从大量数据(包括文本)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程,就是数据挖掘

数据挖掘是利用各种分析工具在大量数据中寻找规律和发现模型与数据之间关系的过程,是统计学、数据库技术和人工智能技术的综合。

这种分析方法可避免“人治”的随意性,避免企业管理仅依赖个人领导力而带来的风险和不确定性,从而实现精细化营销和经营管理。

数据挖掘基础_第4张图片

数据挖掘基础_第5张图片

为什么经典数学方法论不能满足新的需求?商业观点

  • 业务中产生了大量的数据,这些数据存储在业务系统中却不能创造价值
    • 客户信息数据、客户交易行为数据、客户反馈数据
    • 网络数据、…
  • 计算机变得越来越便宜,功能越来越强大,值得对其能力做充分应用
  • 商业竞争越来越激烈,对客户了解越多就意味着机会越大
    • 沉积下来的数据中蕴涵着客户的宝贵信息

为什么出现了数据挖掘?技术观点

业务中的数据量呈现指数增长(GB/小时)

  • 传统技术难以从这些大量数据中发现有价值的规律
  • 数据挖掘可以帮助我们从大量数据中发现有价值的规律
    • 在数据中发现有价值的规则或者模式

什么是数据挖掘?

技术角度

• 利用一种或多种计算机学习技术,从数据中自动分析并提取信息的处理过程。

• 目的是寻找和发现数据中潜在的有价值的信息、知识、规律、联系和模式。

• 数据挖掘与计算机科学有关,一般使用机器学习、统计学、联机分析处理、专家系统和模式识别等多种方法来实现。

学科角度

• 数据挖掘是一门交叉学科,涉及数据库技术、人工智能技术、统计学、可视化技术、并行计算等多种技术。

商业角度

• 商业智能信息处理技术;

• 围绕商业目标开展的,对大量商业数据进行抽取、转换、分析和处理,从中提取辅助商业决策的关键性数据,揭示隐藏的、未知的或验证已知的规律性,是一种深层次的商业数据分析方法

1.3 数据挖掘的基本任务

数据挖掘的基本任务包括:利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。

分类:

数据挖掘基础_第6张图片

预测(回归):

数据挖掘基础_第7张图片

聚类分析

数据挖掘基础_第8张图片

关联规则

数据挖掘基础_第9张图片

时序模式

数据挖掘基础_第10张图片

偏差检测

数据挖掘基础_第11张图片

智能推荐

数据挖掘基础_第12张图片

对餐饮企业而言,数据挖掘的基本任务是从餐饮企业采集各类菜品销售、成本单价、会员消费、促销活动等内部数据,以及天气、节假日、竞争对手及周边商业氛围等外部数据,之后利用数据分析手段,实现菜品智能推荐、促销效果分析、顾客价值分析、新店选点优化、热销/滞销菜品分析和销量趋势预测,然后将这些分析结果推送给餐饮企业管理者及有关服务人员,为餐饮企业降低运营成本、提升盈利能力、实现精准营销、策划促销活动等提供智能服务支持。

1.4 数据挖掘建模过程

数据挖掘基础_第13张图片

1、定义挖掘目标

针对具体的数据挖掘应用需求,首先要明确本次的挖掘目标是什么?系统完成后能够达到什么样的效果。

必须分析应用领域(应用中的各种知识和应用目标),了解相关领域的有关情况,熟悉背景知识,弄清用户需求。

目标越明确、需求越清晰,数据挖掘成功率越高。

针对T餐饮的数据挖掘应用,可定义如下的挖掘目标:

1)实现动态菜品智能推荐,帮助顾客快速发现自己感兴趣的菜品,同时确保推荐给顾客的菜品也是餐饮企业期望顾客消费的菜品,实现餐饮消费者和餐饮企业的双赢。

2)对餐饮客户进行细分,了解不同客户的贡献度和消费特征,分析哪些客户是最有价值的、那些是最需要关注的,对不同价值的客户采取不同的营销策略,将有限的资源通放到最有价值的客户身上,实现精准化营销。

3)基于菜品历史销售情况,综合考虑节假日、气候和竞争对手等影响因素,对菜品销量进行趋势预测,方便餐饮企业准备原材料。

4)基于餐饮大数据,优化新店选址,并对新店潜在顾客的口味偏好进行分析,以便及时进行菜式调整。

2、数据采集(数据取样)

明确目标后,就需要从业务系统中采集数据,并从中抽取一个与挖掘目标相关的样本数据子集。

提问:为什么不是动用全部数据呢?

通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而且是我们想要寻找的规律能更好的突显出来。

抽取数据的标准:相关性、可靠性、有效性

• 可靠性:侧重保证数据质量

• 衡量取样数据质量的标准包括:资料完整无缺,各类指标项齐全;数据准确无误,放映的都是正常状态下的水平。

常见的抽样方法

1)随机抽样:在采用随机抽样方式时,数据集中的每一组观测值都有相同的被抽取的概率。如按10%的比例对一个数据集进行随机抽象,则每一组观测值都有10%的机会被取到。

例如:0-99,共100个观测值

随机抽样:1 、2 、3、 4 、5 、6 、7、 8、 9、 10

1、22、45、56、58、66、34、35、99、8

2)等距抽样:它首先将总体中各观测值按一定顺序排列,根据样本容量要求确定抽选间隔,然后随机确定七点,每个一定的间隔取一个观测值的抽样方式。

例如:0-99,共100个观测值,取10%的数据

等距抽样:0、10、20、30、40、50、60、70、80、90

1、11、21、31、41、51、61、71、81、91

3)分层抽样:在这种抽样操作中,首先将样本总体分成若干层次(或者说分成若干个子集)。每个层次中的观测值都具有相同的被选用的概率,但对不同的层次可以设定不同的概率。这样的抽样结果通常更具有代表性,进而是模型具有更好的拟合精度。

例如:0-99,共100个观测值。

{0-19} 70%的概率,{20-79} 20%的概率,{80-99}10%的概率

分层抽样:1、3、14、5、10、 12、9、34、70、96

注意:上述的抽样方法不考虑抽取样本的具体取值。

4)分类抽样:依据某种属性的取值来选择数据子集,如按客户名称分类、按地址区域分类等。分类抽样的选取方法就是前面所述的几种方式,只是抽样以类为单位

基于T餐饮公司的数据挖掘目标,从众多信息管理系统中抽取用于建模和分析的餐饮数据主要包括:

  • 餐饮企业信息:名称、位置、规模、联系方式、部门、人员以及角色等
  • 餐饮客户信息:姓名、联系方式、消费时间、消费金额等
  • 餐饮企业菜品信息:菜品名称、菜品单价、菜品成本、所属部分等
  • 菜品销量数据:菜品名称、销售日期、销售金额、销售份数。
  • 原材料供应商资料及商品数据:供应商姓名、联系方式、商品名称、客户评价信息
  • 促销活动数据:促销日期、促销内容以及促销描述
  • 外部数据:天气、节假日、竞争对手及周边商业氛围等数据

3、数据整理

数据整理的目的是保证样本数据的质量,从而为保证模型质量打下基础。

常见的数据整理操作:

数据探索

当我们拿到一个样本数据集后,它是否达到我们原来设想的要求、其中有没有什么明显的规律和趋势、有没有出现从未设想过的数据状态、属性之间有什么相关性、它们可分成怎样的类别?等等。

数据探索主要包括:异常值分析、缺失值分析、相关性分析、周期性分析

数据预处理

  • 数据清洗:该操作指对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。
  • 数据集成:将多个数据源合并存放在一个一致的数据存储位置的过程。
  • 数据变换:通过函数处理将数据变换到指定范围内。
  • 数据归约:数据归约产生更小且保持元数据完整性的新数据集,提高数据挖掘效率。

数据挖掘基础_第14张图片

针对采集的餐饮数据,数据预处理主要包括数据筛选、数据变量变换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据规约等。

4、挖掘建模(核心环节)

数据挖掘通常分为:

  • 分类与预测
  • 聚类
  • 关联规则
  • 时序模型
  • 异常检测
  • 智能推荐

考虑:本次建模属于数据挖掘应用中的哪类问题?选用哪种算法进行模型构建呢?

针对T餐饮的数据挖掘应用,挖掘建模主要包括:

基于分类与预测算法的菜品销量预测

模型构建是对菜品历史销量,综合考虑节假日、气候和竞争对手等采用数据轨迹的概括,它反映的是采样数据内部结构的一般特征,并与该采样数据的具体结构基本吻合。模型的具体化就是菜品销售预测公式,公式可以产生与观察值有相似结构的输出,这就是预测值。

y=a*x1+b*x2+c*x3+d*x4+e

基于聚类算法的餐饮客户价值分析

数据挖掘基础_第15张图片

数据挖掘基础_第16张图片

• 分群1的特点:R间隔相对较大,间隔分布在30-80天,消费次数集中在0-15次;消费金额在0-2000元。

• 分群2的特点:R间隔相对较小,主要集中在0-30天;消费次数集中在10-25次;消费金额在500-2000元。

• 分群3的特点:R间隔分布在0-30天;消费次数集中在0-12次;消费金额在0-1800元

• 对比分析:分群1时间间隔较长,消费次数较少,消费金额也不是特别高,是价值较低的客户群体。分群2时间间隔较短,消费次数较多,而且消费金额较大,是高消费高价值人群。分群3时间间隔、消费次数和消费金额处于中等水平,代表一般客户。

基于关联规则算法的动态菜品智能推荐

顾客同时点“香煎葱油饼”和“翡翠蒸香茜饺”的概率为30%, 而顾客先点了“翡翠蒸香茜饺”再点“香煎葱油饼”的概率为100%。

1.5 常用数据挖掘建模工具

数据挖掘是一个反复探索的过程,只有将

数据挖掘工具提供的技术和实施经验与企业的业务逻辑和需求紧密结合,并在实施过程中不断磨合,才能取得好的结果。

选择自己一个或多个数据挖掘工具,将其充分掌握。

常用的数据挖掘工具

1)SAS Enterprise Miner

2)IBM SPSS Modeler

3)SQL Server

4)R

5)Matlab

6)Python:Numpy、Scipy、matplotlib、Pandas、Statsmodels、Scikit-learn

快速数组处理、数值运算、绘图、数据分析、统计建模分析以及数据挖掘相关算法

7)TipDM

8)WEKA

9)KNIME

10)RapidMimer(YALE)

补充资料—更多工具和平台

https://tianchi.aliyun.com/competition/gameList/coupleList

https://aistudio.baidu.com/aistudio/competition?ad-from=m5

http://www.dcjingsai.com/static_page/host/index.html

企业自办平台

天池大数据竞赛:天池大数据竞赛是由阿里巴巴主办,面向全球新生代力量的高端算法竞赛。通过开放海量数据和“天池”分布式计算平台,大赛让所有参与者有机会运用其设计的算法解决各类社会生活问题和商业世界中的实际问题。

京东JDATA:**京东JDATA是京东旗下一个智汇平台,平台提供了大数据竞赛、在线的数据分析处理工具以及数据科学社区。这个平台的赛题来自京东主办的JDATA算法大赛,赛题方向主要是偏电商物流、生活应用类。

独立数据竞赛平台

Biendata:是北京数竞科技有限公司创办的一个人工智能竞赛平台,用户可通过该平台报名并参加人工智能领域各类赛事。

DataFountain:是北京数联众创科技有限公司旗下品牌,是国内领先的数据竞赛服务平台和数据智能协同创新平台,旨在围绕协作、数据、知识、技能形成大数据爱好者的专业成长链路。

Heywhale和鲸:是中国第三方数据科学社区之一,专注于大数据算法比赛,拥有近20万注册数据科学家用户。

FlyAI:是北京智能工场科技有限公司旗下为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台,每周免费提供项目开源算法样例,支持算法能力变现以及快速的迭代算法模型。

京数竞科技有限公司创办的一个人工智能竞赛平台,用户可通过该平台报名并参加人工智能领域各类赛事。

DataFountain:是北京数联众创科技有限公司旗下品牌,是国内领先的数据竞赛服务平台和数据智能协同创新平台,旨在围绕协作、数据、知识、技能形成大数据爱好者的专业成长链路。

Heywhale和鲸:是中国第三方数据科学社区之一,专注于大数据算法比赛,拥有近20万注册数据科学家用户。

FlyAI:是北京智能工场科技有限公司旗下为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台,每周免费提供项目开源算法样例,支持算法能力变现以及快速的迭代算法模型。

DataCastle数据城堡:DataCastle数据科学学习社区隶属于成都数聚城堡科技有限公司,是由电子科技大学周涛教授创建的数据极客圈,聚集了全球数据精英、领先的数据科学思维与智慧以及各行业领域优质数据资源。

你可能感兴趣的:(#,数据挖掘与可视化,数据挖掘,大数据,数据库)