数据挖掘是从庞大的数据集中寻找潜在有用模式的过程。它是一种多学科技能,使用机器学习,统计学和AI来提取信息以评估未来事件的概率。从数据挖掘中获得的见解用于营销,欺诈检测,科学发现等。
数据挖掘就是要发现数据之间隐藏的、未被怀疑的、以前未知但有效的关系。数据挖掘也称为数据中的知识发现(KDD),知识提取,数据/模式分析,信息收集等。
可以对以下类型的数据执行数据挖掘
数据挖掘实施过程
让我们详细研究一下数据挖掘实施过程
在此阶段,将建立业务和数据挖掘目标。
在此阶段,将对数据执行健全性检查,以检查其是否适合数据挖掘目标。
在此阶段,数据已准备好生产。
数据准备过程消耗了大约 90% 的项目时间。
应选择、清理、转换、格式化、匿名和构造来自不同来源的数据(如果需要)。
数据清理是通过平滑噪声数据和填充缺失值来“清理”数据的过程。
例如,对于客户人口统计资料,缺少年龄数据。数据不完整,应填写。在某些情况下,可能存在数据异常值。例如,age 的值为 300。数据可能不一致。例如,客户的名称在不同的表中是不同的。
数据转换操作更改数据以使其在数据挖掘中有用。可以应用以下转换
数据转换操作将有助于挖掘过程的成功。
平滑:它有助于消除数据中的噪声。
集合体:汇总或聚合操作将应用于数据。即,将每周销售数据汇总以计算每月和每年的总计。
普遍化:在此步骤中,在概念层次结构的帮助下,低级数据被高级概念取代。例如,城市被县取代。
正常化:在属性数据纵向扩展或缩减时执行规范化。示例:数据应在规范化后介于 -2.0 到 2.0 之间。
属性构造:这些属性是构造的,并包含有助于数据挖掘的给定属性集。
此过程的结果是可用于建模的最终数据集。
在此阶段,使用数学模型来确定数据模式。
在此阶段,根据业务目标评估所标识的模式。
在部署阶段,您可以将数据挖掘发现发布到日常业务运营中。
数据挖掘技术
此分析用于检索有关数据和元数据的重要和相关信息。此数据挖掘方法有助于对不同类中的数据进行分类。
聚类分析是一种数据挖掘技术,用于识别彼此相似的数据。此过程有助于了解数据之间的差异和相似之处。
回归分析是识别和分析变量之间关系的数据挖掘方法。它用于在给定其他变量存在的情况下识别特定变量的可能性。
此数据挖掘技术有助于查找两个或多个项之间的关联。它在数据集中发现隐藏的模式。
这种类型的数据挖掘技术是指观察数据集中与预期模式或预期行为不匹配的数据项。该技术可用于各种领域,例如入侵,检测,欺诈或故障检测等。外部检测也称为异常值分析或异常值挖掘。
这种数据挖掘技术有助于发现或识别特定时期内交易数据中的类似模式或趋势。
预测使用了其他数据挖掘技术的组合,如趋势,顺序模式,聚类,分类等。它以正确的顺序分析过去的事件或实例,以预测未来的事件。
现在,在此数据挖掘课程中,让我们通过示例了解数据挖掘:
示例 1:
考虑一下电信服务供应商的营销主管,他希望增加长途服务的收入。为了在他的销售和营销工作中获得高投资回报率,客户分析非常重要。他拥有庞大的客户信息数据库,如年龄,性别,收入,信用记录等。但是,通过手动分析无法确定喜欢长途电话的人的特征。使用数据挖掘技术,他可以发现高长途呼叫用户之间的模式及其特征。
例如,他可能会了解到,他最好的客户是年龄在45至54岁之间的已婚女性,她们的年收入超过8万美元。营销工作可以针对此类人群。
示例 2:
一家银行希望寻找新的方法来增加其信用卡业务的收入。他们想检查如果费用减半,使用量是否会翻倍。
银行在平均信用卡余额,付款金额,信用额度使用情况和其他关键参数方面有多年的记录。他们创建一个模型来检查建议的新业务策略的影响。数据结果显示,将目标客户群的费用减半可以增加1000万美元的收入。
以下是工业中广泛使用的2种流行的数据挖掘工具
R 语言:
R语言是用于统计计算和图形的开源工具。R具有各种统计,经典统计测试,时间序列分析,分类和图形技术。它提供了有效的数据处理和存储设施。
在此处了解更多信息
甲骨文数据挖掘:
Oracle Data Mining俗称ODM是Oracle高级分析数据库的一个模块。此数据挖掘工具允许数据分析师生成详细的见解并进行预测。它有助于预测客户行为,开发客户档案,识别交叉销售机会。
应用 | 用法 |
---|---|
通信 | 数据挖掘技术用于通信部门,以预测客户行为,以提供高度针对性和相关的活动。 |
保险 | 数据挖掘帮助保险公司对其产品进行有利可图的定价,并向新客户或现有客户推广新产品。 |
教育 | 数据挖掘使教育工作者能够访问学生数据,预测成就水平并找到需要额外关注的学生或学生群体。例如,数学科目薄弱的学生。 |
制造业 | 在数据挖掘的帮助下,制造商可以预测生产资产的磨损。他们可以预测维护,这有助于他们减少维护,从而最大限度地减少停机时间。 |
银行业 | 数据挖掘有助于金融部门了解市场风险并管理法规遵从性。它有助于银行识别可能的违约者,以决定是否发行信用卡,贷款等。 |
零售 | 数据挖掘技术可帮助零售商场和杂货店在最专注的位置识别和安排最畅销的物品。它可以帮助店主提出鼓励客户增加支出的优惠。 |
服务供应商 | 移动电话和公用事业行业等服务提供商使用数据挖掘来预测客户离开公司的原因。他们分析账单细节,客户服务互动,向公司提出的投诉,为每个客户分配概率分数并提供奖励。 |
电子商务 | 电子商务网站使用数据挖掘通过其网站提供交叉销售和追加销售。最着名的名称之一是亚马逊,他们使用数据挖掘技术让更多客户进入他们的电子商务商店。 |
超市 | 数据挖掘允许超市的制定规则来预测他们的购物者是否可能期待。通过评估他们的购买模式,他们可以找到最有可能怀孕的女性顾客。他们可以开始定位婴儿爽身粉,婴儿用品店,尿布等产品。 |
犯罪调查 | 数据挖掘帮助犯罪调查机构部署警察队伍(犯罪最有可能发生的地方和时间?),在边境口岸搜索谁等。 |
生物信息学 | 数据挖掘有助于从生物学和医学中收集的大量数据集中挖掘生物数据。 |