E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数据挖掘导论
《
数据挖掘导论
》笔记:Chapter 2-- Data
第二章讨论的主要内容:数据类型(thetypeofdata)数据质量(thequalityofdata)数据预处理(prepocessingstepstomakethedatasuitablefordatamining)分析数据间关系(anlayzingdataintermsofitsrelationship)============================================
??Irene
·
2020-08-25 06:32
数据挖掘
UserCF算法 - 改进用户相似度计算
但如果两个用户都买过《
数据挖掘导论
》,那可以认为他们的兴趣比较相似,因为只有研究数据挖掘的人才会买这本书。换句话说,两个用户对冷门物品采取过同样的行为更能说明他们兴趣的相似度。
oucpowerman
·
2020-08-24 15:11
推荐系统
数据挖掘笔记 - 支持向量机基础
参考文献《
数据挖掘导论
》5.5支持向量机一、支持向量机简介本文中支持向量机的理论推导止于凸优化,至于是如何求解凸优化问题的请参阅其他文章。
另外半个肖恩
·
2020-08-24 02:50
【BitTiger读书会】·第二期《
数据挖掘导论
》
接下来四月份的读书活动,我们将以数据为主题,和大家分享《
数据挖掘导论
》,《Recom
线上读书会
·
2020-08-23 12:39
数据挖掘导论
(一):数据挖掘的定义,方法,用途
什么是数据挖掘数据挖掘是在大型数据存储库中,自动地发现有用的信息的过程。(一)发现先前未知的有用模式(二)预测未来的观测结果知识发现:数据挖掘是数据库中知识发现不可缺少的一部分,而知识发现是将未加工的数据转换为有用信息的整个过程。知识发现(KDD)过程数据挖掘要解决的问题可伸缩:需要有能力处理海量数据问题高维性:需要很好的处理维灾难问题异种数据和复杂数据:需要考虑数据对象的复杂性和多样性非传统的分
不加冰可乐
·
2020-08-23 08:15
自学笔记
推荐系统系列之隐语义模型
假设用户A喜欢《
数据挖掘导论
》,用户B喜欢《三个火枪手》,现在小编要对用户A和用户B推荐其他书籍。
大数据星球-浪尖
·
2020-08-21 21:34
《
数据挖掘导论
》学习笔记-离散化
什么是离散化:连续属性的离散化就是将连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数值代表落在每个子区间中的属性值。为什么要离散化连续属性离散化的目的是为了简化数据结构,数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具。常见的正态假设是连续变量,离散化减少了对于分布假设的依赖性,因此离散数据有时更有效。离散化的技术根据数据是否包含类别信息可以把
oo笨小孩oo
·
2020-08-11 03:56
《数据挖掘导论》学习笔记
《
数据挖掘导论
》 - 读书笔记(5) - 分类:基本概念、决策树与模型评估 [2016-8-21]...
第4章分类:基本概念、决策树与模型评估分类任务就是确定对象属于哪个预定义的目标类。分类问题是一个普遍存在的问题,有许多不同的应用。例如:根据电子邮件的标题和内容检查出垃圾邮件,根据核磁共振扫描的结果区分肿瘤是恶性的还是良性的,根据星系的形状对它们进行分析。本章介绍分类的基本概念,讨论诸如模型的过分拟合等关键问题,并提供评估和比较分类技术性能的方法。尽管本章主要关注一种称作决策树归纳的技术,但是本章
weixin_30907935
·
2020-08-07 20:06
FP增长树学习笔记
FP增长树学习笔记此笔记参考书籍为
数据挖掘导论
1.FP树表示法FP树是一种输入数据的压缩表示,它将每个事务映射到FP树的一条路径来构造。
weq27
·
2020-08-02 14:27
数据挖掘
《
数据挖掘导论
》学习
《
数据挖掘导论
》笔记第一章1、数据挖掘是什么数据挖掘时在大型数据存储苦衷,自动地发现有用信息的过程。
繁星不尽月不休
·
2020-08-01 07:06
读书笔记
数据挖掘导论
学习笔记(一)
第一章绪论数据挖掘:在大型数据存储库中,自动的发现有用信息的过程。数据库中知识发现过程(KDD):输入数据—>数据预处理---->数据挖掘---->后处理---->信息数据预处理:特征选择,维规约,规范集,选择数据子集后处理:模式过滤,可视化,模式表示数据挖掘任务分为两大类:(1)预测任务:根据其他属性的值,预测特定属性的值被预测的属性一般叫做目标变量或因变量用来做预测的属性称为说明变量或自变量(
进阶中的程序猿
·
2020-08-01 07:00
数据挖掘导论基础知识
数据挖掘导论
学习笔记(二)
第三章探索数据汇总统计:量化的(如均值和标准差),用单个数或数的小集合捕获可能很大的值集的各种特征。频率:具有属性值vi的对象数/总数分类属性的众数就是具有最高频率的值。百分位数:给定一个有序的或连续的属性x和0到100之间的数p,第p个百分位数xp是一个x值,似的x的p%的观测值小于xp。值集位置的度量:(1)均值:平均值,对于离群值比较敏感(2)中位数截断均值:指0到100之间的百分位数p,丢
进阶中的程序猿
·
2020-08-01 07:00
数据挖掘导论基础知识
数据挖掘导论
学习笔记(三)
第四章分类:基本概念,决策树与评估模型预备知识:(1)概括分类任务的输入数据是集合。每条记录也称为实例或样例,用元组(x,y)表示,其中x是属性的集合,而y是一个特殊属性,指出样例的类标号(也称为分类属性或目标属性)分类与回归的区别:分类的类标号必须是离散属性,回归是一种预测建模任务,目标属性一定是连续属性。(2)分类定义:通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y。目
进阶中的程序猿
·
2020-08-01 07:00
数据挖掘导论基础知识
数据挖掘导论
完整版pdf中文
数据挖掘导论
完整版pdf是一本中文版的参考书教材,该书对数据挖掘的概念与技术都讲解得十分清晰,还用了丰富的示例作说明,理论阐述透彻,欢迎大家下载阅读,下载地址:http://download.csdn.net
薄荷很凉
·
2020-08-01 07:46
数据挖掘
pdf
电子书
算法
数据
《
数据挖掘导论
》学习笔记(一)
四种主要的数据挖掘任务:1、预测建模任务分类:用于预测离散的目标变量回归:用于预测连续的目标变量2、关联分析3、聚类分析4、异常检测主要的数据质量问题:存在噪声和离群点,数据遗漏、不一致或重复,数据有偏差,或者在别的方面,数据不代表描述所设想的现象或总体情况。测量标度:将数值或符号值与对象的属性相关联的规则(函数),通常将属性的类型称为测量标度的类型数据集主要分为三类:记录数据,基于图形的数据、有
weixin_30876945
·
2020-08-01 03:53
《
数据挖掘导论
》 - 读书笔记(2) - 绪论 [2016-8-8]
第1章绪论数据挖掘是一种技术,将传统的数据分析方法和处理大量数据的复杂算法相结合。数据挖掘为探查和分析新的数据类型以及用新方法分析旧有数据类型提供了令人振奋的机会。我们概述数据挖掘,并列举所涵盖的关键主题。介绍数据挖掘分析技术的一些应用:商务:借助POS数据收集技术[条码扫描器、射频识别和智能卡技术],零售商可以在其商店的首映太收集顾客购物的最新数据。零售商可以利用这些信息,加上电子商务网站的日志
weixin_30826095
·
2020-08-01 03:44
【
数据挖掘导论
】读书笔记 - (1)
解决方案:数据预处理:小知识复习:正太分布(1)聚集(2)抽样(3)维归约(4)特征子集选择(5)特征创建(6)离散化和二元化转自:http://book.51cto.com/art/201011/235430.htm有些数据挖掘算法,特别是某些分类算法,要求数据是分类属性形式。发现关联模式的算法要求数据是二元属性形式。这样,常常需要将连续属性变换成分类属性(离散化,discretization)
奔跑的小象
·
2020-08-01 01:41
机器学习
数据挖掘导论
学习笔记(2)----- 数据(2)
数据预处理聚集(aggregation):将两个或多个对象合并成单个对象。例如不同地点的事物数据集,合并。优点:减少分析的数据可以减少占用空间和处理时间,可以使用更大开销的挖掘算法。缺点:可能会丢失模式。抽样:是一种选择对象自己进行分析的常用方法。抽样长期用于数据的事先调查和最终的数据分析。优点:减少分析的数据可以减少占用空间和处理时间,可以使用更大开销的挖掘算法。缺点:肯定没有全量数据分析准确,
defungo
·
2020-07-31 17:17
Data
Mining
数据挖掘导论
笔记4
分类(classification)分类任务就是通过学习得到一个目标函数(targetfunction)f,把每个属性集x映射到一个预先定义的类标号y。目标函数也称分类模型(classficationmodel).分类模型可以用于以下目的。关键是结果是离散的。这正是区别分类与回归(regression)的关键特征。回归是一种预测建模任务,其中目标属性y是连续的。比如SupportVectorReg
ccyyawsl
·
2020-07-31 16:01
笔记
《
数据挖掘导论
》Pangaea-Ning Tan 读书笔记 ----第五章 分类其他技术
文章目录第五章分类:其他技术5.1基于规则的分类5.1.1基于规则的分类器的工作原理5.1.2规则的排序方案5.2最近邻算法(KNN)无监督最近邻KDTree和BallTree类最邻近算法分类最近邻回归5.3贝叶斯分类器5.3.1贝叶斯定理5.3.2贝叶斯定理在分类中的应用5.3.3朴素贝叶斯分类器5.3.4贝叶斯误差率5.3.5贝叶斯信念网络5.3.6贝叶斯模型代码实现5.4人工神经网络5.5支
小黄人的黄
·
2020-07-31 14:30
数据挖掘
数据挖掘导论
学习笔记 第四章 分类:基本概念、决策树与模型评估
4.1预备知识分类任务的输入数据是记录的集合每条记录也称实例或者样例,用元组(x,y)(x,y)(x,y)表示,xxx是属性的集合,y是样例的类标号(也成为分类属性或目标属性)类标号必须是离散的,但属性值可以是连续的分类(classfication)的任务就是得到一个目标函数,将每个属性集映射到一个y上目标函数也称分类模型分为描述性建模和预测性建模两种4.2解决问题的一般方法分类法的例子:决策树分
李烟云
·
2020-07-31 13:06
数据挖掘导论
学习笔记 第五章 分类算法
5.1基于规则的分类器基于规则的分类器的规则用析取范式R=(r1∨r2∨⋯∨rk)R=(r_1\lorr_2\lor\cdots\lorr_k)R=(r1∨r2∨⋯∨rk)表示。R称作规则集,rir_iri是分类规则或析取项。每一个分类规则都可以表示为:规则前件⇒\Rightarrow⇒规则后件如果规则r的前件和记录x的属性匹配,则称r覆盖x。称r被激发或被触发。分类规则的质量可以用覆盖率(cov
李烟云
·
2020-07-31 13:06
数据挖掘导论
学习笔记:第三章 探索数据
3.1鸢尾花数据集这个数据集包含150种鸢尾花信息,每50种取自三个鸢尾花种之一:Setosa、Versicolour、Virginica。属性描述:萼片长度(cm)萼片宽度(cm)花瓣长度(cm)花瓣宽度(cm)类(S、Ve、Vi)3.2汇总统计(Summarystatistics)汇总统计指的是用单个数或数的小集合捕获很大的值集的各种特征3.2.1频率和众数给定一个在{v1,⋯ ,vi,⋯ ,
李烟云
·
2020-07-31 13:06
《
数据挖掘导论
》学习笔记-特征创建
根据原有的属性我们可以创建出新的属性集,而且新的属性数目可能少于原有的属性数目,也就是降维。创建新的属性的方法有三种:特征提取、映射数据到新的空间、特征构造1、特征提取定义:根据原有的数据自己创建新的属性集。有的数据的属性是非常多的,而特征提取技术都是具体针对某个领域的而不是通用的,因此对数据的处理需要一些较高层次的抽象,提供一些较高层次的属性。比如照片的集合,按照照片是否包含人脸进行分类,而原始
oo笨小孩oo
·
2020-07-31 12:13
《数据挖掘导论》学习笔记
《
数据挖掘导论
》学习笔记(第1-2章)
本文主要是在学习《
数据挖掘导论
(完整版)》中的学习笔记,主要用来梳理思路,并没有多少思考,我尽量会在后期多弥补这方面的不足。
Wr_Ran
·
2020-07-28 14:47
数据挖掘
数据挖掘导论
第二章笔记
第二章:数据数据相关问题,包括数据类型数据质量使数据易于挖掘的数据预处理根据数据联系分析数据2.1数据类型2.1.1属性与度量属性属性类型属性的不同类型对特定的属性类型进行有意义的操作用值的个数描述属性区分属性的一种独立方法是根据属性可能取值的个数来判断非对称属性对于非对称属性,出现非零属性值才是重要的2.1.2数据集的类型1.数据集的一般属性2.记录数据许多数据挖掘任务都假定数据集是记录的汇集,
Cetlicsss
·
2020-07-28 08:46
【
数据挖掘导论
】HW1
蒙特卡洛方法求积分Exercise1.蒙特卡洛方法可以用于产生接近π\piπ的近似值。图1显示了一个带有1/4内切圆在内的边长为1的正方形。正方形的面积是1,该1/4圆的面积为π/4\pi/4π/4。通过编程实现在这个正方形中产生均匀分布的点。落在圈内(红点)的点和总的投在正方形(红和绿点)上的点的比率给出了π/4\pi/4π/4的近似值。这一过程称为使用蒙特卡洛方法来仿真逼近π\piπ实际值。令
我叭想起名啊
·
2020-07-28 07:52
数据挖掘导论
数据挖掘导论
(二)
第二章数据数据类型分类的(定性的):标称和序数标称:只能区分是否相同,当做符号一样不参与数值运算。(=或者!=)例:邮政编码序数:能确定对象的序,即大小关系。(,>=)例:矿石程度(好,较好,最好)数值的(定量的):区间和比率区间:可以进行差值比较。(+,-)例:日历日期比例:除了能进行差值比较还能进行比率比较。(*,/)例:长度数据质量引起数据质量降低的因素:测量误差:记录的值与实际值不同误差=
乐观攻城狮
·
2020-07-28 00:17
数据挖掘
数据挖掘导论
(一)
计算机科学资源:https://media.pearsoncmg.com/bc/abp/cs-resources/前言:传统数据分析技术在应对新型数据集提出的挑战存在种种局限性,而数据挖掘打破了这些局限。数据挖掘不是要取代其他分析领域,而是以他为基础。本书涵盖:数据预处理、可视化、预测建模、关联分析、聚类和异常检测绪论什么是数据挖掘数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技
^思无邪
·
2020-07-27 21:22
数据挖掘导论
课后习题答案 第二章(二)
19.余弦计算公式:相关计算公式:欧几里得公式:Jaccard系数:(a)cov=0(b)cov=-1d(x,y)=2(c)\cov=0d(x,y)=2(d)cov=0.25J=0.6(e)cov=020.(a)[-1,1].很多时候数据正值比较多,因此只有[0,1](b)两个对象相似,但是对象的值不一定相等,比如向量x=(1,1,1,1),y=(2,2,2,2)(c)如果两个向量有平均值0,co
Catherine Lan
·
2020-07-27 16:08
数据挖掘
数据挖掘导论
课后习题答案 第一章
1.需要抓住数据挖掘任务两大类任务以及四种主要数据挖掘任务的特点:预测任务、相关分析、聚类分析、异常检测。(a)并不是数据挖掘任务,只是简单的数据库查询工作。(b)设定一定阈值的会计计算,不是数据挖掘。如果是预测盈利就可以是数据挖掘(c)简单数值计算(d)数据库查询(e)由于骰子的出现的概率均等,这是概率计算问题,解决问题的方法已经由之前的数学家得出了(f)是的,预测任务(g)异常检测,研究需要建
Catherine Lan
·
2020-07-27 16:37
数据挖掘
数据挖掘导论
课后习题答案 第二章(一)
1.感觉中文翻译不是很用心,英语原文是thestatisticiansays,“Yes,fields2and3arebasicallythesame.”意思是字段2和字段3基本一样,所以我们可以推测值可能是一样的,字段2除以字段3的值基本都是7,作者认为这两个字段包含了一样的信息,从如此小的样本得到结论是十分危险的。2.(a)二元、定性,序数(b)连续,定量,比率(c)离散,定性,序数(d)连续,
Catherine Lan
·
2020-07-27 16:37
数据挖掘
数据挖掘导论
课后习题答案-第五章
最近在读《IntroductiontoDataMining》这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论。侵删。第五章(a)不互斥(b)是穷举的(c)需要排序,测试集很可能不仅由行车里程属性决定,并且会命中多条规则。(d)不需要,每条测试记录都能至少命中一条规则。(a)FOIL=300×[log2(300/350)-log2(350/50
KeEN丶X
·
2020-07-27 16:00
习题答案
数据挖掘导论
课后习题答案-第八章(上)
最近在读《IntroductiontoDataMining》这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论。侵删。第八章(上)压缩前:220×32×4=134217728bytes压缩后:216×32×4=8388608bytes压缩率16(a)当数据中有划分结构时。即存在子簇。(b)当数据需要降维时,需要确定有几个簇产生。(a)(b)0.
KeEN丶X
·
2020-07-27 16:00
习题答案
数据挖掘导论
课后习题答案-第四章
最近在读《IntroductiontoDataMining》这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论。侵删。第四章(a)Gini=1-(0.5)2-(0.5)2=0.5(b)每个结点的Gini=0,因此总的Gini=0.(c)男:Gini=1-(0.6)2-(0.4)2=0.48女:Gini=1-(0.4)2-(0.6)2=0.48总
KeEN丶X
·
2020-07-27 16:00
习题答案
数据挖掘导论
课后习题答案-第十章
最近在读《IntroductiontoDataMining》这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论。侵删。第十章答:首先,注意到基于密度和基于邻近度的技术是相关的,因为高密度的区域的点附近必然有很多点。而基于模型的技术需要找到一个适合数据的模型,并且一个具体的模型是假定的,从这一方面来说,基于密度和邻近度的技术不需要对数据做任何假定
KeEN丶X
·
2020-07-27 16:00
习题答案
数据挖掘导论
课后习题答案-第三章
最近在读《IntroductiontoDataMining》这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论。侵删。第三章优点:第一,颜色可以很容易地区分不同的部分。第二,看起来更加有趣。缺点:第一,对色盲或者那些很难分辨颜色的人不太友好。第二,有的时候灰度图更能突出重点,颜色图会让人关注一些不重要的部分。关键的问题是对于三维的图如何尽可能地
KeEN丶X
·
2020-07-27 16:00
习题答案
数据挖掘导论
笔记1——第二章:数据
鲁棒算法--有噪声也可以产生可接受的结果。使用【特征、变量】替代【属性】。数据预处理1.特征子集选择2.特征提取:由原始数据创建新的特征集。3.将特征映射到新空间4.特征构造:由一个或者多个原始特征构造新的特征。5.二元化6.非监督离散化7.具有过多值的分类属性二、相似性和相异性的度量1.距离参考:数学中常见的距离https://blog.csdn.net/Losteng/article/deta
wangdi_37927
·
2020-07-27 13:59
算法
数据挖掘导论
笔记5
其他分类模型基于规则的分类器ri是规则,R=是规则集每一个分类规则可以表示为形式规则左边称为规则前件(ruleantecedent)或前提(precondition)。它是属性测试的合取,即规则右边称为规则后件(ruleconsequent),包含预测类yi分类规则的质量可以用覆盖率(coverage)和准确率(accuracy)来度量覆盖率定义为D中满足规则r的记录所占的比例准确率或置信因子定义
ccyyawsl
·
2020-07-17 22:54
笔记
数据挖掘
[数据挖掘]离群点检测---基于kNN的离群点检测、LOF算法和CLOF算法
基于聚类和密度的离群点检测方法[D].华南理工大学,2014.[2].王雪英.离群点预处理及检测算法研究[D].西南交通大学,2009.[3].胡婷婷.数据挖掘中的离群点检测算法研究[D].厦门大学,2014.[4].谭(美).
数据挖掘导论
mapw1993
·
2020-07-15 00:38
机器学习与数据挖掘
初学python:《简明python教程》的学习笔记
学习python的缘由决心在一个这个寒假更加深入学习推荐系统之后,本来打算看
数据挖掘导论
或者是数据挖掘:概念与技术。不过在询问过一位学长之后,他推荐我看一看更加基础的书:集体智慧编程。
silent狼
·
2020-07-12 21:51
python
《
数据挖掘导论
》 - 读书笔记(3) - 数据 [2016-8-13]
第2章数据本章讨论一些与数据相关的问题,对于数据挖掘的成本至关重要。数据类型数据集的不同表现在很多方面。例如,用来描述数据对象的属性可以具有不同的类型---定量的或定性的,并且数据集可能具有特定的性质,例如,某些数据集包含时间序列或彼此之间具有明显联系的对象。毫不奇怪,数据的类型决定我们应使用何种工具和技术来分析数据。此外,数据挖掘研究常常是为了适应新的应用领域和新的数据类型的需要而展开的。数据的
weixin_30838873
·
2020-07-10 07:54
数据挖掘导论
学习笔记之分类基本概念、决策树与模型评估
分类分类任务的输入数据是记录的集合,每条记录也称实例或样例,用元组(x,y)来表示,其中x是属性的集合,而y是一个特殊的属性,指出样例的类标号。类标号在分类中是离散属性,回归确是一种预测建模任务,其中目标属性y是连续的。概念分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y。目标函数也称分类模型,具有以下目的:描述性建模。分类模型可以作为解释性工具,用于区分不同类中
weixin_30443747
·
2020-07-10 06:42
【
数据挖掘导论
】——数据类型
数据类型数据集的不同表现在很多方面。例如:描述数据对象的属性可有具有不同的类型——定量的或者定性的。并且数据集可能还具有特定的性质,如包含时间序列或者彼此相关联。这因为如此,数据的类型决定我们应使用何种工具和技术来分析数据。此外,数据挖掘的研究也是为了适应新的应用领域和新的数据类型。数据的质量数据通常远非完美,尽管大部分的数据挖掘技术都容忍不完美的数据,但注重理解和提高数据质量将是改进精确分析结果
FrancisRZ
·
2020-07-10 04:52
数据分析
数据挖掘
数据类型
数据挖掘导论
课后习题答案-第一章
最近在读《IntroductiontoDataMining》这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论。侵删。第一章(a)不是。这只是简单的数据库查询操作。(b)不是。但预测一个新顾客是否可赢利则是一个数据挖掘任务。(c)不是。(d)不是。(e)不是。如果骰子是均匀的,那么每个面出现是等可能的,这是一个简单的概率论问题。如果骰子不均匀,
KeEN丶X
·
2020-07-09 11:26
习题答案
数据挖掘导论
笔记 第二章
数据2.1数据类型2.2.1属性与度量1.什么是属性2.属性类型3.属性的不同类型4.用值的个数描述属性5.非对称的属性2.1.2数据集的类型1.数据集的一般特性2.记录数据(Record)3.基于图形的数据4.有序数据2.2数据质量2.2.1测量和数据收集问题1.测量误差和数据收集错误2.噪声和伪像3.精度、偏倚和准确率4.离群点5.遗漏值7.重复数据2.3数据预处理2.3.1聚集2.3.2抽样
AnthonyM08
·
2020-07-09 10:44
数据挖掘
《
数据挖掘导论
》实验课——实验三、数据挖掘之决策树
实验三、数据挖掘之决策树一、实验目的1.熟悉掌握决策树的原理,2.熟练掌握决策树的生成方法与过程二、实验工具1.Anaconda2.sklearn3.pydotplus三、实验简介决策树是一个非参数的监督式学习方法,主要用于分类和回归。算法的目标是通过推断数据特征,学习决策规则从而创建一个预测目标变量的模型。四、实验内容1.自己创建至少2个向量,每个向量至少1个属性和1个类标号,根据向量生成决策树
weixin_34411563
·
2020-07-08 18:41
《
数据挖掘导论
》实验课——实验五、数据挖掘之产品预测任务
一、实验目的1.学会利用决策树、KNN与NavieBayes完成预测任务二、实验工具1.Anaconda2.sklearn3.Pandas三、实验内容产品预测任务1.任务描述本次比赛主要是一个对进出口交易记录数据进行产品判别的任务。本次任务有19046条数据记录,其中的18279条记录是有类别属性的,可作为分析时的训练样本,而任务目标是对767条测试数据(即验证样本)进行判别(本实验采用其中的20
weixin_34146986
·
2020-07-08 17:58
《
数据挖掘导论
》实验课——实验二、数据处理之Matplotlib
实验二、数据处理之Matplotlib一、实验目的1.了解matplotlib库的基本功能2.掌握matplotlib库的使用方法二、实验工具:1.Anaconda2.Numpy,matplotlib三、Matplotlib简介Matplotlib包含了几十个不同的模块,如matlab、mathtext、finance、dates等,而pylot则是我们最常用的绘图模块四、实验内容1.绘制正弦曲线
weixin_34132768
·
2020-07-08 17:17
《Head First 统计学》读书笔记
这次看《HeadFirst统计学》的动机却截然不同,由于前一阵子看了《集体智慧编程》和《
数据挖掘导论
》,发现里面很多地方应用了统计学,原来统计学的作用如此强大,所以决定重温统计学,并希望在将来的工作中可以派上用场
weixin_33709590
·
2020-07-08 15:47
上一页
1
2
3
4
5
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他