吴千行

数据挖掘（Data Mining）扫盲笔记

知识框架来源：人工智能之数据挖掘
其他补充来源：拿下Offer-数据分析师求职面试指南、数据分析实战45讲

Data Mining

概述篇
- 基础认知
- 挖掘对象
- 常见任务：
- 模型分类
- 问题与挑战
- 十大经典算法
C4.5
- 1. 决策树
- 2.信息增益（ID3 算法）
- 3.信息增益率（C4.5 算法）
- 项目链接
CART（Classification and Regression Trees）
- 1.定义
- 2.基尼系数
- 核心解读
- 项目链接
KNN（K-Nearest Neighbor）
- 1.定义
- 2.核心解读
- 项目链接
K-Means.
- 1. 定义
- 2.核心解读
- 项目链接
Naive Bayes 朴素贝叶斯法
- 1.相关定义
- 工作原理
SVM（Support Vector Machine）
- 1.基本认知
- 2.项目
EM（Expectation Maximization
- 1.基本认知
- 2.案例：EM 算法的基本思想
Page Rank.
- 1.介绍
Apriori
- 1.基本认知
AdaBoost.
- 1.基本认知
- 算法示例
模型效果评估
- 预测模型评估：
- 二分类模型评估：

概述篇

基础认知

广义：
一类深层次的数据分析方法
目的：
自动抽取隐含的、以前未知的、具有潜在应用价值的模式或规则等有用知识
涉及学科
使用人工智能、机器学习、统计学和数据库等交叉学科领域方法
对象
大规模、不完全、有噪声、模糊随机的数据集。
核心过程：
（1）数据清理：消除噪声和删除不一致数据。
（2）数据集成：将多种数据源组合在数据仓库。
（3）数据选择：定义问题，从数据库中提取与分析任务相关的数据。
（4）数据变换：分析整理数据。通过汇总或聚集操作把数据变换、统一成适合挖掘的形式。
（5）数据挖掘：使用智能方法提取数据模式。
（6）模式评估：根据某种度量，识别代表知识的模式。
（7）知识表示：使用可视化与知识表示技术，向用户提供挖掘的知识。
挖掘的核心
建模：另利用用模型学习已知数据集中的变量特征，并通过一系列方法提高模型的学习能力，最终对一些结果位置的数据及输出相映的结果。
数据集
- 训练集
  训练模型，用于模型训练拟合的样本，占总体样本的百分之七十到百分之八十
- 验证集
  模型调试，结果已知不参与模型训练拟合，用于验证训练后模型的拟合效果。对模型中的超参数进行选择。在实际工作中
- 测试集
  验证结果，利用模型输出结果的数据集模型上线后，输出测试集的结果与最终结果进行对比。测试及后续可以转换为训练集或验证及实现模型的循环迭代。
模型评估
- 过拟合Overfitting
  样本量相对于模型复杂度较小,样本噪声导致复杂模型的泛化能力较差 。训练集只是全部数据的抽样，而且存在噪声，该噪音不具有通用性并不能体现全部数据的特点,当模型过于复杂时，会太依赖于训练集，也会大量学习训练其中的噪音，并当成所有数据的特点。结果过于精准，容错率就会比较低，导致分化能力变差。
  泛化能力是指：分类器是通过训练集抽象出来的分类能力。模型的“泛化能力”差,模型的训练结果过分精准,以至于存在“死板”的情况，在实际应用的过程中，会导致分类错误。
- 欠拟合
  表明模型过于简单，没有很好的拟合训练集变量之间的特征。需要进一步提高复杂度。
参数
- 参数
  通过模型对训练集的拟合获得，比如线性回归模型中斜率和截距。
- 超参数
  无法通过模型获得在模型训练前仍为给定的超参数，只能通过验证及进行验证并最终决定：决策树的深度、随机森林模型中树的数量的。
参数调整
- 工作量大：
  模型调整参数,是一个非常耗时的工作,需要综合考虑模型效果，实现复杂度以及工作量。
- 复杂度
  模型属性数相对于训练集数，复杂的模型未必能带来好的结果，也可能使得模型出现过拟合现象。导致误差增加
- 平衡
  需要平衡过拟合和欠拟合，降低整体的误差。
误差
- 偏差bias
  模型的精准度。偏差高代表着：模型存在欠拟合的现象反应模型在训练集上。期望输出于真实输出之间的差距。
- 方差variance
  模型的稳定性。方差高代表着模型过拟合。反映了模型在不同情况下得到的结果与真实结果之间的误差。
算法的强弱
学习器的强弱。强学习器和弱学仪器是一个相对的概念，没有很明确的划分。体现在学习区对复杂场景的处理能力上。相对于决策树模型，随机森林是强学习器。但和其他更加复杂的模型相比，他就是弱学习器。
模型集成
- 将多个弱学习器（基模型）构造成一个强学习器。
  能够实现更好的效果的原因：模型的误差包括偏差和方差，集成能够降低方差。假设决策树模型有相同的偏差和方差：将通过通过多个决策树模型得到的结果进行平均或投票，可以保证随机森林的偏差于单个决策树模型的偏差基本相同，但是由于各个决策树模型之间的相互独立，对结果进行平均或加强之后，能够大幅度减小随机森林模型的方差，最终将误差减小。
- 类型
  - 同质集成模型：类似于随机森林将，多个决策树模型、相同种类模型集成
  - 异质集成模型：将不同种类的模型进行集成
- 集成方法
  - Bagging 随机对样本进行随机采样，得到n个样板间。对每一个样本独立训练决策树模型。通过集合策略输出最终结果
  - Boosting 新决策树模型基于旧策树模型的结果，方法
    - AdaBoot ：加大此前决策树模型中分类错误数据的权重，使得下一个生成决策树模型能够尽量将这些模型分类训练正确。
    - GBDT：通过计算损失函数梯度下降方向，定位模型的不足而建立新的决策树模型。应用更广泛。以Cart树作为基模型
模型融合
在模型集成中将各个基模型的结果进行组合，得到最终的结果的过程称为模型融合。
- 方法
  平均法：在预测问题中，将各个基模型的结果进行平均作为最终结果。
  投票法：在分类问题中，选择基模型中预测比较多的类别作为最终结果。
与大数据的关系
- 大数据包含数据挖掘的各个阶段，即数据收集、预处理、特征选择、模式挖掘、知识表示等
- 大数据的基础架构又为数据挖掘提供数据处理的硬件设施；
- 最后大数据的迅速发展也使得数据挖掘对象变得更为复杂不仅包括人类社会与物理世界的复杂联系，还愈加明显地呈现出高度动态化。要从大量无序数据中获取真正价值，数据挖掘算法必须满足对真实数据和实时数据的处理能力，这使得很多传统算法不再适用
- 大数据的 5V 特性
  目前比较公认的定义是麦肯锡全球研究机构（McKinsey Global Institute）也给出的，综合了“现有技术无法处理”和“数据特征定义”，即规模庞大Volume）、种类繁多（Variety）、数据时效高（Velocity）和价值密度低（Value）。
发展历程
知识图谱
研究进展
近期的主要发展归为两大类：复杂数据挖掘与分布式数据挖掘。
- 复杂数据包括序列数据、图数据等。
- 分布式数据挖掘遵循“全局分布、局部集中”的挖掘原则，数据挖掘领域非常有前途的方向。
十大问题与挑战
1 数据挖掘的统一理论框架的构建（Developing a Unifying Theory of DataMining）
2 高维数据和高速数据流的挖掘（Scaling Up for High DimensionalData/High Speed Streams）
3 序列和时序数据的挖掘（Mining Sequence Data and Time Series Data）
4 复杂数据中复杂知识的挖掘（Mining Complex Knowledge from ComplexData）
5 网络环境中的数据挖掘（Data Mining in a Network Setting）
6 分布式数据和多代理数据的挖掘（Distributed Data Mining and MiningMulti-agent Data）
7生物和环境数据的挖掘（Data Mining for Biological and EnvironmentalProblems）
8 数据挖掘过程中的相关问题处理（Data-Mining-Process Related Problems）
9 数据挖掘中数据安全、数据所涉及到的隐私和数据完整性的维护（Security,Privacy and Data Integrity）
10 非静态、非平衡及成本敏感数据的挖掘（Dealing with Non-static,Unbalanced and Cost-sensitive Data）

挖掘对象

大规模、不完全、有噪声、模糊随机的数据集。可以是任何类型的数据源，包括数据库数据、数据仓库、事物数据，以及文本、多媒体数据、空间数据、时序数据、web 数据、数据流、图或网络数据等。

数据库数据
一种结构化数据，比如关系数据库、图数据库中的数据。
数据仓库（Data Warehouse）
从多个数据源收集的信息存储库，存放在一致的模式下，并且通常驻留在单个站点上，是决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库通常使用数据立方体（Data Cube）的多维数据结构建模。通过钻取、上卷、切片、切块、旋转等联机分析处理（Online Analytical Processing, OLAP）操作，允许用户在不同汇总级别观察数据。
事物数据
通常表示人类一次活动记录，比如一次购物、一个航班订票等。一个事物数据包含一个唯一的事物标识号，以及一个组成事物的项列表（购买的商品）。从图 2 可以看出，事物数据包含嵌套关系，难以放在关系数据库中，通常存放在表 1 所示的表格式的文件中

常见任务：

数据表征
是对目标类数据的一般特征或指定特征的总结。对应于用户指定类的数据通常通过数据库查询收集。例如，要研究上一年销售额增长 10％的软件产品的特征，可以通过执行 SQL 查询来收集与此类产品相关的数据。
异常检测
数据库可能包含不符合数据一般行为或模型的数据对象，这些数据对象即为异常值。大多数数据挖掘方法将异常值视为噪声或异常但是在诸如欺诈检测等应用中，罕见事件可能比常见的更有价值。异常值数据的分析通常被称为异常值挖掘。
关联规则学习
搜索变量之间的关系。例如，一个超市可能会收集顾客购买习惯的资料。运用关联规则学习，超市可以确定哪些产品经常一起买，并利用这些信息促进销售，这种学习也被称为市场购物篮分析。
聚类
发现数据的类别与结构。聚类算法基于最大化类内相似性和最小化类间相似性的原则，将对象进行聚类或分组。也就是说，形成对象集群，使得集群内的对象彼此之间具有较高的相似性，但与其他集群中的对象非常不相似。每个集群都可以被视为一类对象，从中可以派生出规则。
分类
分类是查找描述和区分数据类别或概念的模型（或函数）的过程，目的是为了能够使用模型来预测未知对象的类别。例如，一个电子邮件程序可能试图将一个电子邮件分类为“合法的”或“垃圾邮件”。
回归
试图找到能够以最小误差对该数据建模的函数。回归分析是最常用于数字预测的统计方法，还可以根据现有数据预测趋势。
演化分析
描述并建模对象行为随时间变化的规则或趋势。这种分析具有时间序列数据分析、序列或周期性模式匹配以及基于相似性的数据分析的特征

模型分类

监督学习和非监督学习

区别：训练数据中是否有标签，这是二者最根本的区别。监督学习的数据既有特征又有标签，而非监督学习的数据中只有特征而没有标签。
监督学习supervised learning
让机器自己找到特征和标签之间的联系，在以后面对只有特征而没有标签的数据时可以自己判别出标签，监督学习可以分为两大类：回归(Regression）、分类（Classification) ，二者之间的区别在于回归分析针对的是连续数据，而分类针对的是离散数据。

问题	模型
预测问题。	线性回归模型、时间序列模型、神经网络
分类问题	逻辑回归模型、svm模型、决策树模型、随机森林模型 Boosting模型。

非监督学习unsupervised learning
挖掘数据之间的内在联系，将样本分成若干类。训练数据只有特征没有分类标签，这可能是因为我们不具备先验的知识，或者打标签的成本很高。所以我们需要机器对数据进行聚类分析，然后就可以通过聚类的方式从数据中提取一个特殊的结构。

问题	模型
聚类问题	K-means聚类模型、 DBSCAN聚类模型、 E_m聚类模型。
降维问题	PCA主要成分分析

半监督学习
半监督学习的训练数据中有一部分是有标签的，另一部分是没有标签的，而没标签的数据量远远大于有标签的数据量。隐藏在半监督学习下的基本规律在于数据的分布必然不是完全随机的，通过一些有标签数据的局部特征，以及更多没标签数据的整体分布，就可以得到可以接受甚至是非常好的分类结果

参数和非参数模型

类别	特征	模型	缺点	优点
参数模型	限定了目标函数的形式	线性回归模型、逻辑回归模型、朴素贝叶斯模型	1.提前对目标函数作出假设。现实问题很难应用某一目标函数，特别是复杂问题很难得到拟合效果好的模型。2.复杂度偏低，容易出现欠拟合现象	1.可解释性强冲 2.学习和训练速度较快 3.数据量小
非参数模型	没有对目标形式进行限定，通过训练自由的从训练数据集中学习任意的函数。	1.svm模型 2.决策树模型3.随机森林模型	1.计算量大-数据量大2.可解释性弱-么	1.适用于大数据量逻辑复杂的问题。效果好于参数模型，由于不存在错误前提假设，在数据量趋于无穷大的时候，可以无限逼近于真实模型。2.存在超参数选择
半参数模型	固定了隐藏的数目和每一层神经元的个数，属于参数模型。隐层数目和每一层神经元个数在模型中通常是不固定的。	神经网络模型

生成和判别

类别	定义	特征	模型
生成模型	能够学习数据生成机制，得到联合分布p （x，y），特征x和y共同出现的概率，然后求条件概率分布，	数据量需求大，能够很好的估计概率密度。数据充足的情况下，生成模型的收敛速度较快。能够处理隐变量。相对于判别模型生产模型准确率以及适用范围弱	朴素贝叶斯模型、混合高斯模型、隐马尔可夫模型。
判别模型。	学习得到条件概率分布p（y	x），在特征x的调情况下标签y出现的概率	计算量小。准确率和适用范围大切。较为常用

问题与挑战

数据挖掘过程中的相关问题处理

大数据的规模大、来源种类多样、价值密度低、增长速度快、准确性低等特征，给数据挖掘过程中每个阶段造成不同的问题挑战

（1） 数据采集和入库：不同类型的数据存储在一个地方、相同数据在不同的数据源中命名形式不一样、不同数据源中的数据性质不同等会给数据采集和存储带来很大挑战。

（2） 数据清洗：定义和确定错误类型，搜索和识别错误，更正错误，记录错误以及修改数据输入程序以减少结构化、非结构化和半结构化数据会带来数据清理方面的挑战。当数据没有存在噪音、不完整、不一致等问题时，数据挖掘和分析过程会提供正确的信息。

（3） 数据分析与挖掘：数据分析与挖掘是大数据的核心挑战。如果在采集、存储、清理、集成、转换等流程中出现任何问题，会导致容易挖掘到无用的数据。如果想在大数据中获取有价值的信息，有必要研究适用于所有类型数据的挖掘技术。

（4） 数据集成与融合：在大数据挖掘中，不同类型的数据模式集成和融合是最大的挑战。例如，集成的数据模式通常是在不同数据源中获取，而不同数据源中的同一对象通常具有不同的名称表示形式。如何正确将指向同一对象的不同数据融合到一起，是数据集成和融合技术的巨大挑战。

数据完整性（Data Integrity）

数据挖掘所使用的数据常常是为其他用途收集的，原始数据中出现的问题会对下一阶段的分析过程产生重大的影响，因此在数据清洗阶段需要检验数据完整性。数据对象遗漏一个或多个属性值的情况在数据挖掘任务中屡见不鲜，例如有的人拒绝透露年龄和体重，这时信息收集不全的现象变得十分常见。

指数据的准确性和可靠性，用于描述存 储的所有数据值均处于客观真实的状态。

完整性检验5 个基本原则：可溯源、清晰、同步、原始或真实复制、准确

策略，包括删除数据对象或属性、估计遗漏值、在分析时忽略遗漏值、使用默认值、使用属性平均值、使用同类样本平均值、预测最可能的值 等。

传统数据挖掘技术与网络动态数据挖掘

传统数据挖掘技术主要针对静态数据集、数据仓库问题定义、数据采集、数据预处理、数据清理/集成、数据选择/变换/归约、数据挖掘、模式评估、解释和应用

网络动态数据挖掘需要面对不断变化的网络环境及各种动态变化的实时数据之外，还需要对整个数据挖掘过程、数据集与关联规则集的更新过程等进行实时分析和处理。
非平衡样本数据挖掘
在不平衡数据中，人们将拥有较多实例的那一类称为多数类（有时也称为负样本），将拥有相对较少实例的那一类称为少数类（有时也称为正样本）。现有分类算法（如决策树和神经网络等）大多假定每个样本的误分类具有同样的代价而致力于提高分类器的泛化精度，分类的结果偏向于大类别样本，即大类别样本的分类精度高于小类别样本。但对很多现实的应用，如医疗诊断、信用卡欺诈检测、网络入侵、故障识别等，不同类别的样本数相差较大，不同样本的误分类代价通常不相等，仅凭全局精度评价分类器的性能优劣是不够的。此时需要引入代价敏感数据挖掘技术（Cost Sensitive Data Mining, CSDM）

十大经典算法

C4.5
KNN（K-Nearest Neighbor）
K-Means
CART（Classification and Regression Trees
SVM（Support Vector Machine Apriori ）
EM（Expectation Maximization
Page Rank.
AdaBoost.
Naive Bayes
Apriori

C4.5

C4.5 算法是由 Ross Quinlan 在 ID3 算法的基础上，开发的用于产生决策树的算法，通常用于统计分类。C4.5 算法与 ID3 算法一样使用了信息熵的概念，并和 ID3 一样通过学习数据来建立决策树。把哪个属性作为根节点，是 C4.5 算法研究的重点，它采用信息增益率来选择属性。信息增益率使用“分裂信息”值将信息增益规范化，选择具有最大增益率的属性作为分裂属性。信息增益率的计算公式如下所示

1. 决策树

作用
给定一个数据集，其中的每一个元组都能用一组属性值来描述，每一个元组属于一个互斥的类别中的某一类。C4.5 、ID3 的目标是通过学习，找到一个从属性值到类别的映射关系，并且这个映射能用于对新的类别未知的实体进行分类
工作原理
类似于流程图的树形结构，每一个节点代表对一个特征的测试。树的分支代表着该特征的一个测试结果。每一个节点代表一个类别。决策树的核心就是寻找纯净的划分
类别
1. 分类树，处理离散数据，也就是数据种类有限的数据，它输出的是样本的类别 cart
2. 回归树，对连续型的数值进行预测，也就是数据在某个区间内都有取值的可能，输出的是一个数值。
构造
选择什么属性作为节点，三种节点
1. 根节点：树的最顶端 - 天气
2. 内部节点：树中间的那些节点 - 温度”、“湿度”、“刮风
3. 叶节点：决策结果，停止并得到目标状态 -树最底部的节点，叶节点不存在子节点
节点选择指标
- 纯度：让目标变量的分歧最小 - 不纯度指标集合 1：6 次都去打篮球；集合 2：4 次去打篮球，2 次不去打篮球；集合 3：3 次去打篮球，3 次不去打篮球。按照纯度指标来说，集合 1> 集合 2> 集合 3。因为集合 1 的分歧最小，集合 3 的分歧最大。
- 信息熵 entropy : 信息的不确定度 - 度量信息量 ,信息熵越大，纯度越低。当集合中的所有样本均匀混合时，信息熵最大，纯度最低。
- 计算模型 :ID3 算法 C4.5 算法 cart算法
优缺点
- 优点 :
  1.不需要对样本进行预先假设，更快地处理复杂样本。可以处理多维度输出的分类问题。
  2.非参数模型计算速度快。使用决策树预测的代价是O(log2m)。m为样本数。
  3.简单直观，生成的决策树很直观。能够通过绘制分支清晰的剖析模型的选择流程，快速发现影响结果的因素，能及时指导业务进行调整修改。
  4.可以同时处理分类问题和预测问题 .
  5.能够处理离散型和连续型变量同时存在的场景。很多算法只是专注于离散值或者连续值。
  6.对缺失值不敏感。基本不需要预处理，不需要提前归一化和处理缺失值。对于异常点的容错能力好，健壮性高。
  7.可解释性强。相比于神经网络之类的黑盒分类模型，决策树在逻辑上可以很好解释。可以交叉验证的剪枝来选择模型，从而提高泛化能力。
- 缺点 :
  1.弱学习器。有些比较复杂的关系，决策树很难学习，比如异或。这个就没有办法了，一般这种关系可以换神经网络分类方法来解决。
  2.即使通过调优方法进行优化。也容易产生过拟合现象，造成结果误差大。可以通过设置节点最少样本数量和限制决策树深度来改进。
  3.在处理特征关联性较强的数据时表现不好。
  4.受样本影响大。决策树会因为样本发生一点的改动，导致树结构的剧烈改变。这个可以通过集成学习之类的方法解决。如果某些特征的样本比例过大，生成决策树容易偏向于这些特征。这个可以通过调节样本权重来改善。
  5.寻找最优的决策树是一个NP难题，我们一般是通过启发式方法，容易陷入局部最优。可以通过集成学习的方法来改善。
调优方法
- 剪枝 ,控制数的深度及节点个数等参数，避免过拟合。
  给决策树瘦身，防止“过拟合”，目标是，不需要太多的判断
1. 预剪枝Pre-Pruning
  在决策树构造时就进行剪枝。方法是在构造的过程中对节点进行评估，如果对某个节点进行划分，在验证集中不能带来准确性的提升，那么对这个节点进行划分就没有意义，这时就会把当前节点作为叶节点，不对其进行划分
2. 后剪枝Post-Pruning
  在生成决策树之后再进行剪枝，通常会从决策树的叶节点开始，逐层向上对每个节点进行评估。如果剪掉这个节点子树，与保留该节点子树在分类准确性上差别不大，或者剪掉该节点子树，能在验证集中带来准确性的提升，那么就可以把该节点子树进行剪枝。方法是：用这个节点子树的叶子节点来替代该节点，类标记为这个节点子树中最频繁的那个类。 CCP 方法：cost-complexity prune，中文叫做代价复杂度
- 要用交叉验证法，选择合适的参数。
- 通过模型及集成的方法，基于决策树形成更加复杂的模型。

2.信息增益（ID3 算法）

ID3 算法计算的是信息增益，信息增益指的就是划分可以带来纯度的提高，信息熵的下降

公式

定义：父亲节点的信息熵减去所有子节点的信息熵
D 是父亲节点，
Di 是子节点，计算每个子节点的归一化信息熵，即按照每个子节点在父节点中出现的概率
Gain(D,a) 中的 a 作为 D 节点的属性选择
缺陷：
ID3 算法倾向于选择取值比较多的属性，有些属性可能对分类任务没有太大作用，但是他们仍然可能会被选为最优属性比如我们会发现这样，如果我们把“编号”作为一个属性（一般情况下不会这么做，这里只是举个例子），那么“编号”将会被选为最优属性
案例

1.将天气属性作为根节点，信息增益计算
根节点的信息熵：练集中一共有 7 条数据，3 个打篮球，4 个不打篮球，所以根节点的信息熵是

2.三个叶子节点的信息熵，
D1(天气 = 晴天)={1-,2-,6+}D2(天气 = 阴天)={3+,7-}D3(天气 = 小雨)={4+,5-}，+ 代表去打篮球，- 代表不去打篮球

归一化信息熵 = 3/70.918+2/71.0+2/7*1.0=0.965。
3.天气作为属性节点的信息增益为
Gain(D , 天气)=0.985-0.965=0.020。
4.同理我们可以计算出其他属性作为根节点的信息增益，它们分别为：
Gain(D , 温度)=0.128
Gain(D , 湿度)=0.020
Gain(D , 刮风)=0.020
5.温度作为属性的信息增益最大。因为 ID3 就是要将信息增益最大的节点作为父节点，这样可以得到纯度高的决策树，
6.要将上图中第一个叶节点，也就是 D1={1-,2-,3+,4+}进一步进行分裂，往下划分，计算其不同属性（天气、湿度、刮风）作为节点的信息增益，可以得到：Gain(D , 湿度)=1Gain(D , 天气)=1Gain(D , 刮风)=0.3115，
7.我们能看到湿度，或者天气为 D1 的节点都可以得到最大的信息增益，这里我们选取湿度作为节点的属性划分。同理，我们可以按照上面的计算步骤得到完整的决策树，结果如下：

3.信息增益率（C4.5 算法）

公式
信息增益率 = 信息增益 / 属性熵，

属性熵 SpliIInfoA(D)

C4.5 算法对 ID3 算法的改进之处在于：
（1）克服多属性偏向
C4.5 算法用信息增益率来选择属性，克服了 ID3 算法用信息增益选择属性时偏向选择取值多的属性的不足；当属性有很多值的时候，相当于被划分成了许多份，虽然信息增益变大了，但是对于 C4.5 来说，属性熵也会变大，所以整体的信息增益率并不大
（2）在树构造过程中进行悲观剪枝；
采用悲观剪枝ID3 构造决策树的时候，容易产生过拟合的情况。在 C4.5 中，会在决策树构造之后采用悲观剪枝（PEP），这样可以提升决策树的泛化能力。悲观剪枝是后剪枝技术中的一种，通过递归估算每个内部节点的分类错误率，比较剪枝前后这个节点的分类错误率来决定是否对其进行剪枝。这种剪枝方法不再需要一个单独的测试数据集。
（3）能够完成对连续属性的离散化处理；
可以处理连续值。C4.5 可以处理连续属性的情况，对连续的属性进行离散化的处理。比如打篮球存在的“湿度”属性，不按照“高、中”划分，而是按照湿度值进行计算，那么湿度取什么值都有可能。该怎么选择这个阈值呢，C4.5 选择具有最高信息增益的划分所对应的阈值。
（4）能够对不完整数据进行处理。
基于比例，当数据集不完整的情况，C4.5 也可以进行处理。假如我们得到的是如下的数据，你会发现这个数据中存在两点问题。

第一个问题是，数据集中存在数值缺失的情况，如何进行属性选择？第二个问题是，假设已经做了属性划分，但是样本在这个属性上有缺失值，该如何对样本进行划分？我们不考虑缺失的数值，可以得到温度 D={2-,3+,4+,5-,6+,7-}。温度 = 高：D1={2-,3+,4+} ；温度 = 中：D2={6+,7-}；温度 = 低：D3={5-} 。针对将属性选择为温度的信息增为：Gain(D′, 温度)=Ent(D′)-0.792=1.0-0.792=0.208属性熵 =1.459, 信息增益率 Gain_ratio(D′, 温度)=0.208/1.459=0.1426。D′的样本个数为 6，而 D 的样本个数为 7，所以所占权重比例为 6/7，所以 Gain(D′，温度) 所占权重比例为 6/7，所以：Gain_ratio(D, 温度)=6/7*0.1426=0.122。这样即使在温度属性的数值有缺失的情况下，我们依然可以计算信息
案例
这里使用打篮球的案例来研究 C4.5 算法的执行流程。给定一些训练样本，具有
如下 4 个属性：Outlook（天气）、Temperature（温度）、Humidity（湿度）、Windy（是否刮风），来判断今天是否适合出去打篮球。图 12 展示了 C4.5 算法根据训练样本生成的决策树。根节点是 Outlook 属性，划分出了三个组合（Sunny、Overcast、Rainy）。

其中，Overcast 划分中的集合是“纯”的，故此子树就停止生长，表示 Outlook 的属性值为 Overcast 时，适合出去打篮球。
而 Sunny 和 Rainy 的属性值划分样例集合中包含 Humidity 和 Windy 的不同属性值，因此它们不“纯”，需要继续使用子树来表示子集，直到子集为“纯”的（即子集中的所有实例都属于同一个类别），树才停止生长。根据 Yes，得出只有符合以上属性值要求（比如 Outlook 为 Sunny，Humidity<=75；或者 Outlook为 Rainy，Windy 为 False），才能适合出去打篮球。

项目链接

List item

CART（Classification and Regression Trees）

1.定义

简介
CART 算法，英文全称叫做 Classification And Regression Tree，中文叫做分类回归树。由 ID3，C4.5 演化而来，是许多基于树的 bagging、boosting 模型的基础。CART 是在给定输入随机变量 x 条件下输出随机变量 y 的条件概率分布。
特征
- 只支持二叉树，ID3 和 C4.5 算法可以生成二叉树或多叉
- 既可以作分类树，又可以作回归树。够处理连续值。python，sklearn默认决策树模型
- 用Gini系数也称Gini不纯度代替信息熵。选择特征：使Gini不纯度变小的特征作为节点。
ID3、C4.5 和 CART 的一个比较总结

算法	支持模型	树结构	特征选择	连续值处理	缺失值处理	剪枝
ID3	分类	多叉树	信息增益	不支持	不支持	不支持
C4.5	分类	多叉树	信息增益比	支持	支持	支持
CART	分类、回归	二叉树	基尼系数、均方差	支持	支持	支持

CART 算法优缺点：
- CART 算法的缺点在于：
  （1）在做特征选择的时候都是选择最优的一个特征来做分类决策，但是大多数，分类决策不应该是由某一个特征决定的，而是应该由一组特征决定的。
  （2）如果样本发生一点点的改动，就会导致树结构的剧烈改变。
- CART 算法的优点
  可以对复杂和非线性的数据建模，缺点是结果不易理解。

2.基尼系数

简介
- 基尼系数本身反应了样本的不确定度。
  当基尼系数越小的时候，说明样本之间的差异性小，不确定程度低。
- 用来衡量一个国家收入差距的常用指标。
  当基尼系数大于 0.4 的时候，说明财富差异悬殊。基尼系数在 0.2-0.4 之间说明分配合理，财富差距不大。
公式
假设 t 为节点，那么该节点的 GINI 系数的计算公式为：

p(Ck|t) :节点 t 属于类别 Ck 的概率，节点 t 的基尼系数为 1 减去各类别 Ck 概率平方和。
计算基尼系数
两个集合的基尼系数分别为多少：集合 D1：6 个都去打篮球；集合 D2：3 个去打篮球，3 个不去打篮球。
针对集合D1：所有人都去打篮球，所以 p(Ck|t)=1，因此 GINI(t)=1-1=0。
集合 D2：有一半人去打篮球，而另一半不去打篮球，所以，p(C1|t)=0.5，p(C2|t)=0.5，GINI(t)=1-（0.5* 0.5+0.5* 0.5）=0.5。
通过两个基尼系数你可以看出，集合 1 的基尼系数最小，也证明样本最稳定，而集合 2 的样本不稳定性更大。
基于基尼系数建立CART 算法
基尼系数对特征属性进行二元分裂，假设属性 A 将节点 D 划分成了 D1 和 D2，如下图所示：

节点 D 的基尼系数等于子节点 D1 和 D2 的归一化基尼系数之和，用公式表示为：

节点 D 被属性 A 划分后的基尼系数越大，样本集合的不确定性越大，也就是不纯度越高。

核心解读

CART 算法由以下两步组成：

（1）树的生成：基于训练数据集生成决策树，生成的决策树要尽量大；
（2）树的剪枝：用验证数据集对已生成的树进行剪枝并选择最优子树这时损失函数最小作为剪枝的标准。

CART 分类树的工作流程
分类的过程本身是一个不确定度降低的过程。决策树的生成就是基于训练数据集，通过递归地构建二叉决策树的过程，选择基尼系数最小的属性作为属性的划分。树内部结点特征取值为“是”和“否”，左分支取值为“是”，右分支取值为“否”。这样的判定树等价于递归地二分每一个特征，将输入空间划分为有限个单元，并在这些单元上预测概率分布，也就是在输入给定的条件下输出条件概率分布。
CART分类树算法
- 算法输入训练集D，基尼系数的阈值，样本个数阈值。
- 算法从根节点开始，用训练集递归建立CART分类树。
  　　(1)对于当前节点的数据集为D，如果样本个数小于阈值或没有特征，则返回决策子树，当前节点停止递归。
  　　(2)计算样本集D的基尼系数，如果基尼系数小于阈值，则返回决策树子树，当前节点停止递归。
  　　(3)计算当前节点现有的各个特征的各个特征值对数据集D的基尼系数。
  　　(4)在计算出来的各个特征的各个特征值对数据集D的基尼系数中，选择基尼系数最小的特征A和对应的特征值a。根据这个最优特征和最优特征值，把数据集划分成两部分D1和D2，同时建立当前节点的左右节点，做节点的数据集D为D1，右节点的数据集D为D2。
  　　(5)对左右的子节点递归的调用1-4步，生成决策树。
决策树的剪枝
- 定义：
  用验证数据集对生成的树进行剪枝并选择最优子树，损失函数最小作为剪枝的标准重复上面的过程，得到了剪枝后的子树集合后，我们需要用验证集对所有子树的误差计算一遍。可以通过计算每个子树的基尼指数或者平方误差，取误差最小的那个树，得到我们想要的结果。
- 剪枝方法
  主要采用的是 CCP 方法，它是一种后剪枝的方法，英文全称叫做 cost-complexity prune，中文叫做代价复杂度。这种剪枝方式用到一个指标叫做节点的表面误差率增益值，以此作为剪枝前后误差的定义。寻找的就是最小值对应的节点，把它剪掉
- 表面误差率增益值
  等于节点 t 的子树被剪枝后的误差变化除以剪掉的叶子数量。用公式表示则是：
  
  其中 Tt 代表以 t 为根节点的子树，C(Tt) 表示节点 t 的子树没被裁剪时子树 Tt 的误差，C(t) 表示节点 t 的子树被剪枝后节点 t 的误差，|Tt|代子树 Tt 的叶子数，剪枝后，T 的叶子数减少了|Tt|-1。
CART 回归的流程包括
构建回归树用平方误差最小化准则，对分类树用基尼指数最小化准则，进行特征选择，生成二叉树：
（1）遍历每个特征，对于特征，遍历每个取值 s，用切分点 s 将数据集分为两份，计算切分后的误差；
（2）求出误差最小的特征及其对应的切分点，此特征即被选中作为分裂结点，切分点形成左右分支；
（3）递归地重复以上步骤。
回归树中节点划分的标准
CART 回归树中，用样本的离散程度来评价“不纯度”。分别对应着两种目标函数最优化的标准，即用最小绝对偏差（LAD），或者使用最小二乘偏差（LSD）。这通常使用最小二乘偏差的情况更常见一些。
- 最小绝对偏差（LAD）
  差值的绝对值为样本值减去样本均值的绝对值：
- 最小二乘偏差（LSD）
  方差为每个样本值减去样本均值的平方和除以样本个数：

项目链接

List item

KNN（K-Nearest Neighbor）

1.定义

理解
“近朱者赤，近墨者黑”。最邻近规则分类算法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
KNN 的核心思想是
如果一个样本在特征空间中的 K 个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。KNN 算法中，所选择的邻居都是已经正确分
类的对象。通过找出一个样本的 K 个最近邻居，将这些邻居的属性的平均值赋给该样本，就可以得到该样本的属性。

KNN 方法在做类别决策时，只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重迭较多的待分样本集来说，KNN方法较其他方法更为适合。
过程
（1）计算测试数据与各个训练数据之间的距离；
（2）按照距离的递增关系进行排序；
（3）选取距离最小的 K 个点；
（4）确定前 K 个点所在类别的出现频率；
（5）返回前 K 个点中出现频率最高的类别作为测试数据的预测分类。
KD 树
KNN 的计算过程是大量计算样本点之间的距离。为了减少计算距离次数，提升 KNN 的搜索效率，人们提出了 KD 树（K-Dimensional 的缩写）。
KD 树是对数据点在 K 维空间中划分的一种数据结构。在 KD 树的构造中，每个节点都是 k 维数值点的二叉树。既然是二叉树，就可以采用二叉树的增删改查操作，这样就大大提升了搜索效率。
不需要对 KD 树的数学原理了解太多，只需要知道它是一个二叉树的数据结构，方便存储 K 维空间的数据就可以了。而且在 sklearn 中，我们直接可以调用 KD 树，很方便。
优缺点
优点：简单、容易理解，通过 K 值的增大可具备噪音数据的鲁棒性。
缺点：需要大量的空间去储存已知的实例，算法复杂度高。
案例1.分类：
假设，我们想对电影的类型进行分类，统计了电影中打斗次数、接吻次数，当然还有其他的指标也可以被统计到，如下表所示。《战狼》《红海行动》《碟中谍 6》是动作片，《前任 3》《春娇救志明》《泰坦尼克号》是爱情片，但是有没有一种方法让机器也可以掌握这个分类的规则，当有一部新电影的时候，也可以对它的类型自动分类呢？

我们可以把打斗次数看成 X 轴，接吻次数看成 Y 轴，然后在二维的坐标轴上，对这几部电影进行标记，如下图所示。对于未知的电影 A，坐标为 (x,y)，我们需要看下离电影 A 最近的都有哪些电影，这些电影中的大多数属于哪个分类，那么电影 A 就属于哪个分类。实际操作中，我们还需要确定一个 K 值，也就是我们要观察离电影 A 最近的电影有多少个。
案例2.回归
对于一个新电影 X，我们要预测它的某个属性值，比如打斗次数，具体特征属性和数值如下所示。
此时，我们会先计算待测点（新电影 X）到已知点的距离，选择距离最近的 K 个点。假设 K=3，此时最近的 3 个点（电影）分别是《战狼》，《红海行动》和《碟中谍 6》，那么它的打斗次数就是这 3 个点的该属性值的平均值，即(100+95+105)/3=100 次。

2.核心解读

K 等于不同值时的算法分类结果？
- K 值比较小
  就相当于未分类物体与它的邻居非常接近才行。这样产生的一个问题就是，如果邻居点是个噪声点，那么未分类物体的分类也会产生误差，这样 KNN 分类就会产生过拟合。
- K 值比较大
  相当于距离过远的点也会对未知物体的分类产生影响，虽然这种情况的好处是鲁棒性强，但是不足也很明显，会产生欠拟合情况，也就是没有把未分类物体真正分类出来。
K值选择
K 值应该是个实践出来的结果，并不是我们事先而定的。在工程上，我们一般采用交叉验证的方式选取 K 值，交叉验证的思路：
把样本集中的大部分样本作为训练集，剩余的小部分样本用于预测，来验证分类模型的准确性。所以在 KNN 算法中，我们一般会把 K 值选取在较小的范围内，同时在验证集上准确率最高的那一个最终确定作为 K 值。
关于距离的度量
两个样本点之间的距离代表了这两个样本之间的相似度。距离越大，差异性越大；距离越小，相似度越大。关于距离的计算方式有下面五种方式：
1. 欧氏距离；
2. 曼哈顿距离；
3. 闵可夫斯基距离；
4. 切比雪夫距离；
5. 余弦距离。

项目链接

List item

K-Means.

1. 定义

简介
K-Means 是一种非监督学习，解决的是聚类问题。K 代表的是 K 类，Means 代表的是中心，可以理解算法的本质是确定 K 类的中心点，当你找到了这些中心点，也就完成了聚类。
算法的思想
对于给定的样本集，按照样本之间的距离大小，将样本集划分为 K 个簇，让簇内的点尽量紧密地连在一起，而让簇间的距离尽量的大。
- 数据表达式表示
  最小值采用的是启发式的迭代方法，假设簇划分为（C1,C2,…Ck），则目标是最小化平方误差 E：
  
  其中μi是簇 Ci的均值向量，有时也称为质心，表达式为：
图可以形象描述上式
图（a）表达了初始的数据集，假设 k=2。

在图（b）中，我们随机选择了两个 k 类所对应的类别质心，即图中的红色质心和蓝色质心，然后分别求样本中所有点到这两个质心的距离，并标记每个样本的类别为和该样本距离最小的质心的类别。

如图 c 所示，经过计算样本和红色质心和蓝色质心的距离，我们得到了所有样本点的第一轮迭代后的类别。

如图（d）所示此时我们对当前标记为红色和蓝色的点分别求其新的质心，新的红色质心和蓝色质心的位置已经发生了变动。

图（e）和图（f）重复了图（c）和图（d）的过程，即将所有点的类别标记为距离最近的质心的类别并求新的质心。最终我们得到的两个类别如图（f）。
优缺点
优点有：比较简单，实现也很容易，收敛速度快；算法的可解释度比较强。
缺点有：K 值的选取不好把握；采用迭代方法，得到的结果只是局部最优；对噪音和异常点比较敏感。

2.核心解读

假设我有 20 支亚洲足球队，想要将它们按照成绩划分成 3 个等级，可以怎样划分？

如何确定 K 类的中心点？
1. 选取 K 个点作为初始的类中心点，这些点一般都是从数据集中随机抽取的；
  一开始我们是可以靠我们的经验随机指派，一流的亚洲球队伊朗。二流的亚洲球队中国。三流的亚洲球队越南。三个等级的典型代表，也就是我们每个类的中心点。
2. 将每个点分配到最近的类中心点，这样就形成了 K 个类，然后重新计算每个类的中心点；
  计算每个队伍分别到中国、日本、韩国的距离，然后根据距离远近来划
3. 纠正中心点：重复第二步，直到类不发生变化，或者你也可以设置最大迭代次数，这样即使类中心点发生变化，但是只要达到最大迭代次数就会结束。中心点在整个迭代过程中，并不是唯一的，只是你需要一个初始值，一般算法会随机设置初始的中心点。
  再重新计算这三个类的中心点，如何计算呢？最简单的方式就是取平均值，然后根据新的中心点按照距离远近重新分配球队的分类，再根据球队的分类更新中心点的位置。
如何将其他点划分到 K 类中？
实际上是关于距离的定义，我们知道距离有多种定义的方式，在 K-Means 和 KNN 中，我们都可以采用欧氏距离、曼哈顿距离、切比雪夫距离、余弦距离等。对于点的划分，就看它离哪个类的中心点的距离最近，就属于哪一类。
如何区分 K-Means 与 KNN？
1. 两个算法解决数据挖掘的两类问题。K-Means 是聚类算法，KNN 是分类算法。
2. 这两个算法分别是两种不同的学习方式。K-Means 是非监督学习，也就是不需要事先给出分类标签，而 KNN 是有监督学习，需要我们给出训练数据的分类标识。
3. K 值的含义不同。K-Means 中的 K 值代表 K 类。KNN 中的 K 值代表 K 个最接近的邻居。

项目链接

List item

Naive Bayes 朴素贝叶斯法

1.相关定义

简介
基于贝叶斯定理与特征条件独立假设的分类方法，和决策树模型是使用最为广泛的两种分类模型。相比决策树模型，朴
素贝叶斯模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。具有稳定的分类效率。但是在实际应用中，属性之间相互独立的假设往往是不成立的，给朴素贝叶斯模型的分类准确度带来一定影响。
- 贝叶斯分类
  在统计资料的基础上，依据条件概率公式，计算当前特征的样本属于某个分类的概率，选择最大的概率分类
- 预测建模算法
  强制假设每个输入变量是独立的，统计的是属性的条件概率
- 朴素
  贝叶斯之所以朴素是因为它假设属性是相互独立的，因此对实际情况有所约束，虽然不太现实，但对于绝大多数问题有很好的解决。如果属性之间存在关联，分类准确率会降低。
- 条件概率
  训练朴素贝叶斯模型，我们需要先给出训练数据，以及这些数据对应的分类。那么类别概率和条件概率。他们都可以从给出的训练数据中计算出来。一旦计算出来，概率模型就可以使用贝叶斯原理对新数据进行预测。
数学原理
贝叶斯统计
组成
由两种类型的概率组成：1. 每个类别的概率P(Cj)；2. 每个属性的条件概率P(Ai|Cj)。
- 类别概率
  将数据集转换为频率表，然后创建概率表，比如 P(sunny) =0.36
- 条件概率
  用朴素贝叶斯计算后验概率，后验概率大的为预测分类。如果天气是 sunny 就出去玩，这样说是否正确？可以根据后验概率来确定以上说法是否正确，即P(Yes|Sunny)=P(Sunny|Yes)*P(Yes)/P(Sunny)=0.60>0.5，所以天气好就可以出去玩
适用环境
朴素贝叶斯分类常用于文本分类，尤其是对于英文等语言来说，分类效果很好。它常用于垃圾文本过滤、情感预测、推荐系统等
优缺点
- 优点包括：
  - 算法的逻辑性十分简单，当数据呈现不同的特点时，朴素贝叶斯的分类性能不会有太大的差异，算法的鲁棒性比较好。
  - 当数据集属性之间的关系相对比较独立时，朴素贝叶斯分类算法会有较好的效果。
- 缺点包括：
  - 属性独立性的条件同时也是朴素贝叶斯分类器的不足之处。数据集属性的独立性在很多情况下是很难满足的，因为数据集的属性之间往往都存在着相互关联，如果在分类过程中出现这种问题，会导致分类的效果大大降低

工作原理

根据以往的经验判断性别就是分类过程

离散数据
数据：身高“高”、体重“中”，鞋码“中”，请问这个人是男还是女？
- 转化为数学问
  用 A1, A2, A3 分别为身高 = 高、体重 = 中、鞋码 = 中。一共有两个类别，假设用 C 代表类别，那么 C1,C2 分别是：男、女，在未知的情况下我们用 Cj 表示。
- 条件概率问题
  想求在 A1、A2、A3 属性下，Cj 的概率，用条件概率表示就是 P(Cj|A1A2A3)。
- 贝叶斯公式应用
  P(A1A2A3) 都是固定的，我们想要寻找使得 P(Cj|A1A2A3) 的最大值，就等价于求 P(A1A2A3|Cj)P(Cj) 最大值。
- 继续简化
  假定 Ai 之间是相互独立的，P(A1A2A3|Cj)=P(A1|Cj)P(A2|Cj)P(A3|Cj)，需要从数据集 Ai 和 Cj 中计算出 P(Ai|Cj) 的概率：P(A1|C1)=1/2, P(A2|C1)=1/2, P(A3|C1)=1/4，P(A1|C2)=0, P(A2|C2)=1/2, P(A3|C2)=1/2
- 得出结论
  带入到上面的公式得出 P(A1A2A3|Cj)，最后找到使得 P(A1A2A3|Cj) 最大的类别 Cj。所以 P(A1A2A3|C1)=1/16, P(A1A2A3|C2)=0
连续数据
数据，身高 180、体重 120，鞋码 41，请问该人是男是女呢？连续变量，不能采用离散变量的方法计算概率。样本太少，所以也无法分成区间计算
-数据分布
假设男性和女性的身高、体重、鞋码都是正态分布，男性的身高是均值 179.5、标准差为 3.697 的正态分布
- 分别计算概率
通过样本计算出均值和方差，也就是得到正态分布的密度函数，计算得：
男性的身高为 180 的概率为 0.1069。
男性体重为 120 的概率为 0.000382324
男性鞋码为 41 号的概率为 0.120304111。
- 应用贝叶斯计算总概率
有了密度函数，就可以把值代入，算出某一点的密度函数的值，男性的可能： P(A1A2A3|C1)=P(A1|C1)P(A2|C1)P(A3|C1)=0.10690.0003823240.120304111=4.9169e-6 女的可能性：
P(A1A2A3|C2)=P(A1|C2)P(A2|C2)P(A3|C2)=0.000001474890.0153541440.120306074=2.7244e
- 结论
很明显这组数据分类为男的概率大于分类为女的概率

SVM（Support Vector Machine）

1.基本认知

介绍
支持向量机（Support Vector Machine）是一种监督式学习的方法，它广泛的应用于统计分类以及回归分析中。SVM将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面，分隔超平面使两个平行超平面的距离最大化。
基本思想是
在分类问题中，很多时候有多个解，如下图左边所示，找到集合边缘上的若干数据（称为支持向量），用这些点在理想的线性可分的情况下其决策平面会有多个。而 SVM 的基本模型是在特征空间上找到找到一个超平面（称为决策面）使得训练集上正负样本间隔最大，=这个超平面就是我们的 SVM 分类器。
SVM 算法计算出来的分界会保留对类别最大的间距，即有足够的余量，如图 14 右边所示。能将不同的样本划分开，同时使得样本集中的点到这个分类超平面的最小距离（即分类间隔）最大化，“最大间隔“决策面就是 SVM 要找的最优解，使得支持向量到该平面的距离最大
- 支持向量
  离分类超平面最近的样本点，实际上如果确定了支持向量也就确定了这个超平面。所以支持向量决定了分类间隔到底是多少，而在最大间隔以外的样本点，其实对分类都没有意义。
- 超平面
  如果在一维空间里就表示一个点，在二维空间里表示一条直线，在三维空间中代表一个平面，当然空间维数还可以更多，这样我们给这个线性函数起个名称叫做“超平面”
  - 案例
    桌子上我放了红色和蓝色两种球，请你用一根棍子将这两种颜色的球分开。你可以很快想到解决方案，在红色和蓝色球之间画条直线就好了，如下图所示：
    
    练习 2：这次难度升级，桌子上依然放着红色、蓝色两种球，但是它们的摆放不规律，如下图所示。
    
    如何用一根棍子把这两种颜色分开呢？你可能想了想，认为一根棍子是分不开的。除非把棍子弯曲，像下面这样：所以这里直线变成了曲线。如果在同一个平面上来看，红蓝两种颜色的球是很难分开的。那么有没有一种方式，可以让它们自然地分开呢？这里你可能会灵机一动，猛拍一下桌子，这些小球瞬间腾空而起，如下图所示。
    
    在腾起的那一刹那，出现了一个水平切面，恰好把红、蓝两种颜色的球分开。在这里，二维平面变成了三维空间。原来的曲线变成了一个平面。这个平面，我们就叫做超平面。
- 分类间隔
  点到超平面的距离公式这里我们可以用线性函数来表示
  在这个公式里，w、x 是 n 维空间里的向量，其中 x 是函数变量；w 是法向量。法向量这里指的是垂直于平面的直线所表示的向量，它决定了超平面的方向。实际中求超平面公式中的 w* 和 b* 进行求解，需要涉及软间隔、核函数
- 决策面
  其实我们可以有多种直线的划分，比如下图所示的直线 A、直线 B 和直线 C，分类环境不是在二维平面中的，而是在多维空间中，这样直线 C 就变成了决策面 C
- 最优决策面
  在保证决策面不变，且分类不产生错误的情况下，我们可以移动决策面 C，直到产生两个极限的位置：如图中的决策面 A 和决策面 B。极限的位置是指，如果越过了这个位置，就会产生分类错误。这样的话，两个极限位置 A 和 B 之间的分界线 C 就是最优决策面。
- 分类间隔margin
  极限位置到最优决策面 C 之间的距离，就是“分类间隔”。某类样本集到超平面的距离是这个样本集合内的样本到超平面的最短距离。
- 分类间隔的大小
  我们用 di 代表点 xi 到超平面 wxi+b=0 的欧氏距离。因此我们要求 di 的最小值，用它来代表这个样本到超平面的最短距离。di 可以用公式计算得出，其中||w||为超平面的范数，di 的公式可以用解析几何知识进行推导，这里不做解释
- 最大间隔max margin
  如果我们转动这个最优决策面，你会发现可能存在多个最优决策面，它们都能把数据集正确分开，这些最优决策面的分类间隔可能是不同的，而那个拥有“最大间隔”（max margin）的决策面就是 SVM 要找的最优解。支持向量就是离分类超平面最近的样本点,决定了分类间隔到底是多少,
- 最大间隔的优化模型
  目标就是找出所有分类间隔中最大的那个值对应的超平面。在数学上，这是一个凸优化问题（凸优化就是关于求凸集中的凸函数最小化的问题，这里不具体展开）。通过凸优化问题，最后可以求出最优的 w 和 b，也就是我们想要找的最优超平面。中间求解的过程会用到拉格朗日乘子，和 KKT（Karush-Kuhn-Tucker）条件。数学公式比较多，这里不进行展开。
分类器类别
- 完全线性可分情
  硬间隔指的就是完全分类准确，不能存在分类错误的情况线性可分是个理想。完全线性可分情况下的线性分类器，也就是线性可分的情况，是最原始的 SVM，它最核心的思想就是找到最大的分类间隔；
- 大部分线性可分软间隔
  就是允许一定量的样本分类错误，实际数据会存在噪音
- 线性不可分非线性支持向量机
  在解决线性不可分问题时，它可以通过引入核函数，巧妙地解决了在高维空间中的内积运算，从而很好地解决了非线性分类问题。如下图所示，通过核函数的引入，将线性不可分的数据映射到一个高维的特征空间内，使得数据在特征空间内是可分的。
  核函数：线性核、多项式核、高斯核、拉普拉斯核、sigmoid 核，或者是这些核函数的组合
SVM寻找最大间隔的意义
支持向量机之所以坚持寻找最大边缘超平面，是因为它具有最好的泛化能力。它不仅使训练数据具有最佳的分类性，而且为测试数据的正确分类留下了很大的空间。
优缺点
- 优点在于：
  - 有严格的数学理论支持，可解释性强，不依靠统计方法，从而简化了通常的分类和回归问题；
  - 能找出对任务至关重要的关键样本；
  - 采用核技巧之后，可以处理非线性分类/回归任务。
- 缺点包括：
  - 训练时间长；
  - 当支持向量的数量较大时，预测计算复杂度较高。因此支持向量机目前只适合小批量样本的任务，无法适应百万甚至上亿样本的任务。

2.项目

EM（Expectation Maximization

1.基本认知

简介
EM 的英文是 Expectation Maximization，所以 EM 算法也叫最大期望算法。EM 算法直接的应用就是求参数估计，最初是为了解决数据缺失情况下的参数估计问题。EM 算法是最常见的隐变量估计方法，在机器学习中有极为广泛的用途，例如常被用来学习高斯混合模型的参数、隐式马尔科夫算法、LDA主题模型的变分推断等。
EM 算法的工作原理

EM 算法是一种求解最大似然估计的方法，通过迭代优化策略，来找出样本的模型参数。三个主要的步骤：初始化参数、观察预期、重新估计。1.根据己经给出的观测数据，估计出模型参数的值；2.E 步：通过旧的参数来计算隐藏变量（缺失数据的值）；3.M 步：通过得到的隐藏变量的结果来重新估计参数。反复迭代，直到收敛（参数不再发生变化），得到我们想要的结果，迭代结束。
假设你炒了一份菜，想要把它平均分到两个碟子里，该怎么分？1.先给每个碟子初始化一些菜量，碟子 A 和碟子 B 中菜的份量就是想要求得的模型参数。2.观察份量的差距，两步完成期望步骤（Expectation）。3.如果结果存在偏差就需要重新估计参数，调整 A 和 B 的参数，这个就是最大化步骤（Maximization）。
最大似然”
Maximum Likelihood,最大可能性，相同年龄下男性的平均身高比女性的高一些，有一男一女，财产男同学高的可能性会很大。
最大似然估计
是一种通过已知结果，估计参数的方法。指的就是一件事情已经发生了，然后反推更有可能是什么因素造成的。还是用一男一女比较身高为例，假设有一个人比另一个人高，反推他可能是男性。
EM 聚类的工作原理
把潜在类别当做隐藏变量，样本看做观察值，就可以把聚类问题转化为参数估计问题。
EM 算法是一个框架
EM 算法相当于一个框架，你可以采用不同的模型来进行聚类，常用的 EM 聚类有 GMM 高斯混合模型和 HMM 隐马尔科夫模型。GMM（高斯混合模型）聚类比如下面这两个图，可以采用 GMM 来进行聚类

GMM 是通过概率密度来进行聚类，聚成的类符合高斯分布（正态分布）。而 HMM 用到了马尔可夫过程，在这个过程中，我们通过状态转移矩阵来计算状态转移的概率。HMM 在自然语言处理和语音识别领域中有广泛的应用。
优缺点
- 优点：
  - 相比于 K-Means 算法，EM 聚类更加灵活。K-Means 是通过距离来区分样本之间的差别的，且每个样本在计算的时候只能属于一个分类，称之为是硬聚类算法。而 EM 聚类在求解的过程中，实际上每个样本都有一定的概率和每个聚类相关，叫做软聚类算法。软的输出概率，硬的要给出答
- 缺点
  - 传统 EM 算法对初始值敏感，聚类结果随不同的初始值而波动较大。总的来说，EM 算法收敛的优劣很大程度上取决于其初始参数。

2.案例：EM 算法的基本思想

假设我们有 A 和 B 两枚硬币，实际情况是我不知道每次投掷的硬币是 A 还是 B，那么如何求得硬币 A 和硬币 B 出现正面的概率呢？我们做了 5 组实验，每组实验投掷 10 次，然后统计出现正面的次数，实验结果如下：

初始化参数。投掷硬币这个过程中存在隐含的数据，即我们事先并不知道每次投掷的硬币是 A 还是 B。假设我们知道这个隐含的数据，并将它完善，可以得到下面的结果：
求得硬币 A 和 B 出现正面次数的概率：

我们假设硬币 A 和 B 的正面概率（随机指定）是θA=0.5 和θB=0.9。
计算期望值，通过假设的参数来估计未知参数
假设实验 1 投掷的是硬币 A，那么正面次数为 5 的概率为：

假设实验 1 是投掷的硬币 B ，那么正面次数为 5 的概率为：

实验 1 更有可能投掷的是硬币 A。对实验 2~5 重复上面的计算过程，可以推理出来硬币顺序应该是{A，A，B，B，A}。
通过猜测的结果{A, A, B, B, A}来完善初始化的参数θA 和θB。然后一直重复第二步和第三步，直到参数不再发生变化。

Page Rank.

1.介绍

简介
PageRank 这个概念引自论文影响力因子，一篇论文的被引述的频度——即被别人引述的次数越多，一般判断这篇论文的权威性就越高。

PageRank 算法是 Google 排名运算法则（排名公式）的一个非常重要的组成部分，目的就是要找到优质的网页，不仅为用户提供想要的内容，而且还会从众多网页中筛选出权重高的呈现给用户。做法：每个到页面的链接都是对该页面的一次投票，被链接的越多，就意味着被其他网站投票越多。
简化模型
出链指的是链接出去的链接。入链指的是链接进来的链接。比如图中 A 有 2 个入链，3 个出链。
一个网页的影响力 = 所有入链集合的页面的加权影响力之和，
u 为待评估的页面，Bu 为页面 u 的入链集合。针对入链集合中的任意页面 v，它能给 u 带来的影响力是其自身的影响力 PR(v) 除以 v 页面的出链数量，即页面 v 把影响力 PR(v) 平均分配给了它的出链，这样统计所有能给 u 带来链接的页面 v，得到的总和就是网页 u 的影响力，即为 PR(u)。出链会给被链接的页面赋予影响力，当我们统计了一个网页链出去的数量，也就是统计了这个网页的跳转概率。
一共有 4 个网页 A、B、C、D。它们之间的链接信息如图所示：

A 有三个出链分别链接到了 B、C、D 上，跳转概率均为 1/3。B 有两个出链，跳转概率为 1/2。A、B、C、D 这四个网页的转移矩阵 M：
假设 A、B、C、D 四个页面的初始影响力都是相同：
第一次转移之后，各页面的影响力 w1 变为:

再用转移矩阵乘以 w1 得到 w2 结果，直到第 n 次迭代后 wn 影响力不再发生变化，可以收敛到 (0.3333，0.2222，0.2222，0.2222），也就是对应着 A、B、C、D 四个页面最终平衡状态下的影响力
两个问题：
1. 等级泄露（Rank Leak）：如果一个网页没有出链，就像是一个黑洞一样，吸收了其他网页的影响力而不释放，最终会导致其他网页的 PR 值为 0。
2. 等级沉没（Rank Sink）：如果一个网页只有出链，没有入链（如下图所示），计算的过程迭代下来，会导致这个网页的 PR 值为 0（也就是不存在公式中的 V）。针对等级泄露和等级沉没的情况，我们需要灵活处理。
随机浏览模型
为了解决简化模型中存在的等级泄露和等级沉没的问题,提出了 PageRank 的随机浏览模型。
他假设了这样一个场景：用户并不都是按照跳转链接的方式来上网，还有一种可能是不论当前处于哪个页面，都有概率访问到其他任意的页面，比如说用户就是要直接输入网址访问其他页面，虽然这个概率比较小.所以他定义了阻尼因子 d，这个因子代表了用户按照跳转链接来上网的概率，通常可以取一个固定值 0.85，而 1-d=0.15 则代表了用户不是通过跳转链接的方式来访问网页的，比如直接输入网址。

其中 N 为网页总数，这样我们又可以重新迭代网页的权重计算了，因为加入了阻尼因子 d，一定程度上解决了等级泄露和等级沉没的问题。
Google 不断地重复计算每个页面的 PageRank，如果给每个页面一个随机 PageRank 值(非 0)，那么经过不断地重复计算，这些页面的 PR 值会趋向于稳定，也就是收敛的状态
应用
只要是有网络的地方，就存在出链和入链，就会有 PR 权重的计算，也就可以运用我们今天讲的 PageRank 算法。
- 社交网络领域
  - 微博粉丝数并不一定等于他的实际影响力。如果按照 PageRank 算法，还需要看这些粉丝的质量如何。如果有很多明星或者大 V 关注，那么这个人的影响力一定很高。如果粉丝是通过购买僵尸粉得来的，那么即使粉丝数再多，影响力也不高
  - 工作场景中，比如说脉脉这个社交软件，它计算的就是个人在职场的影响力。如果你的工作关系是李开复、江南春这样的名人，那么你的职场影响力一定会很高。反之，如果你是个学生，在职场上被链入的关系比较少的话，职场影响力就会比较低。

Apriori

1.基本认知

简介
Apriori 算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。已被广泛的应用到商业、网络安全等各个领域。在实际工作中，我们常用 FP-Growth 来做频繁项集的挖掘。当然 Apriori 的改进算法除了 FP-Growth 算法以外，还有 CBA 算法、GSP 算法。
- 关联规则
  最早是由 Agrawal 等人在 1993 年提出的。在 1994 年 Agrawal 等人又提出了基于关联规则的 Apriori 算法，至今 Apriori 仍是关联规则挖掘的重要算法。
重要概念
- 项集 itemset
  它可以是单个的商品，也可以是商品的组合。
- 支持度
  支持度是个百分比，度量一个集合在原始数据中出现的频率。指的是：某个商品组合出现的次数与总次数之间的比例。支持度越高，代表这个组合出现的频率越大
  在这个例子中，我们能看到“牛奶”出现了 4 次，那么这 5 笔订单中“牛奶”的支持度就是 4/5=0.8。同样“牛奶 + 面包”支持度就是 3/5=0.6。
- 最小支持度Min Support
  支持度是针对项集来说的，因此可以定义一个最小支持度，只保留最小支持度的项集。
- 频繁项集
  频繁项集就是支持度大于等于最小支持度阈值的项集，所以小于最小值支持度的项目就是非频繁项集，而大于等于最小支持度的项集就是频繁项集
- 置信度
  置信度是个条件概念，就是说在 A 发生的情况下，B 发生的概率是多少。它指的就是当你购买了商品 A，会有多大的概率购买商品 B，在上面这个例子中：
  置信度（牛奶→啤酒）=2/4=0.5，代表如果你购买了牛奶，有多大的概率会购买啤酒？
  置信度（啤酒→牛奶）=2/3=0.67，代表如果你购买了啤酒，有多大的概率会购买牛奶？
- 提升度
  我们在做商品推荐的时候，重点考虑的是提升度，因为提升度代表的是“商品 A 的出现，对商品 B 的出现概率提升的”程度。
  还是看上面的例子，如果我们单纯看置信度 (可乐→尿布)=1，也就是说可乐出现的时候，用户都会购买尿布，那么当用户购买可乐的时候，我们就需要推荐尿布么？
  实际上，就算用户不购买可乐，也会直接购买尿布的，所以用户是否购买可乐，对尿布的提升作用并不大。
  我们可以用下面的公式来计算商品 A 对商品 B 的提升度：
  提升度 (A→B)= 置信度 (A→B)/ 支持度 (B)
  这个公式是用来衡量 A 出现的情况下，是否会对 B 出现的概率有所提升。
  所以提升度有三种可能：
  提升度 (A→B)>1：代表有提升；
  提升度 (A→B)=1：代表有没有提升，也没有下降；
  提升度 (A→B)<1：代表有下降
Apriori 算法的工作原理
关联分析，从数据集中发现项与项（item 与 item）之间的关系——有两个目标: 频繁项集frequent itemset、关联规则。频繁项集指经常一块出现的物品集合;关联规则暗示两种物品之间可能存在很强的关系。
- 规则：通过排除法来选择频繁项集和关联规则，
  (1) 如果某个项集是频繁的，那么它的所有子集也是频繁的;
  (2) 如果某个项集是非频繁的，那么它的所有超集也是非频繁的;
  (3) 基于此，Apriori算法从单元素项集开始，通过组合满足最小支持度的项集来形成更大的集合。
- 递归流程：
  1. K=1，计算 K 项集的支持度；
  2. 筛选掉小于最小支持度的项集；
  3. 如果项集为空，则对应 K-1 项集的结果为最终结果。
  4. 否则 K=K+1，重复 1-3 步。
- 步骤
1. 找出所有的频繁项集(frequent itemset)，这些项集出现的频繁性至少和预定义的最小支持度一样。
  首先我们把上面案例中的商品用 ID 来代表，牛奶、面包、尿布、可乐、啤酒、鸡蛋的商品 ID 分别设置为 1-6，上面的数据表可以变为：
  假设我随机指定最小支持度是 50%，也就是 0.5。
2. 由频繁项集产生强关联规则，这些规则必须满足最小支持度和最小可信度
  1.先计算单个商品的支持度，也就是得到 K=1 项的支持度
  因为最小支持度是 0.5，所以你能看到商品 4、6 是不符合最小支持度的，不属于频繁项集，于是经过筛选商品的频繁项集就变成：
3. 使用第一步找到的频繁项集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右边只有一项，一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频繁项集，使用了递归的方法。
  2.将商品两两组合（根据规则2），得到 k=2 项的支持度
  
  筛掉小于最小值支持度的商品组合，可以得到：
  
  3.K=3 项的商品组合，可以得到
  再筛掉小于最小值支持度的商品组合，可以得到
改进算法：FP-Growth 算法
- Apriori 优点，算法简单明了，没有复杂的理论推导，也易于实现
- Apriori 缺点，会浪费很多计算空间和计算时间：
1. 可能产生大量的候选集。因为采用排列组合的方式，把可能的项集都组合出来了；
2. 每次计算都需要重新扫描数据集，来计算每个项集的支持度。
- FP-Growth 算法，它的特点是：
  1. 创建了一棵 FP 树来存储频繁项集。在创建前对不满足最小支持度的项进行删除，减少了存储空间。
  2. 整个生成过程只遍历数据集 2 次，大大减少了计算量。
FP-Growth 的原理
1. 创建项头表（item header table）
项头表包括了项目、支持度，以及该项在 FP 树中的链表。初始的时候链表为空。
创建项头表的作用是为 FP 构建及频繁项集挖掘提供索引。这一步的流程是先扫描一遍数据集，对于满足最小支持度的单个项（K=1 项集）按照支持度从高到低进行排序，这个过程中删除了不满足最小支持度的项。

2. 构造 FP 树
FP 树的根节点记为 NULL 节点。整个流程是需要再次扫描数据集，对于每一条数据，按照支持度从高到低的顺序进行创建节点（也就是第一步中项头表中的排序结果），节点如果存在就将计数 count+1，如果不存在就进行创建。同时在创建的过程中，需要更新项头表的链表
1. 通过 FP 树挖掘频繁项集
  具体的操作会用到一个概念，叫“条件模式基”，它指的是以要挖掘的节点为叶子节点，自底向上求出 FP 子树，然后将 FP 子树的祖先节点设置为叶子节点之和。
  “啤酒”的节点为例，从 FP 树中可以得到一棵 FP 子树，将祖先节点的支持度记为叶子节点之和，得到：
  
  相比于原来的 FP 树，尿布和牛奶的频繁项集数减少了。这是因为我们求得的是以“啤酒”为节点的 FP 子树，也就是说，在频繁项集中一定要含有“啤酒”这个项。你可以再看下原始的数据，其中订单 1{牛奶、面包、尿布}和订单 5{牛奶、面包、尿布、可乐}并不存在“啤酒”这个项，所以针对订单 1，尿布→牛奶→面包这个项集就会从 FP 树中去掉，针对订单 5 也包括了尿布→牛奶→面包这个项集也会从 FP 树中去掉，所以你能看到以“啤酒”为节点的 FP 子树，尿布、牛奶、面包项集上的计数比原来少了 2。条件模式基不包括“啤酒”节点，而且祖先节点如果小于最小支持度就会被剪枝，所以“啤酒”的条件模式基为空。
  同理，我们可以求得“面包”的条件模式基为：

AdaBoost.

1.基本认知

简介
AdaBoost 算法，Adaptive Boosting，中文含义是自适应提升算法，分类算法中的集成算法。其核心思想是其实是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器根据不同的权重组合，构成一个更强的最终分类器 (强分类器)。
实际上 AdaBoost 算法是一个框架，你可以指定任意的分类器，通常我们可以采用 CART 分类器作为弱分类器
组合公式
假设弱分类器为 Gi(x)，它在强分类器中的权重 αi，那么就可以得出强分类器 f(x)：
如何得到弱分类器，也就是在每次迭代训练的过程中，如何得到最优弱分类器？
通过改变样本的数据分布来实现的。
(1) 先通过对N个训练样本的学习得到第一个弱分类器;
(2) 将分错的样本增加权重和其他的新数据一起构成一个新的N个的训练样本，再基于上一次得到的分类准确率，来确定这次训练样本中每个样本的权重，将修改过权值的新数据集送给下层分类器进行训练，得到第二个弱分类器，整个训练过程如此迭代地进行下去;
(3) 将第1、2步都分错了的样本加上其他的新样本构成另一个新的N 个的训练样本，通过对这个样本的学习得到第三个弱分类器;
(4) 最终分类器最后融合成强分类器。即某个数据被分为哪一类要由各分类器权值决定。
Dk+1 代表第 k+1 轮训练中，样本的权重集合，其中 Wk+1,1 代表第 k+1 轮中第一个样本的权重，以此类推 Wk+1,N 代表第 k+1 轮中第 N 个样本的权重，因此用公式表示为：

第 k+1 轮中的样本权重，是根据该样本在第 k 轮的权重以及第 k 个分类器的准确率而定，具体的公式为：

该算法其实是简单的弱分类算法的提升过程，这个过程通过不断地训练，可以提高对数据的分类能力。这样做的好处就是，通过每一轮训练样本的动态权重，可以让训练的焦点集中到难分类的样本上，最终得到的弱分类器的组合更容易得到更高的分类准确率。
每个弱分类器在强分类器中的权重是如何计算的？
基于这个弱分类器对样本的分类错误率来决定它的权重。实际上在一个由 K 个弱分类器中组成的强分类器中，如果弱分类器的分类效果好，那么权重应该比较大，如果弱分类器的分类效果一般，权重应该降低。所以我们需要用公式表示就是：

其中 ei 代表第 i 个分类器的分类错误率。
主要解决
两类问题、多类单标签问题、多类多标签问题、大类单标签问题和回归问题。
优缺点
- 优点
  - Aadboost 算法系列具有较高的检测速率，且不易出现过拟合现象。
- 缺点
  - 该算法在实现过程中为取得更高的检测精度则需要较大的训练样本集，执行效果依赖于弱分类器的选择，搜索时间随之增加，故训练过程使得所用时间非常大，也因此限制了该算法的广泛应用。

算法示例

假设我有 10 个训练样本如下所示，希望通过 AdaBoost 构建一个强分类器
有 3 个基础分类器：

第一轮训练中，我们得到 10 个样本的权重为 1/10，即初始的 10 个样本权重一致，D1=(0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1)。
分类器 f1 的错误率为 0.3，也就是 x 取值 6、7、8 时分类错误；
分类器 f2 的错误率为 0.4，即 x 取值 0、1、2、9 时分类错误
分类器 f3 的错误率为 0.3，即 x 取值为 3、4、5 时分类错误。
f1、f3 分类器的错误率最低，因此我们选择 f1 或 f3 作为最优分类器，假设我们选 f1 分类器作为最优分类器，即第一轮训练得到：
分类器权重公式得到：
然后我们对下一轮的样本更新求权重值，代入 Wk+1,i 和 Dk+1 的公式，可以得到新的权重矩阵：D2=(0.0715, 0.0715, 0.0715, 0.0715, 0.0715, 0.0715, 0.1666, 0.1666, 0.1666, 0.0715)。
在第二轮训练中，我们继续统计三个分类器的准确率，可以得到分类器 f1 的错误率为 0.16663，也就是 x 取值为 6、7、8 时分类错误。分类器 f2 的错误率为 0.07154，即 x 取值为 0、1、2、9 时分类错误。分类器 f3 的错误率为 0.0715*3，即 x 取值 3、4、5 时分类错误。3 个分类器中，f3 分类器的错误率最低，因此我们选择 f3 作为第二轮训练的最优分类器，即：
根据分类器权重公式得到：
同样，我们对下一轮的样本更新求权重值，代入 Wk+1,i 和 Dk+1 的公式，可以得到 D3=(0.0455,0.0455,0.0455,0.1667, 0.1667,0.01667,0.1060, 0.1060, 0.1060, 0.0455)。
在第三轮训练中，我们继续统计三个分类器的准确率，可以得到分类器 f1 的错误率为 0.10603，也就是 x 取值 6、7、8 时分类错误。分类器 f2 的错误率为 0.04554，即 x 取值为 0、1、2、9 时分类错误。分类器 f3 的错误率为 0.1667*3，即 x 取值 3、4、5 时分类错误。
在这 3 个分类器中，f2 分类器的错误率最低，因此我们选择 f2 作为第三轮训练的最优分类器，即：
我们根据分类器权重公式得到：
假设我们只进行 3 轮的训练，选择 3 个弱分类器，组合成一个强分类器，那么最终的强分类器 G(x) = 0.4236G1(x) + 0.6496G2(x)+0.7514G3(x)

模型效果评估

预测模型评估：

MSE
Mean squared error，均方误差。
参数估计值与参数真值之差平方的期望值，
用于评估数据的变化程度，MSE值越小，模型精确度越高。

RMSE
均方误差的算术平方根

MAE
mMean absolute error.平均绝对误差，绝对误差的平均值。平均绝对误差在一些问题上能够更好地反映预测误差的实际情况。

二分类模型评估：

	预测为正例	预测为负例
实际为正例	TP：True Positive。	FN：False Negative
实际为负例	FP：False Positive	TN：True Negative

正例反例
是一个相对概念。正想里通常我是我们所关注的结果。
精确率precision，TP/(TP+FP)
预测为正例的正确率。实际问题中更关注准确率，样本的正负例分布并不均匀。
召回率recall，TP/(TP+FN)
实际为正例的正确率
正确率，（TP+TN）/(TP+FP+FP+TN)
判断的总正确率
pr曲线
以precision（精准率）和recall（召回率）这两个为变量而做出的曲线，其中recall为横坐标，precision为纵坐标。
一条PR曲线要对应一个阈值。通过选择合适的阈值，比如50%，对样本进行划分，概率大于50%的就认为是正例，小于50%的就是负例,从而计算相应的精准率和召回率。

如果一个学习器的P-R曲线被另一个学习器的P-R曲线完全包住，则可断言后者的性能优于前者，例如上面的A和B优于学习器C。但是A和B的性能无法直接判断，我们可以根据曲线下方的面积大小来进行比较，但更常用的是平衡点或者是F1值。平衡点（BEP）是P=R时的取值，如果这个值较大，则说明学习器的性能较好。而F1 = 2 * P * R ／( P + R )，同样，F1值越大，我们可以认为该学习器的性能较好。
ROC曲线
用来刻画二分类问题的图形。
横轴是假正例率（FPR），纵轴是真正例率（TPR）。
(1)真正类率(True Postive Rate)TPR: TP/(TP+FN),代表分类器预测的正类中实际正实例占所有正实例的比例。
(2)负正类率(False Postive Rate)FPR: FP/(FP+TN)，代表分类器预测的正类中实际负实例占所有负实例的比例。
我们可以发现：TPR=Recall。
AUC：
ROC曲线一定会经过（0，0）和（1，1）两个点。在此基础上，要尽量使曲线下方所围成的面积最大化。这部分面积称为AUC。在解释性较强的问题中会经常用到。
多分类问题的评估方法
- 将多分类问题转化了二分类问题
  将最关心的分类作为正例，其余作为负例
- 混淆矩阵

你可能感兴趣的:(数据分析学习笔记,数据挖掘)

《金文成〈中庸〉学习笔记399。2020-2-22》金吾生
《金文成〈中庸〉学习笔记399。2020-2-22》今天是庚子年戊寅月乙未日，正月廿九，2020年2月22日星期六。【唯天下至诚，为能尽其性；能尽其性，则能尽人之性；能尽人之性，则能尽物之性；能尽物之性，则可以赞天地之化育；可以赞天地之化育，则可以与天地参矣。】上一节，船山讲到诚与性的关系，诚是第二性的，性是第一性的，该怎么理解呢？船山说：“诚者性之撰也，性者诚之所丽也”，意思是说，不能简单地将诚
高省app没有邀请码怎么注册？高省app总部邀请码是什么？古楼
高省是正规平台吗？高省app是杭州长孚科技有限公司旗下的一款电商导购应用，为用户打造一个电商购物优惠平台，用户可以在这个App中领取主流商城的商品隐藏优惠券以及获得返利。基于第三方电商平台海量数据挖掘与分析，“高省”APP通过内容制作、分享等方式，为消费者打通吃喝玩乐购全场景全业态，让消费者省心省钱省时省力，为平台和品牌方导流创造收入，拓展了商家新的销售渠道。高省app逐渐构筑起了集各大主流电商平
数据库学习笔记——14组合查询 Love零O
本课学习如何利用UNION操作符将多条SELECT语句组合成一个结果集。1组合查询多数SQL查询只包含从一个或多个表中返回数据的单条SELECT语句。但是，SQL也允许执行多个查询（多条SELECT语句），并将结果作为一个查询结果集返回。这些组合查询通常称为并（UNION）或复合查询（compoundquery）。主要有两种情况需要使用组合查询：在一个查询中从不同的表返回结构数据；对一个表执行多个
时序数据库：数据库领域的未来之星数据库管理艺术数据库专家之路大数据AI人工智能 MCP&Agent SQL实战数据库时序数据库 ai
时序数据库：数据库领域的未来之星关键词：时序数据库、时间序列数据、物联网、大数据分析、数据库优化、TSDB、实时数据处理摘要：本文深入探讨了时序数据库(TimeSeriesDatabase,TSDB)这一新兴数据库技术。我们将从基本概念入手，分析时序数据库的核心原理和架构设计，详细讲解其特有的数据模型和存储机制。通过实际代码示例展示如何使用主流时序数据库处理时间序列数据，并探讨其在物联网、金融科技
5商学习笔记爱英思谭523
【Jocelyn1月25日习得小结:】1.知识划重点(R):快速学习：如何用20小时，快速学习？2.我的理解(I):润总这个快速学习，跟李笑来老师的最小必要知识很类似，都是通过快速掌握入门的知识，完成从0到1的跨越。时间越快，掌握大概知识越多进门就越快。3.我的相关经验或经历(A1):复述其实是帮助自己去理解概念的绝佳方式。自己带课这几年，对于教材中的概念从浅入深的学习和理解，跟我面对无数个不一样
基于Python的Twitter Card数据爬取与分析实战：从入门到精通 Python爬虫项目 python twitter dreamweaver 自动化开发语言宽度优先爬虫
摘要本文详细介绍了如何使用Python最新技术栈构建一个高效的TwitterCard数据爬虫系统。我们将从TwitterCard的基本概念讲起，逐步深入到爬虫架构设计、反爬策略应对、数据解析与存储等核心环节。文章包含完整的代码实现，使用Playwright+Asyncio的高性能爬取方案，以及数据分析与可视化的实战案例。通过本文，读者将掌握大规模社交媒体数据采集的关键技术，并能够将这些技术应用于实
使用 Python 爬取网易云音乐歌单数据（完整教程） Python爬虫项目 python 开发语言 github selenium 爬虫
一、引言随着在线音乐平台的普及，网易云音乐（NetEaseCloudMusic）凭借其个性化的推荐算法和丰富的用户互动，吸引了大量用户。网易云音乐的歌单中包含了丰富的音乐数据，包括歌曲名、歌手、专辑、播放量、评论数等信息。通过爬取这些数据，可以对音乐流行趋势进行分析，挖掘音乐推荐策略，甚至训练个性化推荐模型。本教程将使用Python构建一个爬虫，解析网易云音乐的歌单接口，获取歌曲数据并进行数据分析
DP学习笔记(8):完全背包求方案数，01背包求具体方案
完全背包求方案数常规分析在上一篇我们学习了01背包求方案数，今天我们学习完全背包求方案数。首先我们要区分一下01背包和完全背包的区别，01背包中的物品只有一个只有选或不选，完全背包中的物品有无限件实际有m/w[i]件，可以多选。我们在学习01背包求方案数时，要将j倒序来避免多选问题，在完全背包上我们需要多选，所以将j改为正序循环就可以满足我们的需求核心的状态和状态转移方程都是一样的状态:dp[j]
(新手友好)MySQL学习笔记(11):索引（前缀索引，聚簇索引，覆盖索引，最左前缀原则，索引设计原则，索引使用原则，索引失效的常见场景）李白洗一夜学习笔记
目录前缀索引聚簇索引覆盖索引（索引覆盖）最左前缀原则索引设计原则索引使用原则索引失效的常见场景前缀索引索引开头的部分字符，可以大大节约索引空间，提高索引效率。如TEXT数据类型必须使用前缀索引，因为MySQL不允许索引这些列的完整长度。InnoDB索引最大长度为767字节。最简单的理解就是在索引表中存储的不是索引字段的完整字段值，而是索引字段的前一部分字段值，比如：createindexIn_sn
DP学习笔记(7):有依赖背包，背包求方案数李白洗一夜学习笔记算法
有依赖背包常规分析有依赖背包特点:有主件，有附件，每种物品只有一件设主件的重量main_w[N]价值main_c[N],附件的重量sec_w[N][N],价值sec_c[N][N]那么01背包是不是可以看作特殊的有依赖背包，全是主件，没有附件的有依赖背包01背包的状态转移方程if(j>=w[i])dp[j]=max(dp[j],dp[j-w[i]]+c[i])是不是就可以看成只选主件的有依赖背包的
全球气温逐年增高 CATTLECODE 人工智能
根据全球主要气候监测机构的权威数据，**全球气温确实在持续升高**，且呈现加速趋势。以下是关键事实和数据分析：一、科学共识与核心数据长期升温趋势（1880-2023）：工业革命前（1850-1900）相比：全球平均气温上升约1.45°C2023年成为有记录以来最热年份（比19世纪基线高1.48°C）过去10年（2014-2023）是史上最热的十年（WMO数据）加速升温证据：二、权威机构数据验证机构
计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥数据可视化计算机毕设 spark 大数据课程设计 spark
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
如何使用爬虫简单的爬取一个网页的静态前端代码
什么是爬虫？Python爬虫是一种使用Python语言编写的程序，用于自动访问网页并提取所需信息。它通常用于网络数据抓取、数据挖掘和信息收集。Python爬虫可以模拟浏览器行为，向服务器发送请求并接收响应数据，然后解析这些数据以获取有用的信息。爬虫的基本原理（流程）发送请求：爬虫向目标网站的服务器发送HTTP请求（通常是GET请求）。获取响应：服务器返回网页的HTML内容。解析内容：爬虫解析HTM
nextjs学习笔记 ainuo5213 web前端框架学习 next react react服务端渲染 next入门
由于本人最近在学习jocky老师的React16.8+Next.js+Koa2开发Github全栈项目关于react的服务端重构项目，然后跟着老师的视频做笔记，记录下自己的所学知识。目录结构pages(必需)：pages目录是nextjs中最终要的一个目录，这个目录的每一个文件都会对应到每一个页面，可以根据地址栏的路由进行跳转。若pages下的js文件在一个目录下，那么nextjs默认会将这个
MySQL(141)如何处理重复数据问题？辞暮尔尔-烟火年年 MySQL mysql 数据库
处理重复数据问题是数据管理中的一个常见挑战。重复数据会影响数据库的性能、占用资源，并且可能导致数据分析结果的偏差。以下是处理重复数据问题的详细步骤以及结合代码的示例。一、识别重复数据首先，需要识别数据库中的重复数据。可以使用SQL查询来查找重复的数据。示例：假设我们有一个名为employees的表，其中包含以下字段：id、name和email。CREATETABLEemployees(idINTP
Python学习笔记 cherishSpring python python 学习笔记
目录一、名词解释二、数据类型（变量名无类型，变量值有类型）三、数据类型转换(万物皆可转字符串)四、标识符五、运算符六、字符串扩展七、数据输入八、if语句九、while语句十、for循环语句十一、函数十二、数据容器1、List列表2、tuple元组3、字符串4、序列的常用操作-切片5、set集合6、dict字典7、数据容器相互转换8、通用操作十三、文件编码一、名词解释1、字面量被写在代码中的固定的值
如何用优惠卷赚钱？优惠券群怎么才能做起来？日常购物技巧呀
在数字化时代，社群经济日益繁荣，尤其是以优惠券为主题的社群，不仅能够帮助群成员省钱购物，还能为群主带来可观的收入。本文将详细解析如何建立和管理一个赚钱的优惠券群，包括群的建设、运营策略，以及如何通过专业数据分析来优化群的效果。目标读者包括宝妈、大学生、上班族和无业人员，这些群体通常对节省开支和额外收入有较高的需求。大家好，我是高省返利APP官方客服导师：童年，今日给大家推荐一款自用佣金高，还能做团
使用Python Scrapy打造个性化爬虫
使用PythonScrapy打造个性化爬虫——知识金字塔构建1.引入与连接：从“手动复制”到“自动化采集”的跨越你是否遇到过这样的场景？想整理1000条知乎优质回答做数据分析，却要逐条复制；想追踪某电商平台的商品价格波动，却要每天手动刷新页面……这些重复劳动，正是“个性化爬虫”的用武之地！与已有知识的连接：你可能用过requests+BeautifulSoup写过简单爬虫，但面对大规模数据、复杂反
Python 数据插值：NumPy 实现多种插值方法
Python数据插值：用NumPy解锁缺失数据的秘密拼图关键词数据插值、NumPy、线性插值、多项式插值、缺失值处理、数据平滑、数值分析摘要在数据分析和科学计算中，我们经常遇到离散或缺失的观测数据——比如气象站每小时记录的温度值有缺失，或者实验中只采集了稀疏的采样点。这时候，数据插值（Interpolation）就像“数据修复师”，能根据已知点推断出未知点的数值，让离散数据变成连续的“故事”。本文
Shell脚本-cut工具咖啡の猫 chrome 前端
一、前言在Linux/Unix系统中，cut是一个非常实用的文本处理命令，用于从文件或标准输入中提取特定列的内容。它特别适用于处理结构化文本数据，例如CSV文件、日志文件、配置文件等。无论是做数据分析、系统监控，还是编写自动化脚本，cut都是一个不可或缺的工具。本文将带你全面了解cut工具的使用方式，包括：✅cut的基本语法与常用参数✅如何按字符、字节、字段进行提取✅cut在Shell脚本中的实战
5—6中药学之【温里药+理气药】彩霞姐姐的学习笔记境瑜伽彩霞
第十一单元温里药①“温”解决的是寒②本类药多辛热燥烈，“辛”—花椒、大蒜、辣椒的味道，辛味易耗上阴液使人上火③天气炎热/体内有火时减少用量④孕妇体内有热，容易导致胎动不安，慎用。胎动不安可以用：黄芩，竹茹，苎麻根1、附子：①✍考：回阳救逆第一要药：附子②亡阳证：亡阳指大量丢失阳，出现四肢寒冷+脉微欲绝③人的阳气一身之根本存在肾，元气（出存在肾）是生命活动的原动力。肾阳为阳气之根本，肾阳可以补充中焦
必看：购买黄金投资局中局曝光！伍戈碳中和云数据分析就是骗局！不成功不收费
被骗案例：聊天软件讲股票，又忽悠股民搞碳中和项目，云数据分析项目等才后来让我们自己投钱怕我们不相信还请反诉警员给上课，给我画大饼，说每月发6千元的工资，所以放松警惕上当了，投了钱，我投的少，还特别照顾我单独做，达到他们的标准，他们明知我没有钱，每天照顾在两次，赚了一百多万，让我提款必须交税5%，我没钱无法交税，一分也取不出来，而且还有时侯规定，我只能自已做让账户回到我能交的起税的金额，但你要交钱时
Excel处理控件Aspose.Cells指南：使用 Python 删除 Excel 中的重复行 CodeCraft Studio 文档管理控件 python excel 开发语言
在Excel中删除重复行对于维护干净、准确和一致的数据集至关重要。它可以确保一致性，并有助于防止分析或报告中出现错误。重复数据会导致错误的分析和糟糕的决策。因此，识别和消除重复数据的能力对于软件开发人员、数据分析师和Excel用户来说是一项宝贵的技能。在本篇博文中，我们将向您展示如何使用Python以编程方式删除Excel工作表中的重复行。Python库用于删除Excel中的重复行Aspose.C
Elasticsearch 聚合查询源码解读与架构方法论北漂老男人 Elasticsearch elasticsearch 架构大数据搜索引擎全文检索
Elasticsearch聚合查询源码解读与架构方法论01.引言Elasticsearch的聚合查询（Aggregation）是大规模分布式数据分析的核心能力。理解其源码结构与设计方法论，不仅有助于高效使用聚合，也能为自定义扩展、性能优化、集群运维等提供理论与实践基础。本文将从源码结构、核心模块、关键实现、行级注释与方法论出发，系统剖析聚合查询的底层原理。02.源码结构与核心模块2.1聚合相关源码
python连接数据库的方法,Python 连接数据库的多种方法 AI MIU python连接数据库的方法
JZGKCHINAPython是一种计算机程序设计语言，它是一种动态的、面向对象的脚本语言。它是一种跨平台的，可以运行在Windows，Mac和Linux/Unix系统上。在日常使用中需要对大量数据进行数据分析，那么就必然用到数据库，我们常用的数据库有SQLServer,MySQL,Oracle,DB2,SQLite，Hive，PostgreSQL,MongoDB还有其他常用的MicrosoftA
Python领域制造业的Python应用 Python编程之道 Python编程之道 python 开发语言 ai
Python在制造业中的应用：从自动化到智能制造关键词：Python、制造业、工业自动化、数据分析、机器学习、物联网、智能制造摘要：本文深入探讨Python编程语言在制造业中的广泛应用。从基础的自动化脚本到复杂的智能制造系统，Python凭借其丰富的库生态系统和易用性，正在重塑现代制造业。我们将分析Python在制造业中的核心应用场景，包括设备监控、质量控制、预测性维护和供应链优化等，并通过实际案
十种常用数据分析模型耐思nice～数据分析数据分析人工智能机器学习数学建模
1-线性回归（LinearRegression）场景：预测商品销售额优点：简单易用，结果易于解释缺点：假设线性关系，容易受到异常值影响概念：建立自变量和因变量之间线性关系的模型。公式：[y=b_0+b_1x_1+b_2x_2+...+b_nx_n]代码示例：importpandasaspdfromsklearn.linear_modelimportLinearRegressionfromsklea
pytorch的学习笔记 wyn20001128 算法
一cuda 2006年，NVIDIA公司发布了CUDA(ComputeUnifiedDeviceArchitecture)，是一种新的操作GPU计算的硬件和软件架构，是建立在NVIDIA的GPUs上的一个通用并行计算平台和编程模型，它提供了GPU编程的简易接口，基于CUDA编程可以构建基于GPU计算的应用程序。 CPU是用于负责逻辑性比较强的计算，GPU专注于执行高度线程化的并行处理任务。所以
STM32F407学习笔记——HC-SR04模块（基本测距应用） duoduo study 单片机 stm32
STM32F407学习笔记——HC-SR04模块（基本测距应用）一、基本原理：定义stm32的GPIO，给予Trig高电平（大于10us即可这里给予的是20us），再拉低发送超声波，超声波在碰到障碍物时返回被超声波模块接受，Echo输出高电平，通过定时器得出Echo高电平持续时间即可计算与障碍物之间的距离。二、代码功能：通过stm32控制超声波模块将测得的距离反馈在串口上。三、接线：Trig——P
正点原子stm32F407学习笔记7——看门狗实验蜗牛先森i stm32单片机 stm32 学习笔记
一、什么是看门狗在由单片机构成的微型计算机系统中，由于单片机的工作常常会受到来自外界电磁场的干扰，造成程序的跑飞，而陷入死循环，程序的正常运行被打断，由单片机控制的系统无法继续工作，会造成整个系统的陷入停滞状态，发生不可预料的后果，所以出于对单片机运行状态进行实时监测的考虑，便产生了一种专门用于监测单片机程序运行状态的模块或者芯片，俗称“看门狗”(watchdog)。就是在程序执行异常情况下系统复
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p