oldmao_2001

第十四章聚类方法.14.1聚类的基本概念

文章目录

主要内容
相似度或距离
- 闵可夫斯基距离
- 马哈拉诺比斯距离
- 相关系数
- 余弦相似度
- 小结
类或簇
- 类的性质
- 类间距离度量

本课程来自深度之眼，部分截图来自课程视频以及李航老师的《统计学习方法》第二版。
公式输入请参考：在线Latex公式

主要内容

1.相似度或距离：相似度的定义与适用范围
2.闵可夫斯基距离：表达式与数学性质
3.马哈拉诺比斯距离：表达式与数学性质，同闵可夫斯基距离的比较
4.相关系数：表达式与数学性质，局限性，相关计算
5.夹角余弦：不同类型夹角余弦的表达式与比较
6.相似度：概念含义与相关计算
7.类或簇概念含义与应用范围
8.类与类之间的距离：各类距离表示法的公式与比较

相似度或距离

假设有 $n$ 个样本，每个样本由 $m$ 个属性的特征向量组成，样本集合可以⽤矩阵 $X$ 表示
$X=[x_{ij}]_{m\times n}=\begin{bmatrix} x_{11} & x_{12} &\cdots &x_{1n} \\ x_{21} & x_{22} & \cdots &x_{2n} \\ \vdots & \vdots &\vdots & \vdots\\ x_{m1} & x_{m2} & \cdots& x_{mn} \end{bmatrix}$
聚类的核心概念是相似度（similarity）或距离（distance），有多种相似度或距离定义。
因为相似度直接影响聚类的结果，所以其选择是聚类的根本问题。

距离常用来度量样品间的亲疏程度。设样品 $X_{(i)}=(x_{i1},x_{i2},\cdots,x_{im})$ ，其中 $m$ 为特征数，则 $n$ 个样品可视为 $m$ 维空间中的 $n$ 个点。
如果有两个样本 $X_{(i)}$ 和 $X_{(j)}$ 之间距离是 $d_{ij}$ ，那么这个距离要满足三个条件：
1. $d_{ij}\ge 0$ ，对一切 $i, j$ 成立；如果 $d_{ij}=0$ ，则 $X_{(i)}=X_{(j)}$ （反之亦然）；
2. $d_{ij}=d_{ji}$ ，对一切 $i, j$ 成立；
3. $d_{ij}\le d_{ik}+d_{kj}$ ，对一切 $i, j, k$ 成立；

闵可夫斯基距离

闵可夫斯基距离（Minkowski distance）越大相似度越小，距离越小相似度越大。
给定样本集合 $X$ ， $X$ 是 $m$ 维实数向量空间 $R^m$ 中点的集合，其中
$x_i,x_j\in X,x_i=(x_{1i},x_{2i},\cdots,x_{mi})^T,x_j=(x_{1j},x_{2j},\cdots,x_{mj})^T$
那么两个样本 $x_i,x_j$ 的闵可夫斯基距离定义为：
$d_{ij}=\left(\sum_{k=1}^m|x_{ki}-x_{kj}|^p\right)^\cfrac{1}{p},p\ge1$
特殊情况：
当p=2时称为欧氏距离（Euclidean distance）
$d_{ij}=\left(\sum_{k=1}^m|x_{ki}-x_{kj}|^2\right)^\cfrac{1}{2}$
当p=1时称为曼哈顿距离（Manhattan distance）
$d_{ij}=\sum_{k=1}^m|x_{ki}-x_{kj}|$
当p=0时称为切比雪夫距离（Chebyshev distance）
$d_{ij}=\underset{k}{\max}|x_{ki}-x_{kj}|$

马哈拉诺比斯距离

马哈拉诺比斯距离（Mahalanobis distance），简称马氏距离，也是另一种常用的相似度，考虑各个分量（特征）之间的相关性并与各个分量的尺度无关。马哈拉诺比斯距离越大相似度越小，距离越小相似度越大。
给定一个样本集合 $X$ ， $X=[x_{ij}]_{m\times n}$ ，其协方差矩阵记作 $S$ 。样本 $x_i,x_j$ 之间的马哈拉诺比斯距离定义为
$d_{ij}=\left[(x_i-x_j)^TS^{-1}(x_i-x_j)\right]^\cfrac{1}{2}\\ x_i=(x_{1i},x_{2i},\cdots,x_{mi})^T,x_j=(x_{1j},x_{2j},\cdots,x_{mj})^T$

相关系数

样本之间的相似度也可以⽤相关系数（correlation coefficient）来表示。
相关系数的绝对值越接近于1，表示样本越相似
越接近于0，表示样本越不相似。如果等于并不表示二者没有关系，而是表示二者没有线性关系，可能会有非线性关系。
样本 $x_i,x_j$ 之间的相关系数定义为
$r_{ij}=\cfrac{\sum_{k=1}^m(x_{ki}-\bar x_i)(x_{kj}-\bar x_j)}{\left[\sum_{k=1}^m(x_{ki}-\bar x_i)^2\sum_{k=1}^m(x_{kj}-\bar x_j)^2\right]^\frac{1}{2}}$
$\bar x_i=\cfrac{1}{m}\sum_{k=1}^mx_{ki},\bar x_j=\cfrac{1}{m}\sum_{k=1}^mx_{kj}$

余弦相似度

样本之间的相似度也可以⽤夹⻆余弦（cosine）来表示。
夹⻆余弦越接近于1，表示样本越相似
越接近于0，表示样本越不相似。
样本 $x_i,x_j$ 之间的余弦相似度定义为
$s_{ij}=\cfrac{\sum_{k=1}^mx_{ki}x_{kj}}{[\sum_{k=1}^mx_{ki}^2\sum_{k=1}^mx_{kj}^2]^\frac{1}{2}}$

小结

⽤距离度量相似度时，距离越⼩样本越相似。
⽤相关系数时，相关系数越⼤样本越相似。
注意不同相似度度量得到的结果并不⼀定⼀致。

例如下图可以看出，如果从距离的⻆度看，A和B⽐A和C更相似
但从相关系数的⻆度看， A和C⽐A和B更相似。

类或簇

通过聚类得到的类或簇，本质是样本的⼦集。
如果⼀个聚类⽅法假定⼀个样本只能属于⼀个类，或类的交集为空集，那么该⽅法称为硬聚类（hard clustering）方法。
如果⼀个样本可以属于多个类，或类的交集不为空集，那么该⽅法称为软聚类（soft clustering）⽅法。
⽤ $G$ 表示类或簇（cluster)，⽤ $x_i, x_j$ 表示类中的样本，⽤ $n_G$ 表示 $G$ 中样本的个数，⽤ $d_{ij}$ 表示样本 $x_i, x_j$ 之间的距离。
类或簇有多种定义，下⾯给出⼏个常⻅的定义：
1.设 $T$ 为给定的正数，若集合 $G$ 中任意两个样本 $x_i, x_j$ 有：
$d_{ij}\le T$
则称 $G$ 为⼀个类或簇
2.设 $T$ 为给定的正数，若对集合 $G$ 的任意样本 $x_i$ ，⼀定存在G中的另⼀个样本 $x_j$ 满足：
$\cfrac{1}{n_G-1}\sum_{x_j\in G}d_{ij}\le T$
其中 $n_G$ 表示 $G$ 中样本的个数，则称 $G$ 为⼀个类或簇
3.设 $T$ 为给定的正数，若对集合 $G$ 的任意样本 $x_i$ ，⼀定存在G中的另⼀个样本 $x_j$ 满足：
$\cfrac{1}{n_G(n_G-1)}\sum_{x_i\in G}\sum_{x_j\in G}d_{ij}\le T$
则称 $G$ 为⼀个类或簇

类的性质

1.类的均值 $\bar X_G$ ,⼜称为类的中⼼
$\cfrac{1}{n_G(n_G-1)}\sum_{x_i\in G}\sum_{x_j\in G}d_{ij}\le T$
2.类的直径(diameter) $D_G$ ，类的直径 $D_G$ 类中任意两个样本之间的最⼤距离，即：
$D_G=\underset{x_i, x_j\in G}{\max}d_{ij}$
3.2）类的样本散布矩阵 (Scatter Matrix) $A_G$ 与样本协⽅差矩阵
(Covariance Matrix) $S_G$
$A_G=\sum_{i=1}^{n_G}(x_i-\bar X_G)(x_i-\bar X_G)^T$
$S_G=\cfrac{1}{m-1}A_G=\cfrac{1}{m-1}\sum_{i=1}^{n_G}(x_i-\bar X_G)(x_i-\bar X_G)^T$
其中m为样本的维数（样本属性的个数）

类间距离度量

下⾯考虑类 $G_p$ 与类 $G_q$ 之间的距离 $D (p, q)$ ，也称为连接（linkage)。类与类之间的距离也有多种定义。
设类 $G_p$ 包含 $n_p$ 个样本， $G_q$ 包含 $n_q$ 个样本，分别⽤ $\bar x_p$ 和 $\bar x_q$ 表示 $G_p$ 和 $G_q$ 的均值，即类的中⼼。
那么类间距离度量可以表示为：
1.最短距离或单连接（single linkage)
定义类 $G_p$ 的样本与 $G_q$ 的样本之间的最短距离为两类之间的距离
$D_{pq}=\min\{d_{ij}|x_i \in G_p,x_j\in G_q\}$

2.最⻓距离或完全连接（complete linkage)
定义类 $G_p$ 的样本与 $G_q$ 的样本之间的最⻓距离为两类之间的距离
$D_{pq}=\max\{d_{ij}|x_i \in G_p,x_j\in G_q\}$

3.中⼼距离
定义类 $G_p$ 与类 $G_q$ 的中⼼ $\bar x_p$ 和 $\bar x_q$ 之间的距离为两类之间的距离
$D_{pq}=d_{\bar x_p\bar x_q}$

4.平均距离
定义类 $G_p$ 与类 $G_q$ 任意两个样本之间距离的平均值为两类之间的距离
$D_{pq}=\cfrac{1}{n_pn_q}\sum_{x_i\in G_p}\sum_{x_j\in G_q}d_{ij}$

你可能感兴趣的:(统计学习方法)

从 “啃书焦虑” 到 “项目通关”：NLP 学习的破局之道木旭林晖自然语言处理学习人工智能
嘿，你好。在CSDN上潜水这么久，我总能看到很多像你我当年一样，怀揣着NLP大厂梦的同学。我猜，你的收藏夹里一定塞满了“NLP必读清单”，书架上可能还放着那本厚得像砖头一样的《统计学习方法》或者“龙书”。每天深夜，你可能都在跟一个又一个复杂的数学公式死磕。什么最大熵模型、什么CRF（条件随机场）的推导……你觉得自己离“精通”越来越近，但心里却越来越慌。为什么慌？因为你打开招聘软件，看到JD（职位描
Task 01 第一章习题
1.1说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果，其中k次的结果为1，这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。回忆知识点：统计学习方法三要素为：模型+策略+算法模型：在监督学习过程中，模型就是所要学习的条件概率分布或决策函数。策略：统计学习要考虑按照什么样的准则选
吴恩达机器学习入门笔记（Week 1）冒冒喵吴恩达机器学习入门机器学习笔记人工智能
吴恩达机器学习Week1学习资源及工具机器学习分类专业术语（Terminology）线性回归模型(Linearregression)代价函数（costfunction）学习资源及工具1、课程资源：B站大学2、相关工具：Jupter&Github3、书籍资源：神经网络与深度学习（MichaelNielsen）、机器学习（周志华）、统计学习方法（李航）…机器学习分类1、监督学习（supervisedl
02 Deep learning神经网络的编程基础逻辑回归--吴恩达狂小虎 Deep Learning 深度学习神经网络逻辑回归
逻辑回归逻辑回归是一种用于解决二分类任务（如预测是否是猫咪等）的统计学习方法。尽管名称中包含“回归”，但其本质是通过线性回归的变体输出概率值，并使用Sigmoid函数将线性结果映射到[0,1]区间。以猫咪预测为例假设单个样本/单张图片为（x\mathbf{x}x，y\mathbf{y}y），特征向量X=x\mathbf{x}x，则y^\hat{y}y^即为X的预测值，y^\hat{y}y^=P（y
统计学习方法（李航）第五章决策树 WangZiYi2003 机器学习学习方法决策树算法
笔记目录：统计学习方法（李航）第一章绪论统计学习方法（李航）第二章感知机统计学习方法（李航）第三章k近邻统计学习方法（李航）第四章贝叶斯统计学习方法（李航）第五章决策树第一节决策树介绍1.决策树的概念决策树是一种树形结构的分类或回归模型，通过一系列if-then规则对数据进行决策if-then规则：每个节点表示一个条件（如“年龄>30？”），根据条件判断进入不同的子节点互斥性：每个条件的结果（如“
python：sklearn 主成分分析（PCA） belldeep python sklearn python sklearn 机器学习 PCA
参考书：《统计学习方法》第2版第16章主成分分析（PCA）示例编写test_pca_1.py如下#-*-coding:utf-8-*-"""主成分分析（PCA）"""importmatplotlib.pyplotaspltfromsklearn.datasetsimportload_irisfromsklearn.decompositionimportPCA#加载鸢尾花数据集iris=load_i
我的机器学习学习之路花果山-马大帅机器学习机器学习人工智能 python 算法 scikit-learn
学习python的初衷•hi，今天给朋友们分享一下我是怎么从0基础开始学习机器学习的。•我是2023年9月开始下定决心要学python的，目的有两个，一是为了提升自己的技能和价值，二是将所学的知识应用到工作中去，提升工作效率。我的背景与书籍选择•我是上班族，2023年非全日制硕士研究生毕业。•我的导师是数学博士，在导师的推荐下买了周老师的《机器学习(西瓜书)》和李航老师的《统计学习方法》，这2本书
支持向量机 SVM 简要介绍 _夜空的繁星_ 机器学习 svm 支持向量机拉格朗日对偶机器学习
那些我从来没有理解过的概念（1）下面是我在学习过程中遇到的对我很难理解的概念和我抄下来的笔记主要资料来源：《统计学习方法》，维基百科拉格朗日对偶问题是什么假设f(x),ci(x),hj(x)是定义在Rn上的连续可微函数，考虑以下最优化问题：$$\min_{x\inR^n}{f(x)}\c_i(x)\leq0,i=1,2,\dots,k\h_j(x)=0,j=1,2,\dots,l$$是一个凸优化问
python 统计库_《统计学习方法》 Python 库 weixin_39756540 python 统计库
新建GitHub仓库仓库名为slmethod,统计学习方法(StatisticalLearningMethod)的简写Public公开仓库勾选InitializethisrepositorywithaREADME.gitignore选择Python添加MITLicensenew下载代码到本地，使用ssh协议。[email protected]:iOSDevLog/slmethod.git
《李航统计学习方法》学习笔记——第五章决策树 eveiiii 统计学习决策树算法剪枝 python 机器学习
决策树5.1决策树模型与学习5.2特征选择5.2.1信息增益5.2.2信息增益比python代码实现例题：信息增益与信息增益比5.3决策树的生成5.3.1ID3算法（python实现）5.3.2C4.5生成算法（python实现）5.4决策树的剪枝5.5CART算法5.5.1CART生成5.5.2CART剪枝习题5.1(python实现）习题5.2(python实现）习题5.3习题5.4参考5.1
《李航统计学习方法》学习笔记——第八章提升方法 eveiiii 统计学习 python 机器学习人工智能算法
提升方法8.1提升方法AdaBoost8.1.1提升方法的基本思路8.1.2AdaBoost算法8.1.3AdaBoost的例子（代码实现）8.2AdaBoost算法的训练误差分析定理8.1AdaBoost训练误差界定理8.2二分类问题AdaBoost训练误差界8.3AdaBoost算法的解释8.3.1前向分步算法8.3.2前向分步算法与AdaBoost8.4提升树8.4.1提升树模型8.4.2提
一切皆是映射：神经网络在图像识别中的应用案例 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
一切皆是映射：神经网络在图像识别中的应用案例关键词：神经网络、图像识别、深度学习、卷积神经网络、映射、模式识别1.背景介绍1.1问题的由来图像识别问题的研究源于人类对于智能机器的渴望。早在20世纪50年代，人工智能的先驱们就开始探索如何让计算机具备类似人类的视觉感知能力。从最初的简单模式匹配，到后来的统计学习方法，再到如今的深度学习，图像识别技术经历了几代演变。这一演变过程反映了人工智能技术的快速
【统计学习方法读书笔记】（四）朴素贝叶斯法 Y.G Bingo 统计学习方法人工智能统计学习概率概率论
终于到了贝叶斯估计这章了，贝叶斯估计在我心中一直是很重要的地位，不过发现书中只用了不到10页介绍这一章，深度内容后，发现贝叶斯估计的基础公式确实不多，但是由于正态分布在生活中的普遍性，贝叶斯估计才应用的非常多吧！默认输入变量用XXX表示，输出变量用YYY表示概率公式描述：P(X=x)P(X=x)P(X=x)：表示当X=xX=xX=x时的概率P(X=x∣Y=ck)P(X=x|Y=c_k)P(X=x∣
【统计学习方法】感知机 jyyym ml苦手机器学习
一、前言感知机是FrankRosenblatt在1957年就职于康奈尔航空实验室时所发明的一种人工神经网络。它可以被视为一种最简单的前馈神经网络，是一种二元线性分类器。Seemoredetailsinwikipdia感知机.本篇blog将从统计学习方法三要素即模型、策略、算法三个方面介绍感知机，并给出相应代码实现。二、模型假设输入空间是x∈Rnx\in{R^n}x∈Rn，输出空间是y∈{−1,+1
赠书 | 李航老师的蓝皮书茗创科技
赠书活动统计学习方法“统计机器学习方法是实现智能化目标的最有效的手段，统计机器学习是各种智能性处理研究领域中的核心技术，并且在这些领域的发展及应用中起着决定性的作用。”作者简介李航，日本京都大学电气电子工程系毕业，日本东京大学计算机科学博士。北京大学、南京大学客座教授，IEEE会士，ACM杰出科学家，CCF高级会员。研究方向包括信息检索，自然语言处理，统计机器学习，及数据挖掘。曾出版过三部学术专著
统计学习方法（李航）--第二章感知机（比较基础）人間煙火Just
感知机是二分类的线性分类模型，属于判别模型，包括原始形式和对偶形式。（一）感知机模型公式为：f是输出，x是输入，w和b是参数，sign是符号函数（大于0为1，小于0为-1）几何解释：对于特征空间Rn中的一个超平面S，w是S的法向量，b是截距，将超平面空间划分为两个部分，完成2分类任务。（二）学习策略1.数据集的线性可分性：若存在wx+b的超平面可以将数据集完全分割，则称为线性可分。2.学习策略（以
统计学习方法笔记之决策树 Aengus_Sun
更多文章可以访问我的博客Aengus|Blog决策树的概念比较简单，可以将决策树看做一个if-then集合：如果“条件1”，那么...。决策树学习的损失函数通常是正则化后极大似然函数，学习的算法通常是一个递归的选择最优特征，并根据该特征对训练数据进行分割，使得对各个子数据集有一个最好的分类的过程。可以看出，决策树算法一般包含特征选择，决策树的生成与决策树的剪枝过程。特征选择信息增益熵和条件熵在了解
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第6章逻辑斯谛回归与最大熵模型（2）6.2 最大熵模型北方骑马的萝卜机器学习笔记学习方法笔记 python
文章目录6.2最大熵模型6.2.1最大熵原理6.2.3最大熵模型的学习6.2.4极大似然估计《统计学习方法：李航》笔记从原理到实现（基于python）--第3章k邻近邻法《统计学习方法：李航》笔记从原理到实现（基于python）--第1章统计学习方法概论《统计学习方法：李航》笔记从原理到实现（基于python）--第2章感知机《统计学习方法：李航》笔记从原理到实现（基于python）--第3章k邻
贝叶斯的缺点人机与认知实验室机器学习人工智能
贝叶斯方法是一种统计学习方法，通过利用贝叶斯定理来计算给定先验概率的情况下，后验概率的条件概率。虽然贝叶斯方法在许多领域中应用广泛且有效，但也存在一些缺点。以下是一些贝叶斯方法的缺点的例子：1、先验概率的选择贝叶斯方法依赖于先验概率的选择，先验概率的不准确性可能导致后验概率的不准确性。选择先验概率是非常困难的，特别是在没有明确领域知识或可靠数据支持的情况下。2、计算复杂度在贝叶斯方法中，计算后验概
机器学习知识体系总结 qq_36661243 机器学习算法
机器学习知识体系总结什么是机器学习？机器学习体系概括监督学习（SupervisedLearning）十种监督学习方法统计学习方法：模型+策略+学习方法模型策略学习算法无监督学习（UnsupervisedLearning）半监督学习参考所有的知识，无论过去，当下和未来，都可以利用某个单一，通用的学习算法中从数据中获取。–《终极算法》什么是机器学习？机器学习（MachineLearning,ML）是一
白铁时代 —— （监督学习）原理推导人生简洁之道 2020年 -面试笔记人工智能
来自李航《统计学习方法》文章目录-1指标相似度0概论1优化类1.1朴素贝叶斯1.2k近邻-kNN1.3线性判别分析二分类LDA多分类LDA流程LDA和PCA的区别和联系1.4逻辑回归模型&最大熵模型逻辑回归最大熵模型最优化1.5感知机&SVM感知机SVM线性可分SVM线性不可分SVM对偶优化问题&非线性SVM序列最小优化算法SMO1.7概率图模型EM算法EM算法的导出和流程应用举例：高斯混合模型(
最大熵阈值python_李航统计学习方法（六）----逻辑斯谛回归与最大熵模型 weixin_39669638 最大熵阈值python
本文希望通过《统计学习方法》第六章的学习，由表及里地系统学习最大熵模型。文中使用Python实现了逻辑斯谛回归模型的3种梯度下降最优化算法，并制作了可视化动画。针对最大熵，提供一份简明的GIS最优化算法实现，并注解了一个IIS最优化算法的Java实现。本文属于初学者的个人笔记，能力有限，无法对著作中的公式推导做进一步发挥，也无法保证自己的理解是完全正确的，特此说明，恳请指教逻辑斯谛回归模型逻辑斯谛
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第6章逻辑斯谛回归与最大熵模型（1）6.1 逻辑斯谛回归模型北方骑马的萝卜机器学习笔记学习方法笔记 python
文章目录第6章逻辑斯谛回归与最大熵模型6.1逻辑斯谛回归模型6.1.1逻辑斯谛分布6.1.2二项逻辑斯谛回归模型6.1.3模型参数估计6.1.4多项逻辑斯谛回归《统计学习方法：李航》笔记从原理到实现（基于python）--第3章k邻近邻法《统计学习方法：李航》笔记从原理到实现（基于python）--第1章统计学习方法概论《统计学习方法：李航》笔记从原理到实现（基于python）--第2章感知机《统
李航统计学习方法----决策树章节学习笔记以及python代码詹sir的BLOG 大数据 python 决策树算法剪枝
目录1决策树模型2特征选择2.1数据引入2.2信息熵和信息增益3决策树生成3.1ID3算法3.2C4.5算法4决策树的剪枝5CART算法（classificationandregressiontree）5.1回归树算法5.2分类树的生成5.3CART剪枝6PYTHON代码实例决策树算法可以应用于分类问题与回归问题，李航的书中主要讲解的是分类树，构建决策树分为三个过程，分别是特征选择、决策树生成、决
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第5章决策树（代码python实践）北方骑马的萝卜机器学习笔记学习方法笔记 python
文章目录第5章决策树—python实践书上题目5.1利用ID3算法生成决策树，例5.3scikit-learn实例《统计学习方法：李航》笔记从原理到实现（基于python）--第5章决策树第5章决策树—python实践importnumpyasnpimportpandasaspdimportmatplotlib.pyplotasplt%matplotlibinlinefromsklearn.dat
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第4章朴素贝叶斯法北方骑马的萝卜机器学习笔记学习方法笔记 python
文章目录第4章朴素贝叶斯法4.1朴素贝叶斯法的学习与分类4.1.1基本方法4.1.2后验概率最大化的含义4.2朴素贝叶斯法的参数估计4.2.1极大似然估计4.2.2学习与算法4.2.3贝叶斯估计代码实践GaussianNB高斯朴素贝叶斯scikit-learn实例scikit-learn：伯努利模型和多项式模型《统计学习方法：李航》笔记从原理到实现（基于python）--第3章k邻近邻法《统计学习
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第1章统计学习方法概论北方骑马的萝卜机器学习笔记学习方法笔记 python 机器学习
文章目录第1章统计学习方法概论1.1统计学习1．统计学习的特点2．统计学习的对象3．统计学习的目的4．统计学习的方法1.2.1基本概念1.2.2问题的形式化1.3统计学习三要素1.3.1模型1.3.2策略1.3.3算法1.4模型评估与模型选择1.4.1训练误差与测试误差1.4.2过拟合与模型选择1.5正则化与交叉验证1.5.1正则化1.5.2交叉验证1.6泛化能力1.6.1泛化误差1.6.2泛化误
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第 2章感知机北方骑马的萝卜机器学习笔记学习方法笔记 python 机器学习
文章目录第2章感知机2.1感知机模型2.2感知机学习策略2.2.1数据集的线性可分性2.2.2感知机学习策略2.3感知机学习算法2.3.1感知机学习算法的原始形式2.3.2算法的收敛性2.3.3感知机学习算法的对偶形式实践：二分类模型（iris数据集）数据集可视化：Perceptronscikit-learn实例《统计学习方法：李航》笔记从原理到实现（基于python）--第2章感知机《统计学习方
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第3章 k邻近邻法北方骑马的萝卜机器学习笔记学习方法笔记 python
文章目录第3章k邻近邻法3.1k近邻算法3.2k近邻模型3.2.1模型3.2.2距离度量3.2.3k值的选择3.2.4分类决策规则3.3k近邻法的实现：kd树3.3.1构造kd树3.3.2搜索kd树算法实现课本例3.1iris数据集scikit-learn实例kd树:构造平衡kd树算法例3.2《统计学习方法：李航》笔记从原理到实现（基于python）--第3章k邻近邻法《统计学习方法：李航》笔记从
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第5章决策树北方骑马的萝卜机器学习笔记学习方法笔记 python
文章目录第5章决策树5.1决策树模型与学习5.1.1决策树模型5.1.2决策树与if-then规则5.1.3决策树与条件概率分布5.1.4决策树学习5.2特征选择5.2.1特征选择问题5.2.2信息增益5.2.3信息增益比5.3.1ID3算法5.3.2C4.5的生成算法5.4决策树的剪枝5.5CART算法5.5.1CART生成5.5.2CART剪枝《统计学习方法：李航》笔记从原理到实现（基于pyt
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他