Remyspot

机器学习算法Review之聚类

机器学习分为有监督学习和无监督学习两种，有监督学习包括分类和回归，无监督学习中一个重要的部分就是聚类了。在我看来，聚类主要有两个准则和一个思想。两个准则是：类内距离最小，类间距离最大；一个思想是：EM（Estimation andMaximization）思想。类内距离最小准则表现在如K-均值法、模糊C-均值法（fussy c-means，FCM）等算法中；类间距离最大准则则表现在分层聚类算法中。仔细研究基于这两个准则的算法的理论，可以看到EM思想的影子，于是直觉告诉我聚类的两个准则和EM思想是等价或包含的关系，对于这样的猜想的证明不是在我能力范围内的，这里只是提出这样的一个观点。

EM思想来源于极大似然估计理论，极大似然估计本质是这样的：对于现有的一个样本集，已知其总体分布，现在要对这个总体分布的参数进行估计，使得在该参数下的总体分布模型产生的总体中，进行采样得到现有样本集的概率最大。要说明的是已有的样本集中的样本不是独立同分布的，而是不同类别的样本服从不同的分布，这也是监督学习和无监督学习的一个区别，监督学习的样本一般是独立同分布的。这就涉及到这样一个问题：是不是标记了的训练样本就一定要采用有监督的学习方法呢？一般情况是这样的，但是有时候对于类间交叉部分样本而言，无监督学习所得到的错误率比有监督学习得到的错误率要低，产生这种情况的本质就是监督学习和无监督学习在假设训练样本总体分布时的不同。因此对于有标记的训练样本集，可以先对不同类别的训练样本进行假设检验，如不同类别训练样本的方差有无显著性差异等，再决定选用有监督学习还是无监督学习。

对EM思想介绍较好的可以参考博客：http://blog.csdn.net/zouxy09。

再说说混合高斯模型（GMM）吧，GMM实质上式EM算法的一个特例，该算法假设训练样本集中不同类别的样本服从不同的高斯分布。通过构造极大似然函数L（P，Z）来进行参数估计，该似然函数有两个未知参数：P，样本的总体分布参数；Z样本的类别。如果直接对L求导数是不能直接同时求出P和Z的，但是如果知道其中的任意一个参数都可以将另外一个参数求出来，于是先随机假设训练样本的类别，然后求出估计参数P，再由在估计参数P下的总体分布更新训练样本的新类别，就在这样的一个循环迭代的过程中使得极大似然函数L（P，X）值达到极大，详细理论可以参看EM算法推导过程，不过这可能是一个局部极大值。EM算法是一个非常伟大的算法，其推导过程也展现了数学的无穷魅力，这里不详述了，有时间慢慢品味吧！

最后给出一个用C++实现的GMM算法的源码吧，虽然这样的源码也容易找到，找了几个，不过都觉得他们的代码太难理解了，于是花了两天时间自己写了一个，希望您有所帮助！GMM算法理论参考博文：

http://blog.csdn.net/junnan321/article/details/8483351

头文件：
#ifndef MYGMM_H
#define MYGMM_H
class MyGmm{
public:
	MyGmm():m_dtNum(0), m_dtDim(0), m_numCluster(0),
	m_data(0), m_weight(0), m_p(0), m_mean(0), m_covariance(0){}
	
	~MyGmm(){
		Dispose();
	}
	
	/************************************** 
	*The most important interface for users.
	***************************************/
	void Train(double** data, int dtNum, int dtDim, int numCluster, int maxiter);

	/************************************
	* Show those internal data interface.
	*************************************/
	void ShowWeight();
	void ShowP();
	void ShowMean();
	void ShowCovariance();
	void ShowData();

private:
	/************************
	*Prevent copy and assign.
	*************************/
	MyGmm(const MyGmm&);
	const MyGmm& operator=(const MyGmm&);

	/***************************************************
	* Repeat the E step and M step untile it reaches
	* a certain condition according to your requierment.
	****************************************************/
	void Iterate();

	/*********** 
	*E step.
	************/
	void ComputeEstimationWeight();

	/******** 
	*M step.
	*********/
	void ComputeMaximizationCondition();

	/***********************************************
	*Set those dynamically allocated memory to zero,
	*such as m_weight,m_p, etc.
	************************************************/
	void SetM_CovrianceZero();
	void SetM_PZero();
	void SetM_WeightZero();
	void SetM_MeanZero();

	/***********************************************************
	*Initialize random cluster, and compute probability of each
	*class which cosumes the whole samples,mean of each class' 
	*samples,covariance of each class.
	************************************************************/
	void InitRandomCluster();

	/**********************
	*Allocate temp space
	*such as m_weight,m_p, etc.
	***********************/
	bool AllocateTempSpace(double** data, int dtNum, int dtDim, int numCluster, int maxiter);

	/********************************************************************
	*Release those dynamically allocated memory,such as m_weight,m_p, etc.
	*********************************************************************/
	bool Dispose();

private:
	int m_dtNum;   //number of samples
	int m_dtDim;   //dimentions of a sample
	int m_numCluster;  //number of clusters you want to classify

	double** m_data; //dataset of samples
	/*E step use*/
	double** m_weight; //estimation of probility of each sample that blongs to each class
	/*M step use*/
	double* m_p;  //probability of each class which cosumes the whole samples
	double** m_mean;  //mean of each class' samples
	double*** m_covariance; //covariance of each class

	int m_maxiter;  //for the max iterate times
};
#endif

实现文件：
#include <iostream>
#include <assert.h>
#include <math.h>
#include <string.h>
#include <cstdlib>
#include "MyGmm.h"

/*Train interface*/
void MyGmm::Train(double** data, int dtNum, int dtDim, int numCluster, int maxiter){
	assert(data!=0 && dtNum>0 && dtDim>0 && numCluster>0 && maxiter>0);
	AllocateTempSpace(data, dtNum, dtDim, numCluster, maxiter);
	InitRandomCluster();
	Iterate();
}

/*Allocate temp space for compute use*/
bool MyGmm::AllocateTempSpace(double** data, int dtNum, int dtDim, int numCluster, int maxiter){
	m_data = data;
	m_dtNum = dtNum;
	m_dtDim = dtDim;
	m_numCluster = numCluster;
	m_maxiter = maxiter;

	m_weight = new double*[m_dtNum];
	int i = 0;
	while( i<m_dtNum ){
		m_weight[i] = new double[m_numCluster];
		memset(m_weight[i], 0, sizeof(double)*m_numCluster);
		i++;
	}

	m_p = new double[m_numCluster];
	memset(m_p, 0, sizeof(double)*m_numCluster);

	m_mean = new double*[m_numCluster];
	i = 0;
	while( i<m_numCluster ){
		m_mean[i] = new double[m_dtDim];
		memset(m_mean[i], 0, sizeof(double)*m_dtDim);
		i++;
	}

	m_covariance = new double**[m_numCluster];
	for(i=0; i<m_numCluster; i++){
		m_covariance[i] = new double*[m_dtDim];
		int j = 0;
		while( j<m_dtDim ){
			m_covariance[i][j] = new double[m_dtDim];
			memset(m_covariance[i][j], 0, sizeof(double)*m_dtDim);
			j++;
		}
	}
	return true;
}

/*Initialize clusters*/
void MyGmm::InitRandomCluster(){
	int* randomClass = new int[m_dtNum];    //random class matrix
	int i;

	/*initial E step*/
	for(i=0; i<m_dtNum; i++){ 
		randomClass[i] = rand() % m_numCluster;
		std::cout<<randomClass[i]<<" ";
	}
	std::cout<<std::endl;
	/*initial M step,compute m_p,m_mean,m_convariance*/
	for(i=0; i<m_dtNum; i++){
		m_p[randomClass[i]]++; //count number of samples for each class
		for(int j=0; j<m_dtDim; j++){
			m_mean[randomClass[i]][j] += m_data[i][j]; //sum of each class's samples
		}
	}
	
	/*mean of each class' samples, m_mean*/
	for(i=0; i<m_numCluster; i++){
		for(int j=0; j<m_dtDim; j++){
			m_mean[i][j] /= m_p[i];
		}
	}
	
	/*covariance of each class, m_covariance*/
	double* temp = new double[m_dtDim];
	memset(temp, 0, sizeof(double)*m_dtDim);
	for(i=0; i<m_numCluster; i++){
		for(int j=0; j<m_dtNum; j++){
			for(int k=0; k<m_dtDim; k++){
				temp[k] = m_data[j][k] - m_mean[randomClass[j]][k];
			}
			for(int q=0; q<m_dtDim; q++){
				for(int p=0; p<m_dtDim; p++){
					m_covariance[randomClass[j]][q][p] += temp[q]*temp[p];
				}
			}
		}
		for(int q=0; q<m_dtDim; q++){
			for(int p=0; p<m_dtDim; p++){
				m_covariance[i][q][p] /= m_p[i];
			}
		}
	}
	
	/*probility of each sample that blongs to each class, m_p*/
	for(i=0; i<m_numCluster; i++){
		m_p[i] /= m_dtNum;
	}

	/*release memory*/
	delete[] temp;
	delete[] randomClass;		
}

/*Iterate clustering*/
void MyGmm::Iterate(){
	bool loop = true;
	int iter = 1;
	while(loop){
		ComputeEstimationWeight();
		ComputeMaximizationCondition();
		iter++;
		/* Add your condition here!*/
		if(iter>m_maxiter)
			loop = false;
	}
}

/*Compute estimation weight*/
void MyGmm::ComputeEstimationWeight(){
	int i;
	double* each_dis = new double[m_numCluster];   //for compute each sample's distribution probility in each Gaussion use
	for(i=0; i<m_dtNum; i++){
		memset(each_dis, 1, sizeof(double)*m_numCluster);
		double full_dis = 0;  //for compute each sample's full distribution use

		/*compute each sample's distribution probability in each Gaussion*/
		for(int j=0; j<m_numCluster; j++){
			double all_cov = 1.0;
			for(int k=0; k<m_dtDim; k++){
				/* just regard each dimention of a sample is irrelavant
				if you want to compute more specificly, for example they
				are some sort of relavant, you can change the following expression*/
				all_cov *= m_covariance[j][k][k];
				each_dis[j] *= exp(-0.5*(m_data[i][k]-m_mean[j][k])*(m_data[i][k]-m_mean[j][k])/m_covariance[j][k][k]);
			}
			each_dis[j] *= 1 / sqrt(2 * 3.14159 * all_cov);
			full_dis += each_dis[j]*m_p[j];
		}
		for(int k=0; k<m_numCluster; k++){
			m_weight[i][k] = (each_dis[k]*m_p[k]) / full_dis;
		}
	}
	delete[] each_dis;
}

/*Compute maximization condition according to estimation weight*/
void MyGmm::ComputeMaximizationCondition(){
	int i;

	/*compute the new m_p*/
	SetM_PZero();
	double total = 0.0;
	for(i=0; i<m_numCluster; i++){
		for(int j=0; j<m_dtNum; j++){
			m_p[i] += m_weight[j][i];
		}
		total += m_p[i];
	}

	/*compute the new m_mean*/
	SetM_MeanZero();
	for(int k=0; k<m_numCluster; k++){
		for(int l=0; l<m_dtNum; l++){
			for(int m=0; m<m_dtDim; m++){
				m_mean[k][m] += m_weight[l][k]*m_data[l][m];
			}
		}
		for(int m=0; m<m_dtDim; m++){
			m_mean[k][m] /= m_p[k];
		}
	}
	
	/*compute the m_covariance*/
	double* temp = new double[m_dtDim];
	memset(temp, 0, sizeof(double)*m_dtDim);
	SetM_CovrianceZero();
	for(i=0; i<m_numCluster; i++){
		for(int j=0; j<m_dtNum; j++){
			for(int k=0; k<m_dtDim; k++){
				temp[k] = m_data[j][k] - m_mean[i][k];
			}
			for(int q=0; q<m_dtDim; q++){
				for(int p=0; p<m_dtDim; p++){
					m_covariance[i][q][p] += m_weight[j][i]*temp[q]*temp[p];
				}
			}
		}
		for(int q=0; q<m_dtDim; q++){
			for(int p=0; p<m_dtDim; p++){
				m_covariance[i][q][p] /= m_p[i];
			}
		}
	}

	/*standarize the m_p*/
	for(int j=0; j<m_numCluster; j++){
		m_p[j] /= total;
	}

	/*release memory*/
	delete[] temp;
}

/*Delete those temp space*/
bool MyGmm::Dispose(){
	if(m_weight!=0){
		int i = 0;
		while( i<m_dtNum ){
			delete[] m_weight[i];
			i++;
		}
		delete[] m_weight;
	}

	if(m_p!=0){
		delete[] m_p;
	}

	if(m_mean!=0){
		int i = 0;
		while( i<m_numCluster ){
			delete[] m_mean[i];
			i++;
		}
		delete[] m_mean;
	}

	if(m_covariance!=0){
		int i = 0;
		while( i<m_numCluster ){
			int j = 0;
			while( j<m_dtDim ){
				delete[] m_covariance[i][j];
				j++;
			}
			i++;
		}
		for(i=0; i<m_numCluster; i++){
		    delete[] m_covariance[i]
		}
		delete[] m_covariance;
	}
	return true;
}

void MyGmm::SetM_CovrianceZero(){
	for(int i=0; i<m_numCluster; i++){
		int j = 0;
		while( j<m_dtDim ){
			memset(m_covariance[i][j], 0.0, sizeof(double)*m_dtDim);
			j++;
		}
	}
}

/*Set those temp space to zero*/
void MyGmm::SetM_PZero(){
	memset(m_p, 0.0, sizeof(double)*m_numCluster);
}

void MyGmm::SetM_WeightZero(){
	int i = 0;
	while( i<m_dtNum ){
		memset(m_weight[i], 0.0, sizeof(double)*m_numCluster);
		i++;
	}
}

void MyGmm::SetM_MeanZero(){
	int i = 0;
	while( i<m_numCluster ){
		memset(m_mean[i], 0.0, sizeof(double)*m_dtDim);
		i++;
	}
}

/*Show data in those temp space, also for debug use*/
void MyGmm::ShowWeight(){
	for(int i=0; i<m_dtNum; i++){
		for(int j=0; j<m_numCluster; j++){
			std::cout<<m_weight[i][j]<<" ";
		}
		std::cout<<std::endl;
	}
}

void MyGmm::ShowP(){
	for(int i=0; i<m_numCluster; i++)
		std::cout<<m_p[i]<<" ";
	std::cout<<"\n";
}

void MyGmm::ShowMean(){
	for(int i=0; i<m_numCluster; i++){
		for(int j=0; j<m_dtDim; j++){
			std::cout<<m_mean[i][j]<<" ";
		}
		std::cout<<"\n";
	}
}

void MyGmm::ShowCovariance(){
	for(int i=0; i<m_numCluster; i++){
		for(int j=0; j<m_dtDim; j++){
			for(int k=0; k<m_dtDim; k++){
				std::cout<<m_covariance[i][j][k]<<" ";
			}
			std::cout<<"\n";
		}
		std::cout<<"\n";
	}
}

void MyGmm::ShowData(){
	for(int i=0; i<m_dtNum; i++){
		for(int j=0; j<m_dtDim; j++){
			std::cout<<m_data[i][j]<<" ";
		}
		std::cout<<std::endl;
	}
}

测试文件：
#include <iostream>
#include <fstream>
#include "MyGmm.h"

using namespace std;
int main()
{
	double** test_data1 = new double*[10];
	int i;
	for(i=0; i<10; i++)
		test_data1[i] = new double[3];

	test_data1[0][0] = 8;
	test_data1[0][1] = 4;
	test_data1[0][2] = 9;
	test_data1[1][0]=2;
	test_data1[1][1]=3;
	test_data1[1][2]=5;
	test_data1[2][0]=7;
	test_data1[2][1]=6;
	test_data1[2][2]=1;
	test_data1[3][0]=45;
	test_data1[3][1]=10;
	test_data1[3][2]=12;
	test_data1[4][0]=14;
	test_data1[4][1]=18;
	test_data1[4][2]=7;
	test_data1[5][0]=1;
	test_data1[5][1]=18;
	test_data1[5][2]=22;
	test_data1[6][0]=4;
	test_data1[6][1]=8;
	test_data1[6][2]=17;
	test_data1[7][0]=11;
	test_data1[7][1]=18;
	test_data1[7][2]=27;
	test_data1[8][0]=24;
	test_data1[8][1]=18;
	test_data1[8][2]=27;
	test_data1[9][0]=19;
	test_data1[9][1]=18;
	test_data1[9][2]=32;

	MyGmm mg;
	mg.Train(test_data1, 10, 3, 3, 7);
	mg.ShowWeight();
	for(i=0; i<5; i++)
		delete[] test_data1[i];
        delete[] test_data1;
    return 0;
}

PyTorch生态系统中的连续深度学习：使用Torchdyn实现连续时间神经网络
神经常微分方程（NeuralODEs）是深度学习领域的创新性模型架构，它将神经网络的离散变换扩展为连续时间动力系统。与传统神经网络将层表示为离散变换不同，NeuralODEs将变换过程视为深度（或时间）的连续函数。这种方法为机器学习开创了新的研究方向，尤其在生成模型、时间序列分析和物理信息学习等领域具有重要应用。本文将基于Torchdyn（一个专门用于连续深度学习和平衡模型的PyTorch扩展库）
周报 | 25.1.27-25.2.2文章汇总双木的木深度学习拓展阅读 python拓展学习人工智能 transformer 算法深度学习 YOLO chatgpt llama
为了更好地整理文章和发表接下来的文章，以后每周都汇总一份周报。周报|25.1.20-25.1.26文章汇总-CSDN博客机器学习AI算法工程|DeepSeekV3两周使用总结-CSDN博客Datawhale|一文详尽之SFT（监督微调，建议收藏）！-CSDN博客arXiv每日学术速递|强强联合：CNN与Transformer融合创新提升模型性能！！-CSDN博客AI生成未来|字节提出VideoWo
最小边际采样在分类任务中的应用 ningaiiii 机器学习与深度学习分类数据挖掘人工智能
最小边际采样在分类任务中的应用在机器学习的分类任务里，如何高效利用有限的标注数据，一直是研究的重点。最小边际采样（LeastMarginSampling）作为主动学习策略中的一种，为解决这一问题提供了独特的思路。本文将深入探讨最小边际采样在分类任务中的原理、应用以及优势与挑战。一、最小边际采样的原理最小边际采样的核心概念是基于模型预测概率来衡量样本的不确定性。在一个多分类问题中，模型会对每个样本预
自定义数据集，使用scikit-learn 中K均值包进行聚类〖是♂我〗 scikit-learn 均值算法聚类
代码：#导入必要的库importmatplotlib.pyplotasplt#用于绘制图形fromsklearn.clusterimportKMeans#KMeans聚类算法importnumpyasnp#数值计算库#定义class1到class4的数据点，模拟四个不同的类（每个类7个二维点）class1_points=np.array([[1.9,1.2],[1.5,2.1],[1.9,0.5]
使用支持向量机（SVM）进行股票市场预测 m0_57781768 支持向量机算法机器学习
使用支持向量机（SVM）进行股票市场预测引言股票市场预测是金融领域的一个热门话题，也是一个充满挑战的研究领域。通过准确的市场预测，投资者可以做出更明智的决策，从而获得更高的回报。支持向量机（SVM）作为一种强大的机器学习算法，已被广泛应用于各种分类和回归问题。本文将详细介绍如何使用C++和支持向量机进行股票市场预测，并提供完整的代码示例。支持向量机简介支持向量机（SVM）是一种监督学习算法，最初用
【Java】已解决java.lang.ClassNotFoundException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
Python机器学习实战：人脸识别技术的实现和挑战 AI天才研究院 AI大模型企业级应用开发实战大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：人脸识别技术的实现和挑战作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：人脸识别技术,模型训练,多人识别,动态人脸检测,应用场景1.背景介绍1.1问题的由来随着科技的进步和互联网的普及，人脸识别技术因其在安全验证、生物特征识别、智能监控等多个领域的广泛应用而迅速崛起。从传统的门禁系统到现代的人脸支付、社交媒体的自动登
深度学习：基础原理与实践阿尔法星球深度学习 python 人工智能
1.深度学习概述1.1定义与发展历程深度学习是机器学习的一个分支，它基于人工神经网络的学习算法，特别是那些具有多层（深层）结构的网络。深度学习模型能够自动从原始数据中提取复杂的特征，而不需要人为设计特征提取算法。定义：深度学习可以定义为使用深层神经网络进行学习的过程，这些网络由多个非线性的变换组成，能够学习数据的多层次表示。发展历程：深度学习的起源可以追溯到1943年WarrenSturgisMc
【书生·浦语大模型实战营】学习笔记（三）：“茴香豆” 搭建你的RAG 智能助理 GoAI 自然语言处理NLP 深入浅出AI 深入浅出LLM 深度学习 LLM 人工智能大模型
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接【书生·
详解大模型微调数据集构建方法(持续更新) herosunly 大模型微调数据集构建方法
大家好，我是herosunly。985院校硕士毕业，现担任算法t研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文详细介绍了大模型微调数据集构建方法，希望能对学习大模型的同学们有所帮助。文章目录
从System Prompt来看Claude3、Kimi和ChatGLM4之间的差距 herosunly 大模型 system prompt gpt4 claude kimi ChatGLM4
大家好，我是herosunly。985院校硕士毕业，现担任算法t研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了从SystemPrompt来看Claude3、Kimi和ChatGLM
Python从0到100（八十一）：神经网络-Fashion MNIST数据集取得最高的识别准确率是Dream呀 python 神经网络开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
python cv2 matchtemplate_机器学习进阶-图像金字塔与轮廓检测-模板匹配（单目标匹配和多目标匹配）1.cv2.matchTemplate(进行模板匹配) 2.cv2.minMa... weixin_39621044 python cv2 matchtemplate
1.cv2.matchTemplate(src,template,method)#用于进行模板匹配参数说明：src目标图像，template模板，method使用什么指标做模板的匹配度指标2.min_val,max_val,min_loc,max_loc=cv2.minMaxLoc(ret)#找出矩阵中最大值和最小值，即其对应的(x,y)的位置参数说明：min_val，max_val,min_lo
机器学习进阶-图像金字塔与轮廓检测-图像金字塔(拉普拉斯金字塔) weixin_33908217 人工智能 python
拉普拉斯金字塔:使用原始图片-pyrUp(pyrDown(Gi))，获得的结果有一点像边缘轮廓的提取上图的意思：1.进行低通滤波2.进行样本的下采样3.进行样本的上采样4.原始图片-经过上面三步后的图片代码：第一步：读入图片第二步：进行样本的下采样第三步：进行样本的上采样第四步：原始图片-变化后的图片importcv2importnumpyasnpimg=cv2.imread('AM.png')#
决策树ID3算法小波LFZZB 算法决策树机器学习数据挖掘 sklearn
决策树决策树概念决策树，一种基于规则的机器学习方法，主要用于分类和回归，常用作机器学习中的预测模型。树形结构图，树中每个节点表示某个对象，每个分叉路径代表的某个可能的属性值，每个叶结点对应从根节点到该叶节点所经历的路径所表示的对象的值。它通过递归地划分数据空间并在每个分区内拟合一个简单的预测模型来工作。选择分区是为了在每个细分中最大化目标变量的同质性。决策树特点1.树形结构决策树由根节点、内部节点
监督学习、无监督学习和强化学习的特点和应用场景 BugNest AI 学习 ai 机器学习人工智能
在机器学习中，监督学习、无监督学习和强化学习是三种核心的学习范式，它们各自具有独特的特点和应用场景。以下是对这三种学习方法的详细对比和总结：监督学习（SupervisedLearning）特点：数据标注：训练数据包含明确的输入特征和对应的标签（目标输出）。学习方式：模型通过学习输入特征和标签之间的关系来进行训练，这种关系通常表现为一个映射函数。预测能力：一旦训练完成，模型能够对新的、未见过的输入数
python（scikit-learn）实现k均值聚类算法嘿哈哈哈哈哈哈机器学习聚类 python 算法机器学习人工智能
k均值聚类算法原理详解示例为链接中的例题直接调用python机器学习的库scikit-learn中k均值算法的相关方法fromsklearn.clusterimportKMeansimportnumpyasnpimportmatplotlib.pyplotaspltx=np.array([[0,2],[0,0],[1,0],[5,0],[5,2]])#计算k均值聚类kmeans=KMeans(n_
Scikit-learn_聚类算法_K均值聚类飞Link Water 算法机器学习人工智能
一.描述首先从X数据集中选择k个样本作为质心，然后重复以下两个步骤来更新质心，直到质心不再显著移动为：第一步将每个样本分配到距离最近的质心第二步根据每二个质心所有样本的平均值来创建新的质心二.用法和参数KMeans类MiniBatchKMeans类：是KMeans类的变种，他是用小批量来减少计算时间，而多个批次仍然尝试优化相同的目标函数。小批量是输入数据的子集，是每次训练迭代中的随机抽样。小批量大
《C++ 赋能 K-Means 聚类算法：开启智能数据分类之旅》 c++c#
在当今数字化浪潮汹涌澎湃的时代，人工智能无疑是引领科技变革的核心驱动力之一。而在人工智能的广袤天地中，数据分类与聚类作为挖掘数据内在价值、揭示数据潜在规律的关键技术手段，正发挥着前所未有的重要作用。K-Means聚类算法，作为数据聚类领域的经典之作，以其简洁高效的特性而备受瞩目。当我们将目光聚焦于C++这一强大而高效的编程语言时，会发现它与K-Means聚类算法的结合犹如天作之合，能够为数据处理与
《解锁AI黑科技：数据分类聚类与可视化》程序猿阿伟人工智能科技分类
在当今数字化时代，数据如潮水般涌来，如何从海量数据中提取有价值的信息，成为了众多领域面临的关键挑战。人工智能（AI）技术的崛起，为解决这一难题提供了强大的工具。其中，能够实现数据分类与聚类，并以可视化形式展现的AI技术，正逐渐成为各行业数据分析和决策的核心力量。数据分类与聚类：AI的核心技能数据分类是将数据划分到预先定义好的类别中，就像把图书馆里的书籍按照不同学科分类摆放，方便读者查找。比如在垃圾
Scikit-Learn K均值聚类对许 #Python #人工智能与机器学习 scikit-learn 聚类机器学习
Scikit-LearnK均值聚类1、K均值聚类1.1、K均值聚类及原理1.2、K均值聚类的优缺点1.3、聚类与分类的区别2、Scikit-LearnK均值聚类2.1、Scikit-LearnK均值聚类API2.2、K均值聚类初体验（寻找最佳K）2.3、K均值聚类案例1、K均值聚类K-均值（K-Means）是一种聚类算法，属于无监督学习。K-Means在机器学习知识结构中的位置如下：1.1、K均值
【15-聚类分析入门：使用Scikit-learn进行K-means聚类】是阿牛啊机器学习回归预测大数据挖掘 kmeans 聚类 python 机器学习人工智能 sklearn 性能优化
文章目录前言K-means聚类的原理Scikit-learn中的K-means实现安装与导入生成模拟数据应用K-means聚类可视化聚类结果选择K的值总结前言聚类分析是一种无监督学习方法，用于将数据集中的样本分组成若干个簇(cluster)。K-means是最广泛使用的聚类算法之一，其核心思想是将数据点分配到K个簇中，使得每个点到其簇中心的距离之和最小。在本文中，我们将介绍如何使用Scikit
数据挖掘常用算法优缺点分析天波烟客00 数据挖掘数据挖掘机器学习
领取机器学习视频教程：http://www.admin444.com/P-c8129a48常用的机器学习、数据挖掘方法有分类，回归，聚类，推荐，图像识别等。在实际应用中，一般都是采用启发式学习方式来实验。偏差&方差偏差：描述的是预测值（估计值）的期望与真实值之间的差距，偏差越大，越偏离真实数据。偏差bias其实是模型太简单而带来的估计不准确的部分---欠拟合方差：描述的是预测值的变化范围、离散程度
【机器学习与数据挖掘实战】案例11：基于灰色预测和SVR的企业所得税预测分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘灰色预测 SVR 人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
Scikit-learn提供了哪些机器学习算法以及如何使用Scikit-learn进行模型训练和评估 Java资深爱好者机器学习 scikit-learn 算法
Scikit-learn库的使用一、Scikit-learn提供的机器学习算法Scikit-learn（通常简称为sklearn）是一个广泛使用的Python机器学习库，它提供了多种用于数据挖掘和数据分析的算法。Scikit-learn支持的机器学习算法可以大致分为以下几类：分类算法：支持向量机（SVM）随机森林（RandomForest）逻辑回归（LogisticRegression）朴素贝叶斯
数据挖掘常用算法 kaiyuanheshang AI 数据挖掘算法人工智能
文章目录基于机器学习~~线性/逻辑回归~~树模型~~贝叶斯~~~~聚类~~集成算法神经网络~~支持向量机~~~~降维算法~~基于机器学习线性/逻辑回归类似单层神经网络y=k*x+b树模型优点可以做可视化分析速度快结果稳定依赖前期对业务和数据的理解贝叶斯贝叶斯依赖先验概率，先验知识越准，结果越好聚类集成算法xgboostlightbgm神经网络在文本、视觉领域效果非常好。但是过程黑盒，缺乏解释性支持
因果关系推断与机器学习 hhhh106 读书笔记大数据
因果关系定义设X和Y是两个随机变量。定义X是Y的因，即因果关系X→Y存在，当且仅当Y的取值一定会随X的取值变化而发生变化。两个变量X、Y之间有相关性往往不是我们能判断它们之间有因果关系的依据。其中包括三种情况：X是Y的因、X是Y的果、X与Y有共同原因(commoncause)。对于第三种情况，我们把这种不是因果关系的相关性叫作虚假相关(spuriouscorrelation)。机器学习模型是强大的
【中科院1区】Matlab实现黏菌优化算法SMA-RF锂电池健康状态估计算法研究 matlab科研助手 matlab 算法开发语言
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机物理应用机器学习内容介绍摘要锂离子电池作为一种重要的储能器件，在电动汽车、便携式电子设备等领域发挥着至关重要的
【深度学习】因果推断与机器学习的高级实践数学建模_问题根因分析机器学习 2401_84239830 程序员深度学习机器学习数学建模
现阶段深度学习有三大特征：数据驱动：即数据训练，将数据输入到模型中进行训练；关联学习：模型基于给定训练数据集，进行关联学习；概率输出：即最后的输出，判断这个图片有“狗“的概率是多少。以数据驱动、关联学习、概率输出为特征的深度学习存在什么问题呢？以一个简单的图片识别问题为例：识别一张图片中是否有狗。在很多预测问题中，我们拿到的数据集往往都是有偏的，比如我们拿到的数据中有80%的图片中狗都在草地上，这
因果推断与机器学习—因果推断入门（1）樱花的浪漫因果推断机器学习人工智能计算机视觉搜索引擎深度学习算法
在机器学习被广泛应用于对人类产生巨大影响的场景（如社交网络、电商、搜索引擎等）的今天，因果推断的重要性开始在机器学习社区的论文和演讲中被不断提及。图灵奖得主YoshuaBengio在对系统2（system2，这个说法来自心理学家DanielKahneman的作品，人类大脑由两套系统构成：系统1负责快速思考，做出下意识的反应；系统2则负责比较耗时的思考，如理解事物之间的因果关系）的畅想中强调，在实现
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe

机器学习算法Review之聚类

你可能感兴趣的:(机器学习,聚类)