RyanC3

机器学习算法

- 介绍
- Logistics Regression
- SVM
- Softmax回归
- K-Means
- KNN
- Decision Tree
- GBDT
- XGBoost
- 集成学习
- - Boosting
  - Bagging
- 多分类、多标签的分类
- - 单标签二分类
  - 单标签多分类
  - 多标签多分类
- 机器学习误区
- - 数据问题
  - 数据泄露
  - 建模问题

介绍

本篇博客主要介绍基础的机器学习的算法以及误区。如果有什么错误之处，欢迎大家批评指正。

Logistics Regression

在介绍逻辑回归之前，先看看极大似然估计，详情可参考这一篇文章：一文搞懂极大似然估计。我对极大似然估计的理解是通过样本去反推拟合函数的参数。换句话来说，极大似然提供了一种给定观察数据来评估模型参数的方法。极大似然中采样需要满意一个重要假设，就是所有的采样都独立同分布的。

参数估计有两种方式，一种是最大似然估计（Maximum likelihood estimation，简称MLE）和最大后验概率估计（Maximum a posteriori estimation，简称MAP）。概率是已知模型和参数，推理数据。统计是已知数据，推断模型和参数。详情参考：详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解。

通过学习上述两个参考链接，我对深度学习的理解是：如果已知数据，求参数的函数就是似然函数；如果已知参数，求数据的过程就是概率函数。在模型训练阶段，其实是一个统计的过程，通过批量的数据去统计模型的参数。在推理阶段其实是一个概率的过程，通过模型去预测该事件发生的概率。

逻辑回归 logistics regression 公式推导

sklearn: Logistic-Regression

from sklearn.linear_model import LogisticRegression as LR
from sklearn.datasets import load_breast_cancer
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

data = load_breast_cancer()
X = data.data
y = data.target

# 实例化LR模型
lr1 = LR(penalty='l1', solver='liblinear', C=0.5, max_iter=1000)
lr2 = LR(penalty='l2', solver='liblinear', C=0.5, max_iter=1000)

# 逻辑回归的重要属性
lr1 = lr1.fit(X, y)
lr2=lr2.fit(X,y)

SVM

SVM算法的话这里就不多做介绍，可以参考支持向量机原理篇，机器学习支持向量机但是最好的是参考下李航的《统计学习方法》。另外我在油管上看一位博士讲的SVM原理推导过程也是挺不错的。

import numpy as np
from sklearn import datasets
from sklearn.datasets import load_iris
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC

# 加载iris数据集
iris = datasets.load_iris()
X = iris['data']
y = iris["target"]
svm_clf = Pipeline(( ("scaler", StandardScaler()),
                     ("linear_svc", LinearSVC(C=1, loss="hinge")) ,))
svm_clf.fit( X, y )
res = svm_clf.predict([[4.9, 3. , 1.4, 0.3], [5.9, 3. , 5.1, 1.8], [6.9, 3.2, 5.7, 2.3]])
print(res)

Softmax回归

softmac+交叉熵

首先看一下softmax函数的定义：

softmax有以下的特点：函数值在0到1的区间；所有值的和为1。softmax主要计算每个类别出现的概率。

然后再看看一些关于信息论里面的东西。信息熵表示的是一个信息混乱程度，也可以表示一个事件的信息量的多少。信息熵公式的定义：

从信息熵我们可以引出一个KL散度。KL散度是衡量两个分布p和q之间的差异，但是p相对q的差异与q相对p的差异并不一样，换言之不是一个对称量。p往往表示样本的真实分布，q表示模型所预测的分布。我的论文里面也引用过KL散度作为模型的误差分析。KL散度的公式如下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-137GGOfV-1631969558984)(https://www.zhihu.com/equation?tex=%5Cbegin%7Baligned%7D+KL+%28p+%7C%7C+q%29+%26%3D±+%5Cint+p%28x%29+%5Cln+q%28x%29+d+x±+%28-%5Cint+p%28x%29+%5Cln+p%28x%29+dx%29+%5C%5C+%26%3D±+%5Cint+p%28x%29+%5Cln+%5B%5Cfrac%7Bq%28x%29%7D%7Bp%28x%29%7D%5D+dx+%5Cend%7Baligned%7D)]

相对熵公式前半部分是信息熵公式，对相对熵公式进行变形得出交叉熵公式：

最后我们再来看看softmax加交叉熵的求导：softmax+交叉熵求导过程

K-Means

Kmeans算法在这篇专栏中讲的很详细：【机器学习】K-means。

首先Kmeans是一个聚类算法，可以用于统计数据的分布情况，降维等。在yolov3的anchor box选择中，可以使用kmeans对样本的标记框进行聚类，从而得到较好的anchor box。YOLOv3使用笔记——Kmeans聚类计算anchor boxes。然后kemans中的K是一个超参数，因此对于K值得选取非常重要。Kmeans算法在处理大数据的时候能够保证较好的伸缩性，对样本的异常值较为敏感。最后Kmeans算法的大致流程是：1. 选择初始化K个样本作为聚类中心；2. 计算其他样本对每个聚类中心的距离，选择最小聚类距离作为分类。3. 对于每个类别，重新计算它的聚类中心。4. 重复操作，直到达到某个中止条件。

from numpy import *
import time
import matplotlib.pyplot as plt

# calculate Euclidean distance
def euclDistance(vector1, vector2):
	return sqrt(sum(power(vector2 - vector1, 2)))
 
# init centroids with random samples
def initCentroids(dataSet, k):
	numSamples, dim = dataSet.shape
	centroids = zeros((k, dim))
	for i in range(k):
		index = int(random.uniform(0, numSamples))
		centroids[i, :] = dataSet[index, :]
	return centroids
 
# k-means cluster
def kmeans(dataSet, k):
	numSamples = dataSet.shape[0]
	# first column stores which cluster this sample belongs to,
	# second column stores the error between this sample and its centroid
	clusterAssment = mat(zeros((numSamples, 2)))
	clusterChanged = True
 
	## step 1: init centroids
	centroids = initCentroids(dataSet, k)
 
	while clusterChanged:
		clusterChanged = False
		## for each sample
		for i in xrange(numSamples):
			minDist  = 100000.0
			minIndex = 0
			## for each centroid
			## step 2: find the centroid who is closest
			for j in range(k):
				distance = euclDistance(centroids[j, :], dataSet[i, :])
				if distance < minDist:
					minDist  = distance
					minIndex = j
			
			## step 3: update its cluster
			if clusterAssment[i, 0] != minIndex:
				clusterChanged = True
				clusterAssment[i, :] = minIndex, minDist**2
 
		## step 4: update centroids
		for j in range(k):
			pointsInCluster = dataSet[nonzero(clusterAssment[:, 0].A == j)[0]]
			centroids[j, :] = mean(pointsInCluster, axis = 0)
 
	print 'Congratulations, cluster complete!'
	return centroids, clusterAssment
 
# show your cluster only available with 2-D data
def showCluster(dataSet, k, centroids, clusterAssment):
	numSamples, dim = dataSet.shape
	if dim != 2:
		print "Sorry! I can not draw because the dimension of your data is not 2!"
		return 1
 
	mark = ['or', 'ob', 'og', 'ok', '^r', '+r', 'sr', 'dr', ', 'pr']
	if k > len(mark):
		print "Sorry! Your k is too large! please contact Zouxy"
		return 1
 
	# draw all samples
	for i in xrange(numSamples):
		markIndex = int(clusterAssment[i, 0])
		plt.plot(dataSet[i, 0], dataSet[i, 1], mark[markIndex])
 
	mark = ['Dr', 'Db', 'Dg', 'Dk', '^b', '+b', 'sb', 'db', ', 'pb']
	# draw the centroids
	for i in range(k):
		plt.plot(centroids[i, 0], centroids[i, 1], mark[i], markersize = 12)
 
	plt.show()

KNN

K近邻算法的原理是以所有已知样本作为参照，计算未知样本与所有已知样本的距离，从中选取与未知样本距离最近的K个已知样本，根据少数服从多数的原则，将未知样本与K个最邻近样本中所属类别占比较多的归为一类。KNN算法并不需要进行训练，然后预测，直接进行硬算，然后得出结果。超参数只有一个那就是K，一般都是不选择类别的整数倍。K值选择太大会引起欠拟合，太小会过拟合，需要进行交叉验证确定K的值。

# K近邻算法：https://blog.csdn.net/pengjunlee/article/details/82713047
import numpy as np
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier, KNeighborsRegressor
from sklearn.model_selection import train_test_split
from sklearn.datasets._samples_generator import make_regression

# 生成数据集
data = make_blobs(n_samples=200, n_features=2, centers=2, cluster_std=1.0, random_state=8)
X,Y =data
clf = KNeighborsClassifier()
clf.fit(X, Y)
x_min, x_max = X[:,0].min()-1, X[:, 0].max()+1
y_min, y_max = X[:,1].min()-1, X[:, 1].max()+1
xx,yy=np.meshgrid(np.arange(x_min,x_max,.02),np.arange(y_min,y_max,.02))
z=clf.predict(np.c_[xx.ravel(),yy.ravel()])
z=z.reshape(xx.shape)
plt.pcolormesh(xx,yy,z,cmap=plt.cm.Pastel1)
plt.scatter(X[:,0], X[:,1],s=80, c=Y,  cmap=plt.cm.spring, edgecolors='k')
plt.xlim(xx.min(),xx.max())
plt.ylim(yy.min(),yy.max())
plt.title("Classifier:KNN")
# 把待分类的数据点用五星表示出来
plt.scatter(6.75,4.82,marker='*',c='red',s=200)
# 对待分类的数据点的分类进行判断
res = clf.predict([[6.75,4.82]])
plt.text(6.9,4.5,'Classification flag: '+str(res))
plt.show()
# 回归分析
X,Y=make_regression(n_samples=100,n_features=1,n_informative=1,noise=50,random_state=8)
reg = KNeighborsRegressor(n_neighbors=5)
reg.fit(X,Y)
# 将预测结果用图像进行可视化
z = np.linspace(-3,3,200).reshape(-1,1)
plt.scatter(X,Y,c='orange',edgecolor='k')
plt.plot(z,reg.predict(z),c='k',Linewidth=3)
plt.title("KNN Regressor")
plt.show()

Decision Tree

决策树算法中，ID3和C4.5算法就不说了，在本科的时候毕业设计就做了一个C4.5的算法实现。然后在答辩的时候院长问了一个问题，我回他说:“不是，你先听我说”当时觉得有点不尊重。ID3算法的节点分裂标准是信息熵，信息熵描述的是内容的的不确定性。对于一些确定性的信息，它的信息熵很低。例如“一年有12个月”，对于这条信息已经是确定了，因此它的信息量很低，对应的信息熵很低。对于“明天可能会下雨”，这个信息的不确定较前一个信息较大，因此这个信息量较前面的高。当时做C4.5的时候有个地方还没做好的是没有进行模型的剪枝。

除了ID3和C4.5算法之外还有CART算法，现在打算简单的聊聊CART算法。先放上博客参考：CART分类树算法。由于ID3和C4.5在特征选择过程中涉及到信息熵的计算，大量的信息熵计算意味着大量的对数计算。于是为了简化模型运算的同时，不完全丢失熵模型的有点，CART算法使用基尼系数来替代信息增益比。基尼系数代表了模型的不纯度，基尼系数代表了模型的不纯度，基尼系数越小，则不纯度越低，特征越好。

决策树算法的缺点是容易过拟合，换言之就是泛化能力较弱，可以通过设置节点最小样本数量和树的深度进行推进。很多一些集成算法都用树模型进行集成。寻找最优决策树是一个NP难的问题，一般通过启发式方法容易陷入局部最优，可通过集成学习之类的方法来改善。

sklearn上面也有一些决策树的算法，这边暂时就先不放这个代码了。

GBDT

GBDT称为梯度提升树，使用的决策树是CART，因为主要解决的是连续值的问题。GBDT主要是通过加法模型（即基函数的线性组合），通过训练不断减少训练残差。贴上GBDT的原理参考：机器学习-一文理解GBDT的原理,偏差方差的讲解，GBDT算法原理以及实例理解，机器学习算法GBDT（主要参考）,GBDT算法。

GBDT通过多轮迭代，每轮迭代产生一个弱分类器，每个分类器在上一轮分类器的残差基础上进行训练。对弱分类器的要求一般是足够简单，并且是低方差和高偏差。弱分类器一般会选择CART，通过加法模型，最终的预测结果是每轮训练的到的弱分类器加权求和得到的。GBDT的弱分类器默认选择的是CART TREE，但是也可以选择其他弱分类器，选择的前提是低方差和高偏差，服从boosting框架即可。

XGBoost

XGBoost原理

通俗理解Kaggle比赛大杀器XGBoost

集成学习

集成学习指的是构建多个分类器（弱分类器）对数据集进行预测，然后用某种策略将多个分类器预测的结果集成起来，作为最终的预测结果。

Boosting

各个分类器之间有依赖关系，必须串行，比如Adaboost、GBDT、XGBoost。以Adaboost为例，首先初始化训练数据的权值分布。如果有N个样本，则每一个训练样本最开始时都被赋予相同的权值：1/N。然后训练弱分类器。如果某个样本点已经被准确分类了，那么在构造下一个训练集中，它的权值就会被降低；相反样本点的权值会提高。权值更新后训练下一个分类器，以此类推。最后将各个训练得到的弱分类器组合成强分类器。各个弱分类器的训练过程结束后，加大分类误差率小的弱分类器权重，使得该分类器在最终分类器中起到较大的作用。相反亦然。GBDT的话是拟合上一个残差。

Bagging

各分类器之间没有依赖关系，可各自并行，比如随机森林。

多分类、多标签的分类

上图是截图python深度学习一书里面的内容。关于一些多标签多分类的内容，本人也混淆相关的概念，没能好好理解多标签，多分类各自代表什么意思。现在根据一些理解做出相关的笔记。（以图像为例）多分类即multiclass，多标签即multilabel。关于binary_crossentropy和categorical_crossentropy的相关知识可以参考：binary_crossentropy和categorical_crossentropy的相关知识，keras中两种交叉熵损失函数的探讨

单标签二分类

很简单的分类问题，例如图像中只包含猫和狗，只需要预测一个标签，并且这个标签取值只有两类。

单标签多分类

单标签多分类任务重需要预测一个标签，但是这个标签的取值有多类。

多标签多分类

多标签多分类任务需要图像里面多个标签并且每个标签取值有多类。multi-label由于假设每个标签的输出是相互独立的，因此常用配置是sigmoid+BCE，其中每个类别输出对应一个sigmoid。这种任务场景下CE将难以收敛。关于多标签多分类的tricks，可以参考：Bags of Tricks for Multi-Label Classification，对应的翻译版：https://mp.weixin.qq.com/s/bKcTp1b8bzAnvvHsOp_5IQ。不过我觉得写得也不是特别好。

categorical_crossentropy

binary_crossentropy

机器学习误区

数据问题

如果不仔细验证数据，你可能会错过有用的特征。英国统计学家弗朗西斯·安斯科姆因《安斯科姆四重奏》而闻名，该四重奏是四个数据集的一个例子，它们具有几乎相同的描述性统计均值、方差、相关性、回归线、R平方，但有非常不同的分布如果你以不恰当的方式选择数据，也很容易欺骗自己。例如，如果你选择因变量的值，你可能会得到一个关于自变量和因变量之间真实关系的误导性估计。

对应解决方案：

使用探索性数据分析(EDA)技术，包括非图形(如均值、方差、最小值、最大值和相关矩阵)和图形(如散点图、直方图、热图和降维)。
仔细检查数据错误、丢失的数据、总是相同值的字段、重复的实例、不平衡的数据、抽样偏差、因变量的选择以及容易博弈的数据。
验证字段是否包含您希望它们包含的数据。检查数据是否代表模型将在生产中看到的数据。对于分类问题，确保在每个分割中有足够的类实例。
与数据创建者和所有者交谈，以更好地理解数据。

数据泄露

当训练数据集包含在预测时无法得到的信息或线索时就会发生数据泄漏，数据泄漏会导致模型性能变差。

解决方案：

作为一个一般的经验法则，如果你的结果非常好即各种指标超过90%，你可以怀疑是否数据泄漏。
在最开始的时候，将您的数据分成项目中需要的数据集:训练、验证、开发、测试、盲法、折叠等等。在数据准备之前分解数据，包括值的归一化、缺失值的归一化、移除异常值、降维和特征选择，留出几个测试数据集用于最终评估。
当使用k折交叉验证时，在每个折中分别进行数据准备。
通过特征重要性的度量来识别可能泄漏的特征，例如特征与因变量的相关性(信息性)、回归特征权重、R平方和排列特征重要性(变换特征值后性能下降)。
查找数据中的重复，并查找在多个分割中出现的相同实例。
仔细查看每个数据元素的属性。
确定数据元素可用的顺序，只使用过去的信息进行预测。
从自变量集中删除泄漏特性。与数据提供者合作改进数据文档，减少数据泄漏。

建模问题

如何验证模型：

考虑使用可视化技术，如热图、高亮显示、聚类、t分布随机邻居嵌入(t-SNE)、均匀流形近似和投影(UMAP)以及嵌入投影仪。
对于回归模型，看权重。
对于决策树，看分割。
对于神经网络，使用神经网络可视化技术，如激活图集、特征可视化。
使用可解释的人工智能工具，例如，深色对应注意力权重的线条可以帮助理解Transformer模型。
执行debug分析，看模型失败的原因。
以交互方式运行模型，尝试新的输入并查看输出，试着不寻常的输入打破这种模式。
使用各种指标评估您的模型，查看数据子集的指标(例如，在意图级别)。
研究为什么某些功能有用或没用，这会让你发现更多的问题。

Julia语言的学习路线樟松包罗万象 golang 开发语言后端
Julia语言学习路线指南引言在编程语言层出不穷的今天，Julia作为一门新兴的高级编程语言，以其出色的性能和易用性逐渐获得了越来越多的关注。特别是在科学计算、数据分析和机器学习等领域，Julia的表现十分出色，成为研究人员和开发者的热门选择。本文将为希望学习Julia语言的读者提供一条详细的学习路线，包括基础知识、工具、库、项目和实践经验等，帮助大家有效地掌握这门语言。一、了解Julia语言在开
【机器学习】基于t-SNE数据可视化工程无水先生 AI原理和python实现人工智能综合人工智能算法
一、说明t-SNE(t-DistributedStochasticNeighborEmbedding)是一种常用的非线性降维技术。它可以将高维数据映射到一个低维空间（通常是2D或3D）来便于可视化。Scikit-learnAPI提供TSNE类，以使用T-SNE方法可视化数据。在本教程中，我们将简要学习如何在Python中使用TSNE拟合和可视化数据。二、t-SNE是个什么？2.1什么是t-SNE？
数据处理和分析之数据降维：t-SNE：使用t-SNE进行数据可视化实践 kkchenkx 数据挖掘信息可视化算法聚类均值算法数据挖掘机器学习
数据处理和分析之数据降维：t-SNE：使用t-SNE进行数据可视化实践数据降维简介降维技术的重要性在数据科学和机器学习领域，数据降维是一种关键的技术，用于减少数据集的维度，同时保留数据的结构和重要信息。降维不仅可以帮助我们更有效地存储和处理数据，还能在高维数据中发现潜在的模式和结构，这对于数据可视化和模型训练尤为重要。高维数据往往难以直观理解，通过降维，我们可以将其转换为二维或三维空间，便于可视化
数据分布偏移检测：保障模型在生产环境中的稳定性 trust Tomorrow 机器学习 python 机器学习人工智能深度学习
数据分布偏移检测：保障模型在生产环境中的稳定性引言在机器学习系统从开发环境部署到生产环境的过程中，数据分布偏移问题是影响模型性能的主要挑战之一。当训练数据与生产环境中的数据分布不一致时，即使是经过精心调优的模型也可能表现出明显的性能下降。本文将深入探讨数据分布偏移的检测方法，并提供一套系统化的解决方案，帮助读者构建更加稳健的机器学习系统。1.数据分布偏移问题概述1.1分布偏移的类型数据分布偏移主要
基于热力梯度的线圈设计用来更替新型的储能方式热爱电气数学建模
摘要研究背景：传统电磁储能技术受限于较低的能量密度（约1-5Wh/kg）和充放电速度。热力梯度储能技术通过调控温度场实现多模式能量转换，其潜力能量密度可达100Wh/kg以上。创新点：1.提出三层异质线圈结构（铜基主储层+Bi₂Te₃热电转换层+GdFeO₃磁热调谐层），实现温度梯度与磁场的协同调控。2.开发动态热-电-磁耦合模型，结合有限元分析（COMSOL）与机器学习算法（遗传算法优化参数）。
【机器学习】skit-learn中LSI模型的实现一穷二白到年薪百万机器学习 python sklearn
参考文献[1]sklearn_api.lsimodel–ScikitlearnwrapperforLatentSemanticIndexing[2]Pythonmodels.LsiModel方法代码示例
Transformer动画讲解 - 工作原理 ghx3110 transformer 深度学习人工智能
Transformer模型在多模态数据处理中扮演着重要角色，其能够高效、准确地处理包含不同类型（如图像、文本、音频、视频等）的多模态数据。Transformer工作原理四部曲：Embedding（向量化）、Attention（注意力机制）、MLPs（多层感知机）和Unembedding（模型输出）。阶段一：Embedding（向量化）“Embedding”在字面上的翻译是“嵌入”，但在机器学习和自
Java：AI 浪潮中的隐形支柱 —— 探秘 Java 在人工智能领域的独特地位琢磨先生David 人工智能
引言在人工智能技术席卷全球的今天，当人们谈论AI开发时，Python、R语言、C++等工具总是最先被提及。然而在这个充满创新的领域，有一个"老兵"正悄然发挥着不可替代的作用——自1995年诞生至今的Java语言，凭借其独特的工程化基因，正在构建起AI世界的底层基础设施。本文将揭示Java如何在大数据、机器学习、企业级AI系统等领域持续创造价值。一、Java的AI基因解码跨平台优势的现代意义"一次编
【大一新生必收藏系列】❤机器学习7大方面，30个数据集。纯干货分享❤ .Boss. 机器学习人工智能 python 算法开发语言笔记 #大一新生
.记住了就可以跟同学装起来了嗷....目录.纯干货回归问题分类问题图像分类文本情感分析自然语言处理自动驾驶金融类...........纯干货..................在刚刚开始学习算法的时候，大家有没有过这种感觉，最最重要的那必须是算法本身！其实在一定程度上忽略了数据的重要性。而事实上一定是，质量高的数据集可能是最重要的！数据集在机器学习算法项目中具有非常关键的重要性，数据集的大小、质量
机器学习中的梯度到底是什么？（chat-gpt问答）湫怿机器学习 gpt 人工智能梯度
1、梯度是对损失函数求导吗？是的，梯度是对损失函数（或目标函数）求导数值化后的结果。梯度告诉我们目标函数在某个点上的方向性和变化率，这些信息是优化算法推进参数评估和更新的重要指标。在机器学习中，我们通过不断调整参数，使目标函数达到最小值，从而实现模型的训练和学习。2、为什么梯度要求偏导来求解？梯度是一个向量，它的方向指向函数值增加最快的方向，其大小表示函数值的变化率。为了确定梯度的方向和大小，需要
机器学习中的梯度下降是什么意思？ yuanpan 机器学习人工智能
梯度下降（GradientDescent）是机器学习中一种常用的优化算法，用于最小化损失函数（LossFunction）。通过迭代调整模型参数，梯度下降帮助模型逐步逼近最优解，从而提升模型的性能。1.核心思想梯度下降的核心思想是利用损失函数的梯度（即导数）来指导参数的更新方向。具体来说：梯度：梯度是损失函数对模型参数的偏导数，表示损失函数在当前参数点上的变化率。下降：通过沿着梯度的反方向（即损失函
CIR-DFENet：结合跨模态图像表示和双流特征增强网络进行活动识别是Dream呀神经网络计算机视觉人工智能神经网络深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和求职工作的先行者！【优惠信息】•新专栏订阅前200名享9.9元优惠•订阅量破200
机器学习-----决策树多巴胺与内啡肽. 机器学习机器学习决策树人工智能
文章目录1、概念2.决策树的构建过程2.1特征选择2.2树的生成2.3树的剪枝3.决策树的优缺点4.决策树的应用4.1分类任务4.2回归任务4.3集成学习代码示例总结1、概念1.1决策树是什么决策树是通过对样本的训练，建立出分类规则，并对新样本进行预测，属于有监督学习。根节点：最上面的节点。叶子节点：能直接看到结果的节点。非叶子节点：位于中间的节点。1.2决策树的类型分类树：用于分类任务，叶节点代
机器学习驱动的智能化电池管理技术与应用萌萌可爱郭德纲机器学习人工智能
电池管理技术概述电池的工作原理与关键性能指标电池管理系统的核心功能ØSOC估计ØSOH估计Ø寿命预测Ø故障诊断人工智能机器学习基础人工智能的发展机器学习的关键概念机器学习在电池管理中的应用案例介绍人工智能在电池荷电状态估计中的应用荷电状态估计方法概述基于迁移学习的SOC估计(1)基于迁移学习的SOC估计方法数据集、估计框架、估计结果(2)全生命周期下的SOC估计方法数据集、估计框架、估计结果基于数
机器学习_重要知识点整理嘉羽很烦机器学习机器学习
机器学习重要知识点整理一、数学与理论基础1.概率与统计术语作用使用场景概率分布描述随机变量的取值概率，如正态分布、二项分布。数据建模（如高斯分布假设）、生成模型（如贝叶斯网络）。贝叶斯定理计算条件概率，更新先验知识以获得后验概率。贝叶斯分类器、文本分类（如垃圾邮件检测）。最大似然估计（MLE）通过数据最大化似然函数，估计模型参数。线性回归、逻辑回归参数估计。假设检验判断假设是否成立（如t检验、卡方
用Python打造智能家居安防系统，让科技守护你的家 Echo_Wish Python 笔记 Python 算法 python 智能家居科技
友友们好！我是Echo_Wish，我的的新专栏《Python进阶》以及《Python！实战！》正式启动啦！这是专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发
Java对比Python，谁才是编程王者？ Java学研大本营 python java 开发语言
Python和Java是目前编程最受欢迎的两种语言，本文从多角度比较二者的相同点和差异，帮助你更深入地了解两种语言的特点，最终能根据你自身的需求来进行选择。微信搜索关注《Java学研大本营》Python和Java是当今世界上最流行的两种编程语言。两者都被广泛用于各种行业和应用，从网络开发到机器学习再到数据分析。但是这两种语言哪个更好呢？在这本中，我们将多方面比较Python和Java，探索二者的历
HarmonyNext深度解析：ArkUI高效渲染与性能优化实战披光人 harmonyOS ubuntu linux 运维
一、HarmonyNext渲染引擎技术演进（约1200字技术解析）HarmonyOSNext在UI渲染架构层面实现了重大突破，其创新的ArkUI渲染引擎采用分层异步架构设计。核心改进包括：原子化渲染管线采用基于Vulkan的跨平台渲染后端，通过原子化渲染指令拆分技术，实现绘制指令的并行执行能力。在华为Mate60系列实测中，复杂界面渲染延迟降低42%智能脏区检测机制基于机器学习的区域更新预测算法，
Python多版本环境管理UV 坐吃山猪 Python python uv 开发语言
Python多版本环境管理UV1-参考网址Python虚拟环境UV管理工具-官网Python虚拟环境UV管理工具-快速开始pyproject.toml使用指导2-核心知识点1）python项目维护requirements.txt2）python机器学习环境Anaconda3）python轻量级环境管理uv4）uvx快速上手使用3-上手实操1-安装UV虚拟环境管理工具UV官网安装教程#Windows
数据架构与机器学习：如何构建智能系统 AI天才研究院 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍机器学习（MachineLearning）是一种使计算机程序在未被明确编程的情况下，通过经验的学习自动改善其行为的技术。机器学习的目标是使计算机能够自主地从数据中学习，以便在未来的问题中做出更好的决策。数据架构（DataArchitecture）是一种用于有效管理、存储和处理数据的系统结构和组件。数据架构涉及到数据的收集、存储、处理和分析，以及数据的存储和传输。数据架构是构建智能系统的
超详细的Numpy基础教程！！！不会爬虫的闲鱼 numpy 数据分析 python
Numpy是一个开源的Python库，用于支持大型多维数组和矩阵运算，同时提供了大量的数学函数库。它是科学计算中非常重要的工具。Numpy在数据科学中非常重要，因为它提供了高效的数组处理能力和广泛的数学函数库，这对于处理大规模数据集、进行科学计算和机器学习等任务至关重要。一、安装与设置如何安装Numpypipinstallnumpy验证安装的方法importnumpyprint(numpy.__v
python手写kmeans算法菜鸟懿机器学习聚类算法 python
kmean聚类是最基础和常见的算法，工程上使用比较常见，spark,sklearn都有实现，本文手写实现kmeans#!/usr/bin/pythonimportsysimportrandomimportmathdefcreate_rand_points(max_x,max_y,count):"""Createcountpoints(0-x),(0-y)."""points=[]foriinran
Python 科学计算与机器学习入门：NumPy + Scikit-Learn 实战指南吴师兄大模型 python numpy scikit-learn 人工智能开发语言机器学习编程
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
吴恩达机器学习笔记复盘（二）监督学习和无监督学习 wgc2k 机器学习机器学习笔记学习
监督学习经济价值以及定义监督学习是机器学习中创造了99%经济价值的类型，它是学习输入到输出映射的算法，关键在于给学习算法提供包含正确答案（即给定输入X的正确标签Y）的学习例子。生活中的例子邮件分类，输入是电子邮件，输出是判断邮件是否为垃圾邮件。语音识别，输入音频剪辑，输出文本记录。机器翻译，输入一种语言文本，输出其他语言的相应翻译。在线广告，输入广告和用户信息，预测用户是否点击广告，为公司带来大量
安全中心建设关键技术之机器学习 sinfoyou 安全机器学习人工智能
1.1.1功能要求针对目前广为流行的网银、掌上银行撞库行为，需要围绕撞库防护建立针对性的发现、预警、拦截体系。在本课题在大量数据中自动分析获得规律，并利用规律对未知数据进行预测。通过机器学习重点解决目前无法在识别撞库攻击源IP地址的基础上，进一步识别出被撞库成功的账号。由于机器学习算法需要从数据中自动分析获得规律，所以必须要有历史数据。在针对撞库攻击行为分析的场景中，首先需要获取手机银行和网上银行
人工智能：重塑未来生活与工作的科技力量 Geektec 问答专栏人工智能应用创新
方向一：介绍人工智能技术的发展历程和现状，指出它的应用领域和前景一、人工智能技术的发展历程人工智能（ArtificialIntelligence,AI）作为一门学科，其起源可以追溯到20世纪50年代。最初，AI的研究主要集中在逻辑推理、机器学习和自然语言处理等领域，目标是使机器能够模拟人类的智能行为。尽管在早期的探索中，AI遭遇了诸多挑战和瓶颈，但其发展潜力逐渐被认可，并在随后几十年中得到了迅速的
Prompt工程：大模型沟通指南（人工智能到大模型） Harry技术 AI prompt 人工智能
文章目录人工智能到大模型机器学习深度学习大模型Prompt工程：大模型沟通的桥梁在人工智能的广袤领域中，大模型无疑是最为璀璨的明珠之一。它仿佛是一座连接人类与人工智能的桥梁，让我们能够更加深入地探索和利用人工智能的强大能力。而要实现与大模型的高效沟通，Prompt工程扮演着至关重要的角色。让我们一起走进Prompt工程的奇妙世界，探寻大模型沟通的奥秘。人工智能到大模型“人工智能是一种模拟人类智能的
无网络entos7报错ImportError: /lib64/libm.so.6: version `GLIBC_2.27‘ not found更新glibc 夏离网络
最近在尝试使用sklearn的升级版cuml，因为是一台没有连接互联网的gpu机器，所以构建cuml环境过程很坎坷，需要各种将各种whl包在线下载后上传到服务器中。当我终于解决完包的互相依赖问题后，在importcuml时候遇到一个错误：ImportError:/lib64/libm.so.6:version`GLIBC_2.27’notfound(requiredby/anaconda3/env
大语言模型（LLMs）全面学习指南（非常详细）零基础入门到精通，收藏这一篇就够了网络安全大白科技程序员人工智能语言模型人工智能自然语言处理
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
大模型生成人物关系思维导图的实战教程 herosunly 大模型生成人物关系生成思维导图实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了大模型生成人物关系思维导图的实战教程，希望对使用大语言模型的同学们有所帮
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多

机器学习算法