じんじん

《python机器学习及实践_从零开始通往kaggle竞赛之路》——读书笔记

一、简介

1、什么是机器学习

A program can be said to learn from experience E with respect to some class of tasks T and performance measure P , if its performance at tasks in T,as measured by P,improves with experience E.

2、机器学习三要素

2.1任务T

机器学习任务种类有很多，比较经典的有两类：监督学习和无监督学习

监督学习关注对事物未知表现的预测，一般包括：分类问题、回归问题

分类问题：对所在类别进行预测，类别是离散的，并且预先知道数量

回归问题：也是预测问题，预测目标是连续变量

无监督学习倾向于对事物本身特性的，常用的技术包括：数据降维和聚类问题

数据降维：对事物的特性进行压缩和筛选

聚类问题：依赖于数据的相似性，把相似的数据样本划分为一个簇。和分类问题的区别是，预先不知道簇的数量和每个簇的具体含义。

2.2经验E

习惯性的把数据视作经验。

特征：反映数据内在规律的信息叫做特征。一个样本可以用一个特征向量来描述。

而从原始数据到特征向量转化的过程，会有多种数据类型：类别型特征、数值型特征、缺失的数据等。

监督学习的经验包括特征和标记/目标两部分。一般用一个特征向量来描述一个样本，标记/目标的表现形式取决于监督学习的种类

无监督学习没有标记/目标，无法从事预测任务，更适合对数据结构的分析。

2.3性能P

性能指评价所完成任务质量的指标。

对于预测性质的问题，关注预测精度。

分类问题要根据预测正确类别的百分比来评价性能，即准确性

回归问题通常衡量预测值与实际值之间的偏差大小。

出现在测试集中的样本一定不能被用于模型训练

一般，训练集75%，测试集25%

二、经典模型

1、监督学习经典模型

监督学习任务基本架构和流程：

准备训练数据→抽取特征，形成特征向量→把特征向量和对应的标记/目标送入学习算法，训练出一个预测模型；然后，用同样的特征抽取方法作用于新测试数据，得到用于测试的特征向量，用预测模型对这些待测试的特征向量进行预测并得到结果。

1.1分类学习

有二分类、多类分类、多标签分类。

二分类、多类分类：从两个或多于两个类别中选择一个作为预测结果

多标签分类：判断一个样本是否同时属于多个不同类别

分类问题性能测评指标：

	实际类别
预测类别		T	F
	T	TT	TF
	F	FT	FF

准确率Accuracy：(#TT+#FF)/(#TT+#TF+#FT+#FF) 就是不管原来是T还是F，真预测对了的比例

召回率Recall：(#TT)/(#TT+#FT) 原来是T的那些，预测对了多少比例

精确率Precision：(#TT)/(#TT+#TF) 预测为T的那些，有多少预测对了

1.1.1线性分类器

假设特征和分类结果之间存在线性关系的模型。

线性关系可以表达为：

，

1）LR

对于二分类问题，用逻辑斯蒂函数将映射到（0,1），

得到逻辑斯蒂回归模型(即决策函数)：

损失函数（最大似然估计）：

另说明：h(x)是每个样本取值为1的概率

特点：线性分类器假设数据特征和分类目标之间关系是线性的

有LogisticRegression：对参数计算精确解析，计算时间长，模型性能略高

和SGDClassifier：随机梯度上升估计参数，计算时间短，模型性能略低

10万量级以上数据，考虑时间耗用，使用SGDClassifier

2）SVC

决策函数：

损失函数：

当epsilon=0时，退化为线性可分的情况

损失函数第一项保证了最大化分类间隔，第二项是分类错误造成代价

特点：在海量高维度数据中筛选对预测任务最为有效的少数训练样本，

节省模型数据内存，提高模型预测性能。

缺点：付出CPU资源和计算时间

SVC和LR的区别及联系：

都是线性分类器，但是计算参数时，LR考虑了所有样本对参数的影响，而SVC仅考虑支持向量对参数的影响

都是在寻找w.T·x=0的超平面，但是损失函数不同，SVC希望找到使点到平面的垂直距离最小的参数，而LR则使似然函数最大

1.1.2朴素贝叶斯

模型构造基础的贝叶斯理论。

基本数学假设是：各个维度上的特征被分类的条件概率之间是相互独立的。

概率模型表达为：

x(x1,……,xn)为一n维特征向量，

y∈{c1,……,ck}是特征向量x所有k种可能的类别

p(y=ci|x)是x属于类别ci的概率，则

目标是求所有y∈{c1,……,ck}中P(y|x)最大的。

特点：广泛应用于海量互联网文本分类任务。

由于其较强的特征条件独立假设，使模型预测所需估计的参数规模从幂指数量级向线性量级减少，节约内存消耗和计算时间

无法将各个特征之间的联系考量在内，使得模型在其他数据特征关联性较强的分类任务上的性能表现不佳。

1.1.3 K近邻

给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于某个类，就把该输入实例分为这个类。

所以，K近邻法不具有显式的学习过程。

实际上是利用训练数据集对特征向量空间进行划分，并作为其分类的模型。

三要素：K值的选择，距离度量，分类决策规则

特点：无参数模型，非常高的计算复杂度和内存消耗

1.1.4决策树

假设特征和目标之间是非线性关系

度量方式：信息熵、基尼不纯性

特点：推断逻辑直观，具有清晰的可解释性，方便模型可视化

使用决策树时，无需考虑对数据标准化

有参数模型

1.1.5集成分类模型

综合考量多个分类器的预测结果，从而做出决策

综合考量方式分两种：

一是利用相同的训练数据同时搭建多个独立的分类模型，然后通过投票的方式，以少数服从多数的原则作出最终的分类决策，如：随机森林分类器，即在相同训练数据上同时搭建多棵决策树，每棵决策树构建时都是随机选取特征。

二是按照一定次序搭建多个分类模型。这些模型之间彼此存在依赖关系。一般，每个后续模型的加入都需要对现有集成模型的综合性能有所贡献，进而不断提升更新过后的集成模型的性能，并最终期望借助整合多个分类能力较弱的分类器，搭建出具有更强分类能力的模型，如梯度提升决策树，每一棵决策树在生成的过程中都会尽可能降低整体集成模型在训练集上的拟合误差。

特点：具有更高的表现性能和更好的稳定性

训练过程耗费更多时间

1.2回归预测

1.2.1线性回归器

线性回归模型：

优化目标：最小化预测值和真实值的差异

同样有精确计算的解析算法和随机梯度下降估计算法

性能评价：使用R2评价模型和数据拟合的好坏，越大代表拟合的越好

可作为基线系统

1.2.2 支持向量机回归：从训练数据中选出一部分更加有效的支持向量，用于预测

1.2.3 K邻近回归：只借助周围K个最近训练样本的目标数值，对待预测的回归值进行决策。

衍生出衡量待测样本回归值的不同方式，即到底是对K个近邻目标数值使用普通的算术平均法还是同时考虑距离的差异进行加权平均。

1.2.4 回归树：回归树在选择不同特征作为分裂节点的策略上，与决策树思路类似。不同之处在于，回归树叶节点的数据类型不是离散型，而是连续型。决策树每个叶节点依照训练数据表现的概率倾向决定了其最终的预测类别；而回归树的叶节点却是一个个具体的值，从预测值连续这个意义上严格讲，回归树不能成为“回归算法”。因为回归树的叶节点返回的是“一团”训练数据的均值，而不是具体的、连续的预测值。

树模型的优点：

1、树模型可以解决非线性特征的问题

2、树模型不要求对特征标准化和统一化，即数值型和类别型特征都可以直接被应用在树模型的构建和预测过程中

3、因为上述原因，树模型也可以直观地输出决策过程，使得预测结果具有可解释性

树模型的缺点

1、因为树模型可以解决一些复杂的非线性拟合问题，所以更加容易因为模型搭建过于复杂而丧失对新数据的精度（泛化能力）

2、树模型从上至下的预测流程会因为数据细微的更改而发生较大的结构变化，因此预测稳定性较差

3、依托训练数据构建最佳的树模型是NP难问题，即在有限时间内无法找到最优解的问题，因此常使用类似贪婪算法的解法只能找到一些次优解，这也是为什么经常借助集成模型，在多个次优解中寻觅更高的模型性能

1.2.5集成模型（回归）

普通回归森林

提升树模型

极端随机森林：与普通的随机森林不同的是，极端随机森林在每当构建一棵树的分裂点的时候，不会任意地选取特征，而是先随机收集一部分特征，然后利用信息熵和基尼不纯性等指标挑选最佳的节点特征

特点：训练过程耗时，但性能好，稳定性好

2、无监督学习经典模型

着重于发现数据本身的分布特点，可发现数据的“群落”，寻找离群点，降维

2.1数据聚类

K-均值聚类步骤：

1、确定要分的类别数目K

根据实际问题反复尝试，得到不同的分类并进行比较，得出最后要分的类别数量

2、确定K个类别的初始聚类中心

在用于聚类的全部样本中，选择K个样本作为K个类别的初始聚类中心，可由系统随机选择

3、根据确定的K个初始聚类中心，依次计算每个样本到K个聚类中心的距离欧氏距离，并根据距离最近的原则将所有的样本分到事先确定的K个类别中

4、根据所分成的K个类别，计算出各类别中每个变量的均值，并以均值点作为新的K个类别中心。根据新的中心位置，重新计算每个样本到新中心的距离，并重新进行分类

5、重复第4步，直到满足终止聚类条件为止

性能测评：

1、如果被用来评估的数据本身带有正确的类别信息，用ARI指标，含义和分类问题中的准确性Accurary类似

2、如果被用于评估的数据没有所属类别，那么用轮廓系数来度量聚类结果的质量

轮廓系数兼顾聚类的凝聚度和分离度，取值范围[-1,1]，越大越好

计算步骤：

定义xi与某类簇的距离为xi与该类簇内所有样本距离的平均值

①对于已聚类数据xi，计算xi与同一类簇内所有其他样本距离的平均值，记为ai

②计算xi与其他各类簇的距离，并找到最小的距离，记为bi

③对于样本xi，轮廓系数为sci=(bi-ai)/max(bi,ai)

④对所有样本轮廓系数求出平均值即为当前聚类结果的整体轮廓系数。

缺点：容易收敛到局部最优解，需要预先设定簇的数量

如何预估合理的类簇个数：K-meas模型最终期望所有数据点到其所属的类簇距离平方和趋于稳定，所以可以观察这个数值随K的走势来找出最佳类簇数量

另：

K-均值聚类法是根据事先确定的K个类别反复迭代直到把每个样本分到指定的里类别中。类别数目的确定具有一定的主主观性，究竟分多少类合适，需要研究者对研究问题的了解程度、相关知识和经验

聚类数据要求：

1、各变量的取值不应有数量级上的过大差异，否则会对分类结果产生较大影响。这时需要对变量进行标准化处理

2、各变量间不应有较强的相关关系。若两个强相关的变量同时参与聚类分析，在测度距离时，就加大了它们的贡献，而其他变量则相对被削弱

分类结果是否合理取决于它是否“有用”，但分类结果是否可靠和稳定，则需要反复聚类和比较

一般来说，在所分的类别中，各类所包含的对象(样本或变量)的数量应该大致相当。至少这从表面上看更漂亮一些

2.2 特征降维

主成分最为经典和实用。可以把PCA当做特征选择，这种特征选择首先是把原来的特征空间做了映射，使得新的映射后特征空间数据彼此正交，这样就可尽可能保留具有区分性的低维数据特征。

降维过程可能会损失一些模式信息，不过综合效率更好。

三、进阶

提升模型性能的方式：预处理数据、控制参数训练、优化模型配置

1、特征提升

特征抽取：将原始数据转化为特征向量的形式，这个过程同时涉及对数据特征的量化表示

特征筛选：在高维度、已量化的特征向量中选择对指定任务更有效的特征组合，与PCA这类通过选择主成分对特征进行重建的方法有区别，对于PCA，无法解释重建之后的特征，但特征筛选不对特征值修改，而是选择对模型性能提升较大的少量特征

2、模型正则化

欠拟合：当模型复杂度很低，模型不仅没有对训练集上的数据有良好的拟合状态，且在测试集上也表现平平，即欠拟合

过拟合：模型复杂度很高，几乎完全拟合了所有的训练数据，但几乎丧失了对未知数据的预测能力，即过拟合

两种情况都是缺乏泛化力；

所以，要求增加模型复杂度，提高性能，同时兼顾泛化能力，防止过拟合；

于是，采用模型正则化的方法

正则化方法：L1范数正则化和L2范数正则化

2.1L1范数正则化：

目的是提高模型在未知测试数据上的泛化力，避免参数过拟合

方法是在原模型优化目标的基础上，增加对参数的惩罚项，即增加参数向量的L1范数

结果会让参数向量中的许多元素趋向于0，使得大部分特征失去对优化目标的贡献。

这种让有效特征变得稀疏的L1正则化模型通常称为Lasso

2.2L2范数正则化：

方法是在原模型优化目标的基础上，即增加参数向量的L2范数

结果会让参数向量中的大部分元素都变得很小，压制了参数之间的差异性

这种压制参数之间差异性的L2正则化模型通常称为Ridge

3、模型检验

留一验证

K折交叉验证：保证所有的数据都有被训练和验证的机会，最大可能让优化的模型性能变现更加可信

4、超参数搜索

网格搜索：对超参数组合空间进行暴力搜索

并行搜索：利用多核处理器、分布式资源

5、XGBoost模型

基本思想是把成百上千个分类准确率较低的树模型组合起来，成为一个准确率很高的模型，这个模型的特点是不断迭代，每次迭代就生成一棵新的树，成为一个准确率很高的模型。

在上面的基础上再总结一下

机器学习任务分为有监督学习和无监督学习。

有监督学习又分为分类问题和回归问题，两者都是预测，不同点是分类问题预测目标是离散变量，知道类别数量，回归问题预测目标是连续变量；

分类问题的模型中，如果假设特征是线性的，可选LR和SVC，一般可能SVC更好一点，因为它只考虑支持向量对参数的影响，同时计算量小；朴素贝叶斯是根据贝叶斯理论构建的模型，假设是特征之间以及特征和预测变量之间相互独立，那么，它就不适合预测特征之间明显有相关性的数据；

K近邻是无参数算法，不过计算量很大，对于每一个待预测的点都要计算和所有样本的距离才能找出最近的K个点；决策树是一种很好的对特征是非线性关系假设的拟合模型，结果直观，逻辑清晰，知道是如何一步步分类的，且不要求数据标准化，但是稳定性差，不好找最优解；集成模型性能也好，稳定性也好，就是训练过程耗时。

回归问题的模型，上述分类问题都基本有对应的回归模型，优缺点基本一致。

无监督学习主要是聚类和降维。聚类常用K-means，降维常用主成分。

在模型性能提升方面，除了选对模型，也涉及数据预处理、模型参数控制和模型优化配置方面

选择合适的特征，进行超参数组合，选出最好的超参数，正则化提高模型泛化能力。

大概流程为：原始数据，分开训练集、测试集，数据描述、看数据分布、有没有缺失值、特征选择，缺失值处理，特征向量化，选择模型，训练，预测等。

所涉及的sklearn库中常用的几行代码

#分类学习

#监督学习，分类学习，线性分类器
fromsklearn.linear_modelimportLogisticRegression
fromsklearn.linear_modelimportSGDClassifier
fromsklearn.svmimportLinearSVC

#监督学习，分类学习，朴素贝叶斯
fromsklearn.naive_bayesimportMultinomialNB

#监督学习，K近邻分类器
fromsklearn.neighborsimportKNeighborsClassifier

#监督学习，单一决策树分类器
fromsklearn.treeimportDecisionTreeClassifier

#监督学习，分类学习，集成学习，随机森林分类器
fromsklearn.ensembleimportRandomForestClassifier
#监督学习，分类学习，集成学习，梯度提升决策树
fromsklearn.ensembleimportGradientBoostingClassifier



#分类模型评估结果
fromsklearn.metricsimportclassification_report
print('AccuracyofLRClassifier:',lr.score(X_test,y_test))
print(classification_report(y_test,lr_y_predict,target_names=['Benign','Malignant']))

#回归问题

#监督学习，线性回归
fromsklearn.linear_modelimportLinearRegression
fromsklearn.linear_modelimportSGDRegressor
fromsklearn.svmimportSVR

#监督学习，K近邻回归
fromsklearn.neighborsimportKNeighborsRegressor

#监督学习，单一回归树
fromsklearn.treeimportDecisionTreeRegressor

#监督学习，集成模型，普通随机森林,极端随机森林,提升树
fromsklearn.ensembleimportRandomForestRegressor,ExtraTreesRegressor,GradientBoostingRegressor



#回归模型评估结果R方，MSE，MAE
ss_y=StandardScaler()
fromsklearn.metricsimportr2_score,mean_squared_error,mean_absolute_error
r2_score(y_test,lr_y_predict)
mean_squared_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(lr_y_predict))
mean_absolute_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(lr_y_predict))

#无监督学习，聚类
fromsklearn.clusterimportKMeans
#K-means性能评估ARI
fromsklearnimportmetrics
metrics.adjusted_rand_score(y_test,y_predict)
#K-means性能评估轮廓系数
fromsklearn.metricsimportsilhouette_score
sc_score=silhouette_score(X,kmeans_model.labels_,metric='euclidean')

#无监督学习，降维
fromsklearn.decompositionimportPCA

你可能感兴趣的:(机器学习,机器学习)

【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
【论文阅读】Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set 开心星人论文阅读论文阅读
将神经网络表征为加权的无环图，直接根据模型的权重矩阵构造PD。计算相邻batch的权重矩阵PD之间的距离。比较同调收敛性与神经网络的验证精度变化趋势摘要机器学习从业者通常通过监控模型的某些指标来估计其泛化误差，并在训练数值收敛之前停止训练，以防止过拟合。通常，这种误差度量或任务相关的指标是通过一个验证集（holdoutset）来计算的。因为这些数据没有直接用于更新模型参数，通常假设模型在验证集上的
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
【论文阅读】Availability Attacks Create Shortcuts 开心星人论文阅读论文阅读
还得重复读这一篇论文，有些地方理解不够透彻可用性攻击通过在训练数据中添加难以察觉的扰动，使数据无法被机器学习算法利用，从而防止数据被未经授权地使用。例如，一家私人公司未经用户同意就收集了超过30亿张人脸图像，用于构建商业人脸识别模型。为解决这些担忧，许多数据投毒攻击被提出，以防止数据被未经授权的深度模型学习。它们通过在训练数据中添加难以察觉的扰动，使模型无法从数据中学习太多信息，从而导致模型在未见
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
机器学习：让计算机学会思考的艺术平凡而伟大. 机器学习机器学习人工智能
目录什么是机器学习？机器学习的基本步骤常见的机器学习算法机器学习的实际应用如何入门机器学习？结语在当今数字化时代，机器学习（MachineLearning,ML）已经成为一个炙手可热的话题。从推荐系统到自动驾驶汽车，再到语音助手，机器学习的应用无处不在。然而，对于许多人来说，机器学习仍然是一个神秘而复杂的领域。本文将用通俗易懂的语言，带你走进机器学习的世界，了解它的基本原理和应用。什么是机器学习？
机器学习中的 K-均值聚类算法及其优缺点平凡而伟大. 机器学习机器学习算法均值算法
K-均值聚类是一种常用的无监督学习算法，用于将数据集中的样本分成K个簇。其基本原理是将所有样本点划分到K个簇使得簇内样本点之间的距离尽可能接近，而不同簇之间的距离尽可能远。算法流程如下：随机选择K个样本点作为初始的聚类中心。将每个样本点分配到与其最近的聚类中心所在的簇。更新每个簇的聚类中心为该簇所有样本点的平均值。重复第2步和第3步，直到聚类中心不再变化或者达到最大迭代次数。优点：简单且易于实现。
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
机器学习knnlearn1 XW-ABAP 机器学习机器学习人工智能
importmatplotlib.pyplotaspltimportnumpyasnpimportoperator#定义一个函数用于创建数据集defcreateDataSet():#定义特征矩阵，每个元素是一个二维坐标点，代表不同策略数据点的坐标group=np.array([[20,3],[15,5],[18,1],[5,17],[2,15],[3,20]])#定义每个数据点对应的标签，用于区分
基于 MySQL 和 Spring Boot 的在线论坛管理系统设计与实现城南|阿洋-计算机从小白到大神 mysql spring boot 数据库
markdownCopy✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、pyhton、机器学习技术领域和毕业项目实战✌哈喽兄弟们，好久不见哦～最近整理了一下之前写过的一些小项目/毕业设计。发现还是有很多存货的，想一想既然放在电脑里面也吃灰，那么还不如分享出去，没准还可以帮助到
零基础入门机器学习：用Scikit-learn实现鸢尾花分类藍海琴泉机器学习 scikit-learn 分类
适合人群：机器学习新手|数据分析爱好者|需快速展示案例的学生一、引言：为什么要学这个案例？目的：明确机器学习解决什么问题，建立学习信心。机器学习定义：让计算机从数据中自动学习规律（如分类鸢尾花品种）。为什么选鸢尾花数据集：数据量小、特征明确，适合教学演示。Scikit-learn优势：提供现成算法和工具，无需从头写数学公式。二、环境准备：5分钟快速上手目的：搭建可运行的代码环境，避免卡在工具安装环
机器学习--DBSCAN聚类算法详解 2201_75491841 机器学习算法聚类人工智能
目录引言1.什么是DBSCAN聚类？2.DBSCAN聚类算法的原理3.DBSCAN算法的核心概念3.1邻域（Neighborhood）3.2核心点（CorePoint）3.3直接密度可达（DirectlyDensity-Reachable）3.4密度可达（Density-Reachable）3.5密度相连（Density-Connected）4.DBSCAN算法的步骤5.DBSCAN算法的优缺点5
【机器学习】机器学习工程实战-第3章数据收集和准备腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第2章项目开始前文章目录3.1关于数据的问题3.1.1数据是否可获得3.1.2数据是否相当大3.1.3数据是否可用3.1.4数据是否可理解3.1.5数据是否可靠3.2数据的常见问题3.2.1高成本3.2.2质量差3.2.3噪声（noise）3.2.4偏差（bias）3.2.5预测能力低（lowpredictivepower）3.2.6过时的样本3.2.7离群值3.2.8数据泄露/目标泄漏3
机器学习实战第一章机器学习基础 LuoY、 Machine Learning 机器学习算法人工智能
第一章机器学习1.1何谓机器学习1.2关键术语1.3机器学习的主要任务1.4如何选择合适的算法1.5开发机器学习应用程序的步骤1.6Python语言的优势1.1何谓机器学习 1、简单地说，机器学习就是把无序的数据转换成有用的信息； 2、机器学习能让我们自数据集中受启发，我们会利用计算机来彰显数据背后的真实含义； 3、机器学习横跨计算机科学、工程技术和统计学等多个学科，需要多学科的
数据挖掘实战-基于机器学习的垃圾邮件检测模型艾派森数据挖掘实战合集数据挖掘机器学习人工智能 python
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
集成学习（随机森林） herry57 数学建模大数据随机森林集成学习
目录一、集成学习概念二、Bagging集成原理三、随机森林四、例子（商品分类）一、集成学习概念集成学习通过建⽴⼏个模型来解决单⼀预测问题。它的⼯作原理是⽣成多个分类器/模型，各⾃独⽴地学习和作出预测。这些预测最后结合成组合预测，因此优于任何⼀个单分类的做出预测。只要单分类器的表现不太差，集成学习的结果总是要好于单分类器的二、Bagging集成原理分类圆形和长方形三、随机森林在机器学习中，随机森林是
【机器学习】朴素贝叶斯入门：从零到垃圾邮件过滤实战吴师兄大模型 0基础实现机器学习入门到精通机器学习人工智能朴素贝叶斯深度学习 pytorch sklearn 开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
【机器学习】机器学习工程实战-第2章项目开始前腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第1章概述文章目录2.1机器学习项目的优先级排序2.1.1机器学习的影响2.1.2机器学习的成本2.2估计机器学习项目的复杂度2.2.1未知因素2.2.2简化问题2.2.3非线性进展2.3确定机器学习项目的目标2.3.1模型能做什么2.3.2成功模型的属性2.4构建机器学习团队2.4.1两种文化2.4.2机器学习团队的成员2.5机器学习项目为何失败2.5.1缺乏有经验的人才2.5.2缺乏领
机器学习怎么做特征工程全栈你个大西瓜人工智能机器学习人工智能特征工程数据预处理特征变换特征降维特征构造
一、特征工程通俗解释特征工程就像厨师做菜前的食材处理：原始数据是“生肉和蔬菜”，特征工程是“切块、腌制、调料搭配”，目的是让机器学习模型（食客）更容易消化吸收，做出更好预测（品尝美味）。二、为什么要做特征工程？数据质量差：原始数据常有缺失、噪声、不一致问题（如年龄列混入“未知”）。模型限制：算法无法直接理解原始数据（如文本、日期需要数值化）。提升效果：好特征能显著提升模型性能（准确率提升10%~5
【机器学习】机器学习四大分类藓类少女机器学习机器学习分类人工智能
机器学习的方法主要可以分为四大类，根据学习方式和数据标注情况进行分类：1.监督学习（SupervisedLearning）特点：有标注数据（即训练数据有明确的输入(X)和输出(Y)）。学习目标是找到一个映射(f(X)\approxY)。适用于分类和回归问题。主要算法：分类（Classification）：逻辑回归（LogisticRegression）支持向量机（SVM）朴素贝叶斯（NaïveBa
机器学习——KNN超参数练习AI两年半机器学习人工智能深度学习
sklearn.model_selection.GridSearchCV是scikit-learn中用于超参数调优的核心工具，通过结合交叉验证和网格搜索实现模型参数的自动化优化。以下是详细介绍：一、功能概述GridSearchCV在指定参数网格上穷举所有可能的超参数组合，通过交叉验证评估每组参数的性能，最终选择最优参数组合。其核心价值在于：自动化调参：替代手动参数调试，提升效率3。交叉验证支持：通
重要重要！！fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵概率论线性代数 windows 微信机器学习
fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义Fisher信息矩阵（FisherInformationMatrix,FIM）用于衡量模型参数估计的不确定性，其计算和更新在统计学、机器学习和优化中具有重要作用。以下是其计算和更新的关键步骤：一、Fisher矩阵的计算定义Fisher矩阵的元素表示对数似然函数关于参数的二阶导数的期望值的负数，即：Fi,j=−
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
强化学习中策略网络模型设计与优化技巧数字扫地僧计算机视觉深度学习
I.引言强化学习（ReinforcementLearning,RL）是一种通过与环境交互，学习如何采取行动以最大化累积奖励的机器学习方法。策略网络（PolicyNetwork）是强化学习中一种重要的模型，它直接输出动作的概率分布或具体的动作。本篇博客将深入探讨策略网络的设计原则、优化技巧，并结合具体实例展示其应用。II.策略网络的基本概念A.策略网络的定义策略网络是一种神经网络，它接受当前状态作为
基于Python编程语言实现“机器学习”，用于车牌识别项目我的sun&shine Python python 机器学习计算机视觉
基于Python的验证码识别研究与实现1.摘要验证码的主要目的是区分人类和计算机，用来防止自动化脚本程序对网站的一些恶意行为，目前绝大部分网站都利用验证码来阻止恶意脚本程序的入侵。验证码的自动识别对于减少自动登录时长，识别难以识别的验证码图片有着重要的作用。对验证码图像进行灰度化、二值化、去离散噪声、字符分割、归一化、特征提取、训练和字符识别等过程可以实现验证码自动识别。首先将原图片进行灰度化处理
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略一个处女座的程序猿资深文章(前沿/经验/创新)DataScience ML 数据科学数据科学的生命周期机器学习
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略导读：本文章是博主在数据科学和机器学习领域，先后实战过几百个应用案例之后的精心总结，应该是完全覆盖了数据科学的整个生命周期及其各个阶段的要点。其中机器学习领域六大阶段更是在整个数据科学生命周期中扮演着极其重要的角色。同时，因为涉及到博主出书中出版社要求在
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后