Tao-Tao-Tao

机器学习术语表

A

accuracy (准确率)

分类模型预测准确的比例。在多类别分类中，准确率定义如下：

a c c u r a c y = c o r r e c t p r e d i c t i o n s t o t a l n u m b e r o f e x a m p l e s

在二分类中，准确率定义为：

a c c u r a c y = t r u e p o s i t i v e s + t r u e n e g a t i v e s t o t a l n u m b e r o f e x a m p l e s

activation function (激活函数)

一种函数（例如ReLU或Sigmoid），将前一层所有神经元激活值的加权和输入到一个非线性函数中，然后向下一层传递该函数的输出值（典型的非线性）。

adagrad

auc （曲线下面积）

一种考虑到所有可能的分类阈值的评估标准。ROC 曲线下面积代表分类器随机预测真正类（Ture Positives）要比假正类（False Positives）概率大的确信度。

B

backpropagation (反向传播)

神经网络中完成梯度下降的重要算法。首先，在前向传播的过程中计算每个节点的输出值。然后，在反向传播的过程中计算与每个参数对应的误差的偏导数。

baseline (基线)

被用为对比模型表现参考点的简单模型。基线帮助模型开发者量化模型在特定问题上的预期表现。

batch（批量）

模型训练中一个迭代（指一次梯度更新）使用的样本集。

batch size（批量大小）

一个批量中样本的数量。例如，SGD 的批量大小为 1，而 mini-batch 的批量大小通常在 10-1000 之间。批量大小通常在训练与推理的过程中确定，然而 TensorFlow 不允许动态批量大小。

bias（偏置）

与原点的截距或偏移量。偏置（也称偏置项）被称为机器学习模型中的 b 或者 w0。例如，偏置项是以下公式中的 b：

y' = b + w 1 x 1 + w 2 x 2 + \dots w n x n

binary classification(二元分类器)

一类分类任务，输出两个互斥（不相交）类别中的一个。例如，一个评估邮件信息并输出「垃圾邮件」或「非垃圾邮件」的机器学习模型就是一个二元分类器。

binning/bucketing

根据值的范围将一个连续特征转换成多个称为 buckets 或者 bins 二元特征，称为 buckets 或者 bins。例如，将温度表示为单一的浮点特征，可以将温度范围切割为几个离散的 bins。假如给定的温度的敏感度为十分之一度，那么分布在 0.0 度和 15.0 度之间的温度可以放入一个 bin 中，15.1 度到 30.0 度放入第二个 bin，30.1 度到 45.0 度放入第三个 bin。

C

calibration layer(标定层)

一种调整后期预测的结构，通常用于解释预测偏差。调整后的预期和概率必须匹配一个观察标签集的分布。

candidate sampling(候选采样)

一种优化训练时间的，使用 Softmax 等算法计算所有正标签的概率，同时只计算一些随机取样的负标签的概率。例如，有一个样本标记为「小猎兔狗」和「狗」，候选取样将计算预测概率，和与「小猎兔狗」和「狗」类别输出（以及剩余的类别的随机子集，比如「猫」、「棒棒糖」、「栅栏」）相关的损失项。这个想法的思路是，负类别可以通过频率更低的负强化（negative reinforcement）进行学习，而正类别经常能得到适当的正强化，实际观察确实如此。候选取样的动力是计算有效性从所有负类别的非计算预测的得益。

checkpoint(检查点)

在特定的时刻标记模型的变量的状态的数据。检查点允许输出模型的权重，也允许通过多个阶段训练模型。检查点还允许跳过错误继续进行（例如，抢占作业）。注意其自身的图式并不包含于检查点内。

class(类别)

所有同类属性的目标值作为一个标签。例如，在一个检测垃圾邮件的二元分类模型中，这两个类别分别是垃圾邮件和非垃圾邮件。而一个多类别分类模型将区分狗的种类，其中的类别可以是贵宾狗、小猎兔狗、哈巴狗等等。

class-imbalanced data set（类别不平衡数据集）

这是一个二元分类问题，其中两个类别的标签的分布频率有很大的差异。比如，一个疾病数据集中若 0.01% 的样本有正标签，而 99.99% 的样本有负标签，那么这就是一个类别不平衡数据集。但对于一个足球比赛预测器数据集，若其中 51% 的样本标记一队胜利，而 49% 的样本标记其它队伍胜利，那么这就不是一个类别不平衡数据集。

classification（分类模型）

机器学习模型的一种，将数据分离为两个或多个离散类别。例如，一个自然语言处理分类模型可以将一句话归类为法语、西班牙语或意大利语。分类模型与回归模型（regression model）成对比。

classification threshold（分类阈值）

应用于模型的预测分数以分离正类别和负类别的一种标量值标准。当需要将 logistic 回归的结果映射到二元分类模型中时就需要使用分类阈值。例如，考虑一个确定给定邮件为垃圾邮件的概率的 logistic 回归模型，如果分类阈值是 0.9，那么 logistic 回归值在 0.9 以上的被归为垃圾邮件，而在 0.9 以下的被归为非垃圾邮件。

confusion matrix（混淆矩阵）

总结分类模型的预测结果的表现水平（即，标签和模型分类的匹配程度）的 NxN 表格。混淆矩阵的一个轴列出模型预测的标签，另一个轴列出实际的标签。N 表示类别的数量。在一个二元分类模型中，N=2。例如，以下为一个二元分类问题的简单的混淆矩阵：

上述混淆矩阵展示了在 19 个确实为肿瘤的样本中，有 18 个被模型正确的归类（18 个真正），有 1 个被错误的归类为非肿瘤（1 个假负类）。类似的，在 458 个确实为非肿瘤的样本中，有 452 个被模型正确的归类（452 个真负类），有 6 个被错误的归类（6 个假正类）。

多类别分类的混淆矩阵可以帮助发现错误出现的模式。例如，一个混淆矩阵揭示了一个识别手写数字体的模型倾向于将 4 识别为 9，或者将 7 识别为 1。混淆矩阵包含了足够多的信息可以计算很多的模型表现度量，比如精度（precision）和召回（recall）率。

continuous feature（连续特征）

拥有无限个取值点的浮点特征。和离散特征（discrete feature）相反。

convergence(收敛)

训练过程达到的某种状态，其中训练损失和验证损失在经过了确定的迭代次数后，在每一次迭代中，改变很小或完全不变。换句话说就是，当对当前数据继续训练而无法再提升模型的表现水平的时候，就称模型已经收敛。在深度学习中，损失值下降之前，有时候经过多次迭代仍保持常量或者接近常量，会造成模型已经收敛的错觉。

concex function（凸函数）

一种形状大致呈字母 U 形或碗形的函数。然而，在退化情形中，凸函数的形状就像一条线。例如，以下几个函数都是凸函数：

L2 损失函数
Log 损失函数
L1 正则化函数
L2 正则化函数

凸函数是很常用的损失函数。因为当一个函数有最小值的时候（通常就是这样），梯度下降的各种变化都能保证找到接近函数最小值的点。类似的，随机梯度下降的各种变化有很大的概率（虽然无法保证）找到接近函数最小值的点。

两个凸函数相加（比如，L2 损失函数+L1 正则化函数）后仍然是凸函数。

深度模型通常是非凸的。出乎意料的是，以凸优化的形式设计的算法通常都能在深度网络上工作的很好，虽然很少能找到最小值。

cost（成本）

loss 的同义词。

cross-entropy（交叉熵）

多类别分类问题中对 Log 损失函数的推广。交叉熵量化两个概率分布之间的区别。参见困惑度（perplexity）。

D

data set（数据集）

样本的集合。

decision boundary（决策边界）

在一个二元分类或多类别分类问题中模型学习的类别之间的分离器。例如，下图就展示了一个二元分类问题，决策边界即橙点类和蓝点类的边界。

deep model（深度模型）

一种包含多个隐藏层的神经网络。深度模型依赖于其可训练的非线性性质。和宽度模型对照（wide model）。

dense feature（密集特征）

大多数取值为非零的一种特征，通常用取浮点值的张量（tensor）表示。和稀疏特征（sparse feature）相反。

derived feature（派生特征）

合成特征（synthetic feature）的同义词。

discrete feature（离散特征）

只有有限个可能取值的一种特征。例如，一个取值只包括动物、蔬菜或矿物的特征就是离散（或类别）特征。和连续特征（continuous feature）对照。

dropout regularization（dropout 正则化）

训练神经网络时一种有用的正则化方法。dropout 正则化的过程是在单次梯度计算中删去一层网络中随机选取的固定数量的单元。删去的单元越多，正则化越强。

dynamic model（动态模型）

以连续更新的方式在线训练的模型。即数据连续不断的输入模型。

E

early stopping（早期停止法）

一种正则化方法，在训练损失完成下降之前停止模型训练过程。当验证数据集（validation data set）的损失开始上升的时候，即泛化表现变差的时候，就该使用早期停止法了。

embeddings（嵌入）

一类表示为连续值特征的明确的特征。嵌入通常指将高维向量转换到低维空间中。例如，将一个英语句子中的单词以以下任何一种方式表示：

拥有百万数量级（高维）的元素的稀疏向量，其中所有的元素都是整数。向量的每一个单元表示一个单独的英语单词，单元中的数字表示该单词在一个句子中出现的次数。由于一个句子中的单词通常不会超过 50 个，向量中几乎所有的单元都是 0。少量的非零的单元将取一个小的整数值（通常为 1）表示句子中一个单词的出现次数。
拥有数百个（低维）元素的密集向量，其中每一个元素取 0 到 1 之间的浮点数。

在 TensorFlow 中，嵌入是通过反向传播损失训练的，正如神经网络的其它参量一样。

empirical risk minimization，ERM（经验风险最小化）

选择能最小化训练数据的损失的模型函数的过程。和结构风险最小化（structual risk minimization）对照。

ensemble（集成）

多个模型预测的综合考虑。可以通过以下一种或几种方法创建一个集成方法：

设置不同的初始化；
设置不同的超参量；
设置不同的总体结构。
深度和广度模型是一种集成。

Estimator（评估器）

tf.Estimator 类的一个例子，封装 logic 以建立一个 TensorFlow 图并运行一个 TensorFlow session。你可以通过以下方式创建自己的评估器：https://www.tensorflow.org/extend/estimators

example（样本）

一个数据集的一行内容。一个样本包含了一个或多个特征，也可能是一个标签。参见标注样本（labeled example）和无标注样本（unlabeled example）。

F

false negative，FN(假负类)

被模型错误的预测为负类的样本。例如，模型推断一封邮件为非垃圾邮件（负类），但实际上这封邮件是垃圾邮件。

false positive，FP(假正类)

被模型错误的预测为正类的样本。例如，模型推断一封邮件为垃圾邮件（正类），但实际上这封邮件是非垃圾邮件。

false positive rate，FP rate(假正类率)

ROC 曲线（ROC curve）中的 x 轴。FP 率的定义是：假正率=假正类数/(假正类数+真负类数)

feature(特征)

输入变量，用于做出预测。

feature columns/FeatureColumn(特征列)

具有相关性的特征的集合，比如用户可能居住的所有可能的国家的集合。一个样本的一个特征列中可能会有一个或者多个特征。

TensorFlow 中的特征列还可以压缩元数据比如下列情况：

特征的数据类型；
一个特征是固定长度的或应该转换为嵌入。
一个特征列可以仅包含一个特征。「特征- 列」是谷歌专用的术语。在 VW 系统（Yahoo/Microsoft）中特征列的意义是「命名空间」（namespace），或者场（field）。

feature cross(特征交叉)

将特征进行交叉（乘积或者笛卡尔乘积）运算后得到的合成特征。特征交叉有助于表示非线性关系。

feature engineering(特征工程)

在训练模型的时候，决定哪些特征是有用的，然后将记录文件和其它来源的原始数据转换成上述特征的过程。在 TensorFlow 中特征工程通常意味着将原始记录文件输入 tf.Example 协议缓存中。参见 tf.Transform。特征工程有时候也称为特征提取。

feature set(特征集)

机器学习模型训练的时候使用的特征群。比如，邮政编码，面积要求和物业状况可以组成一个简单的特征集，使模型能预测房价。

feature spec(特征定义)

描述所需的信息从 tf.Example 协议缓存中提取特征数据。因为 tf.Example 协议缓存只是数据的容器，必须明确以下信息：

需要提取的数据（即特征的关键信息）
数据类型（比如，浮点数还是整数）
数据长度（固定的或者变化的）

Estimator API 提供了从一群特征列中生成一个特征定义的工具。

full softmax(完全 softmax)

参见 softmax。和候选采样对照。

G

generalization（泛化）

指模型利用新的没见过的数据而不是用于训练的数据作出正确的预测的能力。

generalized linear model（广义线性模型）

最小二乘回归模型的推广/泛化，基于高斯噪声，相对于其它类型的模型（基于其它类型的噪声，比如泊松噪声，或类别噪声）。广义线性模型的例子包括：

logistic 回归
多分类回归
最小二乘回归

广义线性模型的参数可以通过凸优化得到，它具有以下性质：

最理想的最小二乘回归模型的平均预测结果等于训练数据的平均标签。
最理想的 logistic 回归模型的平均概率的预测结果等于训练数据的平均标签。

广义线性模型的能力局限于其特征的性质。和深度模型不同，一个广义线性模型无法「学习新的特征」。

gradient（梯度）

所有变量的偏导数的向量。在机器学习中，梯度是模型函数的偏导数向量。梯度指向最陡峭的上升路线。

gradient clipping（梯度截断）

在应用梯度之前先修饰数值，梯度截断有助于确保数值稳定性，防止梯度爆炸出现。

gradient descent（梯度下降）

通过计算模型的相关参量和损失函数的梯度最小化损失函数，值取决于训练数据。梯度下降迭代地调整参量，逐渐靠近权重和偏置的最佳组合，从而最小化损失函数。

graph（图）

在 TensorFlow 中的一种计算过程展示。图中的节点表示操作。节点的连线是有指向性的，表示传递一个操作（一个张量）的结果（作为一个操作数）给另一个操作。使用 TensorBoard 能可视化计算图。

Python从0到100（七十三）：Python OpenCV-OpenCV实现手势虚拟拖拽是Dream呀 python opencv 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
K-means聚类：解锁数据隐藏结构的钥匙陈辰学长 kmeans 聚类机器学习
K-means聚类：解锁数据隐藏结构的钥匙在机器学习的广阔领域中，无监督学习以其独特的魅力吸引了众多研究者和实践者。其中，K-means聚类作为一种经典且实用的无监督学习算法，以其简单高效的特点，广泛应用于市场细分、图像分割和基因聚类等领域。本文将深入探讨K-means聚类的工作原理、应用实例及其在这些领域中的具体应用，旨在揭示其如何智能划分数据，解锁隐藏结构，为相关领域提供精准导航。一、K-me
与机器学习的邂逅--自适应神经网络结构的深度解析想成为高手499 机器学习与人工智能机器学习神经网络人工智能
引言随着人工智能的发展，神经网络已成为许多应用领域的重要工具。自适应神经网络（AdaptiveNeuralNetworks，ANN）因其出色的学习能力和灵活性，逐渐成为研究的热点。本文将详细探讨自适应神经网络的基本概念、工作原理、关键技术、C++实现示例及其应用案例，最后展望未来的发展趋势。自适应神经网络的基本概念什么是自适应神经网络？自适应神经网络是一种能够根据输入数据的变化和环境的动态特性自动
PostgreSQL - pgvector 插件构建向量数据库并进行相似度查询花千树-010 RAG 数据库 postgresql AI编程
在现代的机器学习和人工智能应用中，向量相似度检索是一个非常重要的技术，尤其是在文本、图像或其他类型的嵌入向量的操作中。本文将介绍如何在PostgreSQL中安装pgvector插件，用于存储和检索向量数据，并展示如何通过Python脚本向数据库插入向量并执行相似度查询。一、安装PostgreSQL并配置pgvector插件1.安装PostgreSQL首先，确保你已经安装了PostgreSQL。可以
未来教育：AI知识库如何重塑学习体验知识管理知识库知识库软件
在科技日新月异的今天，教育领域正经历着前所未有的变革。人工智能（AI）技术的快速发展，特别是AI知识库的广泛应用，正在重塑我们的学习体验，使之变得更加高效、个性化和智能化。本文将深入探讨AI知识库如何影响未来教育，以及它如何为学习者提供前所未有的学习体验。一、AI知识库：教育领域的智能助手AI知识库，作为结合了人工智能技术的知识管理系统，不仅能够存储和处理海量信息，还能通过自然语言处理、机器学习等
【TVM 教程】内联及数学函数
ApacheTVM是一个端到端的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：TianqiChen尽管TVM支持基本的算术运算，但很多时候，也需要复杂的内置函数，例如exp取指函数。这些函数是依赖target系统的，并且在不同target平台中可能具有不同的名称。本教程会学习到如何调用这些target-spe
mindspore编译报错小乐快乐深度学习神经网络
1、重新创建个工程后无法正常运行，2、使用代码为：华为提供的机器学习监督学习中的代码[quote][size=2][url=forum.php?mod=redirect&goto=findpost&pid=1364937&ptid=165780][color=#999999]回复：HS12发表于2021-10-3018:16[/color][/url][/size]报错信息
ai照片放大python源码_AI新时代-大牛教你使用python+Opencv完成人脸解锁（附源码）... weixin_39639505 ai照片放大python源码
好吧，伙计们，我回来了。说我拖更不写文章的可以过来用你的小拳拳狠命地捶我胸口....那么今天我们来讲关于使用python+opencv+face++来实现人脸验证及人脸解锁。代码量同样不多，你可以将这些代码运用在其它一些智能领域，如智能家居，进门的时候判断你是谁，也可以加入机器学习判断来的人是客人还是熟人。在讲之前我们会先适当的拓扑一下关于人脸识别的知识点。OK废话少说下面开始正是话题。解锁原理：
线性回归：从基础到进阶的全面解析 tester Jeffky 大模型线性回归机器学习算法
线性回归：从基础到进阶的全面解析线性回归是机器学习中最基本的算法之一，广泛应用于预测和分析。本文将详细介绍线性回归的基本概念、数学原理、实现方法以及在实际应用中的注意事项。我们将通过丰富的代码示例来展示如何从头开始构建一个简单的线性回归模型，并逐步深入到更复杂的场景。1.线性回归的基本概念1.1什么是线性回归？线性回归是一种用于建模两个或多个变量之间关系的统计方法。它假设因变量（目标变量）与一个或
什么是多模态机器学习：跨感知融合的智能前沿非凡暖阳人工智能神经网络
在人工智能的广阔天地里，多模态机器学习（MultimodalMachineLearning）作为一项前沿技术，正逐步解锁人机交互和信息理解的新境界。它超越了单一感官输入的限制，通过整合视觉、听觉、文本等多种数据类型，构建了一个更加丰富、立体的认知模型，为机器赋予了接近人类的综合感知与理解能力。本文将深入探讨多模态机器学习的定义、核心原理、关键技术、面临的挑战以及未来的应用前景，旨在为读者勾勒出这一
AI大模型如何赋能电商行业，引领变革虞书欣的C 人工智能开发语言
•个性化推荐：利用机器学习算法分析用户的历史购买记录、浏览行为和喜好，生成个性化的产品推荐列表，提升用户的购买意愿和满意度。•优化用户体验：•智能搜索引擎：运用自然语言处理技术，优化搜索引擎，让用户能够通过自然语言进行搜索。•虚拟客服：通过聊天机器人和语音助手，提供24/7的客户支持，快速解答用户咨询。•图像识别：利用计算机视觉技术，用户可以通过拍照识别商品，快速找到相似商品或进行排版搭配推荐。•
数学：机器学习的理论基石每天五分钟玩转人工智能机器学习人工智能
一、数学：机器学习的理论基石机器学习是一种通过数据学习模式和规律的科学。其核心目标是从数据中提取有用的信息，以便对未知数据进行预测和分类。为了实现这一目标，机器学习需要一种数学框架来描述和解决问题。数学在机器学习中起着至关重要的作用，它提供了一种数学模型来描述数据和模式，以及一种数学方法来优化模型。数学在机器学习中的应用非常广泛，涵盖了线性代数、概率论、统计学、微积分、优化等多个领域。这些数学方法
【机器学习：二十六、决策树】 KeyPan 机器学习机器学习决策树人工智能算法深度学习数据挖掘
1.决策树概述决策树是一种基于树状结构的监督学习算法，既可以用于分类任务，也可以用于回归任务。其主要通过递归地将数据划分为子集，从而生成一个具有条件结构的树模型。核心概念节点（Node）：每个节点表示一个特定的决策条件。根节点（RootNode）：树的起点，包含所有样本。分支（Branch）：每个分支代表一个条件划分的结果。叶节点（LeafNode）：终止节点，表示最终的决策结果。优点直观可解释：
机器学习数学基础-极值和最值华东算法王（原聪明的小孩子小孩哥解析宋浩微积分机器学习算法人工智能
极值和最值极值和最值是数学中关于函数变化的重要概念，它们描述了函数在某些点附近或在整个定义域内的“最大”或“最小”行为。理解极值和最值对优化问题、函数分析、物理建模等领域有重要的应用。1.极值（LocalExtrema）极值是指函数在某个区间内的某一点取得的局部最大值或最小值。(1)局部最大值（LocalMaximum）一个函数在某点(x=c)取得局部最大值，意味着存在一个包含(c)的小区间，使得
17-7 向量数据库之野望7 - PostgreSQL 和pgvector 拉达曼迪斯II AIGC学习数据库管理工具 AI创业数据库 postgresql 人工智能机器学习 AIGC 搜索引擎
PostgreSQL是一款功能强大的开源对象关系数据库系统，它已将其功能扩展到传统数据管理之外，通过pgvector扩展支持矢量数据。这一新增功能满足了对高效处理高维矢量数据日益增长的需求，这些数据通常用于机器学习、自然语言处理(NLP)和推荐系统等应用。https://github.com/mazzasaverio/find-your-opensource-project什么是pgvector？
【MySQL】Mysql数据库导入导出sql文件、备份数据库、迁移数据库程序员洲洲数据库数据库 mysql 导入导出sql sql文件备份迁移
本文摘要：本文提出了xxx的实用开发小技巧。作者介绍：我是程序员洲洲，一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主。同时欢迎大家关注其他专栏，我将分享Web前后端开发、人工智能、机器学习、深度学习从0到1系列文章。同时洲洲已经建立了程序员技术交流群，如果您感兴趣，可以私信我加入我的社群，也可以直接vx联系（文末有名片）v：bdizztt随时
【Python机器学习】无监督学习——K-均值聚类算法 zhangbin_237 Python机器学习机器学习算法 python kmeans k-means 均值算法
聚类是一种无监督的学习，它将相似的对象归到同一簇中，它有点像全自动分类。聚类方法几乎可以应用于所有的对象，簇内的对象越相似，聚类的效果越好。K-均值聚类算法就是一种典型的聚类算法，之所以称之为K-均值是因为它可以发现k个不同的簇，且每个簇的中心采用簇中所含值的均值计算而成。簇识别给出聚类结果的含义，假定有一些数据，现在将相似数据归到一起，簇识别会告诉我们这些簇到底都是些什么。聚类与分类的最大不同在
【Python】已解决：WARNING: pip is configured with locations that require TLS/SSL, however the ssl module i 屿小夏 python pip ssl
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
机器学习特征重要性之feature_importances_属性与permutation_importance方法一叶_障目机器学习 python 数据挖掘
一、feature_importances_属性在机器学习中，分类和回归算法的feature_importances_属性用于衡量每个特征对模型预测的重要性。这个属性通常在基于树的算法中使用，通过feature_importances_属性，您可以了解哪些特征对模型的预测最为重要，从而可以进行特征选择或特征工程，以提高模型的性能和解释性。1、决策树1.1.sklearn.tree.Decision
机器学习-期末测试难以触及的高度机器学习 python 人工智能
机器学习-期末测试线性回归1.代码展示#coding=UTF-8#拆分训练集和测试集importmatplotlib.pyplotaspltfromsklearn.model_selectionimporttrain_test_split#是线性回归类是sklearn写好的根据梯度下降法fromsklearn.linear_modelimportLinearRegressionimportpand
机器学习的介绍 2201_75874206 机器学习人工智能
目录1.机器学习的定义2.机器学习的原理3.机器学习的方法4.机器学习的分类5.机器学习的评估6.机器学习的应用场景7.机器学习与人工智能的关系结论机器学习在自然语言处理中的最新应用和技术是什么？如何评估机器学习模型的性能，除了交叉验证、MSE和RMSE外，还有哪些其他重要的指标？在金融风险管理中，机器学习如何帮助预测市场趋势和信用风险？市场趋势预测信用风险评估机器学习与人工智能之间的关系在未来发
Kaggle欺诈检测：使用生成对抗网络（GAN）解决正负样本极度不平衡问题 Loving_enjoy 论文深度学习计算机视觉人工智能
###Kaggle欺诈检测：使用生成对抗网络（GAN）解决正负样本极度不平衡问题####引言在金融领域中，欺诈检测是一项至关重要的任务。然而，欺诈交易数据往往呈现出正负样本极度不平衡的特点，这给机器学习模型的训练带来了挑战。传统的分类算法在面对这种不平衡数据时，往往会导致模型对多数类（正常交易）过拟合，而对少数类（欺诈交易）的识别能力较差。为了解决这个问题，生成对抗网络（GAN）提供了一种有效的手
一文读懂：无监督学习与有监督学习的区别与应用码上飞扬学习
在机器学习的世界里，无监督学习和有监督学习是两个最为常见且重要的概念。理解这两者的区别和应用场景，不仅有助于我们选择合适的算法和模型，还能帮助我们更好地解决实际问题。那么，什么是无监督学习和有监督学习呢？本文将带你详细了解这两种学习方式的定义、区别以及典型应用。目录无监督学习是什么？有监督学习是什么？无监督学习与有监督学习的主要区别无监督学习的典型应用有监督学习的典型应用如何选择合适的学习方法？1
Spark Livy 指南及livy部署访问实践 house.zhang 大数据-Spark 大数据
背景：ApacheSpark是一个比较流行的大数据框架、广泛运用于数据处理、数据分析、机器学习中，它提供了两种方式进行数据处理，一是交互式处理：比如用户使用spark-shell，编写交互式代码编译成spark作业提交到集群上去执行；二是批处理，通过spark-submit提交打包好的spark应用jar到集群中进行执行。这两种运行方式都需要安装spark客户端配置好yarn集群信息，并打通集群网
C#遇见TensorFlow.NET：开启机器学习的全新时代墨夶 C#学习资料1 机器学习 c#tensorflow
在当今快速发展的科技世界里，机器学习（MachineLearning,ML）已经成为推动创新的重要力量。从个性化推荐系统到自动驾驶汽车，ML的应用无处不在。对于那些习惯于使用C#进行开发的程序员来说，将机器学习集成到他们的项目中似乎是一项具有挑战性的任务。但随着TensorFlow.NET的出现，这一切变得不再困难。今天，我们将一起探索如何利用这一强大的工具，在熟悉的.NET环境中轻松构建、训练和
深入探索Python编程技术：从入门到精通的全方位学习指南小码快撩 python 开发语言
引言在当今信息技术飞速发展的时代，Python以其简洁优雅、功能强大、易于上手的特点，成为了众多开发者和初学者首选的编程语言。无论是数据科学、机器学习、Web开发、自动化脚本编写，还是桌面应用开发，Python都能发挥其独特优势，帮助开发者高效完成任务。本文旨在为Python学习者提供一个全面的学习路径与关键知识点概述，助您快速掌握这门强大的编程语言。一、基础语法1.变量定义与数据类型示例代码：#
从零开始的 AI Infra 学习之路 SSS不知-道 MLSys 人工智能深度学习 pytorch
从零开始的AIInfra学习之路文章目录从零开始的AIInfra学习之路一、概述二、AI算法应用2.1机器学习2.2深度学习2.3LLM三、AI开发体系3.1编程语言四、AI训练框架&推理引擎4.1PyTorch4.2llama.cpp4.3vLLM五、AI编译&计算架构5.1CUDA5.2CANN六、AI硬件&体系结构6.1INVIDIAGPU6.2AscendNPU一、概述AIInfra（AI
python 特征选择方法_【来点干货】机器学习中常用的特征选择方法及非常详细的Python实例... Blair Long python 特征选择方法
花费了很长时间整理编辑，转载请联系作者授权，违者必究。特征选择(Featureselection)是在构建预测模型的过程中减少输入变量的一个过程。它是机器学习中非常重要的一步并在很大程度上可以提高模型预测精度。这里我总结了一些机器学习中常见的比较有用的特征选择方法并附上相关python实现code。希望可以给大家一些启发。首先，我们为什么要进行特征选择呢？它有以下几个优点：减少过拟合：冗余数据常常
chatgpt赋能python：Python群发微信消息：解决方案 suimodina ChatGpt python chatgpt 微信计算机
Python群发微信消息：解决方案肆无忌惮的群发微信消息，是否是你目前所需的解决方案？如果是，那么你来对地方了。Python是一门十分强大的编程语言，广泛用于各种人工智能、计算机视觉、机器学习等领域。Python可以用于开发各种应用程序，它也可以用于批量处理和发送微信消息。本文将概述如何用Python发送微信消息。我们将介绍用Python实现微信消息的流程和步骤，并提供一些有关如何使用Python
ChatGPT4.0最新功能和使用技巧，助力日常生活、学习与工作！ WangYan2022 教程人工智能 chatgpt 数据分析 ai绘画 AI写作
熟练掌握ChatGPT4.0在数据分析、自动生成代码等方面的强大功能，系统学习人工智能（包括传统机器学习、深度学习等）的基础理论知识，以及具体的代码实现方法，同时掌握ChatGPT4.0在科研工作中的各种使用方法与技巧，以及人工智能领域经典机器学习算法（BP神经网络、支持向量机、决策树、随机森林、变量降维与特征选择、群优化算法等）和热门深度学习方法（卷积神经网络、迁移学习、RNN与LSTM神经网络
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，