天行者@

机器学习01

机器学习的基本过程如下：

1.数据获取

2.数据划分

3.特征提取

4.模型选择与训练

5.模型评估

6.模型调优

一、特征工程（重点）

0. 特征工程步骤为：

特征提取(如果不是像dataframe那样的数据，要进行特征提取，比如字典特征提取，文本特征提取)
无量纲化(预处理)
- 归一化
- 标准化
降维
- 底方差过滤特征选择
- 主成分分析-PCA降维

1. 特征工程API

实例化转换器对象，转换器类有很多，都是Transformer的子类, 常用的子类有:

DictVectorizer  	字典特征提取
CountVectorizer 	文本特征提取
TfidfVectorizer 	TF-IDF文本特征词的重要程度特征提取 
MinMaxScaler 		归一化
StandardScaler 		标准化
VarianceThreshold 	底方差过滤降维
PCA  				主成分分析降维

fit() 方法s

在 scikit - learn 库中，fit 方法计算的内容与具体的转换器（如数据预处理、特征提取等工具）以及输入的数据密切相关。

功能：fit() 方法的主要作用是从输入数据中学习统计信息或模式。具体来说，它会根据输入的数据计算出一些必要的参数，这些参数将用于后续的转换操作。例如，在 StandardScaler 中，fit() 方法会计算输入数据的均值和标准差

transform() 方法

功能：transform() 方法使用 fit() 方法学习到的参数对输入数据进行转换。它会根据之前计算得到的统计信息或模式，将输入数据转换为新的表示形式。例如，在 StandardScaler 中，transform() 方法会使用之前计算的均值和标准差对输入数据进行标准化处理

fit_transform() 方法

功能：fit_transform() 方法是 fit() 和 transform() 方法的组合。它首先调用 fit() 方法从输入数据中学习参数，然后立即使用这些参数对输入数据进行转换。这个方法通常用于在训练数据上进行特征工程，因为它可以更简洁地完成学习和转换的过程。

2. DictVectorizer 字典列表特征提取

(1) API

创建转换器对象:
```
sklearn.feature_extraction.DictVectorizer(sparse=True)
```
参数:

sparse=True返回类型为csr_matrix的稀疏矩阵

sparse=False表示返回的是数组,数组可以调用.toarray()方法将稀疏矩阵转换为数组
转换器对象:

转换器对象调用fit_transform(data)函数，参数data为一维字典数组或一维字典列表,返回转化后的矩阵或数组

转换器对象get_feature_names_out()方法获取特征名

稀疏矩阵转为数组

稀疏矩阵对象调用toarray()函数, 得到类型为ndarray的二维稀疏矩阵

3. CountVectorizer 文本特征提取

(1)API

sklearn.feature_extraction.text.CountVectorizer

构造函数关键字参数stop_words，值为list，表示词的黑名单(不提取的词)

fit_transform函数的返回值为稀疏矩阵

4. TfidfVectorizer TF-IDF文本特征词的重要程度特征提取

(1) 算法

词频(Term Frequency, TF), 表示一个词在当前篇文章中的重要性

逆文档频率(Inverse Document Frequency, IDF), 反映了词在整个文档集合中的稀有程度

(2) API

sklearn.feature_extraction.text.TfidfVectorizer()

构造函数关键字参数stop_words，表示词特征黑名单

fit_transform函数的返回值为稀疏矩阵

5. 无量纲化-预处理

无量纲，即没有单位的数据

(1) MinMaxScaler 归一化

通过对原始数据进行变换把数据映射到指定区间(默认为0-1)

<1>归一化公式:

这里的 min 和 max 分别是每种特征中的最小值和最大值，而是当前特征值，scaled 是归一化后的特征值。

若要缩放到其他区间，可以使用公式：x=x*(max-min)+min;

<2>归一化API

sklearn.preprocessing.MinMaxScaler(feature_range)

参数:feature_range=(0,1) 归一化后的值域,可以自己设定

fit_transform函数归一化的原始数据类型可以是list、DataFrame和ndarray, 不可以是稀疏矩阵

fit_transform函数的返回值为ndarray

<3>缺点

最大值和最小值容易受到异常点影响，所以鲁棒性较差。所以常使用标准化的无量纲化

(2)normalize归一化

API

from sklearn.preprocessing import normalize
normalize(data, norm='l2', axis=1)
#data是要归一化的数据
#norm是使用那种归一化:"l1"  "l2"  "max

<1> L1归一化

绝对值相加作为分母,特征值作为分子

<2> L2归一化

平方相加再开方作为分母,特征值作为分子

<3> max归一化

绝对值max作为分母,特征值作为分子

(3)StandardScaler 标准化

在机器学习中，标准化是一种数据预处理技术，也称为数据归一化或特征缩放。它的目的是将不同特征的数值范围缩放到统一的标准范围，以便更好地适应一些机器学习算法，特别是那些对输入数据的尺度敏感的算法。

<1>标准化公式

最常见的标准化方法是Z-score标准化，也称为零均值标准化。它通过对每个特征的值减去其均值，再除以其标准差，将数据转换为均值为0，标准差为1的分布。这可以通过以下公式计算:

<2> 标准化 API

sklearn.preprocessing.StandardScale

与MinMaxScaler一样，原始数据类型可以是list、DataFrame和ndarray

fit_transform函数的返回值为ndarray, 归一化后得到的数据类型都是ndarray

from sklearn.preprocessing import StandardScaler
#不能加参数feature_range=(0, 1)
transfer = StandardScaler()
data_new = transfer.fit_transform(data) #data_new的类型为ndarray

注意点：

一旦scaler对象在X_train上被fit，它就已经知道了如何将数据标准化。这时，对于测试集X_test，我们只需要使用transform方法，因为我们不希望在测试集上重新计算任何统计信息，也不希望测试集的信息影响到训练过程。如果我们对X_test也使用fit_transform，测试集的信息就可能会影响到训练过程。

总结来说:我们常常是先fit_transform(x_train)然后再transform(x_text)

稀疏矩阵处理

不适用稀疏矩阵：StandardScaler 会将数据进行中心化处理，这会破坏稀疏矩阵的稀疏性，导致内存占用大幅增加。如果数据是稀疏矩阵，应该使用 MaxAbsScaler 或 Normalizer 等更适合稀疏数据的缩放方法。

6. 特征降维

特征降维其目的:是减少数据集的维度，同时尽可能保留数据的重要信息。

特征降维的好处:

减少计算成本：在高维空间中处理数据可能非常耗时且计算密集。降维可以简化模型，降低训练时间和资源需求。

去除噪声：高维数据可能包含许多无关或冗余特征，这些特征可能引入噪声并导致过拟合。降维可以帮助去除这些不必要的特征。

特征降维的方式:

特征选择
- 从原始特征集中挑选出最相关的特征
主成份分析(PCA)
- 主成分分析就是把之前的特征通过一系列数学计算，形成新的特征，新的特征数量会小于之前特征数量

1 .特征选择

(a) VarianceThreshold 低方差过滤特征选择

Filter(过滤式): 主要探究特征本身特点，特征与特征、特征与目标值之间关联
- 方差选择法: 低方差特征过滤
  
  如果一个特征的方差很小，说明这个特征的值在样本中几乎相同或变化不大，包含的信息量很少，模型很难通过该特征区分不同的对象,比如区分甜瓜子和咸瓜子还是蒜香瓜子,如果有一个特征是长度,这个特征相差不大可以去掉。
  1. 计算方差：对于每个特征，计算其在训练集中的方差(每个样本值与均值之差的平方,在求平均)。
  2. 设定阈值：选择一个方差阈值，任何低于这个阈值的特征都将被视为低方差特征。
  3. 过滤特征：移除所有方差低于设定阈值的特征

(b) 根据相关系数的特征选择

scipy.stats.personr(x, y) 计算两特征之间的相关性

返回对象有两个属性:

statistic皮尔逊相关系数[-1,1]

pvalue零假设(了解),统计上评估两个变量之间的相关性,越小越相关

2.主成份分析(PCA)

主成分分析的核心思想是通过线性变换将原始数据投影到一组新的正交坐标轴上，这些新的坐标轴被称为主成分。第一个主成分方向是数据方差最大的方向，第二个主成分方向是与第一个主成分正交且方差次大的方向，以此类推。通过保留方差较大的主成分，可以在尽量保留数据信息的前提下，减少数据的维度。

PCA

from sklearn.decomposition import PCA
PCA(n_components=None)
- 主成分分析
- n_components:
  - 实参为小数时：表示降维后保留百分之多少的信息
  - 实参为整数时：表示减少到多少特征

计算步骤

数据标准化：对原始数据进行标准化处理，使得每个特征的均值为 0，标准差为 1。这是因为 PCA 是基于数据的协方差矩阵进行计算的，如果特征的尺度不同，会导致协方差矩阵受尺度较大的特征影响较大。
计算协方差矩阵：计算标准化后数据的协方差矩阵，协方差矩阵反映了各个特征之间的相关性。
特征分解：对协方差矩阵进行特征分解，得到特征值和特征向量。特征值表示对应主成分的方差大小，特征向量表示主成分的方向。
选择主成分：根据特征值的大小对特征向量进行排序，选择前 k 个特征值对应的特征向量作为主成分，其中 k 是降维后数据的维度。
数据投影：将标准化后的数据投影到选择的主成分上，得到降维后的数据。

优缺点

优点：

数据降维：可以有效减少数据的维度，降低计算复杂度，同时保留数据的主要信息。
去除相关性：通过将数据投影到主成分上，消除了特征之间的相关性，使得数据更加易于分析和处理。
数据可视化：对于高维数据，可以通过保留前 2 个或 3 个主成分，将数据可视化到二维或三维空间中，便于观察数据的分布和结构。

缺点：

信息损失：降维过程中会不可避免地损失一部分信息，尤其是当选择的主成分数量较少时，损失的信息可能会较多。
解释性较差：主成分通常是原始特征的线性组合，其物理意义可能不明确，导致模型的解释性较差。
对异常值敏感：PCA 是基于数据的协方差矩阵进行计算的，异常值会对协方差矩阵产生较大影响，从而影响主成分的计算结果。

应用场景

数据降维：在处理高维数据时，如基因数据、图像数据等，PCA 可以将数据的维度降低，减少计算量和存储需求。
特征提取：通过提取主成分，可以得到数据的主要特征，用于后续的分类、回归等任务。
数据可视化：将高维数据降维到二维或三维空间，便于直观地观察数据的分布和聚类情况。

二、KNN算法

K-近邻算法（K-Nearest Neighbors，简称KNN）,根据K个邻居样本的类别来判断当前样本的类别;

如果一个样本在特征空间中的k个最相似(最邻近)样本中的大多数属于某个类别，则该类本也属于这个类别

KNN缺点

对于大规模数据集，计算量大，因为需要计算测试样本与所有训练样本的距离。

对于高维数据，距离度量可能变得不那么有意义，这就是所谓的“维度灾难”

需要选择合适的k值和距离度量，这可能需要一些实验和调整

API

class sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, algorithm='auto'）
参数:                                             
(1)n_neighbors: 
		int, default=5, 默认情况下用于kneighbors查询的近邻数，就是K
(2)algorithm:
	{‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}, default=’auto’。找到近邻的方式，注意不是计算距离		的方式，与机器学习算法没有什么关系，开发中请使用默认值'auto'
方法:
 (1) fit(x， y) 
        使用X作为训练数据和y作为目标数据  
 (2) predict(X)	预测提供的数据，得到预测数据

在葡萄酒分类代码示例中，只对特征矩阵 X 进行标准化处理，而没有对目标变量 Y 进行标准化，主要有以下几方面原因：

目标变量的性质

分类问题的目标变量：在这个葡萄酒分类任务中，目标变量 Y 代表葡萄酒的类别标签（例如不同的葡萄酒品种），属于离散的分类数据。标准化通常是针对连续的数值型数据，目的是让数据具有零均值和单位方差。而对于分类数据，每个类别都有其特定的含义，不存在数值上的大小、距离等连续的概念，对其进行标准化没有实际意义。例如，葡萄酒的类别 1、2、3 只是不同类别之间的区分标识，对这些数字进行标准化处理并不会改变类别之间的本质差异，也不会对模型的分类性能产生积极影响。
标准化对分类结果无帮助：分类模型（如 K 近邻分类器）是基于特征之间的距离或相似性来判断样本所属的类别，目标变量的类别信息是明确的分类标识，不需要通过标准化来调整。只要模型能够正确学习到特征与类别之间的映射关系，就可以进行准确的分类预测。

模型的要求

分类模型的输入要求：大多数分类模型（包括 K 近邻分类器）都可以直接处理离散的类别标签作为目标变量。这些模型在训练过程中会根据特征和类别标签之间的对应关系来构建分类规则，而不需要对类别标签进行额外的转换或标准化。如果对目标变量进行标准化，可能会破坏类别之间的原有信息，导致模型无法正确理解和处理这些数据。

对比回归问题

回归问题的目标变量：在回归问题中，目标变量通常是连续的数值型数据，如预测房价、股票价格等。在这种情况下，对目标变量进行标准化可能有助于提高模型的训练效率和性能，因为标准化可以使目标变量的取值范围更加合理，避免某些数值过大或过小对模型训练产生不良影响。但对于分类问题，目标变量的性质与回归问题不同，因此不需要进行标准化处理。

综上所述，在分类任务中，一般不需要对目标变量进行标准化处理，重点是对特征矩阵进行适当的预处理，以提高模型的性能和稳定性。

七天学完十大机器学习经典算法-05.从投票到分类：K近邻(KNN)算法完全指南
接上一篇《七天学完十大机器学习经典算法-04.随机森林：群众智慧的机器学习实践》想象一下，你搬进了一个新小区。想知道这个小区整体氛围如何？最直接的方法就是看看你最近的几家邻居是什么样的人——如果邻居们都很安静、整洁，小区大概率不错；如果邻居们深夜喧哗、环境杂乱，你可能就得重新考虑了。K近邻（K-NearestNeighbors,KNN）算法的核心思想，就如同这个观察邻居的过程。它是机器学习中最直观
分类预测 | MATLAB实现BP神经网络多特征分类预测 matlab科研社分类 matlab 神经网络
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍近年来，随着大数据时代的到来以及计算能力的显著提升，人工智能技术得到了飞速发展。在众多人工智能算法中，反向传播神经网络（BackPropagationNeuralNetwork,BP神经网络）凭借其强大的非
信息抽取数据集全景分析：分类体系、技术演进与挑战_DEEPSEEK 致Great 分类数据挖掘人工智能
信息抽取数据集全景分析：分类体系、技术演进与挑战摘要信息抽取（IE）作为自然语言处理的核心任务，是构建知识图谱、支持智能问答等应用的基础。近年来，随着深度学习技术的发展和大规模预训练模型的兴起，IE数据集呈现爆发式增长，其分析与评估对模型研发和领域迁移至关重要。本文基于对158个主流IE数据集的系统性梳理，首次提出“信息提取与命名实体识别数据集分类体系”。该体系涵盖8大类别（命名实体识别、关系提取
自然语言处理之文本生成：Recurrent Neural Networks (RNN)：序列模型与语言模型 zhubeibei168 自然语言处理自然语言处理 rnn 语言模型人工智能机器翻译生成对抗网络
自然语言处理之文本生成：RecurrentNeuralNetworks(RNN)：序列模型与语言模型自然语言处理简介NLP的基本概念自然语言处理（NaturalLanguageProcessing，简称NLP）是人工智能领域的一个重要分支&#
2025年 UI 自动化框架使用排行 Thomas Kant 自动化测试 ui 自动化运维
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】</
使用Ultralytics YOLO进行数据增强 alpszero YOLO计算机视觉应用 YOLO 人工智能机器学习
概述数据增强是计算机视觉领域的一项重要技术，它通过对现有图像进行各种转换，人为地扩展训练数据集。在训练深度学习模型时，数据增强有助于提高模型的鲁棒性，减少过拟合，并增强对真实世界场景的泛化。在训练计算机视觉模型的过程中，数据增强具有多种重要作用：扩展数据集：通过创建现有图像的变体，可以有效增加训练数据集的规模，而无需收集新数据。提高泛化能力：模型学会在各种条件下识别物体，使其在实际应用中更加稳健。
Python 数据分析与可视化 Day 11 - 特征工程基础蓝婷儿 python python 数据分析人工智能
✅今日目标理解特征工程在数据分析和机器学习中的意义掌握常见特征类型的处理方式：数值型、类别型、时间型学习特征提取、转换、标准化、独热编码（One-HotEncoding）等核心操作为后续建模任务做好特征准备工作一、什么是特征工程？特征工程是将原始数据转换为模型可学习的“特征向量”的过程，是机器学习效果好坏的核心因素之一。常见任务包括：缺失值处理（已学）异常值处理（已学）数值归一化、标准化类别变量编
全球人工智能与大模型发展全景：技术历程、产品概览与未来趋势软件职业规划人工智能搜索引擎
一、人工智能的发展历程（一）萌芽期（1950s-1980s）1956年：人工智能的诞生人工智能（AI）的概念在1956年的达特茅斯会议上被正式提出。那是一个充满梦想和探索的时代，一群年轻的科学家，包括约翰·麦卡锡（JohnMcCarthy）、马文·明斯基（MarvinMinsky）和克劳德·香农（ClaudeShannon）等，齐聚达特茅斯学院，共同探讨一个前所未有的课题：如何让机器模拟人类智能。
推荐几本人工智能方面的书（入门级）人邮异步社区人工智能深度学习神经网络
以下推荐几本适合入门人工智能的书籍，帮助你逐步建立基础知识和理解：一、数学基础类《数学之美》推荐理由：深入浅出地讲解了自然语言处理与搜索方向的数学原理，对于理解算法背后的数学逻辑非常有帮助。本书的章节名称，有“统计语言模型”“谈谈中文分词”“贾里尼克和现代语言处理”“布尔代数和搜索引擎”“信息指纹及其应用”等，似乎太过专业，实际上高中和大学低年级的同学们都能看得懂，当然本书因此也可以称得上是“高级
分布式学习嘉陵妹妹分布式学习
1.列举三个非冯·诺依曼计算结构非冯结构是指不遵循传统冯·诺依曼体系的计算架构，包括：数据流结构（DataflowArchitecture）：指令执行取决于数据的可用性而不是程序计数器。神经网络结构（NeuralNetworkArchitecture）：模拟生物神经元连接，用于人工智能。量子计算结构（QuantumComputingArchitecture）：利用量子比特和量子叠加原理进行计算。2
线性代数-第9篇：二次型与正定矩阵：优化问题的数学基础程序员勇哥人工智能(AI)线性代数人工智能大数据 python
线性代数-第9篇：二次型与正定矩阵：优化问题的数学基础在人工智能、量化投资和大数据分析中，优化问题无处不在，比如机器学习的损失函数最小化、量化投资组合的风险最小化等。而二次型与正定矩阵作为线性代数中的重要概念，为解决这些优化问题提供了坚实的数学基础。本篇将深入解析它们的原理及其在实际场景中的关键应用。一、二次型：从向量到函数的桥梁1.定义与表达式二次型是一个关于向量x\mathbf{x}x的二次齐
AI人工智能领域知识图谱在深度学习中的应用拓展
AI人工智能领域知识图谱在深度学习中的应用拓展关键词：知识图谱、深度学习、神经网络、图嵌入、知识表示学习、推理机制、应用场景摘要：本文深入探讨了知识图谱与深度学习的融合应用，系统性地分析了知识图谱在深度学习中的关键技术路径和应用场景。文章首先介绍了知识图谱的基本概念和表示方法，然后详细阐述了知识图谱与深度学习结合的多种技术路线，包括图神经网络、知识嵌入和推理机制等。接着通过具体案例展示了知识图谱增
[pytorch] pytorch_model.bin 和 training_args.bin 的区别心心喵 pytorch 深度学习 pytorch 神经网络
pytorch_model.bin和training_args.bin是与PyTorch框架和训练过程相关的两个文件。pytorch_model.bin:这是保存了PyTorch模型的二进制文件。在使用PyTorch进行深度学习训练时，经过训练的模型会被保存为这个文件，其中包含了模型的权重参数。这个文件可以被加载到PyTorch中，以便进行推理、评估或继续训练。training_args.bin:
【2025最新】AI大模型项目实战教程大揭秘！超详细攻略，手把手带你飞，记得收藏！大模型教程人工智能产品经理大模型大模型教程大数据大模型学习程序员
一、大模型开发整理流程1.1、什么是大模型开发我们将开发以大语言模型为功能核心、通过大语言模型的强大理解能力和生成能力、结合特殊的数据或业务逻辑来提供独特功能的应用称为大模型开发。开发大模型相关应用，其技术核心点虽然在大语言模型上，但一般通过调用API或开源模型来实现核心的理解与生成，通过PromptEnginnering来实现大语言模型的控制，因此，虽然大模型是深度学习领域的集大成之作，大模型开
基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等) 阿勇学长大数据项目实战案例 Java精品毕业设计实例 Python数据可视化项目案例大数据 django spark 国漫推荐与可视化平台毕业设计 Java
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
文本生成新纪元：解锁大模型的企业级应用密码
数字化浪潮席卷各行业的当下，文本生成技术正经历着翻天覆地的变革，这场变革的幕后功臣正是大模型。今天，咱们就来深入探讨大模型在文本生成领域的奥秘，看看它如何赋能企业，又该怎样规避风险，实现价值最大化。技术跃迁：从笨拙规则到智能生成回首往昔，文本生成依靠规则模板与关键字替换，虽能实现基础自动化，却如机械舞者，动作生硬、缺乏灵动。业务稍有变动，规则需全面重构，耗时费力。随着N-gram等统计机器学习方法
【零基础学AI】第10讲：线性回归 1989 0基础学AI 人工智能线性回归算法 python 回归 numpy 开源
本节课你将学到理解线性回归的原理和应用场景掌握最小二乘法的基本思想使用Python构建房价预测模型学会评估回归模型的性能指标开始之前环境要求Python3.8+JupyterNotebook或任何PythonIDE需要安装的包pipinstallscikit-learnpandasmatplotlibseabornnumpy前置知识第9讲：机器学习概述基本的Python和数据处理能力核心概念什么是
【零基础学AI】第9讲：机器学习概述 1989 0基础学AI 人工智能机器学习 python numpy devops 开源
本节课你将学到理解什么是机器学习，以及它与传统编程的区别掌握监督学习、无监督学习的基本概念使用scikit-learn完成你的第一个机器学习项目构建一个完整的iris花朵分类器开始之前环境要求Python3.8+JupyterNotebook或任何PythonIDE需要安装的包pipinstallscikit-learnpandasmatplotlibseaborn前置知识基本的Python语法（
NLP随机插入 Humbunklung 机器学习自然语言处理人工智能 python nlp
文章目录随机插入示例Python代码示例随机插入随机插入是一种文本数据增强方法，其核心思想是在原句中随机选择若干位置，插入与上下文相关的词语，从而生成新的训练样本。这种方法能够增加句子的多样性，提高模型对不同词序和表达方式的鲁棒性。示例原句：机器学习可以提升数据分析的效率。随机插入后（插入“显著”）：机器学习可以显著提升数据分析的效率。Python代码示例下面是一个简单的随机插入实现，假设我们有一
DiNA：扩张邻域注意力 Transformer AI专题精讲 Paper阅读 transformer 人工智能
摘要Transformer正迅速成为跨模态、跨领域和跨任务中应用最广泛的深度学习架构之一。在计算机视觉领域，除了持续发展的纯transformer架构，分层transformer也因其优越的性能和在现有框架中易于集成而受到广泛关注。这类模型通常采用局部化的注意力机制，如滑动窗口的NeighborhoodAttention（NA）或SwinTransformer的ShiftedWindowSelfA
解释神经网络的普适逼近定理（面试题200合集，中频、实用）快撑死的鱼算法工程师宝典（面试学习最新技术必备）深度学习人工智能
神经网络的普适逼近定理（UniversalApproximationTheorem,UAT）是理解为什么神经网络如此强大和灵活的理论基石之一。它为我们提供了信心，即在某些条件下，一个相对简单的神经网络结构原则上能够模拟出几乎任何复杂的函数。这个定理在深度学习领域中经常被提及，尤其是在讨论模型表达能力的时候。普适逼近定理（UniversalApproximationTheorem）概述普适逼近定理的
使用SQL-Ollama与自然语言交互SQL数据库的指南 antja_ 数据库 sql
#使用SQL-Ollama与自然语言交互SQL数据库的指南##技术背景介绍随着人工智能技术的发展，能够使用自然语言与SQL数据库交互的需求越来越大。这种技术可以帮助用户轻松访问和操作数据库，而无需深刻理解SQL语法。SQL-Ollama是一个专门设计的模板，利用Zephyr-7b模型，通过Ollama在本地运行推理，使这一过程变得简单而高效。##核心原理解析SQL-Ollama通过将自然语言转换为
【TVM 教程】PAPI 入门
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/性能应用程序编程接口（PerformanceApplicationProgrammingInterface，简称PAPI）是一个可在各种平台上提供性能计数器的库。在指定的运行期间，性能计数器提供处理器行为的准确底层信息，包含简单的指标，如总
文心大模型4.5及X1重磅上线，真实测评
2025年3月16日，人工智能领域迎来一场重要盛事——百度文心大模型4.5如期正式发布。与此同时，百度还惊喜推出了另一款全新模型——文心大模型X1。目前，文心大模型4.5和X1已在文心一言官网（https://yiyan.baidu.com/）正式上线，并免费向用户开放。其中，文心大模型4.5面向企业用户和开发者，用户可以通过登录百度智能云千帆大模型平台，轻松调用文心大模型4.5的API接口，快速
机器学习在智能供应链中的应用：需求预测与库存优化 Blossom.118 机器学习与人工智能机器学习人工智能机器人深度学习 python 神经网络 sklearn
在当今全球化的商业环境中，供应链管理的效率和灵活性对于企业的竞争力至关重要。智能供应链通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从原材料采购到产品交付的全流程优化。机器学习技术在智能供应链中的应用尤为突出，尤其是在需求预测和库存优化方面。本文将探讨机器学习在智能供应链中的应用，并分析其带来的机遇和挑战。一、智能供应链中的需求预测准确的需求预测是供应链管理的核心。需求预测
面向隐私保护的机器学习：联邦学习技术解析与应用 Blossom.118 机器学习与人工智能机器学习人工智能深度学习 tensorflow python 神经网络 cnn
在当今数字化时代，数据隐私和安全问题日益受到关注。随着《数据安全法》《个人信息保护法》等法律法规的实施，企业和机构在数据处理和分析过程中面临着越来越严格的合规要求。然而，机器学习模型的训练和优化往往需要大量的数据支持，这就产生了一个矛盾：如何在保护数据隐私的前提下，充分利用数据的价值进行机器学习模型的训练和优化？联邦学习（FederatedLearning）作为一种新兴的隐私保护技术，为解决这一问
人工智能-基础篇-10-什么是卷积神经网络CNN（网格状数据处理：输入层，卷积层，激活函数，池化层，全连接层，输出层等） weisian151 人工智能人工智能 cnn 神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专为处理网格状数据（如图像、视频、音频）设计的深度学习模型。它通过模拟生物视觉机制，从原始数据中自动提取多层次的特征，最终实现高效的分类、检测或生成任务。1、核心概念与原理1、生物视觉启发局部感受野：模仿人类视觉皮层神经元仅响应局部区域刺激的特性，每个神经元关注输入数据的局部区域（如图像的一小块区域）。权值共享：同一
python系列教程246——多态人工智能AI技术 python系列教程 python 开发语言
朋友们，如需转载请标明出处：https://blog.csdn.net/jiangjunshow声明：在人工智能技术教学期间，不少学生向我提一些python相关的问题，所以为了让同学们掌握更多扩展知识更好地理解AI技术，我让助理负责分享这套python系列教程，希望能帮到大家！由于这套python教程不是由我所写（有时候有空也会参与编写），所以不如我的人工智能教程风趣幽默，学起来比较枯燥；但它的知
Python 解析 AI 在能源管理与智能电网中的应用头发在线失联 python 人工智能开发语言
```htmlPython解析AI在能源管理与智能电网中的应用Python解析AI在能源管理与智能电网中的应用随着全球对可持续发展的重视和能源需求的不断增长，能源管理与智能电网技术正在成为研究和实践的重要领域。在这个背景下，人工智能（AI）作为一项前沿技术，正被广泛应用于能源管理与智能电网中，以提高效率、优化资源分配并减少环境影响。本文将探讨Python如何在这一领域中发挥作用，并解析其具体应用场
如何实现聊天模型响应流式处理 yunwu12777 langchain
在现代人工智能应用中，流式处理聊天模型的响应成为一种常见需求，特别是在需要实时输出或大规模处理时。本文将详细介绍如何在Python中实现聊天模型的同步和异步流式处理，使用langchain库中提供的ChatAnthropic模型作为示例。技术背景介绍流式处理是指从模型逐步获取输出，而不是等待整个输出完成。这对于处理长文本生成或需要动态响应的应用场景特别有用。langchain库中的聊天模型实现了R
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。