孤城laugh

机器学习之学习笔记

机器学习-学习笔记

1. 简介
2. 算法
3. 特征工程
- - 3.1 数据集
  - 3.2 特征提取
  - 3.3 特征预处理
  - 3.4 特征降维
4. 分类算法
- - 4.1 `sklearn` 转换器和估计器
  - 4.2 K-近邻算法（KNN）
  - 4.3 模型选择与调优
  - 4.4 朴素贝叶斯算法
  - 4.5 决策树
  - 4.6 集成学习方法之随机森林
5. 回归算法
- - 5.1 线性回归
  - 5.2 过拟合与欠拟合
  - 5.3 岭回归
  - 5.4 逻辑回归（实际上是分类算法，用于解决二分类问题）
6. 聚类算法
- - 1. 无监督学习
  - 2. K-means
  - 3. K-means性能评估指标
  - 4. K-means总结

1. 简介

核心构成：数据 + 模型 + 预测
开发流程：
1. 数据获取：收集原始数据
2. 数据处理：清洗、整理数据
3. 特征工程：提取、转换特征
4. 算法训练：使用训练数据构建模型
5. 模型评估：验证模型性能
6. 应用：部署模型解决实际问题

2. 算法

监督学习：有目标值
- 分类算法
- 回归算法
无监督学习：没有目标值
- 聚类算法

3. 特征工程

3.1 数据集

数据构成：特征值（输入） + 目标值（输出）
常用数据集工具：sklearn
- 数据集类型：
  - 小规模数据集：datasets.load_*()（如 load_iris）
  - 大规模数据集：datasets.fetch_*()（如 fetch_20newsgroups）
数据集划分：
- 训练数据：用于模型训练（占比 70%-80%）
- 测试数据：用于模型验证（占比 20%-30%）
- 划分 API：sklearn.model_selection.train_test_split

3.2 特征提取

将非数值数据（如文本、图像）转换为数值特征：

字典特征提取（特征离散化）
- API：sklearn.feature_extraction.DictVectorizer
- 稀疏矩阵（Sparse Matrix）：
  - 作用：节省内存，提升加载效率
  - 参数：
    - sparse=True ➔ 返回稀疏矩阵（仅记录非零值位置）
    - sparse=False ➔ 返回二维数组
- 应用场景：
  - 数据集类别特征较多时
  - 数据本身为字典类型时
文本特征提取
- 方法 1：词频统计（CountVectorizer）
  - API：sklearn.feature_extraction.text.CountVectorizer
  - 输出：词频矩阵（统计每个样本特征词出现次数）
  - 转换为数组：使用 .toarray() 方法
- 方法 2：TF-IDF加权
  - API：sklearn.feature_extraction.text.TfidfVectorizer
  - 作用：衡量词语在文档集中的重要性
  - 公式： $\text{IDF}(t) = \log \frac{N}{1 + \text{DF}(t)}$ $\text{TF-IDF}(t, d) = \text{TF}(t, d) \times \text{IDF}(t)$
图像特征提取

3.3 特征预处理

通过转换函数将特征数据转换为更适合算法模型的形式:数值型数据的无量纲化

归一化
- 定义：将数据映射到 [0, 1] 之间
- 公式： $\frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}$
- API：sklearn.preprocessing.MinMaxScaler(feature_range=(0,1)...)
- 缺点：对异常值敏感，适合小数据场景
标准化
- 定义：将数据变换为均值为 0，标准差为 1
- 公式： $\frac{X - \mu}{\sigma}$
- API：sklearn.preprocessing.StandardScaler()
- 优点：对异常值不敏感，适合大数据场景

3.4 特征降维

目的：减少特征数量，得到一组“不相关”主变量
常用方法：
- 特征选择
  - 定义：从原有特征中找出主要特征
  - API：sklearn.feature_selection.VarianceThreshold(threshold=0.1)
  - 方法：
    - 低方差特征过滤
    - 相关系数：衡量特征与特征之间的相关程度
      - 皮尔逊相关系数： $\frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \sum_{i=1}^{n} (y_i - \bar{y})^2}}$
        
        $r = 1$ ：完全正相关
        
        $r = - 1$ ：完全负相关
        
        $r = 0$ ：无线性相关
- 主成分分析（PCA）
  - 定义：通过线性变换将高维数据转化为低维数据
  - API：sklearn.decomposition.PCA(n_components=)
    - n_components 为小数：保留指定百分比的特征
    - n_components 为整数：降维到指定维数

4. 分类算法

4.1 `sklearn` 转换器和估计器

转换器（特征工程的父类）
- 实例化一个 transformer
- 调用 fit_transform()
  - fit()：计算每一列的平均值和标准差
  - transform()：进行最终的转换
估计器（机器学习算法的实现）
- 实例化一个 estimator
- 调用 estimator.fit(x_train, y_train) 生成模型
- 模型评估：
  - 直接比对真实值和预测值
    - y_predict = estimator.predict(x_test)
    - y_test == y_predict
  - 计算准确率
    - accuracy = estimator.score(x_test, y_test)

4.2 K-近邻算法（KNN）

原理
- 定义：如果一个样本在特征空间中的 k 个最邻近样本中大多数属于某一类别，则该样本也属于这个类别
- 距离公式： $\sqrt{(a1-b1)^2 + (a2-b2)^2 + (a3-b3)^2}$
- 注意事项：
  - 需要先对数据进行无量纲化处理
  - k 过小：容易受到异常点影响
  - k 过大：容易受到样本不均衡影响
流程
- 获取数据
- 数据集划分
- 特征工程（标准化）
- KNN 预估器
- 模型评估
总结
- 优点：简单、易于理解、无需训练
- 缺点：必须指定 K 值，影响分类精度
- 使用场景：小数据场景

4.3 模型选择与调优

交叉验证（Cross Validation）
- 定义：将训练集再分为训练集和验证集
超参数搜索-网格搜索（Grid Search）
- 超参数：手动指定的参数
- API：sklearn.model_selection.GridSearchCV(estimator, param_grid=None, cv=None)
- 结果分析：
  - 最佳参数：best_params_
  - 最佳结果：best_score_
  - 最佳估计器：best_estimator_
  - 交叉验证结果：cv_results_

4.4 朴素贝叶斯算法

朴素性：假定特征与特征之间相互独立
贝叶斯公式： $P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}=\frac{\prod_{i=1}^{n} P(X_i|Y)\cdot P(Y)}{P(X)}$
- $P (Y)$ ：某文档类别的概率(某文档类别数/总文档数量)
- $P(X_i|Y)$ ： $\frac{X_i词在Y中出现的次数}{Y中所有词出现的次数和}$
应用场景：文本分类
- 如垃圾邮件过滤、情感分析等
- 单词作为特征，文档表示为特征向量
拉普拉斯平滑系数
- 目的：解决零概率问题，即当某个特征值在训练数据中未出现时，直接计算会导致概率为零
- 公式： $P(X_i|Y)=\frac{N_i+\alpha}{N+\alpha m}$
- $α$ ：平滑系数，通常取1
- $m$ ：训练文档中统计出的特征词个数
- $N_i$ ： $X_i$ 词在 $Y$ 中出现的次数
- $N$ ： $Y$ 中所有词出现的次数和
总结
- 优点
  - 对确实数据不太敏感，算法简单
  - 分类准确度高，速度快
- 缺点
  - 假设样本属性独立，在特征属性有关联时效果不好

4.5 决策树

信息：消除不确定性的度量
信息熵：描述随机变量整体不确定性的期望值，单位为比特（bit）
- 公式： $H(X)=-\sum_{i=1}^nP(x_i)\log_2P(x_i)$
- 其中， $P (x i)$ 是事件 $x_i$ 发生的概率。
- 性质：
  - 熵值越大，系统越混乱
  - 熵值越小，系统越确定
信息量：单个事件发生带来的信息量
- 公式： $h(x_i)=-\log_2P(x_i)$
条件信息熵：已知随机变量( X )的条件下，( Y ) 的不确定性
- 公式： $H(Y|X)=\sum_{i=1}^nP(x_i)H(Y|X=x_i)=-\sum_{i=1}^n\sum_{j=1}^mP(x_i,y_j)\log_2P(y_j|x_i)$
- 意义：反映在特征 $X$ 已知后，目标 $Y$ 剩余的混乱程度
信息增益
- 定义：对数据集D，通过特征A的划分能减少多少目标变量的不确定性
- 公式： $g (D, A) = H (D) - H (D ∣ A)$
  - $g (D, A)$ ：信息增益
  - $H (D)$ ：信息熵
  - $H (D ∣ A)$ ：信息条件熵
信息增益率：由于特征的不同取值，避免了信息增益偏向于取值较多特征
- 公式： $A)=\frac{g(D, A)}{H_A(D)}$
总结：作为决策树的划分依据之一，信息增益越大的特征，更可能被选为分裂节点
- 优点
  - 易于理解，决策树可视化
- 缺点
  - 容易过拟合
- 改进
  - 减枝cart算法
  - 随机森林

4.6 集成学习方法之随机森林

集成学习方法
- 核心思想：通过结合多个弱模型（如决策树）的预测，降低方差，提高泛化能力。
- 分类：
  - Bagging：并行训练，减少方差（如随机森林）。
  - Boosting：串行训练，减少偏差（如AdaBoost、GBDT）。
  - Stacking：多层模型融合。
随机森林（Random Forest）
- 定义：由多棵决策树组成的集成模型，通过投票（分类）或平均（回归）输出最终结果。
- 核心原理：
  - 双重随机性：
    1. 样本随机（Bootstrap）：
      - 从原始训练集中有放回抽样 $N$ 次，生成新训练集
    2. 特征随机：
      - 每个节点分裂时，从 $M$ 个特征中随机选取 $m$ 个
  - 结果聚合：
    - 分类：多数投票
    - 回归：平均值
- 超参数调优：
  - 树的数量：n_estimators
  - 最大深度：max_depth
  - 特征子集大小：max_features
- 总结
  - 在当前所有算法中，具有极好的准确率
  - 能够有效地运行在各大数据集上，处理具有高维特征的输入样本，而且不需要降维
  - 能够评估各个特征在分类问题上的重要性

5. 回归算法

5.1 线性回归

模型定义
- 回归方程：用于建模自变量（特征）与因变量（目标）的关系
  - 单变量回归：单个自变量（如 $h(w) = w_1x + b$ ）
  - 多元回归：多个自变量（如 $h(w) = w_1x_1 + w_2x_2 + b$ ）
- 广义线性模型：
  - 线性关系：特征为线性，形式为 $h(w)=w_1x_1+w_2x_2+···+w_nx_n+b=w^Tx+b$
  - 非线性关系：特征非线性，参数为线性（如 $h(x) = w_1x_1 + w_2x_1^2 + b$ ）
损失函数
- 最小二乘法：最小化预测值与真实值的平方误差
- 公式： $J(\theta)=(h_w(x_1)-y_1)^2+···+(h_w(x_n)-y_n)^2=\sum_{i=1}^{n}(h_w(x_i)-y_i)^2$
- $y_i$ ：第 $i$ 个训练样本的真实值
- $h_w(x_i)$ ：第 $i$ 个训练样本特征值组合预测函数
优化算法
- 正规方程： $W = (X^T X)^{-1} X^T y$
  - 理解
    - $X$ 为特征值矩阵
    - $y$ 为目标值矩阵
  - 优点
    - 直接求解最佳结果
  - 缺点
    - 当特征过多过复杂时，求解速度慢且得不到结果
    - 需处理 $X^T X$ 不可逆的情况
- 梯度下降
  - 参数更新公式： $W_{i+1}'=W_i-\alpha \frac{\partial J(\theta)}{\partial \theta_i}$
  - 梯度：目标函数 $J (θ)$ 对参数 $θ$ 的偏导数向量
  - 梯度方向：损失函数下降最快的方向
  - 理解
    - $α$ 为学习速率，需要手动指定(超参数)
    - $\frac{∂J(θ)}{∂θ}$ 表示沿着函数下降的方向，在最低点更新W值
  - 优点：适用于大规模数据，避免矩阵逆计算
  - 缺点：需调参学习率，可能收敛到局部最优（凸函数时全局最优）
回归性能评估
均方误差（Mean Square Error） ( $MSE=\frac{1}{m}\sum_{i=1}^{m}(y^i-\bar{y})^2$ )
- ( $y^i$ )为预测值
- ( $\bar{y}$ )为真实值
- 均方误差的值越小，说明模型越精确
总结

梯度下降
- 需要选择学习率
- 需要迭代求解
- 特征数量较大可以使用
正规方程
- 不需要
- 一次运算得出
- 需要计算方程，时间复杂度高

5.2 过拟合与欠拟合

过拟合
- 定义：模型在训练数据上表现出色，但在测试集上表现不佳的现象
- 产生原因
  - 模型过于复杂
  - 特征过多
- 解决方法
  - L2正则化
    - 作用：减小W（权重系数），削弱某个特征的影响
    - 加入L2正则化后的损失函数： $J(W)=\frac{1}{2m}\sum_{i=1}^{m}(h_w(x_i)-y_i)^2+\lambda\sum_{j=1}^{n}W_j^2$
    - m为样本数，n为特征数
    - $λ$ ：正则化力度，惩罚系数
  - L1正则化
    - 作用：使某些W直接为0，删除这个特征的影响
欠拟合
- 定义：模型在训练集上就不能获得足够低的误差，表现差
- 产生原因
  - 模型过于简单
  - 特征过少
- 解决方法
  - 增加数据的特征数量

5.3 岭回归

定义
- 加入L2正则化后的线性回归
公式： $J(W)=\frac{1}{2m}\sum_{i=1}^{m}(h_w(x_i)-y_i)^2+\lambda\sum_{j=1}^{n}W_j^2$
- $λ$ ：正则化力度，惩罚系数
总结
- 正则化力度λ越大，权重系数W越小
- 正则化力度λ越小，权重系数W越大

5.4 逻辑回归（实际上是分类算法，用于解决二分类问题）

原理
- 线性回归的输出 就是 逻辑回归的输入
- $h(w)=w_1x_1+w_2x_2+···+w_nx_n+b=w^Tx+b$
- 逻辑回归的真实值/预测值：是否属于某个类别，即0或1
激活函数
- sigmoid函数： $g(w^Tx)=\frac{1}{1+e^{-w^Tx}}$
- 线性回归的结果输入到sigmoid函数当中
- 输出结果： $[0, 1]$ 区间中的一个概率值，默认0.5为阈值
损失函数
- 对数似然损失： $cost(h_w(x),y)=\sum_{i=1}^{m}[-y_i·log(h_w(x))-(1-y_i)·log(1-h_w(x))]$
- y为真实值0或1，
- $y = 1$ 时， $cost(h_w(x),y)=-log(h_w(x))$
- $y = 0$ 时， $cost(h_w(x),y)=-log(1-h_w(x))$

[样本特征输入 X]
-->[权重 W]
-->[线性回归运算 z = w₀ + w₁x₁ + ...]
-->[线性回归输出 z]
-->[Sigmoid函数 σ(z) = 1/(1+e⁻ᶻ)]
-->[逻辑回归结果 0 或 1]-->[真实结果 0 或 1]

优化算法
- 梯度下降
- 参数更新公式： $W_{i+1}'=W_i-\alpha \frac{\partial J(\theta)}{\partial \theta_i}$
评估方法
| | | 预测结果 | 预测结果 |
| -------- | :-------: | :------------------------: | :------------------------: |
| | | 预测为正类 | 预测为负类 |
| 真实结果 | 实际为正类 | 真正例(True Positive,TP) | 真反例(True Negative,TN) |
| 真实结果 | 实际为负类 | 假正例(False Positive,FP) | 假反例(False Negative,FN) |
混淆矩阵：预测结果与正确标记之间存在的四种不同的组合
精确率：预测为正类中实际为正类的比例 $Precision=\frac{TP}{TP + FP}$
- 反映预测结果的准确性
- 适用于需要尽量减少假正例的场景，例如垃圾邮件分类（避免将正常邮件误判为垃圾邮件）
召回率：实际为正类中被正确预测的比例 $\frac{TP}{TP + FN}$
- 反映模型对正类样本的覆盖能力
- 适用于需要尽量减少假反例的场景，例如疾病检测（避免漏诊）
F1-score：精确率和召回率的调和平均 $\frac{2·Precision·Recall}{Precision+Recall}=\frac{2TP}{2TP+FN+FP}$
- 反映模型的稳健性
- 适用于类别不平衡的数据集，例如欺诈检测（正类样本很少）
样本不均衡下的评估
- TPR(召回率)：所有真实结果为T的样本中预测结果为T的比例 $TPR=\frac{TP}{TP+FN}$
- FPR：所有真实结果为F的样本中预测结果为T的比例 $FPR=\frac{FP}{FP+TN}$
- ROC曲线：横轴FPR，纵轴TPR
  - 特点：
    - ROC曲线越靠近左上角，模型性能越好。
    - 对角线（TPR = FPR）表示随机猜测模型的性能。
- AUC指标：AUC是ROC曲线下的面积，用于量化模型的整体性能
  - 意义：
    - AUC衡量模型在不同阈值下对正负样本的区分能力
    - $A U C = 1$ ：模型完美分类
    - $A U C = 0.5$ ：模型没有区分能力（相当于随机猜测）
    - $A U C \in (0.5, 1)$ ：优于随机猜测，越接近1说明模型越好

6. 聚类算法

1. 无监督学习

没有目标值

2. K-means

原理：将数据集划分为k个簇
目标：将相似的数据点分配到同一个簇中，同时使不同簇之间的数据点尽可能不同
聚类步骤
1. 初始化
  - 随机选择k个数据点作为初始的簇中心（质心）
2. 分配数据点
  - 对于每个数据点，计算其与所有质心的距离
  - 将数据点分配到距离最近的质心所在的簇
3. 更新质心
  - 对于每个簇，重新计算其质心（即簇内所有数据点的均值）
4. 迭代
  - 重复步骤 2 和 3，直到质心不再变化或达到最大迭代次数

3. K-means性能评估指标

轮廓系数： $b_i为i到其他族群的所有样本的距离最小值，a_i为i到本身簇的平均距离$ $SC_i=\frac{b_i-a_i}{max(b_i,a_i)}$
性能评估：
- 如果 $b_i>>a_i$ ，轮廓系数越趋近1，效果越好
- 如果 $b_i<bi<<ai$

4. K-means总结

特点：采用迭代算法，直观易懂且实用
缺点：对初始质心的选择敏感，可能收敛到局部最优
解决方法：多次聚类，多次取随机数据点
注意：聚类一般做在分类之前，一般得到的数据集没有进行人为标注，表现为无目标值，通过聚类得到初步的目标值

2025.06.11华为暑期实习机试真题【物流运输】Java/Python/C++/JS/C 实现 MISAYAONE python 华为 java 华为暑期实习机试 c++
目录题目思路Code题目物流公司每天都要处理很多物流的运输工作，整个城市共有N个地点。共有N-1条公路，每2个地点之间都能通过公路连通。物流公司总部位于1号地点。今天有一辆物流运偷车共有M条物流运输任务，物流运输车每天的工作流程如下:先要从总部出发去收取所有的寄件货物，收到所有货物后回到总部扫描货物，再从总部出发将货物送至所有的送件地址,送完后最终回到总部，算作完成了今天的运输工作，请问该辆物流运
AppML 案例简介沐知全栈开发开发语言
AppML案例简介引言AppML，全称为“应用程序机器学习”，是一种将机器学习技术与移动应用开发相结合的技术框架。它旨在简化移动应用的机器学习功能集成，使得开发者无需深入了解复杂的机器学习算法，即可将强大的AI功能引入他们的应用中。本文将简要介绍AppML的一些成功案例，展示其在不同领域的应用和价值。AppML案例一：健康监测应用案例概述：一款名为“HealthMate”的健康监测应用利用AppM
Y-Combinator推导的Golang描述武昌库里写JAVA 面试题汇总与解析 spring boot vue.js 宠物管理课程设计 java
缘起在做计算的本质指称语义的时候，遇到了需要在Python匿名递归调用。Python的lambda表达式本身不支持，需要借助Y-Combinator技术实现。于是研究了下Y-Combinator。中文世界了很多Blog介绍和推导Y-Combinator的文章。然而大部分的文章都省略了推导的关键步骤和推导的依据。仿佛读者都默认已经懂得Y-Combinator了。最后我在Youtube上找到了Ruby
【数据标注师】事件标注2 试着数据标注师数据标注师事件标注
目录一、**深入理解事件标注的核心架构**1.**事件五要素（标注核心对象）**2.**三大项目特性**二、**四阶段系统学习法**▶**阶段1：掌握标注指南（20%理论+80%案例）**▶**阶段2：触发词精准识别训练**▶**阶段3：要素抽取实战技巧**▶**阶段4：复杂场景突破三、**高效标注工具使用指南**1.**快捷键流操作（以主流工具为例）**2.**颜色编码法**四、**错误防御体系
广州华锐互动：以创新科技赋能教育，开启沉浸式学习广州华锐视点 VR ar 虚拟现实
在教育领域，广州华锐互动致力于打破传统教学的局限性，为师生们带来全新的沉浸式学习体验。广州华锐互动通过开发VR虚拟教学课件，将抽象的知识转化为生动、逼真的虚拟场景，让学生能够身临其境地感受知识的魅力。比如在历史课上，学生可以借助VR设备穿越时空，来到古代的战场、宫殿，亲身体验历史事件的发生；在地理课上，学生可以“置身”于世界各地的名胜古迹、自然奇观，直观地了解地理环境的特点。互动学习平台也是广州华
(论文总结)思维链激发LLM推理能力靈镌sama 论文解读人工智能
研究背景&动机背景:扩大模型规模已被证实具有提升模型性能和模型效率的功效，但是LLM对于完成推理、算术任务仍有较大不足。动机:从之前的应用和研究中得知，可以用生成自然语言解释、使用神经符号等形式语言的方法来提高大模型的算术推理能力，当时采用了从头预训练和微调模型的方法，耗费的成本较多；而且大模型具有根据少量文本提示进行上下文少样本学习的能力，使用少量输入输出示例即可提高LLM的推理性能，而不必对单
＜电子幽灵＞开发笔记:BAT基础笔记(一）
BAT脚本基础笔记(一)介绍费曼学习法最重要的部分，即把知识教给一个完全不懂的孩子——或者小白。为了更好的自我学习，也为了让第一次接触某个知识范畴的同学快速入门，我会把我的学习笔记整理成电子幽灵系列。提示：作为低代码工具的笔记，这里会用特殊字体表示要用到的函数等等。请若要学习，请结合相关工具边用边学。BAT基础笔记（一）BAT脚本基础笔记(一)介绍简介在哪里编写BAT代码？BAT基本语法1.基本命
＜电子幽灵＞前端第一件：HTML基础笔记下靈镌sama 电子幽灵随手记前端 html 笔记
HTML基础笔记（下）介绍费曼学习法最重要的部分，即把知识教给一个完全不懂的孩子——或者小白。为了更好的自我学习，也为了让第一次接触某个知识范畴的同学快速入门，我会把我的学习笔记整理成电子幽灵系列。提示：文章的是以解释-代码块-解释的结构呈现的。当你看到代码块并准备复制复现的时候，最好先保证自己看过了代码块前后的解释。＜电子幽灵＞前端第一件：HTML基础笔记上中，最基础的一部分HTML标签和已经以
深度学习之分类手写数字的网络 newyork major 卷积神经网络CNN 深度学习人工智能
面临的问题定义神经⽹络后，我们回到⼿写识别上来。我们可以把识别⼿写数字问题分成两个⼦问题：把包含许多数字的图像分成⼀系列单独的图像，每个包含单个数字；也就是把图像，分成6个单独的图像分类单独的数字我们将专注于编程解决第⼆个问题，分类单独的数字。这样是因为，⼀旦你有分类单独数字的有效⽅法，分割问题是不难解决的。⼀种⽅法是尝试不同的分割⽅式，⽤数字分类器对每⼀个切分⽚段打分；如果数字分类器对每⼀个⽚段
树莓派实验——人脸识别 Rounie opencv python 计算机视觉
importnumpyasnp#导入numpy科学计算库importcv2#导入OpenCV函数库#装载人脸识别特征文件face_cascade=cv2.CascadeClassifier('/usr/local/lib/python3.5/dist-packages/cv2/data/haarcascade_frontalface_alt.xml')cap=cv2.VideoCapture(0)
2024年Python最全人脸检测实战高级：使用 OpenCV、Python 和 dlib 完成眨眼检测 2401_84691757 程序员 python opencv 开发语言
然而，一旦人眨眼（右上），眼睛的纵横比就会急剧下降，接近于零。下图绘制了视频剪辑的眼睛纵横比随时间变化的图表。正如我们所看到的，眼睛纵横比是恒定的，然后迅速下降到接近零，然后再次增加，表明发生了一次眨眼。在下一节中，我们将学习如何使用面部标志、OpenCV、Python和dlib实现眨眼检测的眼睛纵横比。使用面部标志和OpenCV检测眨眼==============================
UE4 官方文档阅读笔记——材质篇毛甘木 UE4 材质修改 android java
UE4官方文档阅读笔记——材质篇UE4免费材质：QuixelBridge网站材质基本概念材质编辑器参考1.MaterialExpression向材质节点添加描述2.快捷键C添加注释3.修改注释颜色4.LivePreview实时预览5.LiveNode实时节点6.LiveUpdate实时更新7.AddRerouteNode添加变更路线节点ContenxtMenuUtilityMaterialPale
UE4官方文档阅读笔记——蓝图可视化编程毛甘木 UE4 ue4
UE4蓝图官方文档阅读笔记蓝图中的结构体变量拆分结构体Break组成结构体Make修改结构体中个别成员SetMemberinStruct自定义结构体内容浏览器-创建高级资源-蓝图-结构体蓝图数组Add添加元素到末尾ClearContainsFilterArrayFindGetInsertLastLengthRemoveRemoveIndexResizeSetArrayElem<
tauri v2 开源项目学习（二）
前言:tauri2编程，前端部分和electron差不多，框架部分差别大，资料少，官网乱，AI又骗我所以在gitee上，寻找tauriv2开源项目，通过记录框架部分与rust部分的写法，对照确定编程方式tarui2插件，可以查看：https://github.com/tauri-apps/plugins-workspace1.EcoPastehttps://gitee.com/ayangweb/E
UE 有意思的功能教程链接笔记 RunInto丶 UE笔记 UE教程视频笔记虚幻引擎
油管砍伐任何树砍伐任何树：虚幻引擎教程https://www.youtube.com/watch?v=JtXYJKTsf9QAI图像转变为简单的3D模型使用AI平台将2D图像转换为3D角色https://www.youtube.com/watch?v=Z-acdzKASZ4在几秒钟内将您的AI图像转变为简单的3D模型|教程UE5https://www.youtube.com/watch?v=tt9
tauri v2 开源项目学习（一）
前言:tauri2编程，前端部分和electron差不多，框架部分差别大，资料少，官网乱，AI又骗我所以在gitee上，寻找tauriv2开源项目，通过记录框架部分与rust部分的写法，对照确定编程方式提示：不要在VSCode里自动运行Cargo，在powershell里运行Cargobuild，不会卡住1.tauri-desktophttps://gitee.com/MapleKing/taur
《UE5_C++多人TPS完整教程》学习笔记40 ——《P41 装备（武器）姿势（Equipped Pose）》 SHOTJEE #ue5 游戏 c++
本文为B站系列教学视频《UE5_C++多人TPS完整教程》——《P41装备（武器）姿势（EquippedPose）》的学习笔记，该系列教学视频为计算机工程师、程序员、游戏开发者、作家（Engineer,Programmer,GameDeveloper,Author）StephenUlibarri发布在Udemy上的课程《UnrealEngine5C++MultiplayerShooter》的中文字
推荐文章：探索深度学习的不确定性边界 —— SDE-Net 开源项目解析史多苹Thomas
推荐文章：探索深度学习的不确定性边界——SDE-Net开源项目解析SDE-NetCodeforpaper:SDE-Net:EquippingDeepNeuralnetworkwithUncertaintyEstimates项目地址:https://gitcode.com/gh_mirrors/sd/SDE-Net在当今的人工智能领域，深度神经网络(DNN)已经成为推动技术创新的基石。然而，其预测的
Java SQLException: 解决“Got error 28 from storage engine”的5个步骤墨瑾轩一起学学Java【一】java adb 开发语言
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣引言在使用Java进行数据库操作时，有时会遇到java.sql.SQLException:Goterror28fromstorageengine错误。这个错误通常发生在尝试插入数据到MySQL数据库时，表示存储引擎返回了一个错误码28，这通常意味着磁盘空间不足
Python的内存管理星辰灬 Python python pycharm
Python的内存管理在Python中，内存管理涉及到一个包含所有Python对象和数据结构的私有堆（heap）。这个私有堆的管理由内部的Python内存管理器（Pythonmemorymanager）保证。Python内存管理器有不同的组件来处理各种动态存储管理方面的问题，如共享、分割、预分配或缓存。内存管理机制动态内存分配：Python使用动态内存分配，这意味着它在运行时动态分配和管理内存，而
【Tkinter从入门到精通】Python原生GUI开发全指南满怀1015 python 开发语言 Tkinter GUI开发桌面应用界面设计
目录前言️技术背景与价值当前技术痛点️解决方案概述目标读者说明一、技术原理剖析核心概念图解核心作用讲解关键技术模块说明⚖️技术选型对比️二、实战演示⚙️环境配置要求核心代码实现案例1：基础窗口创建案例2：网格布局计算器案例3：文件选择对话框✅运行结果验证⚡三、性能对比测试方法论量化数据对比结果分析四、最佳实践✅推荐方案❌常见错误调试技巧五、应用场景扩展适用领域创新应用方向生态工具链✨结语⚠️技术局
【模型部署】如何在Linux中通过脚本文件部署模型满怀1015 人工智能 linux 网络人工只能模型部署
在Linux中，你可以将部署命令保存为可执行脚本文件，并通过终端直接调用。以下是几种常见且实用的方法：方法1：Shell脚本（推荐）步骤创建一个.sh文件（例如start_vllm.sh）：#!/bin/bashCUDA_VISIBLE_DEVICES=7\python-mvllm.entrypoints.openai.api_server\--served-model-nameQwen2-7B-
Golang基础笔记八之函数后端go函数闭包
本文首发于公众号：Hunter后端原文链接：Golang基础笔记八之函数本篇笔记介绍Golang里函数相关的内容，以下是本篇笔记目录：函数的定义语法函数返回值可变参数函数匿名函数闭包1、函数的定义语法函数的定义格式如下：func函数名(参数列表)(返回值列表){函数体}比如下面是一个两数相加返回其和的函数：funcadd(a,bint)int{ returna+b}调用的话，直接传参调用即可：s
教育技术学读计算机论文的提示词东方-教育技术博主学术学习相关 AI
角色：你是一位经验丰富的计算机专业教授，擅长用通俗易懂的语言向初学者解释复杂概念。我现在正在学习阅读计算机科学领域的算法论文，但我的基础比较薄弱（了解编程基础如变量、循环、函数，了解一点数据结构和算法概念如数组、链表、排序，但对高级术语和数学证明不熟悉）。同时又是一个教育技术学教授。任务：请帮我解释以下论文内容中我不理解的部分。如果遇到初学者可能不懂的地方，我需要你用最清晰、最简洁、最易懂的方式解
如果用于AI评课系统的话——五款智能体比较东方-教育技术博主人工智能应用人工智能
你目前的项目特点是：已经具备了课堂文本分析、大模型对话系统、课堂视频分析的技术模块；计划通过智能体调用你现有的Python分析脚本，实现数据分析、自动可视化，并与教师互动；更强调多智能体协作、流程灵活编排，以及循证研究的交互分析。因此，我们重点考量生态成熟度、流程编排能力、多智能体协作能力、易用性四个维度。下面逐个分析你提到的框架：智能体框架综合对比分析：框架生态成熟度多智能体能力流程编排能力易用
详解MATLAB/Simulink通信系统建模与仿真代码及PPT 甄亚凌
详解MATLAB/Simulink通信系统建模与仿真代码及PPT项目地址:https://gitcode.com/open-source-toolkit/376e9欢迎来到这个专注于通信系统建模与仿真的开源资源库。本仓库致力于为MATLAB与Simulink的学习者和研究者提供详尽、实用的教学资源，特别是针对通信系统领域的实践者。通过这一平台，您将获取到全面覆盖各章节的经典案例，不仅包含精心编写的
Vue3.3 + TypeScript ，自主打造媲美 ElementPlus 的组件库之学习笔记怪我冷i 大前端 typescript 学习笔记
Vue3.3+TS4，自主打造媲美ElementPlus的组件库第1章课程介绍1-1课程导学1-2代码库使用注意事项1-3项目演示地址：http://element.vikingship.xyz/第2章Typescript基础知识2-1什么是Typescript为什么要学习它2-2安装Typescript2-3原始数据类型和Any类型2-4数组和元组2-5Interface-接口初探2-6函数2-
【Java】已解决java.sql.SQLRecoverableException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
IT 行业深度洞察：从技术革命到产业重构的全景图谱 XQR.小白重构
摘要本文系统梳理IT行业的发展脉络，深入剖析云计算、人工智能、大数据、物联网等核心技术的演进逻辑与协同效应，揭示IT产业在数字化转型浪潮中的生态重构与价值创造。通过典型案例分析与数据支撑，探讨行业面临的技术挑战、伦理困境与全球化竞争格局，展望IT技术如何持续驱动社会变革与产业升级。全文结合2025年最新技术动态与市场趋势，为从业者、投资者与研究者提供兼具理论深度与实践指导的行业参考。目录摘要一、I
如何用Python实现基础的文生视频AI模型 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南 python 音视频人工智能 ai
如何用Python实现基础的文生视频AI模型关键词：文生视频、AI生成、扩散模型、多模态对齐、视频生成算法、Python实现、时间一致性摘要：本文系统讲解基于扩散模型的文生视频（Text-to-Video,T2V）AI模型的核心原理与Python实现方法。从技术背景到数学模型，从算法设计到项目实战，逐步拆解文本-视频跨模态对齐、时间序列建模、扩散生成等关键技术。通过PyTorch实现一个基础版文生
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

机器学习之学习笔记

机器学习-学习笔记

1. 简介

2. 算法

3. 特征工程

3.1 数据集

3.2 特征提取

3.3 特征预处理

3.4 特征降维

4. 分类算法

4.1 sklearn 转换器和估计器

4.2 K-近邻算法（KNN）

4.3 模型选择与调优

4.4 朴素贝叶斯算法

4.5 决策树

4.6 集成学习方法之随机森林

5. 回归算法

5.1 线性回归

5.2 过拟合与欠拟合

5.3 岭回归

5.4 逻辑回归（实际上是分类算法，用于解决二分类问题）

6. 聚类算法

1. 无监督学习

2. K-means

3. K-means性能评估指标

4. K-means总结

你可能感兴趣的:(机器学习,学习,笔记,人工智能,python)

4.1 `sklearn` 转换器和估计器