lov_vol

机器学习方法与原则

评价指标

TODO

训练集、验证集与测试集

训练集与测试集

训练集（作业）：模型可见样本标签，用于训练模型，样本数量有限。
- 在训练集上表现好的模型，在其它未见样本上一定表现好么？小心过拟合
未见样本（所有没做过的题）往往有指数级别或者无穷多个。~~测试集和训练集都属于未见样本。~~
测试集（考试）：用于评估模型在可能出现的未见样本上的表现
- 尽可能与训练集互斥，即测试样本尽量不在训练集中出现，主要估计泛化能力
- 估计模型在整个未见样本的表现

训练集与测试集的划分方式

随机划分
- 按比例，例如 9：1、8：2
- 固定数目，例如测试集从全部样本中采样1w个，其余为训练集
留一划分（leave- one-out）
- 适用于数据量少的
- 一个样本做测试，其余样本训练：常用于K近邻
  等算法的性能评估
特殊划分
- 按时间划分（一般是天然有时间序列的，而且时间很重要），例如 1-5月气象数据作训练， 6月气象数据作测试
- 推荐系统中，常把每个用户交互序列的最后一个样本作测试，其余作训练。
- …

验证集

从训练集中额外分出的集合，一般用于超参数的调整
- 训练轮次、正则化权重、学习率等等
为什么不在训练集上调整超参数？过拟合训练集
为什么不在测试集上调整超参数？过拟合测试集
- 针对当前测试集调出的参数可能只在当前测试集上较好
- 使得测试集结果偏高，不能反映实际在所有未见样本上的效果
- 类比：针对某场考试的知识点分布作重点复习，不能准确反映学生对所有知识的掌握程度。
- 举例：机器学习竞赛中，针对公开部分的测试数据过度调参，不一定在隐蔽的全部测试数据上表好。

训练集、测试集与验证集

如果知识比较算法，只需要经过训练集和验证集处理就行，不需要再经过完整训练集处理。

训练示例：比如测试12月天气数据， 11月作为验证集，1-10月作为训练集，经过1-10月数据的训练，并在验证集上调参，确定 $A(\alpha, \beta)$ 函数好，再经过完整训练集处理，得出 $A^{'}$ , 在测试集上测试。

随机重复实验

问题

测试一次就足够了么？
- 极端情况：二分类中分类器随机输出，恰好测试集都对了（效果最好？）
数据随机性
- 由数据集划分带来的评价指标波动，如第一次负例都在下方，第二次有个负例在上方
模型随机性
- 由模型或学习算法本身带来的评价指标波动
- 例如：神经网络初始化、训练批次生成、比如局部最优的方法，起点不同会导致最终不一样，还比如使用到的random

方法

数据随机性
- （数据足够多时）增多测试样本
- （数据量有限时）重复多次划分数据集
模型随机性
- 更改随机种子重复训练、测试
注意：保持每次得到的评价指标独立同分布（iid）
比如，第一次取这个好，第二次就在这个的基础上再取，这样不符合独立同分布
报告结果： (多次随机试验的）评价指标的均值 $\overline X = \frac{1}{n}\sum_{i=1}^{n}X_i$
- 样本标准差（个体离散程度，反映了个体对样本均值的代表性） $\sqrt{\sum_{i=1}^{n} \frac{(X_i -\overline X)^2}{n-1}}$
- 标准误差（样本均值的离散程度，反映了样本均值对总体均值的代表性）
  $Standard\ Error \ of \ the \ Mean, SEM = \frac{S}{\sqrt{n}} = \sqrt{\sum_{i=1}^n\frac{(X_i - \overline{X})^2}{n(n-1)}}$

K折交叉验证(K-fold cross validation )

随机把数据集分成K个相等大小的不相交子集。
选出一份作为测试集，一共k种情况，分别训练，得出k个测试结果，取平均得出最终结果。

优缺点

优点： 数据利用率高，适用于数据较少时
缺点：训练集相互有交集，每一轮之间并不满足独立同分布，两轮之间至少k-2组数据相同

其它

增大K，一般情况下：
- 所评估的模型效果偏差（bias）下降
- 所估计的模型效果方差（variance）上升
- 计算代价上升，更多轮次、训练集需求更大
K 一般取5、10

统计有效性检验

问题

假设的评估检验：问题1

效果估计
- 给一个假设在有限量数据上的准确率
- 该准确率是否能够准确估计其它未见数据上的效果

假设的评估检验：问题2

h₁ 在数据的一个样本集上表现优于h₂
h₁总体上更好的概率有多大

解答

估计假设准确率 -Q1.1 解答

用到后面二项分布的知识

如何对一个假设h 在来自同一分布的未见样本上的准确率作出最好的估计？

**n个随机样本(测试集上的)中有r个被误分类的概率–二项分布 $\frac{n!}{r!(n-r)!}p^r(1-p)^{n-r}$

$error_D(h)=p$ , 真实错误率是p
样本错误率， $error_s(h)=\frac{r}{n}$ ，n次错了r次， s代表样本（sample）

$\ \ \ E[error_S(h)]=E[\frac{r}{n}] = \frac{np}{n}=p=error_D(h)$ 样本错误率的期望值=真实错误率，也就是进行很多次后，样本错误率=真实错误率

$\sigma_{error_s(h)}=\frac{\sigma_r}{n}=\frac{\sqrt{np(1-p)}}{n}=\sqrt{\frac{error_S(h)(1-error_S(h))}{n}}$

$测试集样本数n=100,错了r=12个\ \ \ \ 样本错误率是12\%，则标准差\sigma = 3.2\%$
$测试集样本数n=25,错了r=3个\ \ \ \ 样本错误率是12\%，则标准差\sigma = 6.5\%$

估计的两个重要性质

估计偏差（Bias）
- 如果 S 是训练集, error_S(h) 是有偏差的（偏乐观），
  $bia s \equiv E [error S (h)] - errorD (h)$
- 对于无偏估计(bias =0), h(训练集的模型）和 S（测试集样例）必须独立不相关地产生
  → 不要在训练集上测试！
估计方差（Varias）
- 即使是S 的无偏估计, $error S (h)$ 可能仍然和 $error_D(h)$ 不同
  - E.g. 之前的例子 (3.2% vs. 6.5%)
- 需要选择无偏的且有最小方差的估计

估计假设准确率 – Q1.2解答

准确率的估计可能包含多少错误？
( $error_S(h) 对 error_D(h)的估计有多好?$ )

用到后面的正态知识
$均值\mu$ 其实就是样本的错误率

如果如果满足以下条件，估计更准确：
- (测试集）S 包含 n >= 30个样本, 与h独立产生，且每个样本独立采样
那么有大约95%的概率**(ℎ)**落在区间 $error_D(h)\underline+ 1.96\sqrt{\frac{error_D(h)(1-error_D(h))}{n}}$
等价于, $error_D$ 落在区间 $error_S(h)\underline+1.96\sqrt{\frac{error_D(h)(1-error_D(h))}{n}}$ (用到后面正态的等价，y: $\mu\underline+ z\sigma$ => $\mu: y\underline+z\sigma$
近似等于， $error_S(h)\underline+1.96\sqrt{\frac{error_S(h)(1-error_S(h))}{n}}$ (无偏估计下，期望E(error_s)=error_D)

问题1解答总结

问题设定:
- S(测试集）: n 随机独立样本, 且独立于假设 h(即bias=0)
- n >= 30 & h 有 r 个错误
**真实错误率 $error_D$ **落在以下区间有N% 置信度
$error_S(h)\underline+z_N\sqrt{\frac{error_S(h)(1-error_S(h))}{n}}$

推导置信区间的一般方法
- 一般地，
  - 确定需要估计的变量 p, e.g. $error_D(h)$
  - 确定估计量Y (偏差, 方差), e.g. $error_S(h)$
    - 希望 : 小方差, 无偏估计
  - 确定Y 的分布 D (包括均值 & 方差)
  - 确定N% 置信区间 (L…U) •
    - 可能有 L=-∞ or U=∞
    - E.g. （对于正态分布）利用 $z_n$ 表查询相关值
也可应用在其他问题上

中心极限定理

简化了求解置信区间的过程
问题设定
- 独立同分布Independent, identically distributed (iid)
  的随机变量 $Y_1, ... , Y_n$
- 未知分布, 有均值 μ 和有限方差 σ2
- 估计均值: $\overline Y \equiv \frac{1}{n} \sum_{i=1}^{n} Y_i$
中心极限定理
- $\overline Y$ 服从正态分布 (n →∞)
- 均值 $\mu$ , 方差 $\sigma^2/n$
- 可以被归一化到标准正态分布，即 $\mu = 0, \sigma = 1$
样本均值 $\overline Y$ 的分布
- 是已知的
- 即使 $Y_i$ 的分布是未知的
- 可以用来确定的 $Y_i$ 均值方差
提供了估计的基础
- 估计量的分布
- 一些样本的均值

问题2的解答

h1 在数据的一个样本集上表现优于 h2
- h1 总体上更好的概率有多大？
  假设之间的差异

假设间的差异

在样本集合 $S_1$ ( $n_1$ 个随机样本)上测试 $h_1$ , 在 $S_2 (n_2)$ 上测试 $h_2$
选择要估计的参数 $d\equiv error_D(h1) - error_D(h2)$
选择估计量
- 无偏的 $\hat d \equiv error_{S_1}(h1) - error_{S_2}(h2)$
确定估计量 $\hat d$ 所服从的概率分布
- $error_{S_1}(h1)$ , $error_{S_2}(h2)$ 近似服从正态分布
- $\hat d$ 也近似正态分布
  - 均值 = d
  - 方差: 加和
    $\sigma_{\hat d} \approx \sqrt{\frac{error_{S_1}(h_1)(1-error_{S_1}(h_1))}{n_1} + \frac{error_{S_2}(h_2)(1-error_{S_2}(h_2))}{n_2}}$

证明正态分布和也是正态分布: http://en.wikipedia.org/wiki/Sum_of_normally_distributed_random_variables

确定区间（L,U)满足N%的概率落在区间
$\hat d \underline+ z_N\sqrt{\frac{error_{S_1}(h_1)(1-error_{S_1}(h_1))}{n_1} + \frac{error_{S_2}(h_2)(1-error_{S_2}(h_2))}{n_2}}$

假设检验

某些陈述可能是真的概率
- E.g. 例如 $e_D(h_1) >e_D(h_2)$ 的概率
例子( $n_1=n_2=100$ )
- $错误率e_{S_1}(h_1)=0.3, 错误率e_{S_2}(h_2)=0.2,求e_D(h_1)>e_D(h_2)$ 的概率
1. $\hat d \equiv error_{S_1}(h_1) -error_{S_2}(h_2)$
2. $\equiv error_{D_1}(h_1) -error_{D_2}(h_2)$
3. 给定 $\hat d = 0.1, 求e_D(h_1)>e_D(h_2)$ 的概率
4. 给定 $\hat d = 0.1,求d > 0$ 的概率，也就是d + 0.1 > 0.1的概率，也就是d + 0.1 > $\hat d$
5. $\hat d$ 在区间d + 0.1 > $\hat d$ 的概率
  - 注意： d是 $\hat d$ 概率分布的均值
6. $\hat d$ 在区间 $\hat d < \mu_{\hat d} + 0.1$ 的概率
  $\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \mu \underline+ z_n\sigma$

统计有效性检验： z检验（举例1）

z 检验适用于（独立同分布）
$n_1=n_2=100, acc_{S_1}(h_1)=0.3, acc_{S_2}(h_2)=0.2$
则 $\hat d \equiv acc_{S_1}(h_1) -acc_{S_2}(h_2) =0.1$
求 $\equiv acc_{D_1}(h_1) -acc_{D_2}(h_2) > 0$ 的置信度
即求 $\hat d < d + 0.1$ 的概率（d>0,两边同时+0.1, 用 $\hat d=0.1$ 推出）
又有 $\sigma_{\hat d} \approx \sqrt{\frac{error_{S_1}(h_1)(1-error_{S_1}(h_1))}{n_1} + \frac{error_{S_2}(h_2)(1-error_{S_2}(h_2))}{n_2}} = 0.061$
则 $\hat d < d + 0.1 \rightarrow \hat d < d + 1.64\sigma_{\hat d}$ （是由 $\hat d < d + Z_n\sigma$ , $Z_n = 0.1 /0.061 \approx1.64$ 推出)
即 $Z_N=1.64$ , 查正态分布表可知，双边置信度为90%,
则单边置信度95%
即 $acc_{D_1}(h_1) > acc_{D_2}(h_2)$ 的置信度为95%

统计有效性检验： z检验（举例1）

z 检验适用于（独立同分布）
$n_1=n_2=30, acc_{S_1}(h_1)=0.3, acc_{S_2}(h_2)=0.2$
则 $\hat d \equiv acc_{S_1}(h_1) -acc_{S_2}(h_2) =0.1$
求 $\equiv acc_{D_1}(h_1) -acc_{D_2}(h_2) > 0$ 的置信度
即求 $\hat d < d + 0.1$ 的概率（d>0,两边同时+0.1, 用 $\hat d=0.1$ 推出）
又有 $\sigma_{\hat d} \approx \sqrt{\frac{error_{S_1}(h_1)(1-error_{S_1}(h_1))}{n_1} + \frac{error_{S_2}(h_2)(1-error_{S_2}(h_2))}{n_2}} = 0.111$
则 $\hat d < d + 0.1 \rightarrow \hat d < d + 0.90\sigma_{\hat d}$ （
即 $Z_N=0.90$ , 查正态分布表可知，双边置信度为68%,
则单边置信度84%
即 $acc_{D_1}(h_1) > acc_{D_2}(h_2)$ 的置信度为84%

统计有效性检验：t检验

z检验只适合独立同分布，非独立同分布可以使用t检验
交叉验证如果测试题不同可以用z检验，否则只能用t检验

记模型 $h_1$ 的 $n_1$ 次重复实验结果为 $x_{11}, x_{12}, … , x_{1n_{1}}$
$\overline x_1 = \frac{1}{n_1} \sum_{i=1}^{n_1}x_{1i}, s_1^2 = \frac{1}{n_1-1}\sum_{i=1}^{n_1}(x_{1i}-\overline x_1)^2$
记模型 $h_2$ 的 $n_2$ 次重复实验结果为 $x_{21}, x_{22}, … , x_{2n_{2}}$
$\overline x_2 = \frac{1}{n_2} \sum_{i=1}^{n_2}x_{2i}, s_2^2 = \frac{1}{n_2-1}\sum_{i=1}^{n_2}(x_{2i}-\overline x_2)^2$
在样本量及方差均不相等的假设下有
- 检验量 $(\overline x_1 - \overline x_2)/\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}$ , 自由度 $df=(\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2})^2/(\frac{s_1^4}{n_1^2(n_1-1)}+\frac{s_2^4}{n_2^2(n_2-1)})$
若1 = 2 = 且 $d_i = x_{1i} − x_{2i}$ 独立且来自正态分布
可采用配对t检验（paired t-test），例如两组结果测试集依次相同时
即两个模型在同样划分的交叉验证或同样测试集的重复对比实验
检验量 $(\overline x_1 - \overline x_2)/\sqrt{\frac{\sum_{i=1}^{n}(d_i-\overline d)^2}{n(n-1)}}$ , 自由度为 − 1
• 根据检验量和自由度查t分布表可得置信度(类似根据 $z_N$ 查正态分布表)

统计有效性

统计有效性检验(总结）

比较算法A和B的优劣
- 准确率均值高就一定好？有随机性
- A比B高多少才能有把握说A算法更好？显著性检验(N > 90% 95 % 99% 一般是选择大于99%
随机变量的样本个数较多时(一般>30)： z检验(利用中心极限定理)
- 一般用于单次评测，随机变量为每个测试样本的对错
随机变量的样本个数较少时(一般<=30)：t检验
- 一般用于多次评测如重复实验，随机变量为每次测试集上的指标

小结

评价指标：回归任务，分类任务，特定任务
训练集、验证集与测试集：随机划分，留一划分，特殊划分
随机重复实验
K折交叉验证
统计有效性检验：z检验，t检验

##抽样理论基础（Sample theory）

二项分布(Binomial Distribution)

伯努利实验
- 只有 2 种输出:
  成功概率: $p$ ，失败概率: $q = 1 - p$
- 用随机变量 $X$ 记录成功的次数
伯努利分布:
- 抛硬币: 正面朝上的概率为 $p$ , 抛 $n$ 次, 观察到 $r$ 次正面朝上
- 若计 $X$ ~ $B (n, p)$ ， $P_r(X= r) = P(r)$ ，则
  $\frac{n!}{r!(n-r)!}p^r(1-p)^{n-r}$

二项分布的应用场景

两个可能的输出 (成功/失败) ( $Y = 0 或 Y = 1$ )
每次尝试成功的概率相等 $P r (Y = 1) = p, 其中 p 是一个常数$
$n$ 次独立尝试
- 随机变量 $Y_1,...,Y_n$
- iid (independent identically distribution，独立同分布)
- R: 随机变量, n 次尝试中 $Y_i= 1$ 的次数,
$P_r(R = r)$ ~ 二项分布
平均 (期望值): $E [R], µ$
- 二项分布: $µ = n p$
方差: $Var[R]=E[(R-E[R])^2], \sigma^2 (标准差\sigma)$
- 二项分布: $\sigma^2 = np(1- p)$

置信区间（confidence interval）

定义
- 参数p 的N %置信区间是一个以N %的概率包含p 的区间, N% : 置信度
  ✓ 90.0%的置信度，年龄：[12, 24], p是年龄
  ✓ 99.9%的置信度，年龄：[3, 60]
  如 95%的错误率在12%～17%之间

置信度与置信区间

如何得到置信区间?
- 坏消息: 对二项分布来说很难
- 好消息: 对正态分布来说很简单
  - 通过正态分布的某个区间（面积）来获得
指标y有 $N\%$ 的可能性落在区间 $\mu\underline+Z_N\sigma$
等价于, 均值 $\mu$ 有 $N\%$ 的可能性落在区间 $y\underline+ z_N\sigma$
$均值\mu$ 其实就是样本的错误率

正态分布

正态分布的概率密度函数
$p(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}$

正态分布&二项分布

对于足够大的采样大小
二项分布 ---->>>可以通过正态分布近似表示
经验法则: n>30, np(1-p)> 5 同时满足

《深度剖析：鸿蒙系统下智能NPC与游戏剧情的深度融合》人工智能深度学习
在游戏开发领域，鸿蒙系统的崛起为开发者们带来了前所未有的机遇与挑战。尤其是在开发基于鸿蒙系统的人工智能游戏时，实现智能NPC的行为逻辑与游戏剧情紧密结合，成为了打造沉浸式游戏体验的关键。鸿蒙系统作为一款面向全场景的分布式操作系统，具有强大的多设备协同能力和出色的性能表现。这为人工智能游戏的开发提供了坚实的基础，使得游戏能够在不同设备上流畅运行，并且实现数据的无缝同步。而人工智能技术的融入，则为游戏
《解锁华为黑科技：MindSpore+鸿蒙深度集成奥秘》人工智能深度学习
在数字化浪潮汹涌澎湃的当下，人工智能与操作系统的融合已成为推动科技发展的核心驱动力。华为作为科技领域的先锋，其AI开发框架MindSpore与鸿蒙系统的深度集成备受瞩目，开启了智能生态的新篇章。华为MindSpore：AI框架的创新先锋MindSpore自2019年诞生以来，迅速在AI领域崭露头角。它以其独特的设计理念和先进的技术架构，为开发者提供了全场景的AI开发支持。从设计理念上看，MindS
Python API接口君王的羔羊 Python AI python
人工智能机器人EverydayWechat老李API图灵机器人：http://www.turingapi.com/（需求实名制认证，并每天免费数量只有100条）青云客智能聊天机器人：http://api.qingyunke.com/（无须申请，无数量限制，但有点智障，分手神器。分手神器，慎用）智能闲聊（腾讯）：https://ai.qq.com/product/nlpchat.shtml(申请使用
深度学习在医疗影像诊断中的应用与实现 Evaporator Core #DeepSeek快速入门人工智能 #深度学习深度学习人工智能
引言随着人工智能技术的快速发展，深度学习在医疗领域的应用日益广泛，尤其是在医疗影像诊断方面。医疗影像数据量大、复杂度高，传统的诊断方法往往依赖于医生的经验，容易受到主观因素的影响。而深度学习通过自动学习特征，能够从海量数据中提取出有用的信息，辅助医生进行更精准的诊断。本文将探讨深度学习在医疗影像诊断中的应用，并通过代码示例展示如何实现一个简单的医疗影像分类模型。深度学习在医疗影像诊断中的应用1.图
PINN物理信息网络 | 基于物理信息神经网络PINN求解Burger方程算法如诗物理信息网络（PINN）神经网络人工智能深度学习物理信息网络
基于物理信息神经网络（PINN）求解Burger方程的研究背景源于对非线性偏微分方程（PDE）求解方法的不断探索和改进。传统的数值方法，如有限差分法和有限元法，通常需要进行网格离散化和迭代求解，对于复杂的非线性问题计算成本较高。因此，研究人员开始探索基于机器学习和神经网络的新方法来求解PDEs。神经网络在近年来取得了显著的发展，能够通过学习大量数据来建立输入和输出之间的复杂映射关系。然而，将神经网
1985-2024年地级市人工智能专利数据经管数据库人工智能
《地级市人工智能专利数据（1985-2024）》于2025年1月完成最新更新。数据聚焦于中国各地级市，时间跨度设定为1985年至2024年。在数据整理过程中，参照《关键数字技术专利分类体系（2023）》，依据其中“人工智能”类技术的专利分类号，结合国家知识产权局所提供的信息，对各地每年的专利申请展开搜索与匹配。在此基础上，从众多专利申请中精准筛选出属于“人工智能”类别的专利，并进行数量统计，数据涵
python实现KNN算法的手写数字识别：深入解析与完整项目流程快撑死的鱼 Python算法精解算法
随着人工智能和机器学习的快速发展，图像识别技术在多个领域得到广泛应用。而手写数字识别作为图像识别的典型场景之一，已经成为研究者和开发者学习、应用机器学习算法的经典项目。本文将深入解析如何使用Python编程语言，结合KNN（K-最近邻）算法实现手写数字识别系统。文章不仅介绍了算法的核心原理，还从用户交互、图像处理、数据预处理等多个角度对整个项目进行了全方位的讲解。读者通过本文，可以全面掌握手写数字
《今日AI-人工智能-编程日报》小亦工作室人工智能
1.AI行业动态1.1Manus通用智能体初成型，开启AIAgent新时代中泰证券发布研报称，首款通用型AI智能体Manus已问世，能够将复杂任务拆解为可执行的步骤链，并在虚拟环境中灵活调用工具，标志着AI从“Reasoner”走向“Agent”阶段。Manus的成功引发了开源复现潮，DeepSeek模型已被整合到OWL项目中，并在GAIA基准测试中表现接近Manus。1.2DeepSeek-R2
1章5节：大模型术语解读与从生成到推理的演进 DAT｜R科学与人工智能人工智能
在人工智能的浩瀚宇宙中，大模型正以前所未有的速度演进，推动着科技变革的新浪潮。从多模态到通用模型，再到行业模型，人工智能的边界不断拓展，为各行各业带来了全新的机遇与挑战。本篇文章将深入剖析大模型相关的核心术语，探讨其内涵、应用及发展趋势，并回顾大模型从生成到推理的演进历程，解析全球科技巨头与国内前沿企业在这一领域的竞争与创新。让我们一同探索大模型的演进脉络，把握智能时代的发展脉搏。一、剖析大模型相
云原生周刊：基于 KubeSphere LuBan 架构打造DeepSeek 插件云计算
开源项目推荐KubeAIKubeAI是一个K8s上的AI推理操作器，旨在简化在生产环境中部署和管理大型语言模型（LLM）、向量嵌入和语音处理等机器学习模型。它提供与OpenAI兼容的API，支持在CPU和GPU上运行，并具备按需自动扩缩容的能力。KubeAI无需依赖Istio、Knative等其他系统，能够在几乎任何K8s集群中开箱即用。此外，它内置了模型代理，优化了键值缓存利用率，从而显著提升系
Microsoft Fabric 功能更新！更多智能优化，数据平台更强大
近期，微软MicrosoftFabric又更新了，大大增强了AI方面的功能。迅易科技作为微软13年来紧密的生态合作伙伴，为300+行业头部客户实施1000+项目。今天，我们带大家来看下，MicrosoftFabric有什么新玩法？一年前，微软正式推出了一款端到端数据平台，MicrosoftFabric（国际版）是一个集成一体化的平台，提供支持各种数据项目的人工智能驱动服务，帮助所有数据团队能够更快
数据分析及人工智能框架汇总 xihuanyuye 机器学习
一、数据分析二、人工智能1、Tensorflow1、简介TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，其命名来源于本身的运行原理。Tensor（张量）意味着N维数组，Flow（流）意味着基于数据流图的计算，TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。Tenso
AI 之路——数据分析（1）Pandas小结与框架整理 Robin_Pi 机器学习之路数据分析数据分析 python 人工智能可视化
目录1.写在前面1.1AI之路：1.2工具/技能：2.数据分析2.1数据分析的流程2.2数据的基本操作方法2.2.1Pandas概览2.2.2使用Pandas操作数据的核心(1)选择数据(2)操作数据2.2.2数据详解3.写在最后1.写在前面主要是阶段性框架总结1.1AI之路：数据分析——机器学习——深度学习——CV/NLP1.2工具/技能：Python、NumPy、Pandas、Matplotl
嵌入式人工智能应用- 第七章人脸识别数贾电子科技嵌入式人工智能应用人工智能
嵌入式人工智能应用`文章目录嵌入式人工智能应用1人脸识别1.1dlib介绍1.2dlib特点1.3dlib的安装与编译2人脸识别原理2.1ResNet3代码部署3.1安装[CUDAToolkit12.8](https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=Ubunt
2025 年最值得收听的 AI 播客推荐！助你轻松掌握人工智能前沿动态！真智AI 人工智能开发语言机器学习
如今，几乎每个人都被告知需要提升技能，而当前许多组织最看重的技能之一就是人工智能（AI）。学习AI相关技能通常涉及数学、统计学和机器学习，但除此之外，你还需要了解行业趋势、业内人士的观点以及各大公司的动态。然而，学习并不意味着时刻都要埋头苦读！有时候，你需要给大脑一个喘息的机会，同时依然能获取有价值的信息。而收听AI相关的播客，就是一个轻松高效的方式。以下是2025年你必须关注的AI播客！1.Th
人工智能概念 zhangpeng455547940 计算机人工智能
机器学习、深度学习、大模型机器学习提供框架，使得系统可以从数据中学习算法：线性回归、逻辑回归、支持向量机、决策树、随机森林、K近邻算法深度学习是实现这一目标的工具，模仿人脑，使用多层神经网络进行学习算法：多层感知器、卷积神经网络、循环神经网络、长短期记忆网络大模型指参数量巨大的深度学习模型人工智能应用：自然语言处理、图像识别与生成、语音识别、政务与企业服务...
机器学习(二) 本文(2.5万字) | KNN算法原理及Python复现 | 小酒馆燃着灯机器学习算法 k近邻算法
文章目录一KNN算法原理二KNN三要素三机器学习中标准化四KNN分类预测规则五KNN回归预测规则六KNN算法实现方式七KDTree7.1构造KDtree7.2KDtree查找最近邻八KNN特点九KNN算法实现案例一案例二1.机器学习2.深度学习与目标检测3.YOLOv54.YOLOv5改进5.YOLOv8及其改进6.Python与PyTorch7.工具8.小知识点9.杂记一KNN算法原理K近邻分类
（十一）人工智能 - Python 教程 - Python元组星星学霸人工智能 -Python系列教程 python 搜索引擎开发语言
更多系列教程，每天更新更多教程关注：xxxueba.com星星学霸1元组（Tuple）元组是有序且不可更改的集合。在Python中，元组是用圆括号编写的。实例创建元组：thistuple=("apple","banana","cherry")print(thistuple)("apple","banana","cherry")2访问元组元素可以通过引用方括号内的索引号来访问元组元素：实例打印元组中
院士领衔、IEEE Fellow 坐镇，清华、上交大、复旦、同济等专家齐聚 2025 全球机器学习技术大会 CSDN资讯机器学习人工智能
随着Manus出圈，OpenManus、OWL迅速开源，OpenAI推出智能体开发工具，全球AI生态正经历新一轮智能体革命。大模型如何协同学习？大模型如何自我进化？新型强化学习技术如何赋能智能体？围绕这些关键问题，由CSDN&Boolan联合举办的「2025全球机器学习技术大会」将于4月18-19日在上海隆重举行。大会云集院士、10所高校科研工作者、近30家一线科技企业技术实战专家组成的超50位重
CES Asia2025新机制引关注，科技创新奖申报火热赛逸展张胜科技
随着2025第七届亚洲消费电子技术贸易展（赛逸展）“展位即门票”机制的推出，科技创新奖的申报工作也正式拉开帷幕。截至目前，已有数十家企业提交了申报材料，涵盖人工智能、物联网、智能硬件等多个热门领域。据了解，CESAsia2025科技创新奖旨在表彰在科技研发和产品创新方面取得卓越成就的企业。此次申报面向所有预订展位的参展企业，评审过程将由行业专家、院士，协会，学者和媒体代表共同参与，确保评选结果的公
再添殊荣！移远通信工业智能品牌宝维塔™斩获AI创新应用奖移远通信算力人工智能工业智能
12月24日，2024中国物联网产业大会暨第21届慧聪品牌盛会在深圳圆满落幕。会上，移远通信凭借其工业智能品牌宝维塔™在推动AI技术落地与应用创新方面的卓越贡献，获颁“AI创新应用奖”。作为科技发展的前沿力量，AI技术正深刻改变着各行各业的生产模式和效率，尤其在工业领域，展现出了巨大潜力。宝维塔™是移远通信精心打造的工业智能品牌，专注于将人工智能、边缘计算、机器视觉、深度学习、软件算法平台等前沿技
手写机器学习算法系列——K-Means聚类算法(一) 木有鱼丸223 手写机器学习算法系列机器学习算法聚类
代码仓库(数字空间项目，GN可上)不想看的话，我也将代码上传到本博客中。1.聚类算法简介在数据科学和机器学习领域，聚类(Clustering)算法是一种无监督学习方法，它将相似的对象分到同一个组，而不同的对象则被分到不同的组。这种算法的主要目标是根据数据的特征进行分组，以此找出数据的内在结构。聚类算法的一个核心特点就是它并不需要预先知道数据的类别，而是通过算法自动进行分组。在实际应用中，我们常见的
2025扩展可能性采购和供应链管理使用AI报告100+份汇总解读|附PDF下载拓端研究室百度人工智能
原文链接：https://tecdat.cn/?p=40348在当今快速发展的商业环境中，采购和供应链管理领域正经历着深刻变革，人工智能（AI）技术的融入成为推动这一变革的关键力量。本报告汇总解读聚焦于AI在采购和供应链管理中的应用，深入剖析其发展现状、面临挑战与潜在机遇。通过对大量数据的分析，揭示AI技术在实际应用中的具体表现，如不同行业的采用比例、应用场景等。本报告汇总洞察基于文末135份供应
【Agent实战】发票信息识别提取专家（AI +OCR技术结合ChatGPT4o能力+结构化prompt（CoT、One-shot等）+Knowledge - RAG+API工具Agent项目实践）姚瑞南大模型落地探索及agent搭建 RAG技术应用探索 prompt实战应用案例人工智能 ocr prompt AIGC chatgpt gpt agi
本文原创作者：姚瑞南AI-agent大模型运营专家，先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗；多年人工智能行业智能产品运营及大模型落地经验，拥有AI外呼方向国家专利与PMP项目管理证书。（转载需经授权）目录1.项目背景2.项目目标定性：定量：3.发票核心字段概述4.关键举措5.Workflow设计思路及编排5.1整体设计思路5.2流程搭建及解读流程解读：代码节点：解析agent数据
深入解析：大型机器学习模型的基本概念与特点 AI大模型-大飞机器学习人工智能 AI大模型 AI 神经网络大模型
大模型是指具有大规模参数和复杂计算结构的机器学习模型。本文从大模型的基本概念出发，对大模型领域容易混淆的相关概念进行区分，并就大模型的发展历程、特点和分类、泛化与微调进行了详细解读，供大家在了解大模型基本知识的过程中起到一定参考作用。本文目录如下：·大模型的定义·大模型相关概念区分·大模型的发展历程·大模型的特点·大模型的分类·大模型的泛化与微调1.大模型的定义大模型是指具有大规模参数和复杂计算结
你所不知道的关于AI的27个冷知识——AI的军事应用贫苦游商 transformer 人工智能自动化算法 gpt
AI的军事应用亲爱的朋友们，今天我们要踏入一个既神秘又令人激动的领域——人工智能（AI）在军事中的应用。想象一下，一个由智能机器人和无人机组成的军队，能够进行精准打击和复杂的战略部署，这一切听起来像是科幻电影中的场景，但在现实中已经逐渐成为可能。让我们一起探索AI在军事中的奇妙应用以及它所带来的挑战。智能无人机：空中的无形战士首先，让我们飞向天空，看看那些令人惊叹的智能无人机。这些无人机不仅能进行
普通人如何利用GPT赚钱之开发虚拟助手贫苦游商普通人利用AI搞钱系列 gpt 人工智能深度学习机器人 AIGC
普通人如何利用GPT赚钱之开发虚拟助手随着人工智能技术的迅猛发展，GPT（GenerativePre-trainedTransformer）作为一种强大的语言模型，正在改变我们的生活和工作方式。普通人如何利用GPT赚钱？开发虚拟助手是一个极具潜力的方向。本文将探讨如何开发虚拟助手，以及如何通过这一技术实现经济收益。什么是虚拟助手虚拟助手是一种基于人工智能的技术，能够理解自然语言并执行特定任务。它们
深入浅出 K 近邻算法：原理、实践与应用烂蜻蜓机器学习近邻算法算法
引言在机器学习的众多算法中，K近邻算法（K-NearestNeighbors，简称KNN）以其简洁而强大的特性占据着重要地位。它既可以用于分类任务，也能在回归任务中发挥作用。无论是处理简单数据集，还是面对复杂的数据分布，KNN都展现出独特的魅力。本文将深入探讨KNN算法的原理、特点、优缺点、实现步骤以及在分类和回归任务中的具体应用。KNN算法的基本原理KNN算法属于监督学习范畴，其核心思想质朴而直
【漫话机器学习系列】137.随机搜索（Randomized Search） IT古董漫话机器学习系列专辑机器学习人工智能
随机搜索（RandomizedSearch）详解在机器学习和深度学习的模型训练过程中，超参数调优（HyperparameterTuning）是至关重要的一环。随机搜索（RandomizedSearch）是一种高效的超参数优化方法，它通过在候选超参数的数值分布（如正态分布、均匀分布等）中随机选择超参数组合，从而找到最优的超参数配置。1.超参数调优的必要性超参数是模型在训练之前需要人为设定的参数，例如
南京大学×百度“星河杯”AI大模型创意校园赛正式起航
3月9日，教育部长怀进鹏在十四届全国人大二次会议民生主题记者会上，谈到了人工智能+教育的重要性。他强调，要把人工智能技术深入到教育教学和管理的全过程和全环节，研究其有效性和适应性，让青年一代更加主动地学习，让教师更加创造性地教学。南京大学早在年初就已经敏锐地洞察到了人工智能的重要性，在新学期工作布置会上，发布了一个前瞻性决策：24年9月面向全体本科新生开设“人工智能通识核心课程体系”，南京大学党委
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那

机器学习方法与原则

机器学习方法与原则

评价指标

训练集、验证集与测试集

训练集与测试集

训练集与测试集的划分方式

验证集

训练集、测试集与验证集

随机重复实验

问题

方法

K折交叉验证(K-fold cross validation )

优缺点

其它

统计有效性检验

问题

假设的评估检验： 问题1

假设的评估检验：问题2

解答

估计假设准确率 -Q1.1 解答

估计的两个重要性质

估计假设准确率 – Q1.2解答

问题1解答总结

推导置信区间的一般方法

中心极限定理

问题2的解答

假设间的差异

假设检验

统计有效性检验： z检验（举例1）

统计有效性检验： z检验（举例1）

统计有效性检验：t检验

统计有效性

统计有效性检验(总结）

小结

二项分布(Binomial Distribution)

二项分布的应用场景

置信区间（confidence interval）

置信度与置信区间

正态分布

正态分布&二项分布

你可能感兴趣的:(机器学习,机器学习,人工智能)

假设的评估检验：问题1