Sunny_Jie

凸优化正戏

优化问题的基本形式（这里没有凸）

${\rm minimize}\quad f_0(\bm x) \quad \bm x\in\mathbb R^n$ $\quad\quad\quad\quad\quad\begin{aligned}{\rm subject\ to}\quad &f_i(\bm x)\leq0,\quad i=1,\cdots,m\\&h_j(\bm x)=0,\quad j=1,\cdots,p \end{aligned}$ 优化变量： $\bm x\in\mathbb R^n$ ；

不等式约束： $f_i(\bm x)\leq0$ ；
等式约束： $h_j(\bm x)=0$ ；
无约束优化： $m = p = 0$
优化问题的域： $D=\bigcap^m_{i=0}{\rm dom}\ f_i\cap\bigcap^p_{j=1}{\rm dom}\ h_j$
可行点（解）(feasible)： $\bm x\in D$
可行域（可解集）：所有可行点的集合；
最优化值： $p^\star={\rm inf}\{f_0(\bm x)|f_i(\bm x)\leq0,i=1,\cdots;m,h_j(\bm x)=0,j=1,\cdots,p\}$ 其中 ${\rm inf}$ 表示下确界，即所有其他函数值都大于等于 $p^\star$ ，是一个最大的兜底函数值。
最优化解： $p^\star=f_0(\bm x^\star)$

最优化问题求解非常困难，原因如下：

优化问题的定义域可能弥漫着局部最优解。
可能非常难于求出一个可行点。
一般优化算法中使用的停止准则往往在约束优化问题中失效，这个很容易理解，因为我不知道目前优化变量 $\bm x$ 走在哪个位置了，到底是不是可行域的点不知道，到底是不是全局最优点不知道。
优化算法的收敛速率很差，因为优化函数的形式很可能是变化非常缓慢的那种。
等等！

而优化问题的上述困难可以借助凸优化技术加以克服。

凸优化问题的基本形式

本质上，凸优化就是凸集约束下凸（或凹）目标函数的极小（或极大化）。
${\rm minimize}\quad f_0(\bm x) \quad \bm x\in\mathbb R^n$ $\quad\quad\quad\quad\quad\begin{aligned}{\rm subject\ to}\quad &f_i(\bm x)\leq0,\quad i=1,\cdots,m\\&h_j(\bm x)=0,\quad j=1,\cdots,p \end{aligned}$

首先要明白，这里的 $\bm x$ 可不是机器学习中的训练数据，而是要优化的参数 $\bm w,b$ 等，不要搞混了。
其中， $f_i(\bm x)$ 为凸函数， $h_j(x)$ 为仿射函数。可是大家有没有想过，这是为什么？
因为我们要保证可行域是凸集，这点非常关键，凸优化问题必须在凸集下才能发挥其优良特性。凸函数 $f_i(\bm x)\leq0$ 的产生的可行域一定是凸集；仿射函数 $h_j(\bm x)=0$ 产生的可行域也一定是凸集；而凸集的交集还是凸集，最终保证了凸优化问题的可行域是凸集。
凸优化问题最重要的性质：
- 凸优化问题的可行域是凸集；
- 凸优化问题的局部最优解即为全局最优解。

思考：

一般的带约束优化问题是怎么解的呢？回顾考研的数学学习，发现通常是将带约束的优化问题转变为拉格朗日函数的无约束优化问题。这也启发我们将上文介绍的优化问题转变成无约束优化问题，那借助什么转变呢？
还是拉格朗日乘子法，但是机器学习中的优化问题会和考研那种题型一样简单吗？当然不会！那能用那种简单粗暴的对各个拉格朗日函数 $\mathcal L(x,y,z,\lambda,\eta)$ 的自变量求偏导、联立解方程、求驻点、比较驻点函数值大小求极值的方法来处理吗？不行！因为我们的限制条件不仅只有等于号方程的限制，还有小于等于号的限制。那对于小于号不等式方程的限制，我先求全局极值点，然后判断这些极值点是否在限制范围之内进而选取可行的极值点行不行？不行！优化的目标函数和限制条件关系非常紧密，不考虑限制条件直接求优化目标函数之后再反带驻点看是否满足限制条件一则可行性不高（优化目标函数通常无法直接求极值，因为信息量太少，多数信息量都隐藏着在限制条件中）、二则即便勉强能行，解起来也会让人望而却步，头皮发麻，天旋地转。
总之，考研中的拉格朗日函数解法我们可以理解成启蒙版最优化解法，成不了主戏和正餐，我们只是在这里让考研版拉格朗日函数抛砖引玉。

相信接触过凸优化的同志们都听过原始问题、对偶问题、原始变量、对偶变量这些名词，那么他们是怎么来的呢？为此我们接下来要正式引入拉格朗日乘子法。

拉格朗日乘子法

利用拉格朗日乘子法，约束优化问题可以松弛为为无约束优化问题。

广义拉格朗日函数（generalized Lagrangian） $L(\bm x,\bm \lambda,\bm \nu)=f_0(\bm x)+\sum^m_{i=1}\lambda_if_i(\bm x)+\sum^p_{j=1}\nu_ih_j(\bm x)$
- $\lambda_i,i=1,\cdots,m$ 和 $\nu_j,j=1,\cdots,q$ 分别是针对不等式约束 $f_i(\bm x)\leq 0$ 和等式约束 $h_j(\bm x)=0$ 的拉格朗日乘子（Lagrangian multipliers）， $\bm \lambda,\bm \nu$ 为拉格朗日乘子向量，也可以称为对偶变量（dual variables）。
- 向量 $\bm x$ 被称为原始变量。
- 这里对Lagrangian乘子 $\lambda_i$ 做一个关键的非负性约束： $\lambda_i\geq0,i=1,\cdots,m$ ，如果用分量不等式，则表示为 $\bm \lambda\succ\bm0$ ；而对另一个Lagrangian乘子 $\nu_j,j=1,\cdots,p$ ，不做任何约束。
- 对于固定的 $\bm x$ ，Lagrangian函数 $L(\bm x,\bm \lambda,\bm \nu)$ 为关于 $\bm\lambda$ 和 $\bm \nu$ 的仿射函数。

原始问题和对偶问题

原始问题（primal problem）
原始问题是广义Lagrangian函数的极小–极大问题，为什么呢？首先表示出来 $\begin{aligned}p^\star&=\underset{\bm x}{\rm min}\underset{\bm \lambda,\bm \nu:\lambda_i\geq0}{\rm max}L(\bm x,\bm \lambda,\bm \nu)\\ &=\underset{\bm x}{\rm min}\quad\theta_P(\bm x) \end{aligned}$ 这里的 $\theta_P(\bm x)\ :=\underset{\bm \lambda,\bm \nu:\lambda_i\geq0}{\rm max}L(\bm x,\bm \lambda,\bm \nu)$ ，那么为什么计算极小—极大问题就等同于计算原始凸优化问题呢？接下来我们研究 $\theta_P(\bm x)$ ，在研究之前，必须保证有这种意识，即在计算 $\theta_P(\bm x)$ 的过程中，其实变动的是对偶变量 $\bm \lambda,\bm \nu$ ，我们必须将原始变量 $\bm x$ 当成常数对待，此时，Lagrangian函数 $L(\bm x,\bm \lambda,\bm \nu)$ 是关于变量 $\bm \lambda$ 和 $\bm \nu$ 的仿射函数。有了这点作保证，接下来进入 $\theta_P(\bm x)$ 的具体分析：
- 如果 $f_i(\bm x)>0,\ i\in\{1,\cdots,m\}$ ，则 $\lambda_i=+\infty，其余\lambda_{j:j不等于i}=0$ ，从而导致 $\theta_P(\bm x)=+\infty$ ；
- 如果 $h_j(\bm x)$ ≠ $0,\ j\in\{1,\cdots,p\}$ ，则令 $\nu_j=+\infty$ 或 $-\infty$ ，从而也会有 $\theta_P(\bm x)=+\infty$ 。
- 如果 $\bm x$ 满足原始全部约束，即 $\bm x$ 在可行域内，则 $\theta_P(\bm x)=f_0(\bm x)$ 。
从以上可以看出， $\theta_P(\bm x)$ 保证了原始问题的最小值落在了可行域内，如果 $\bm x$ 不在可行域内，由于 $\theta_P(\bm x)\to+\infty$ ，使得可行域外 $\theta_P(\bm x)$ 没有最小值。
对偶问题（dual problem）
对偶问题通常要比他对应的原始问题更容易求解。
原始问题的对偶问题的最优解我们标记为 $d^\star$ ，对偶问题是广义Lagrangian函数的极大—极小问题，对偶问题的解 $d^\star$ ，数学描述为： $\begin{aligned}d^\star&=\underset{\bm \lambda,\bm \nu:\lambda_i\geq0}{\rm max}\underset{\bm x}{\rm min}L(\bm x,\bm \lambda,\bm \nu)\\ &=\underset{\bm \lambda,\bm \nu:\lambda_i\geq0}{\rm max}\theta_D(\bm\lambda,\bm\nu) \end{aligned}$ 这里 $\theta_D(\bm\lambda,\bm\nu):\ =\underset{\bm x}{\rm min}L(\bm x,\bm \lambda,\bm \nu)$ 是Lagrangian对偶函数，更为细致的描述如下： $\theta_D(\bm\lambda,\bm\nu)=\underset{\bm x}{\rm inf}\left(f_0(\bm x)+\sum^m_{i=1}\lambda_if_i(\bm x)+\sum^p_{j=1}\nu_ih_j(\bm x)\right)$ 接下来我们要说点重要的事情了，是什么呢？
Lagrangian对偶函数 $\theta_D(\bm\lambda,\bm\nu)$ 一定是凹函数，即使目标函数 $f_0(\bm x)$ 不是凸函数；不等式约束函数 $f_i(\bm x)$ 必须是凸函数，等式约束函数 $h_j(\bm x)$ 必须是仿射函数，因为我们要保证可行域是凸集。而凹函数任何一个局部极值点都是全局极值点，这也是我们为什么把原函数转换为对偶函数求解的目的之一。现在的困惑是为什么Lagrangian对偶函数是凹函数，怎么证明？
其实和上面看待 $\theta_P(\bm x)$ 的角度类似，这里研究Lagrangian对偶函数时，是把对偶变量 $\bm \lambda,\bm\nu$ 看成一对常量，变动原始变量 $\bm x$ ，但是不止于此，我们仍需要做一件事，那就是把变动的 $\bm x$ 看成是有无穷多个离散的常量 $\bm x_1,\cdots,\bm x_n,n\to\infty$ ，为什么这样看待呢？因为这样才能恰如其分的发挥仿射函数既凸又凹的奇效，用这种角度表示的Lagrangian对偶函数如下： $\theta_D(\bm\lambda,\bm\nu)={\rm min}\left\{L(\bm x_1,\bm \lambda,\bm\nu),L(\bm x_2,\bm \lambda,\bm\nu),\cdots,L(\bm x_n,\bm \lambda,\bm\nu)\right\}\quad n\to\infty\tag{公式1}$ 接下来的问题就是，如何证明对偶函数 $\theta_D(\bm\lambda,\bm\nu)$ 是凹函数。如果我们能证下式 $\theta_D(\eta(\bm\lambda_1,\bm\nu_1)+(1-\eta)(\bm\lambda_2,\bm\nu_2))\geq\eta\theta_D(\bm\lambda_1,\bm\nu_1)+(1-\eta)\theta_D(\bm\lambda_2,\bm\nu_2)\tag{公式2}$ 成立，则就证明了对偶函数 $\theta_D(\bm\lambda,\bm\nu)$ 是凹函数。
证明：由(公式一)可知， $\begin{aligned} &\theta_D(\eta(\bm\lambda_1,\bm\nu_1)+(1-\eta)(\bm\lambda_2,\bm\nu_2))\\ &={\rm min}\left\{L[\bm x_1,\eta(\bm\lambda_1,\bm\nu_1)+(1-\eta)(\bm\lambda_2,\bm\nu_2)],L[\bm x_2,\eta(\bm\lambda_1,\bm\nu_1)+(1-\eta)(\bm\lambda_2,\bm\nu_2)],\cdots,L[\bm x_n,\eta(\bm\lambda_1,\bm\nu_1)+(1-\eta)(\bm\lambda_2,\bm\nu_2)]\right\}\\ &\geq{\rm min}\left\{\eta L[\bm x_1,(\bm\lambda_1,\bm\nu_1)]+(1-\eta)L[\bm x_1,(\bm\lambda_2,\bm\nu_2)],\eta L[\bm x_2,(\bm\lambda_1,\bm\nu_1)]+(1-\eta)L[\bm x_2,(\bm\lambda_2,\bm\nu_2)],\cdots,\eta L[\bm x_n,(\bm\lambda_1,\bm\nu_1)]+(1-\eta)L[\bm x_n,(\bm\lambda_2,\bm\nu_2)]\right\}\\ &\geq\eta\ {\rm min}\left\{L(\bm x_1,\bm \lambda_1,\bm\nu_1),L(\bm x_2,\bm \lambda_1,\bm\nu_1),\cdots,L(\bm x_n,\bm \lambda_1,\bm\nu_1)\right\}+\\ &(1-\eta){\rm min}\left\{L(\bm x_1,\bm \lambda_2,\bm\nu_2),L(\bm x_2,\bm \lambda_2,\bm\nu_2),\cdots,L(\bm x_n,\bm \lambda_2,\bm\nu_2)\right\}\\ &=\eta\theta_D(\bm\lambda_1,\bm\nu_1)+(1-\eta)\theta_D(\bm\lambda_2,\bm\nu_2) \end{aligned}$ 下面对上面证明中的不等式进行说明：
- 第一个 $\geq$ 成立是因为 $L(\bm x_n,(\bm \lambda,\bm \nu))$ 中 $\bm x_n$ 的值已固定，所以 $f_i(\bm x_n),\ i=0,1,\cdots,m$ ，和 $h_j(\bm x_n),\ j=1,\cdots,p$ 都应该看做常数，所以此时的 $L(\bm x_n,(\bm \lambda,\bm \nu))$ 是关于 $\bm \lambda$ 和 $\bm \nu$ 的仿射函数，利用仿射函数的既凸又凹特性，就会有形如 $f(\eta \bm x+(1-\eta)\bm y)\geq\eta f(\bm x)+(1-\eta)f(\bm y)$ 的不等式成立，其中 $f(\bm x)$ 是定义在凸集上的凹函数，故第一个不等式 $\geq$ 成立。
- 第二个不等式成立其实很简单，因为单独找内部各自的最小值，然后把各自的最小值加起来所得的最小值一定小于“内部各分量加起来”从整体中找最小值所得的值，数学语言描述为： $\begin{aligned}&a=\{a_1,a_2,\cdots,a_n\}\\ &b=\ \{b_1,b_2,\cdots,b_n\}\\ & {\rm min}\{a+b\}\geq{\rm min}\{a\}+{\rm min}\{b\} \end{aligned}$ 故第二个不等式 $\geq$ 也成立。
- 当然，在每一个固定点 $\bm \lambda,\bm \nu$ 处不一定存在下界，我们可以把下界看成是 $-\infty$ 。
  证毕。(上面的证明过程参考: 熙来攘往博客)
接下来求对偶函数 $\theta_D(\bm\lambda,\bm\nu)$ 的最大值后，就完成了对偶问题的求解过程。

弱对偶性（weak duality）

即对偶问题的值 $d^\star$ 小于等于原始问题的值 $p^\star$ ，即 $\theta_D(\bm\lambda,\bm\nu)\leq d^\star\leq p^\star\leq\theta_P(\bm x)$ 这就是通常优化问题的弱对偶性。问题是为什么呢？
下面证明不等式 $\underset{\bm x}{\rm max}\ \underset{\bm y}{\rm min}f(\bm x,\bm y)\leq\underset{\bm y}{\rm min}\underset{\bm x}\ {\rm max}f(\bm x,\bm y)$
证明：对于任意的 $(\bm x,\bm y)\in{\rm dom}f$ $\begin{aligned}&f(\bm x,\bm y)\leq\underset{\bm x}{\rm max}f(\bm x,\bm y)\\ &\Rightarrow\underset{\bm y}{\rm min}f(\bm x,\bm y)\leq\underset{\bm y}{\rm min}\underset{\bm x}{\rm max}f(\bm x,\bm y)\\ &\Rightarrow\underset{\bm x}{\rm max}\ \underset{\bm y}{\rm min}f(\bm x,\bm y)\leq\underset{\bm y}{\rm min}\underset{\bm x}\ {\rm max}f(\bm x,\bm y) \end{aligned}$ 这里面蕴藏着一个道理，求其上着得其中，求其中者得起下，求其下者无所得。《论语》也说过，取乎其上，得乎其中；取乎其中，得乎其下；取乎其下，则无所得矣。做事起初的眼界和格局就很大程度上决定了我们能到达的高度，心里若只有三尺土地，又怎能鹏程万里、遍历无限山河？不过做事时一定要脚踏实地、稳步开来，有没有糊弄、将就每一个细小节目，自己心里最清楚。

强对偶性

若要求对偶函数的最大值等于原始问题的最小值，则需满足： $\begin{aligned} f_0(\bm x^\star)&=\theta_D(\bm\lambda^\star,\bm\nu^\star)\\ &=\underset{\bm x}{\rm inf}\left(f_0(\bm x)+\sum^m_{i=1}\lambda^\star_if_i(\bm x)+\sum^p_{j=1}\nu^\star_ih_j(\bm x)\right)\\ &\leq f_0(\bm x^\star)+\sum^m_{i=1}\lambda^\star_if_i(\bm x^\star)+\sum^p_{j=1}\nu^\star_ih_j(\bm x^\star)\\ &\leq f_0(\bm x^\star) \end{aligned}$ 由此也顺利引出了满足强对偶性的KKT条件。

KKT条件说：
- $f_i(\bm x^\star)\leq0,\ i=1,\cdots,m$ ，原始不等式约束；
- $h_j(\bm x^\star)=0,\ j=1,\cdots,p$ ，原始等式约束；
- $\lambda_i^\star\geq0,\ \quad \quad i=1,\cdots,m$ ，非负性；
- $\lambda_i^\star f_i(\bm x^\star)=0,i=1,\cdots,m$ ，这是互补松弛性，非常重要；
- 由于 $\bm x^\star$ 使Lagrangian函数 $L(\bm x,\bm\lambda^\star,\bm\nu^\star)$ 在所有原始可行点 $\bm x$ 中最小化，所以Lagrangian函数在 $\bm x^\star$ 的梯度向量必然等于零向量，即 $\nabla_{\bm x}f_0(\bm x^\star)+\sum^m_{i=1}\lambda_i^\star\nabla_{\bm x}f_i(\bm x^\star)+\sum^q_{j=1}\nu_j^\star\nabla_{\bm x}h_j(\bm x^\star)=0$

说明，KKT条件不是Lagrangian函数对偶无约束优化问题的最优解等于原始约束优化问题的最优解的充分条件，只是必要条件；如果再加上一条原始约束优化问题为凸优化问题，即可成为充分条件。

换一种说法，凸优化问题可以利用满足KKT条件实现强对偶性，这是其中一种方法。
还有一种方法就是Slater条件。

Slater条件（强对偶性的判断）

自己google吧。

原始约束问题与Lagrangian对偶无约束凸优化的最优解之间的关系

只有当不等式约束函数 $f_i(\bm x),\ i=1,\cdots,m$ 均为凸函数，且等式约束函数 $h_j(\bm x),\ j=1,\cdots,p$ 均为仿射函数时，一个原始约束优化问题才能借助Lagrangian乘子法，转换成一个凹函数的对偶无约束极大化问题。
若原始约束优化问题的目标函数 $f_0(\bm x)$ 不是凸函数，但不等式约束函数 $f_i(\bm x),\ i=1,\cdots,m$ 均为凸函数，且等式约束函数 $h_j(\bm x),\ j=1,\cdots,p$ 均为仿射函数，则Lagrangian目标函数满足 ${\rm KKT}$ 条件的点 $\bm x^\star$ 和 $(\bm \lambda^\star,\bm\nu^\star)$ 一般不会分别是原始最优点和对偶最优点，即Lagrangian函数对偶无约束优化问题的最优解不是原始约束优化问题的最优解，而是 $\epsilon$ -次最优解，其中 $\epsilon=f_0(\bm x^\star)-\theta_D(\bm \lambda^\star,\bm \nu^\star)$ 。
若 $f_0(\bm x)$ 和 $f_i(\bm x)$ 均为凸函数，并且等式约束函数 $h_j(\bm x)$ 均为仿射函数，即原始约束优化问题为凸优化问题，则Lagrangian目标函数满足 ${\rm KKT}$ 条件的点 $\bm {\tilde x}$ 和 $(\bm{\tilde \lambda},\bm{\tilde \nu})$ 分别是具有零对偶间隙的原始最优点和对偶最优点。换言之，Lagrangian函数对偶无约束优化问题的最优解 $d^\star$ 就是原始约束优化问题的最优解 $p^\star$ 。

【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
【计算机毕业设计】基于Springboot的办公用品管理系统+LW 枫叶学长(专业接毕设) Java毕业设计实战案例课程设计 spring boot 后端
博主介绍：✌全网粉丝3W+,csdn特邀作者、CSDN新星计划导师、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
ImportError: /nvidia/cusparse/lib/libcusparse.so.12: undefined symbol: __nvJitLinkComplete_12_4 爱编程的喵喵 Python基础课程 python ImportError torch nvJitLink 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:/home/
【机器学习笔记 Ⅱ】11 决策树模型巴伦是只猫机器学习机器学习笔记决策树
决策树模型（DecisionTree）详解决策树是一种树形结构的监督学习模型，通过一系列规则对数据进行分类或回归。其核心思想是模仿人类决策过程，通过不断提问（基于特征划分）逐步逼近答案。1.核心概念节点类型：根节点：起始问题（最佳特征划分点）。内部节点：中间决策步骤（特征判断）。叶节点：最终预测结果（类别或数值）。分支：对应特征的取值或条件判断（如“年龄≥30？”）。2.构建决策树的关键步骤(1)
【机器学习笔记 Ⅱ】10 完整周期
机器学习的完整生命周期（End-to-EndPipeline）机器学习的完整周期涵盖从问题定义到模型部署的全过程，以下是系统化的步骤分解和关键要点：1.问题定义（ProblemDefinition）目标：明确业务需求与机器学习任务的匹配性。关键问题：这是分类、回归、聚类还是强化学习问题？成功的标准是什么？（如准确率>90%、降低10%成本）输出：项目目标文档（含评估指标）。2.数据收集（DataC
【机器学习笔记Ⅰ】13 正则化代价函数
正则化代价函数（RegularizedCostFunction）详解正则化代价函数是机器学习中用于防止模型过拟合的核心技术，通过在原始代价函数中添加惩罚项，约束模型参数的大小，从而提高泛化能力。以下是系统化的解析：1.为什么需要正则化？过拟合问题：当模型过于复杂（如高阶多项式回归、深度神经网络）时，可能完美拟合训练数据但泛化性能差。解决方案：在代价函数中增加对参数的惩罚，抑制不重要的特征权重。2.
【机器学习笔记Ⅰ】6 多类特征巴伦是只猫机器学习机器学习笔记人工智能
多类特征（Multi-classFeatures）详解多类特征是指一个特征（变量）可以取多个离散的类别值，且这些类别之间没有内在的顺序关系。这类特征是机器学习中常见的数据类型，尤其在分类和回归问题中需要特殊处理。1.核心概念(1)什么是多类特征？定义：特征是离散的、有限的类别，且类别之间无大小或顺序关系。示例：颜色：红、绿、蓝（无顺序）。城市：北京、上海、广州（无数学意义的大小关系）。动物类别：猫
图像分割技术详解：从原理到实践 lanjieying
本文还有配套的精品资源，点击获取简介：图像分割是图像处理领域将图像分解为多个区域的过程，用于图像分析、特征提取等。文章介绍了图像分割的原理，并通过一个将图像划分为2*4子块的示例，展示了如何使用Python和matplotlib库中的tight_subplot函数进行图像分割和展示。文章还探讨了图像分割在不同领域的应用，以及如何在机器学习项目中作为数据预处理步骤。1.图像分割基本概念在图像处理领域
机器学习笔记——支持向量机 star_and_sun 机器学习笔记支持向量机
支持向量机参数模型对分布需要假设（这也是与非参数模型的区别之一）间隔最大化，形式转化为凸二次规划问题最大化间隔间隔最大化是意思：对训练集有着充分大的确信度来分类训练数据，最难以分的点也有足够大的信度将其分开间隔最大化的分离超平面的的求解怎么求呢？最终的方法如下1.线性可分的支持向量机的优化目标其实就是找得到分离的的超平面求得参数w和b的值就可以了注意，最大间隔分离超平面是唯一的，间隔叫硬间隔1.1
【机器学习&深度学习】多分类评估策略一叶千舟深度学习【理论】深度学习【应用必备常识】大数据人工智能
目录前言一、多分类3大策略✅宏平均（MacroAverage）✅加权平均（WeightedAverage）✅微平均（MicroAverage）二、类比理解2.1宏平均（MacroAverage）2.1.1计算方式2.1.2适合场景2.1.3宏平均不适用的场景2.1.4宏平均一般用在哪些指标上？2.1.5怎么看macroavg指标？2.1.6宏平均值低说明了什么？2.1.7从宏平均指标中定位模型短板
ShaderGraph节点解析(136):矩形节点（Rectangle Node）详解小李也疯狂 #Unity ShaderGraph Rectangle
目录一、节点功能概述二、端口详解三、控制选项四、技术原理解析4.1数学原理（距离场计算）4.2生成代码解析4.3视觉特性五、应用场景与实战案例5.1UI元素（矩形按钮/面板）场景：在UI中生成无纹理的矩形按钮或面板，支持动态调整大小和圆角（配合其他节点）5.2材质纹理（网格/条纹）场景：为材质添加矩形网格或条纹纹理（如布料格子、屏幕像素感）5.3粒子形状（矩形粒子/条纹）场景：控制粒子的形状为矩形
【机器学习笔记Ⅰ】7 向量化巴伦是只猫机器学习机器学习笔记人工智能
向量化（Vectorization）详解向量化是将数据或操作转换为向量（或矩阵）形式，并利用并行计算高效处理的技术。它是机器学习和数值计算中的核心优化手段，能显著提升代码运行效率（尤其在Python中避免显式循环）。1.为什么需要向量化？(1)传统循环的缺陷低效：Python的for循环逐元素操作，速度慢。代码冗长：需手动处理每个元素。示例：计算两个数组的点积（非向量化）a=[1,2,3]b=[4
李宏毅2025《机器学习》第四讲-Transformer架构的演进
Transformer架构的演进与替代方案：从RNN到Mamba的技术思辨Transformer作为当前AI领域的标准架构，其设计并非凭空而来，也并非没有缺点。本次讨论的核心便是：新兴的架构，如MAMA，是如何针对Transformer的弱点进行改进，并试图提供一个更优的解决方案的。要理解架构的演进，我们必须首先明确一个核心原则：每一种神经网络架构，都有其存在的技术理由。CNN（卷积神经网络）：为
条件概率：不确定性决策的基石大千AI助手人工智能 Python #OTHER 决策树算法机器学习人工智能条件概率概率论
条件概率是概率论中的核心概念，用于描述在已知某一事件发生的条件下，另一事件发生的概率。它量化了事件之间的关联性，是贝叶斯推理、统计建模和机器学习的基础。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、定义与公式设(A)和(B)是两个随机事件，且(P(B)>0)：条件概率(P(A\midB))表示
人工智能动画展示人类的特征 AGI大模型与大数据研究院 AI大模型应用开发实战 java python javascript kotlin golang 架构人工智能
人工智能，动画，人类特征，情感识别，行为模拟，机器学习，深度学习，自然语言处理1.背景介绍人工智能（AI）技术近年来发展迅速，已渗透到生活的方方面面。从智能语音助手到自动驾驶汽车，AI正在改变着我们的世界。然而，尽管AI技术取得了令人瞩目的成就，但它仍然难以完全模拟人类的复杂行为和特征。人类的特征是多方面的，包括情感、认知、社交和创造力等。这些特征是人类区别于其他生物的重要标志，也是人类社会文明发
《支持向量机（SVM）在医疗领域的变革性应用》 CodeJourney. 支持向量机算法机器学习
在医疗科技日新月异的今天，先进的数据分析与机器学习技术正逐渐成为提升诊疗水平、助力医学研究的关键力量。支持向量机（SVM），凭借其独特的优势，在医疗这片复杂且对精准度要求极高的领域崭露头角，带来诸多令人瞩目的应用成果。一、疾病诊断：癌症早期筛查的“火眼金睛”癌症，作为全球健康的“头号杀手”，早期诊断对提升患者生存率意义非凡。在乳腺癌筛查领域，SVM发挥着重要作用。医疗科研人员收集大量乳腺组织的影像
机器学习20-线性网络思考坐吃山猪机器学习机器学习人工智能线性网络
机器学习20-线性网络思考针对线性网络的基础问题，使用基础示例进行解释1-核心知识点1-线性模型家族的线性回归和逻辑回归分别是什么，线性模型家族还有没有其他的模型线性模型家族是一系列基于线性假设的统计模型，它们假设因变量和自变量之间存在线性关系。线性模型家族中的两个最常见模型是线性回归和逻辑回归。线性回归（LinearRegression）:线性回归是一种用于预测连续因变量的模型。它假设因变量yy
机器学习18-强化学习RLHF 坐吃山猪机器学习机器学习人工智能
机器学习18-强化学习RLHF1-什么是RLHFRLHF（ReinforcementLearningfromHumanFeedback）即基于人类反馈的强化学习算法，以下是详细介绍：基本原理RLHF是一种结合了强化学习和人类反馈的机器学习方法。传统的强化学习通常依赖于预定义的奖励函数来指导智能体的学习，而RLHF则通过引入人类的反馈来替代或补充传统的奖励函数。在训练过程中，人类会对智能体的行为或输
机器学习19-Transformer和AlexNet思考坐吃山猪机器学习机器学习 transformer 人工智能
Transformer和AlexNet思考关于Transformer和AlexNet发展的一些思考1-核心知识点Word2Vec的作用是什么，和Transformer的诞生有什么关系吗？AlexNet的主要核心思路是什么，为什么表现那么好？现在有什么比AlexNet更优秀的算法2-思路整理1-Word2Vec的作用是什么，和Transformer的诞生有什么关系吗？Word2Vec的作用Word2
机器学习21-线性网络思考坐吃山猪机器学习机器学习人工智能线性网络
机器学习21-线性网络思考针对线性网络的发展问题，进行补充学习1-核心知识点1-传统机器学习针对线性分类算法求解的方式有哪些？请详细列举不同的算法对应的损失函数和计算思路在传统机器学习中，线性分类算法是一种非常重要的方法，用于将数据划分为不同的类别。以下是几种常见的线性分类算法，包括它们的损失函数和计算思路：1.感知机（Perceptron）损失函数感知机的损失函数是基于误分类点的，其目标是最小化
【数据分析】Python实现线性回归和多元线性回归（全代码）干了这一碗BUG 线性回归回归算法
老规矩，涉及到的数学原理，想深入了解的可以自行查阅相关资料，这里直接上干货用Python实现。目录逻辑回归中涉及的术语线性回归Python实现多元线性回归Python实现逻辑回归中涉及的术语以下是逻辑回归中一些常见的术语：自变量：应用于因变量预测的输入特征或预测因子。因变量：逻辑回归模型中的目标变量，即我们试图预测的变量。逻辑函数：用于表示自变量和因变量之间关系的公式。逻辑函数将输入变量转换为0到
Spring AI 第二讲之 Chat Model API 第五节HuggingFace Chat
HuggingFaceInferenceEndpoints允许您在云中部署和提供机器学习模型，并通过API对其进行访问。开始使用有关HuggingFaceInferenceEndpoints的更多详细信息，请访问此处。前提条件添加spring-ai-huggingface依赖关系：org.springframework.aispring-ai-huggingface获取HuggingFaceAPI
Python设置国内镜像教程 wh3933 python 开发语言
####引言Python是一种广泛使用的高级编程语言，用于各种编程任务，从简单的脚本到复杂的机器学习算法。在安装Python包时，通常需要从Python包索引（PyPI）下载。由于网络原因，直接从PyPI下载可能速度较慢，因此，使用国内的镜像源可以显著提高下载速度。本文将详细介绍如何在Python中设置国内镜像。####文章目的本篇文章旨在指导用户如何将Python的包管理工具`pip`的默认源切
机器学习宝典——第6章爱看烟花的码农机器学习人工智能
第6章：聚类算法(Clustering)你好，同学！欢迎来到无监督学习的世界。与监督学习不同，这里的我们没有“标准答案”（标签），我们的目标是在数据中发现隐藏的、内在的结构。聚类算法就是实现这一目标的核心工具，它试图将数据集中的样本划分为若干个不相交的子集，我们称之为“簇”(cluster)。本章我们将深入探讨三种最具代表性的聚类算法：K-均值(K-Means)、层次聚类(Hierarchical
结构型智能科技的关键可行性——信息型智能向结构型智能的转变（修改提纲）刘海东刘海东人工智能机器学习算法
结构型智能科技的关键可行性——信息型智能向结构型智能的转变1.信息型智能科技概述1.1传统计算机科技的信息型继承者1.2信息型智能环境1.3信息型智能主体1.4机器学习创造的智能1.5信息型智能科技的缺陷2.结构型智能科技概述2.1传统计算机科技向生命结构的发展2.2结构型智能科技的环境2.3结构型智能科技创造的机器生命2.4结构型智能科技的科学性3.结构型智能科技的关键可行性——信息型智能向结构
多模态大模型：技术原理与实战看清GPT的进化史和创新点 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战看清GPT的进化史和创新点1.背景介绍1.1人工智能的发展历程1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习的崛起1.2自然语言处理的演进1.2.1基于规则的方法1.2.2统计机器学习方法1.2.3深度学习方法1.3大语言模型的出现1.3.1Transformer架构的提出1.3.2GPT系列模型的发展1.3.3多模态大模型的兴起2.核心概念与联系2.1
【机器学习|学习笔记】组合特征（Feature Combinations）是提升模型性能、挖掘特征交互信息、增强非线性表达能力的有效手段。努力毕业的小土博^_^ 机器学习学习笔记机器学习学习笔记人工智能神经网络深度学习
【机器学习|学习笔记】组合特征（FeatureCombinations）是提升模型性能、挖掘特征交互信息、增强非线性表达能力的有效手段。【机器学习|学习笔记】组合特征（FeatureCombinations）是提升模型性能、挖掘特征交互信息、增强非线性表达能力的有效手段。文章目录【机器学习|学习笔记】组合特征（FeatureCombinations）是提升模型性能、挖掘特征交互信息、增强非线性表达
R语言的软件开发工具纪霁然包罗万象 golang 开发语言后端
R语言的软件开发工具引言R语言因其强大的数据分析能力和丰富的统计包，自发布以来便广受欢迎。随着数据科学和分析的迅猛发展，R语言也逐渐成为数据分析、机器学习和统计建模领域的重要工具。为了更好地利用R语言进行软件开发，许多软件开发工具和环境应运而生。本文将深入探讨R语言的主要开发工具，帮助开发者更高效地进行数据处理和分析。1.R和RStudio基础R语言本身是一个用于统计计算和图形绘制的编程语言，而R
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$