lsec小陆

分布式优化和去中心化优化概述

陆嵩
中科院数学与系统科学研究院科学与工程计算国家重点实验室

文章目录

分布式优化和去中心化优化概述

简介
预备知识

优化基础理论
梯度下降方法（GD）

Gradient Descent
步长选取
收敛率

约束优化问题的拉格朗日乘数法
次梯度算法
图谱理论基础

平均一致性问题

模型问题
梯度算法
收敛性结果

对于去中心化的梯度下降方法

凸问题的 DGD 算法
一些结论和讨论

凸问题的较新方法

ADMM（原始-对偶）

对偶上升
对偶分解
增广拉格朗日方法
ADMM 及其收敛性
分布式 ADMM 算法

EXTRA和其他方法

非凸问题方法

DGD（常步长和递减步长）
原始-对偶方法

随机问题的方法

随机梯度下降方法（SGD）
去中心化随机梯度下降方法（DSGD or SDGD）

分布式优化总结和展望

问题设定
凸问题方法
非凸问题方法
复杂度下界
最优收敛率算法
最近发展和开放性问题

联邦学习

联邦学习简介
联邦学习算法
FedAvg 算法收敛性分析

简介

分布式系统的定义：组件分布在联网的计算机上，组件之间通过传递消息通信和动作协调的系统。通俗而言，分布式系统就是多台独立的计算机协同工作以完成任务。

分布式思想，使我们今天在人工智能、大数据、云计算、物联网、区块链等技术上得到了高速发展，尤其是对于物联网来说，分布式的理念显得极为重要。

下面一张图，很好地诠释了中心化和分布式的一个关系。

预备知识

优化基础理论

首先，我们需要用到一些优化的知识，可以参考我之前写的两篇文章。剩下的知识，下面会补充。
优化理论1
优化理论2

梯度下降方法（GD）

Gradient Descent

一般的梯度下降方法，我们写为：
$\mathbf{x}^{r+1}=\mathbf{x}^{r}-\alpha_{r} \mathbf{D}^{r} \nabla f\left(\mathbf{x}^{r}\right), r=0,1, \cdots$
这里的 $\mathbf{D}^{r}$ 是一个 scaling 矩阵。它取为单位矩阵，就是最陡下降法（SD），取为 Hessian 矩阵的逆，就是牛顿方法。

一般人喜欢用最陡下降法：
$\mathbf{x}^{r+1}=\mathbf{x}^{r}-\alpha_{r} \nabla f\left(\mathbf{x}^{r}\right), r=0,1, \cdots$

步长选取

一个重要的问题是，这里的步长怎么选。一个方法是去精确线搜索步长，即在搜索方向上选取是函数值最小的 $\alpha$ ，但是这个有一个问题，就是计算量很大，工业上一般不用的。

下面我给一个步长：
$\mathrm{x}^{r+1}=\mathrm{x}^{r}-\frac{1}{L} \nabla f\left(\mathrm{x}^{r}\right)$
理论上能证明，它能保证函数值的重复下降和算法收敛到一个局部极值：
$f\left(\mathrm{x}^{r+1}\right) \leq f\left(\mathrm{x}^{r}\right)-\frac{1}{2 L}\left\|\nabla f\left(\mathrm{x}^{r}\right)\right\|^{2}$

这里的 $L$ 是 $\nabla^{2} f(\mathbf{x})$ 特征值的一个界，

$\nabla^{2} f(\mathbf{x}) \preceq L \mathbf{I}$

换言之，它也是梯度的一个利普希茨常数。
$\|\nabla f(\mathbf{x})-\nabla f(\mathbf{y})\| \leq L\|\mathbf{x}-\mathbf{y}\|, \forall \mathbf{x}, \mathbf{y} \in \mathbb{R}^{n}$

事实上，这里的方向不一定取梯度下降方向，只要取和负梯度方向夹角为锐角的方向，这个步长也能保证收敛到一个稳定点。

收敛率

先给结论，梯度下降法是线性收敛到局部极值的，如果是凸函数，就是收敛到最小值。

我们可以用前后两步的误差比来定义收敛率。言外之意，就是后一步的误差是前一步误差的多少阶无穷小，如果是同阶无穷小，就是线性的，如果是高阶无穷小，就是超线性的，多少阶无穷小，就是多少次收敛。

令 $\left\{x_{k}\right\}$ 是 $\mathbb{R}^{n}$ 的一个序列，收敛到 $x^{*}$ 。

Q-线性收敛说的是存在一个常数 $r\in(0,1)$ ，使得当 $k$ 充分大时，有：

$\frac{\left\|x_{k+1}-x_{*}\right\|}{\left\|x_{k}-x^{*}\right\|} \leq r$

Q-超线性收敛指的是， $p$ 是大于 1 的常数，当 $k$ 充分大的时候：

$\frac{\left\|x_{k+1}-x^{*}\right\|}{\left\|x_{k}-x^{*}\right\|^p}\leq \beta$

Q-二次收敛指的是，存在一个常数 $M$ ，使得当 $k$ 充分大时，

$\frac{\left\|x_{k+1}-x_{*}\right\|}{\left\|x_{k}-x^{*}\right\|^{2}} \leq M$

容易证明，对于强凸函数，GD 是线性收敛到最小值。收敛常数 $1-1/\text{cond}(\nabla^2 f)$ 。也就是说，Hessian 条件数越小，收敛的越快。

约束优化问题的拉格朗日乘数法

考虑约束优化问题，
$\begin{aligned} \operatorname{minimize} & f(x) \\ \text { s.t. } & h_{i}(x)=0, \quad i=1, \cdots, m \\ & g_{j}(x) \leq 0, \quad j=1, \cdots, n \end{aligned}$

它的拉格朗日乘数形式是，引入 $\lambda_{i} \geq 0 \text { ,} \nu_{i} \in \mathbb{R}$
$\lambda, \nu)=f(x)+\underbrace{\sum_{j=1}^{n} \lambda_{j} g_{j}(x)}_{\text {inequality constraints }}+\underbrace{\sum_{i=1}^{m} \nu_{i} h_{i}(x)}_{\text {equality constraints }}$
这里，不等式约束前面的系数要大等于 0。

它的拉格朗日对偶是，取使 $L$ 取得最小的用引入参数来表示的 $x$ ，即，
$L^{*}(\lambda, \nu)=\inf _{x \in X} L(x, \lambda, \nu)=\inf _{x \in X} f(x)+\sum_{j=1}^{n} \lambda_{j} g_{j}(x)+\sum_{i=1}^{m} \nu_{i} h_{i}(x)$

那么，对偶问题就是，
$\max _{\lambda, \nu} L^{*}(\lambda, \nu), \quad \text { s.t. } \lambda \geq 0$

这里的拉格朗日对偶是一个凸函数，即使 $f$ 是个非凸函数，这也就体现了求解对偶问题的优势所在。另外， $L^{*}(\lambda, \nu) \leq f^{*}$ ，即 $L^{*}$ 是 $f^*$ 的下界。

次梯度算法

次梯度是梯度的一个非可微推广，它是一个“梯度”集合，使得从某一点往附近走一个梯度步，比原来的函数值小。
$\partial f(x):=\{g \mid f(y) \geq f(x)+\langle g, y-x\rangle, \forall y\}$

所谓的次梯度算法，就是用次梯度来替代原来梯度算法中的梯度，需要注意的是，次梯度算法不是一个下降算法。

假设 $T$ 是迭代次数，那么次梯度算法的收敛率是 $\mathcal{O}(1 / \sqrt{T})$ ，远远差于梯度算法的收敛率 $\mathcal{O}(1 / T))$ 。简单地说，目标函数越光滑，越凸，那么收敛速度就越快。

图谱理论基础

对于一张图，我们可以定义它的关联矩阵（incidence matrix） $\in \mathbb{R}^{E \times M}$ ， $E, M$ 分别表示边数和点数。它的每一行对应于每条边，每一列不为 0 的列标表示和这条边相连的节点的标号，值为 1 表示对应的是编号小的点，值为 -1 表示对应的是编号大的点。

用 $d$ 表示节点的度，我们可以定义图拉普拉斯矩阵：

$\mathcal{L}:=P^{-1 / 2} A^{T} A P^{-1 / 2}, \text { with } P=\operatorname{diag}\left[d_{1}, \cdots, d_{M}\right]$

其实就是，
$[\mathcal{L}]_{i j}=\left\{\begin{array}{ll} 1 & \text { if } i=j \\ -\frac{1}{\sqrt{d_{i} d_{j}}} & \text { if }(i j) \in \mathcal{E}, i \neq j \\ 0 & \text { otherwise. } \end{array}\right.$

我们也经常看到没有标准化的图拉普拉斯算子：
$\begin{aligned} L &:=A^{T} A \\ [L]_{i j} &=\left\{\begin{array}{ll} d_{i} & \text { if } i=j \\ -1 & \text { if }(i j) \in \mathcal{E}, i \neq j \\ 0 & \text { otherwise. } \end{array}\right. \end{aligned}$

那么，图拉普拉斯算子有一些性质。
$[\mathcal{L} v]_{i}=\frac{1}{\sqrt{d_{i}}} \sum_{j: j \sim i}\left(\frac{v(i)}{\sqrt{d_{i}}}-\frac{v(j)}{\sqrt{d_{j}}}\right)$
$v]_{i}=\sum_{j: j \sim i}(v(i)-v(j))$
$v^{T} L v=\sum_{i \sim j}(v(i)-v(j))^{2} \geq 0$

假设， $\lambda_{0} \leq \lambda_{1} \leq \lambda_{2} \leq \cdots, \leq \lambda_{M}$

是 $ \mathcal{L}$ 的特征值。 $\lambda_{\min }$ 是非零最小特征值。

那么我们可以定义谱隙(Eigengap)为：
$\xi(\mathcal{L})={\lambda}_{\min }(\mathcal{L}) / \lambda_{M}\leq 1$
某种意义上，它是矩阵条件数的倒数。

那么，对于图拉普拉斯矩阵，有如下的一些额外性质：

$P^{1 / 2} 1$ 是 $\mathcal{L}$ 的对应于 0 特征值的特征向量。
$\lambda_{1}=\inf _{f \perp P^{1 / 2} \underline{1}} \frac{\sum_{u \sim v}(f(u)-f(v))^{2}}{\sum_{v} f(v)^{2} d_{v}}$
$\sum_{i} \lambda_{i} \leq M$
$\lambda_{i} \leq 2, \text { for all } i \leq M$
$\lambda_{1} \geq \frac{1}{D \times \operatorname{Vol}(G)}$ ，这里的 $D$ 是图的最长路径， $\operatorname{vol}(G)=\sum_{i=1}^{M} d_{i}$ 。

平均一致性问题

模型问题

好，有了一些预备知识，我们来看一下分布式优化的一些东西。考虑一个无约束多代理优化问题，

$\operatorname{minimize}_{x} \sum_{i=1}^{m} f_{i}(x) \quad x \in \mathbb{R}^{}$

这表示有 m 个代理节点，每个节点都有自己的一个优化目标函数，但是他们的优化变量 $x$ 是shared 的。

容易想到，如果我们用梯度下降方法（在分布式优化中叫做 DGD），因为每个 $f_i$ 的最优值点在不同的位置，我们很难找到一个 $x$ ，使得每个 $\nabla f_i(x)= 0$ 。这个后面还会提到。

梯度算法

考虑分布式的次梯度算法，

$x_{i}(k+1)=\underbrace{\sum_{j=1}^{m} w_{i j}(k) x_{j}(k)}_{\text {Consensus Step }}-\underbrace{\alpha \times d_{i}(k)}_{\text {Subgradient Step }}$

这里的一致性步骤，其实就把其他点的 $x_i$ 值做一个线性组合作为作为自身的 $x_i$ 值，注意到，这里的 $d_i$ ，其实还是一致性步骤之前对应的梯度值。写成矩阵的形式，其实就是，

$x(k)+\alpha \times d(k)$

这里的 $W$ 其实是某种意义下的邻接矩阵，如果节点 $i$ 和节点 $j$ 有连接，那么 $w_{ij}$ （矩阵的第 $i$ 行第 $j$ 列）就大于零，否则等于零。这里也可以看到 $W$ 在迭代中可以是变化的。

收敛性结果

为了后续的分析，我们定义个转移矩阵，
$\Phi(k, s)=W(k) W(k-1) \cdots W(s+1) W(s)$

一个向量，非负且和为 1，那么我们称之为随机向量，如果矩阵的每一行是一个随机向量，我们称之为随机矩阵，如果随机矩阵的每一列都是随机向量，那么我们称之为双随机矩阵。

我们可以定义每一步的边集，
$\xi(W(k))=\left\{(j, i) \mid w_{i j}(k)>0, i, j=1, \cdots, m\right\} \text { for all } k$

这里我们需要对 $W$ 做一些假设。
假设1：

双随机
正对角
存在 $\eta > 0$ ，当 $w_{ij}>0$ ，则 $w_{ij}\geq \eta$

假设2（保证连接足够频繁）：
存在一个正整数 $B$ ，对每一个 $k$ ，我们有图
$G:=(\mathcal{N}, \xi(W(k B)) \cup \cdots \cup \xi(W((k+1) B-1)))$
是全连接的。换言之，我们要让连接足够多，从而保证 $B$ 长度窗口内的图的合并是全连接的。

在这两个假设之下，考虑简单的情况，即目标函数的梯度是 $0$ ，迭代可以写成，

$\boldsymbol{x}(k), \quad k=1,2, \cdots$

那么迭代最后会收敛到每个分量都等于开始时迭代变量在分量上的平均值。而且收敛的速度非常快。更一般的情况，我们其实也可以证明 $\Phi(k, s)$ 收敛到平均 $\bar{x}(0)$ 。转移矩阵收敛了，意味着算法其实就收敛了。有以下定理，

对于去中心化的梯度下降方法

凸问题的 DGD 算法

我们前面提到了，对于求解凸目标函数
$\operatorname{minimize}_{x} \sum_{i=1}^{m} f_{i}(x) \quad x \in \mathbb{R}^{}$
它的 DGD 算法，
$x(k)+\alpha \times d(k)$
是很难刚好得到使得每个 $f_i$ 都是极值的 $x$ 的。这个在直觉上非常好理解，这种点可能就不存在。那么对目标函数求和的这个极小要怎么达到呢？

为了保证 DGD 算法的收敛，除了上述的假设 1、假设 2，我们还需要有假设 3：目标函数的次梯度是一致有界的，即

$\|g\| \leq L \quad \text { for all } g \in \partial f_{i}(x)$

通过定义辅助变量以及观察方差等手段，我们最后可以证明如下的定理：

一些结论和讨论

也就是说，在一定的假设下（1 2 3），DGD 算法其实是收敛到解的一个领域。这使得后来有些人设计了一些算法，通过减少步长到 0 的方法，使得能够收敛到精确解，但是收敛速度是很慢的。除了减少步长，当然也有一些其他的方法，可以使解收敛到精确值，比如说 ADMM 方法 EXTRA 方法。

另外，上面提到的 DGD 收敛性分析只对凸问题，一些非凸问题上，也有人做了一些工作，在一定的假设之下， DGD 算法呢，在凸情形下能收敛到全局极小值，非凸问题能收敛到某个稳定点。

凸问题的较新方法

ADMM（原始-对偶）

对偶上升

考虑问题
$\begin{array}{ll} \text { minimize }_{x} & f(x) \\ \text { subject to } & A x=b \end{array}$
它的对偶上升其实就是利用梯度上升的方法求解它的对偶问题：
$\begin{array}{l} x^{k+1}=\operatorname{argmin}_{x}\left\{L\left(x, y^{k}\right)=f(x)+\left(y^{k}\right)^{T}(A x-b)\right\} \\ y^{k+1}=y^{k}+\alpha^{k}\left(A x^{k+1}-b\right) \end{array}$

对偶分解

考虑分布式的优化，对偶分解模型问题是把原来的目标函数，分解成几个目标函数的求和，是一个子问题：
$\begin{array}{ll} \text { minimize }_{x} & \sum_{i=1}^{m} f_{i}\left(x_{i}\right) \\ \text { subject to } & A x=b \end{array}$

那么我们再用对偶上升的方法，其实会发现，原来的拉格朗日函数关于 $i$ 就是可分的，我们可以把对偶上升中，关于 $x$ 的最小化，分成若干个 $x_i$ 的最小化：
$\begin{aligned} \boldsymbol{x}_{i}^{k+1} &=\underset{\boldsymbol{x}_{i}}{\operatorname{argmin}}\left\{L_{i}\left(\boldsymbol{x}_{i}, \boldsymbol{y}^{k}\right)=f_{i}\left(\boldsymbol{x}_{i}\right)+\left(\boldsymbol{y}^{k}\right)^{T} A_{i} \boldsymbol{x}_{i}-(1 / m)\left(\boldsymbol{y}^{k}\right)^{T} b\right\} \\ \boldsymbol{y}^{k+1} &=\boldsymbol{y}^{k}+\alpha^{k}\left(A \boldsymbol{x}^{k+1}-b\right) \end{aligned}$

增广拉格朗日方法

上面提到的对偶方法，有个好处就是可以梯度下降步，分成 $m$ 个梯度下降，缺点在于需要目标函数的强凸性，才能保证算法的收敛。如果不是强凸的，只是凸的，怎么办？可以总增广拉格朗日方法。

同样是的问题，多了个一个惩罚项，
$\begin{array}{ll} \text { minimize }_{x} & f(x)+\frac{\rho}{2}\|A x-b\|^{2} \\ \text { subject to } & A x=b \end{array}$

同样利用对偶上升，得到
$\begin{aligned} \boldsymbol{x}^{k+1}=\underset{\boldsymbol{x}}{\operatorname{argmin}}\{\underbrace{\left.L_{\rho}\left(\boldsymbol{x}, \boldsymbol{y}^{k}\right)=f(\boldsymbol{x})+\left(\boldsymbol{y}^{k}\right)^{T}(A \boldsymbol{x}-b)+\frac{\rho}{2}\|A \boldsymbol{x}-b\|^{2}\right\}}_{\text {Augmented Lagrangian }}\\ \boldsymbol{y}^{k+1}=\boldsymbol{y}^{k}+\alpha^{k}\left(A \boldsymbol{x}^{k+1}-b\right) \end{aligned}$

可以看到，这里就不能分解每一步的求最小值了。

ADMM 及其收敛性

交替方向乘子法，考虑的是两个凸的有各自的变量的函数求和作为目标函数，如果只有一个优化变量，是可以引入一个变量，根据约束强行凑成这种形式，
$\begin{array}{l} \text { minimize }_{x, z} f(x)+g(z) \\ \text { subject to } A x+B z=c \end{array}$
它的增广拉格朗日是，
$L_{\rho}(\boldsymbol{x}, \boldsymbol{z}, \boldsymbol{y})=f(\boldsymbol{x})+g(\boldsymbol{z})+\boldsymbol{y}^{T}(A \boldsymbol{x}+B \boldsymbol{z}-c)+\frac{\rho}{2}\|A \boldsymbol{x}+B z-c\|^{2}$

同样，利用对偶上升的方法，得到 ADMM 的迭代，
$\begin{aligned} \boldsymbol{x}^{k+1} &=\underset{\boldsymbol{x}}{\operatorname{argmin}} L_{\rho}\left(\boldsymbol{x}, \boldsymbol{z}^{k}, \boldsymbol{y}^{k}\right) \\ \boldsymbol{z}^{k+1} &=\underset{\boldsymbol{z}}{\operatorname{argmin}} L_{\rho}\left(\boldsymbol{x}^{k+1}, \boldsymbol{z}, \boldsymbol{y}^{k}\right) \\ \boldsymbol{y}^{k+1} &=\boldsymbol{y}^{k}+\rho\left(A \boldsymbol{x}^{k+1}+B \boldsymbol{z}^{k+1}-c\right) \end{aligned}$

这个算法计算的消耗量是很大的，但很快收敛到一定的精度，要收敛到高精度很难。对大规模机器学习问题很够了，而且可以分布式地计算。

在以下两个假设之下，ADMM 在残差、目标函数、对偶变量的收敛性方面是有保证的。

$f$ 和 $g$ 分别是扩展的实数函数 $\mathbb{R}^{n_{x}} \rightarrow \mathbb{R} \cup\{+\infty\}$ 和 $\mathbb{R}^{n_{z}} \rightarrow \mathbb{R} \cup\{+\infty\}$ ，且是closed、proper和convex的。
拉格朗日函数 $L_{0}(\boldsymbol{x}, \boldsymbol{z}, \boldsymbol{y})=f(\boldsymbol{x})+g(\boldsymbol{z})+\boldsymbol{y}^{T}(A \boldsymbol{x}+B \boldsymbol{z}-c)$ 有一个鞍点。

分布式 ADMM 算法

一提到分布式，我们的问题其实就变成了，

$\operatorname{minimize}_{x} \sum_{i=1}^{m} f_{i}(x)$

为了用上提到的算法，我们有两种问题书写方式。

一个是中心化的分布式优化写法，一个节点负责收集它们的数据进行处理：
$\operatorname{minimize}_{x_{1}, \ldots, x_{m}, z} \sum_{i=1}^{m} f_{i}\left(x_{i}\right) \text { subject to } x_{i}=z, i=1, \ldots, m$

把它凑成 ADMM 模型问题的写法，就能得到 ADMM 步骤：
$\begin{aligned} \boldsymbol{x}_{i}^{k+1} &=\underset{\boldsymbol{x}_{i}}{\operatorname{argmin}} f_{i}\left(\boldsymbol{x}_{i}\right)+\frac{\rho}{2}\left\|\boldsymbol{x}_{i}-\boldsymbol{z}^{k}+\boldsymbol{u}_{i}^{k}\right\|^{2} \\ \boldsymbol{z}^{k+1} &=\frac{1}{m} \sum_{i=1}^{m}\left(\boldsymbol{x}_{i}^{k+1}+\boldsymbol{u}_{i}^{k}\right) \\ \boldsymbol{u}_{i}^{k+1} &=\boldsymbol{u}_{i}^{k}+\boldsymbol{x}_{i}^{k+1}-\boldsymbol{z}^{k+1} \end{aligned}$

去中心化的优化写法为：
$\begin{array}{l} \text { minimize }\left\{x_{i}\right\},\left\{z_{i j}\right\} \sum_{i=1}^{m} f_{i}\left(x_{i}\right) \\ \text { subject to } x_{i}=z_{i j}, x_{j}=z_{i j}, \forall(i, j) \in \mathcal{A} \end{array}$
这表示，相邻的节点的值，都等于同一个值（边上的值）。容易写成如下的标准 ADMM 模型问题表达：
$\begin{array}{l} \text { minimize }_{\boldsymbol{x}, \boldsymbol{z}} f(\boldsymbol{x})+g(\boldsymbol{z}) \\ \text { subject to } A \boldsymbol{x}+B \boldsymbol{z}=0 \end{array}$
这里的 $g = 0$ ， $A=\left[A_{1} ; A_{2}\right]$ ， $B=\left[-I_{2 E} ;-I_{2 E}\right]$ ， $A_1,A_2$ 表示的是某个边（row）对应的第1个和第二个点的编号（column），细想一下就知道了。

写出它的增广拉格朗日函数，
$L_{\rho}(\boldsymbol{x}, \boldsymbol{z}, \boldsymbol{y})=f(\boldsymbol{x})+\boldsymbol{y}^{T}(A \boldsymbol{x}+B \boldsymbol{z})+\frac{\rho}{2}\|A \boldsymbol{x}+B \boldsymbol{z}\|^{2}$

进行如下的 ADMM 更新，
$\begin{array}{l} x-\text { update }: \quad \nabla f\left(x^{k+1}\right)+A^{T} y^{k}+\rho A^{T}\left(A x^{k+1}+B z^{k}\right)=0 \\ z-\text { update }: \quad B^{T} y^{k}+\rho B^{T}\left(A x^{k+1}+B z^{k+1}\right)=0 \\ y-\text { update: } \quad y^{k+1}-y^{k}-\rho\left(A x^{k+1}+B z^{k+1}\right)=0 \end{array}$

当然，这里实际操作上有一些细节需要去思考的。

EXTRA和其他方法

对于凸问题，除了 ADMM 算法，还有一些别的现代化算法，比如EXTRA 算法、梯度追踪、梯度推进方法等。

EXTRA 算法可以参考这个链接：EXTRA算法。就不再细述了。

它的收敛性也是需要一些假设来保证的。别的凸优化算法就不再说了。

非凸问题方法

上面提到的 DGD，以及原始-对偶方法都是对于凸问题而言的，那么，对于非凸问题，他们的表现如何呢？

DGD（常步长和递减步长）

和对于凸问题一样，常数步长的 DGD 算法只能收敛到精确稳定点的一个小领域，在一些假设下，递减步长的 DGD 也是可以收敛到某个稳定点的。

对于递减步长，我们可以设计每次迭代的补充，加上一些假设，比如关于 $W$ 的一些假设，关于 $f$ 的一些假设等等，能保证算法收敛到稳定点。

这个事情比较繁琐，有兴趣的可以参考相关文献，不再细述。

另外需要提到的一点是，一般去中心化对应的方法，比中心化对应的方法，需要更强的假设，才能保证收敛。

原始-对偶方法

我们从简单的星网络（一个中心点连着其他点）开始考虑，
$\begin{array}{c} \min \sum_{i=1}^{m} g_{i}\left(x_{i}\right)+h(x) \\ \text { subject to } x_{i}=x, \forall i=1, \cdots, m, \quad x \in X \end{array}$
这里的 $h (x)$ 可以看成是中心节点的目标函数。

它的增广拉格朗日函数可以写成，
$L\left(\left\{x_{k}\right\}, x ; y\right)=\sum_{k=1}^{K} g_{k}\left(x_{k}\right)+h(x)+\sum_{k=1}^{K}\left\langle y_{k}, x_{k}-x\right\rangle+\sum_{k=1}^{K} \frac{\rho_{k}}{2}\left\|x_{k}-x\right\|^{2}$

然后，就可以在其上执行对于一致性问题的经典的 ADMM 算法，那么这个收敛性如何。

找一个例子试一下，你会发现，和凸问题不一样的是，它这里的收敛性是依赖于 $\rho$ 的， $\rho$ 太小，不收敛， $\rho$ 大了，可能收敛。

其实，在一定的假设之下（赘述繁琐，不再说了），可以保证其收敛性。

把星网络，推广到一般的分布式的情况，即考虑非凸的去中心化问题，
$\min f(x):=\sum_{i=1}^{m} g_{i}\left(x_{i}\right) \text { subject to } x_{i}=x_{j},(i, j) \in E$

往星网络的形式靠拢，引入 $h$ ,
$\min _{\left\{x_{i}\right\}} \sum_{i=1}^{m} f_{i}\left(x_{i}\right)+h_{i}\left(x_{i}\right)$
$\quad(\text { consensus constraint })$

这里的 $A$ 就是之前预备知识提到的关联矩阵。

我们考虑更一般的线性约束问题，
$\min _{\boldsymbol{x} \in \mathbb{R}^{m}} f(\boldsymbol{x}), \quad \text { subject to } A \boldsymbol{x}=b$

有所谓的近端原始对偶方法，以及增广拉格朗日算法等等。

和前面的讨论相同，在一些假设之下，这些算法是可以以次线性的速度收敛到稳定点的。

随机问题的方法

随机梯度下降方法（SGD）

这里的随机，不太是随机过程那个随机，更像是神经网络中，mini-batch 随机梯度下降的那个随机，随机有 sample 的含义。

它对于凸和非凸的问题，都有收敛性的保证，但收敛性比起 GD 需要更强的条件。

学过机器学习的都很了解 SGD 了，这里简单用期望形式简单描述一下。

考虑问题，
$\begin{array}{ll} \operatorname{minimize}_{x} & F(\boldsymbol{x}):=\frac{1}{N} \sum_{i=1}^{N} f\left(\boldsymbol{x},\left\{\mathbf{a}_{i}, b_{i}\right\}\right) \\ \text { subject to } & \boldsymbol{x} \in \mathbb{R}^{n} \end{array}$

和神经网络的 loss function 类比，这里 $F (x)$ 是我们要得到的模型， ${a_i,b_i\}$ 是我们用来训练模型的数据，这里的 $N$ ，表示采用 $N$ 个数据点。如果采用的数据点足够均匀，那么，
$F(\boldsymbol{x})=\mathbb{E}_{i}\left[f\left(\boldsymbol{x},\left\{\mathbf{a}_{i}, b_{i}\right\}\right)\right]$

随机梯度下降就是，
$\boldsymbol{x}^{r+1}=\boldsymbol{x}^{r}-\eta^{r} \mathbf{g}^{r}$

这里的 $\mathbf{g}^{r}$ 是 $\mathbb{E}\left[\nabla f\left(\boldsymbol{x}^{r}, \xi\right)\right]$ 一个无偏估计。

去中心化随机梯度下降方法（DSGD or SDGD）

为什么要有分布式的随机梯度算法呢？因为现实中，往往计算节点的很多数据都是实时和在线的，我们往往拿步到全部数据，从而计算全导数。即使每个节点能拿到自己的全部数据，当计算节点很多的时候，要计算所有节点的全导数，这个计算量是巨大的。所以，我们再分布式优化中，更需要随机的梯度方法。

假设现在有 m 个节点，每个节点都有自己的模型，以及自己的好多好多个数据，那么，去中心化的随机问题就是，

minimize $_{x} \quad F(x):=\sum_{i=1}^{m} \mathbb{E}_{\xi_{i}}\left[g_{i}\left(x, \xi_{i}\right)\right]:=\sum_{i=1}^{m} f_{i}(x)$
subject to $\in \mathbb{R}^{n}$

对于每个节点，我们不取全部数据，而是有代表性地选取部分数据，来表示 $f_i$ 的一个无偏估计，那么，就是对应于分布式问题的随机梯度下降方法，算法描述如下：

理论上可以证明，在一些较强的条件假设下，对于分布式问题的 DSGD 算法是收敛的。

对于分布式问题，除了所谓的梯度下降算法，还有 $D^2$ 算法、随机梯度推进算法、基于梯度追踪的非凸随机去中心化算法等等，他们又很强的相关性，这里不再展开了。

分布式优化总结和展望

问题设定

考虑非凸分布式优化问题，
$(\mathbf{P}) \min _{\mathbf{w} \in \mathbb{R}^{P}} h(\mathbf{w})=\frac{1}{M} \sum_{i=1}^{M} f_{i}(\mathbf{w})$

引入 $M$ 个局部变量，重建一致性问题，
$\text { (Q) } \min _{\mathbf{x} \in \mathbb{R}^{M P}} f(\mathbf{x})=\frac{1}{M} \sum_{i=1}^{M} f_{i}\left(\mathbf{x}_{i}\right), \quad \text { s.t. } \mathbf{A x}=0$

这里的 $A$ 是关联矩阵，体现了网络的结构，每个节点只能和它的邻居进行通信。

凸问题方法

DGD 算法就是

$\begin{array}{c} \mathrm{x}^{r+1}=\mathbf{W} \mathbf{x}^{r}-\alpha \nabla f\left(\mathbf{x}^{r}\right) \\ \mathbf{x}_{i}^{r+1}=\sum_{j \in \mathcal{N}_{i}} \mathbf{W}_{i j} \mathbf{x}_{j}^{r}-\alpha \nabla f_{i}\left(\mathbf{x}_{i}^{r}\right) \end{array}$

这里的 $W$ 是个随机矩阵，并且它的特征值模是被 1 绊住的。算法收敛到最优值的领域。

EXTRA 算法是，
$\begin{aligned} \mathrm{x}^{1} &=\mathbf{W} \mathbf{x}^{0}-\alpha \nabla f\left(\mathrm{x}^{0}\right) \\ \mathrm{x}^{r+2} &=(\mathbf{W}+\mathbf{I}) \mathrm{x}^{r+1}-\widetilde{\mathbf{W}} \mathrm{x}^{r}-{\alpha\left(\nabla f\left(\mathrm{x}^{r+1}\right)-\nabla f\left(\mathrm{x}^{r}\right)\right)} \end{aligned}$

交替方向乘子法，是把问题写成下面这种形式，
$\min _{\mathbf{x}, \mathbf{z}} f(\mathbf{x})+g(\mathbf{z}), \quad \text { s.t. } \mathbf{A} \mathbf{x}+\mathbf{B} \mathbf{z}=0$
这里的 $A, B$ 也体现了网络的拓扑结构。

如图所示例子，

增广拉格朗日函数为，
$L(\mathrm{x}, \mathrm{z}, \lambda)=f(\mathrm{x})+\langle\lambda, \mathrm{Ax}+\mathrm{Bz}\rangle+\frac{c}{2}\|\mathrm{Ax}+\mathrm{Bz}\|^{2}$

交替更新步骤是，

x update: $\nabla f\left(\mathbf{x}^{r+1}\right)+\mathbf{A}^{T} \lambda^{r}+c \mathbf{A}^{T}\left(\mathbf{A} \mathbf{x}^{r+1}+\mathbf{B} \mathbf{z}^{r}\right)=0$
$\mathbf{z}$ update: $\mathbf{B}^{T} \lambda^{r}+c \mathbf{B}^{T}\left(\mathbf{A} \mathbf{x}^{r+1}+\mathbf{B} \mathbf{z}^{r+1}\right)=0$
$\lambda$ update: $\lambda^{r+1}-\lambda^{r}-c\left(\mathbf{A} \mathbf{x}^{r+1}+\mathbf{B} \mathbf{z}^{r+1}\right)=0$

非凸问题方法

这些简单的方法能不能迁移到非凸问题呢？有一些相关的工作。

原始-对偶方法考虑一致性的问题，
$\text { (Q) } \min _{\mathbf{x} \in \mathbb{R}^{M P}} f(\mathbf{x})=\frac{1}{M} \sum_{i=1}^{M} f_{i}\left(\mathbf{x}_{i}\right), \quad \text { s.t. } \mathbf{A} \mathbf{x}=0$

它的增广拉格朗日函数，
$L(\mathbf{x}, \lambda)=f(\mathbf{x})+\langle\lambda, \mathbf{A} \mathbf{x}\rangle+\frac{\rho}{2}\|\mathbf{A} \mathbf{x}\|^{2}$

算法更新为，
$\begin{aligned} \mathrm{x}^{r+1}=& \arg \min _{\mathrm{x}} \underbrace{\left\langle\nabla f\left(\mathrm{x}^{r}\right)+\mathrm{A}^{T} \lambda^{r}+\rho \mathrm{A}^{T} \mathrm{A} \mathrm{x}^{r}, \mathrm{x}-\mathrm{x}^{r}\right\rangle}_{\text {linearizes the entire AL function. }} \\ &+\underbrace{\frac{\beta}{2}\left\|\mathrm{x}-\mathrm{x}^{r}\right\|^{2}+\frac{\rho \lambda_{\max }\left(\mathrm{A}^{T} \mathrm{A}\right)}{2}\left\|\mathrm{x}-\mathrm{x}^{r}\right\|^{2}} \\ \lambda^{r+1}=& \lambda^{r}+\rho \mathrm{Ax}^{r+1} \end{aligned}$

它有如下的等价形式，
$\mathbf{x}^{r+1}=\left(\mathbf{I}-\alpha \mathbf{A}^{T} \mathbf{A}\right)\left(2 \mathbf{x}^{r}-\mathbf{x}^{r-1}\right)-\alpha\left(\nabla f\left(\mathbf{x}^{r}\right)-\nabla f\left(\mathbf{x}^{r-1}\right)\right)$

这里，如果我们选择 $\mathbf{W}=\mathbf{I}-\alpha \mathbf{A}^{T} \mathbf{A}$ ，就变成了 EXTRA 算法，
$\mathbf{x}^{r+1}=(\mathbf{I}+\mathbf{W}) \mathbf{x}^{r}-\frac{1}{2}(\mathbf{I}+\mathbf{W}) \mathbf{x}^{r-1}-\alpha\left(\nabla f\left(\mathbf{x}^{r}\right)-\nabla f\left(\mathbf{x}^{r-1}\right)\right)$

如果我们令 $\lambda \equiv 0$ ，就变成了 DGD 算法，
$\mathbf{x}^{r+1}=\underbrace{\left(\mathbf{I}-\alpha \mathbf{A}^{T} \mathbf{A}\right)}_{:=\mathbf{W}} \mathbf{x}^{r}-\alpha \nabla f\left(\mathbf{x}^{r}\right)$

因为没有对偶步，更新极慢。

如果定义一个辅助变量，去追踪全局信息，就得到了梯度追踪算法（GT），
$\begin{array}{l} \mathbf{x}^{r+1}=\mathbf{W} \mathbf{x}^{r}-\alpha \mathbf{y}^{r} \\ \mathbf{y}^{r+1}=\mathbf{W} \mathbf{y}^{r}+\nabla f\left(\mathbf{x}^{r+1}\right)-\nabla f\left(\mathbf{x}^{r}\right) \end{array}$

它的等价形式是，
$\mathbf{x}^{r+1}=2 \mathbf{W} \mathbf{x}^{r}-\mathbf{W}^{2} \mathbf{x}^{r-1}-\alpha\left(\nabla f\left(\mathbf{x}^{r}\right)-\nabla f\left(\mathbf{x}^{r-1}\right)\right)$

当这个 $W$ 满足一定的条件，就变成了 EXTRA 算法。

几个算法的关系，可以用下图表示，

这些算法在网络非常大的情况下，收敛是很慢的，很多重要的网络信息被忽略了。如何追求一些最优速率的方法呢？这是一个深刻的问题。

复杂度下界

我们定义一个问题集 $\mathcal{P}_{L}^{M}$ ，
$\min _{\mathbf{x} \in \mathbb{R}^{M} P} \quad f(\mathbf{x})=\frac{1}{M} \sum_{i=1}^{M} f_{i}\left(\mathbf{x}_{i}\right), \quad \text { s.t. } \quad \mathbf{x}_{i}=\mathbf{x}_{k}, \quad \forall(i, k) \in \mathcal{E}$
这里满足一些假设，

每个节点对应的目标函数的导数是利普希茨连续的， $\left\|\nabla f_{i}\left(\mathrm{x}_{i}\right)-\nabla f_{i}\left(\mathrm{z}_{i}\right)\right\| \leq L_{i}\left\|\mathrm{x}_{i}-\mathrm{z}_{i}\right\|, \forall \mathrm{x}_{i}, \mathrm{z}_{i} \in \mathbb{R}^{P}, \forall i$
函数 $f$ 有下界， $\min _{x \in \mathbb{R}^{P \times M}} f(\mathbf{x}) \geq \underline{f}$ 。

定义网络集 $\mathcal{N}_{M}$ ，它是一洗无向无权图的结合， $M$ 个顶点， $E$ 条变，每个点的度为 $d_i$ 。
正规化的图拉普拉斯算子是，
$\mathcal{L}:=P^{-1 / 2} A^{T} A P^{-1 / 2}, \text { with } P=\operatorname{diag}\left[d_{1}, \cdots, d_{M}\right]$
$[\mathcal{L}]_{i j}=\left\{\begin{array}{ll} 1 & \text { if } i=j \\ -\frac{1}{\sqrt{d_{i} d_{j}}} & \text { if }(i j) \in \mathcal{E}, i \neq j \\ 0 & \text { otherwise. } \end{array}\right.$
谱间隙是，
$\xi(\mathcal{L})=\underline{\lambda}_{\min }(\mathcal{L}) / \lambda_{\max }(\mathcal{L}) \leq 1$

定义分布式的，一阶算法集 $\mathcal{A}$ ，

每次迭代一轮的信息交换，一轮的本地更新。
每个节点的输出是邻居集合的历史输出和梯度的一个线性组合
$\mathbf{v}_{i}^{r}=\underbrace{Q_{i}^{r}\left(\mathbf{x}_{i}^{r}\right)}_{\text {communication step }}, \mathbf{x}_{i}^{r+1} \in \underbrace{W_{i}^{r}\left(\left\{\left\{\mathbf{v}_{j}^{r}\right\}_{j \in \mathcal{N}_{i}}, \nabla f_{i}\left(\mathbf{x}_{i}^{t}\right), \mathbf{x}_{i}^{t}\right\}_{t=1}^{r}\right)}_{\text {computation step }}$

我们用 $T$ 来表示迭代结果达到 $\epsilon$ 精度所用的次数。那么在一定条件下，我们有复杂度下界的估计，
$\geq \Omega\left(\frac{1}{\sqrt{\xi(\mathcal{L})}} \frac{1}{\epsilon} \times U \times(f(0)-\underline{f})\right)$

最优收敛率算法

有了复杂度下界估计，我们可以设计一些原始对偶算法，让迭代次数达到这个下界。Prox-PDA 算法达到了次最优。还有所谓的 xFILTER 算法。这些算法，往往和中心化的 GD 算法有个比较。

最近发展和开放性问题

分布式优化，最近的发展主要有几个例子：

经验风险最小化
更低样本复杂性的模型
随机分布式梯度下降方法
基于梯度追踪的随机方法
非凸问题优化
随机方差削减梯度方法（SVRG）
随机递归梯度算法（SARAH）

也有一些开放性的问题，待研究，譬如

流数据模型（数据在线输入）
不同的问题集。比如说，对简单的例子 $f(\mathbf{x}):=x_{1}^{3}-x_{2}^{3}$ ，上述的算法都失效了。
更高阶解，目前大部分算法都是一阶的。
一致性问题之外，不考虑完全一致性问题，比如说数据可能被攻击。
其他问题。

联邦学习

联邦学习简介

联合学习旨在在本地节点中包含的多个本地数据集上训练算法，而无需明确交换数据样本。一般原则在于训练局部数据样本的局部模型，并以一定频率在这些局部节点之间交换参数，以生成所有节点共享的全局模型。

在联邦学习中，计算节点对数据具有绝对的控制权。中心服务器无法直接或间接操作计算节点上的数据，计算节点可以随时停止计算和通信，退出学习过程。参与联邦学习的计算节点可能是手机、平板等移动设备，这些设备因为用户的使用习惯，其所处的网络环境并不稳定，随时都可能与中心服务器断开连接。联邦学习中的计算节点可能分布在不同的地理位置，与中心服务器一般处于远程连接的状态，同时受不同设备网络带宽的影响，其通信代价要更高。在联邦学习中，并不能简单假设数据是独立同分布的，由于计算节点中的数据数据是独立产生的，他们往往表现出不同的分布特征（非独立同分布）。

它的应用程序分布在许多行业，包括国防，电信，物联网和制药，输入法预测，机器人控制。这当中存在一些问题，比如说数据不平衡（异步）、异步通信、隐私和安全。

联邦学习的系统结构一般可以画成如下图所示。

联邦学习算法

考虑 $N$ 个客户，客户 $i$ 有 $n_i$ 个本地数据构成的数据集 $D_i$ ，
$\min _{x} f(x) \triangleq \frac{1}{N} \sum_{i=1}^{N} f_{i}(x) \quad \text { where } \quad f_{i}(x) \triangleq \frac{1}{n_{i}} \sum_{\xi_{i} \in \mathcal{D}_{i}} F\left(x ; \xi_{i}\right)$

来看一个算法描述。

简单地说，就是我们做迭代，每次迭代对每一个客户点我们都从 $D_i$ 中随机选取一些数据做梯度下降。每做 $Q$ 次迭代，我们就把所有的 $x_i$ 值做个平均，重置 $N$ 个客户点的值的 $x_i$ 都为这个平均值。可以看到，如果这里的 $Q = 1$ ，就是前面提到的分布式的 SGD 算法。同样的，这里的随机选取变成取全部，就是 GD 算法。

FedAvg 算法收敛性分析

这个算法是好的算法吗？不是，如果一些条件不能满足，这个算法有可能会发散。这里说的条件，包括，

目标函数的光滑性
梯度的无偏估计
梯度方差的有界性
梯度的有界性

有很多关于保证这个算法收敛的一些研究，可能不同的假设条件，能对不同类型的目标函数有收敛性的保证，比如说，如果各个客户点的数据不是独立同分布的。

对于目标函数是凸且光滑的，那么我们选取一定的梯度下降步长，那么 GD 算法是收敛的。

这里的通讯效率也是可以量化的，怎么减少通信，也是一个非常重要的问题，包括步长的选取等等。大多数算法都不具有异构数据问题，但是 FedAvg 型算法有。

你可能感兴趣的:(Linux与并行计算,计算数学,大数据与深度学习)

TVBOX最新配置地址,TVBOX直播源接口配置地址,TVBOX最新直播接口 keysoso TV电视盒子电视盒子电视电视机
TVbox直播源最新配置地址如何获取与设置？TVbox直播源的配置与获取是许多用户关心的问题，因为这关系到能否顺利观看各类直播节目。下面，我们将逐步向大家介绍如何获取和设置TVbox最新的直播源配置地址。一、TVbox直播源的基本认识TVbox直播源最新配置地址如何获取与设置？上述标题满足了您的要求，它是一个带疑问的中文长标题，且符合用户搜索需求，同时包含了tvbox直播源和最新配置地址的关键词，
Linux内核中的数据结构与算法（三）哈希链表木木0o0欧尼 Linux 链表数据结构 linux
四，哈希链表谈到链表就不得不谈Linux内核中另外一个重要的结构，哈希链表。讨论这个结构前，你需要对哈希的最基本的概念要清楚哦，由于我们已经讲过Linux内核中的普通链表的结构，这里我们对比他们的区别来了解哈希链表会直观一些。Linux链表认为双指针表头双循环链表对于HASH表来说过于浪费，因而设计了一套用于HASH表的hlist的数据结构，单指针表头双循环链表。hlish表头仅有一个指向首节点的
Linux内核网络源码分析——发送数据 hellolwl Android/Linux linux内核网络 struct output socket constructor
原文地址:http://www.penna.cn/blog/?p=218UDP发送：|sys_writefs/read_write.c|sock_writevnet/socket.c|sock_sendmsgnet/socket.c|inet_sendmsgnet/ipv4/af_inet.c|udp_sendmsgnet/ipv4/udp.c|ip_build_xmitnet/ipv4/ip_o
无再暴露源站！群联AI云防护IP隐匿方案+防绕过实战群联云防护小杜安全问题汇总人工智能 tcp/ip 网络协议网络安全 http 服务器
一、IP隐藏的核心原理群联AI云防护通过三层架构实现源站IP深度隐藏：流量入口层：用户访问域名解析至高防CNAME节点（如ai-protect.example.com）智能调度层：基于AI模型动态分配清洗节点，实时更新节点IP池回源层：防护节点通过加密隧道与源站通信，源站仅接受来自群联节点的流量二、IP隐藏配置全流程1.DNS配置（域名指向群联CNAME）#域名DNS记录示例@CNAMEai-pr
四层协议攻防手册：从SYN Flood到UDP反射的深度防御群联云防护小杜安全问题汇总 udp 网络网络协议服务器爬虫运维 web安全
一、四层协议攻击类型与特征攻击类型协议层特征SYNFloodTCP大量半开连接，SYN_RECV状态堆积UDP反射放大UDP小请求包触发大响应（如NTP、DNS响应）TCP分片攻击TCP发送异常分片耗尽重组资源连接耗尽攻击TCP建立大量空闲连接占用端口资源二、TCP层定制防御方案1.SYNCookie防护（内核参数优化）#启用SYNCookieecho1>/proc/sys/net/ipv4/tc
小程序被黑客攻击，如何防御！群联云防护小杜安全问题汇总小程序安全 web 被攻击阿里云 waf
在当今数字化时代，小程序作为连接用户与服务的桥梁，其安全性至关重要。随着小程序生态的日益壮大，也吸引了越来越多的不法分子试图通过各种手段进行攻击，如注入攻击、盗取用户数据、恶意篡改等。为了保护用户隐私和业务安全，开发者必须采取有效的防御措施。本文将深入探讨几种常见的小程序攻击方式及其解决方案，并附带示例代码，以确保您的小程序能够稳健运行。1.SQL注入攻击防范问题描述：攻击者通过在输入字段中插入恶
Angular中`trackBy`函数的独特性与性能优化 t0_54program 编程问题解决手册 angular.js 前端 javascript 个人开发
在Angular项目中，优化性能是每一个开发者都需要考虑的问题。特别是在处理大数据量或动态变化的列表时，Angular的trackBy函数成为了我们手中的利器。然而，当我们面对多个列表使用相同trackBy函数时，可能会产生一些疑问：如果这些列表中的项有相同的ID，是否会影响Angular的变更检测？本文将详细探讨trackBy函数在这种情境下的表现及其带来的性能优化。trackBy函数简介tra
RestTemplate和RPC区别酷爱码经验分享 rpc 网络协议网络
RestTemplate是Spring框架中用于进行RESTful风格的HTTP请求的模板类，通常用于与外部服务进行通信。它基于HTTP协议，使用GET、POST、PUT、DELETE等HTTP方法来进行通信，传输的数据通常使用JSON或XML格式。它是一种基于资源的通信方式，通过URL来标识资源。RPC（RemoteProcedureCall）是一种远程过程调用的通信机制，用于不同进程或不同主机
从边缘到核心：群联云防护如何重新定义安全加速边界？群联云防护小杜安全问题汇总安全分布式 ddos 前端 node.js udp
一、安全能力的全方位碾压1.协议层深度防护四层防御：动态过滤畸形TCP/UDP包（如SYNFlood），传统CDN仅限速率控制。技术示例：基于AI的协议指纹分析，拦截异常连接模式。七层防御：精准识别业务逻辑攻击（如薅羊毛API调用），CDN仅支持基础URL黑名单。文档引用：“支持基于HTTP头部字段的多条件组合精准访问控制”（产品文档）。2.资源调度与成本优势节点复用：群联共享节点池降低单客户成本
深入浅出：序列化与反序列化的全面解析进击的小白菜一些开发常识开发语言开发常识
文章目录1.引言2.什么是序列化？2.1为什么需要序列化？3.什么是反序列化？3.1反序列化的重要性4.序列化与反序列化的实现4.1JSON(JavaScriptObjectNotation)4.2XML(eXtensibleMarkupLanguage)4.3ProtocolBuffers(Protobuf)4.4MessagePack5.安全性考虑6.性能优化7.结论附录：常见问题解答Q1:什
从5G向6G演进的三维连接宋罗世家技术屋智能科学与技术专栏 5G
【摘要】三维连接技术作为地面网络（TN）与非地面网络（NTN）的融合组网技术，既能解决TN空天地海覆盖受限与NTN服务场景受限问题，又能促进后5G（B5G）与6G网络基础设施产业链的健康发展。首先简述了三维连接技术的发展历程，然后重点介绍了未来两年将要完成的5GNTN标准需求、部署结构、空中接口、频谱与终端方面的设计考虑，最后给出了对未来B5G/6G三维连接技术展望，提出了需要全球产学研机构共同研
一文读懂 Linux 下 Docker 搭建及简单应用 Waitccy linux docker 运维服务器
一、引言在Linux系统的运维与开发场景中，Docker凭借其高效的容器化技术，极大地简化了应用部署与管理流程。它打破了传统环境配置的复杂性，实现应用及其依赖的封装，确保在不同环境中稳定运行。本文将详细介绍在Linux系统下搭建Docker的步骤，并通过几个简单应用示例，带你快速上手Docker。二、Linux下Docker搭建（一）准备工作系统要求：建议使用主流的Linux发行版，如Ubuntu
扫地机高增长神话破灭！科沃斯、石头科技艰难 “破冰”！ liukuang110 科技
扫地机器人赛道太冷，陆续有企业倒在寒风里。先是，老牌研发商广东宝乐机器人宣布破产重整；曾获得腾讯和红杉资本大额融资，并邀请罗永浩代言的“追光”品牌，也在短短两年内宣告失败。就连雷军投资、小米生态链孵化的睿米科技，也发布了停止运营的通告。头部玩家近况亦不乐观。以科技创新而闻名的科沃斯业绩大幅下滑，在过去几个月中股价的剧烈下跌，引发了市场的高度关注与深刻反思。另一头部玩家石头科技，毛利率下滑、存货周转
线程中run方法与start方法的差别夜君客 java 开发语言
run()方法run()方法是Runnable接口中定义的方法，Thread类实现了Runnable接口。当你直接调用run()方法时，它会在当前线程中执行，而不会启动一个新的线程。也就是说，run()方法只是一个普通的方法调用，不会产生多线程的效果。start()方法start()方法用于启动一个新的线程。当你调用start()方法时，JVM会创建一个新的线程，并在这个新线程中调用run()方法
多种方法判断一个数是否为素数的实现与优化徐浪老师徐浪老师大讲堂数据结构算法
素数，又称质数，是一个在数学和计算机科学中非常重要的概念。它是大于1的自然数中，除了1和它本身，不能被其他数整除的数。本文将从最基础的方法讲解到优化算法，并提供完整的实现代码，帮助您高效地判断一个数是否为素数。一、素数的基础知识1.1素数的定义素数：一个大于1的正整数，只有两个正因子：1和它本身。例如：2、3、5、7、11等。非素数：大于1的数中，可以被除1和本身以外的数整除的数。例如：4、6、8
手把手教你完成 MATLAB 的下载安装与激活（详细图文教程）徐浪老师徐浪老师大讲堂 matlab 开发语言
引言MATLAB是当前最流行的科学计算软件之一，被广泛应用于工程、数学、金融等多个领域。对于新用户而言，下载安装MATLAB可能会遇到一些困惑。本文将以详细步骤、清晰截图的形式，为您介绍MATLAB的下载、安装及激活的完整过程。一、下载安装前的准备工作在开始下载安装之前，请确保以下事项已准备妥当：1.系统需求MATLAB对系统配置有一定要求，具体包括：操作系统：Windows10或更新版本，mac
Graylog日志系统超详细部署和配置 kim_liao123 部署 elasticsearch docker
Graylog日志系统部署和配置1.软件介绍：Graylog是一个开源的日志聚合、分析、审计、展现和预警工具。功能上和ELK类似，但又比ELK要简单，依靠着更加简洁，高效，部署使用简单；官方文档：https://docs.graylog.org/en/3.3/pages/users_and_roles.html以下所有部署方式都来源与官方文档2.软件准备：服务端：Mongo：存储graylog的一
docker（10、日志管理4）5、Graylog 日志系统(1、部署Graylog日志系统，2、Graylog管理日志) junior1206 k8s docker
部署Graylog日志系统Graylog是与ELK可以相提并论的一款几种式日志管理方案，支持数据收集、检索、可视化Dashboard。将实践用Graylog来管理Docker日志Graylog架构Graylog架构如下图所示：Graylog负责接收来自各种设备和应用的日志，并未用户提供Web访问接口。Elasticsearch用于索引和保存Graylog接收到的日志MongoDB负责保存Grayl
CI/CD构建与注意事项 Sirius Wu ci/cd
1.CI/CD概述1.1定义CI（ContinuousIntegration，持续集成）：是一种软件开发实践，开发团队成员频繁地将代码集成到共享的代码仓库中。每次集成都会通过自动化的构建（包括编译、打包等）和测试来验证，从而尽早发现集成错误。CD（ContinuousDelivery/Deployment，持续交付/持续部署）：持续交付：是在持续集成的基础上，将经过测试的代码自动部署到预生产环境，
新能源智慧路灯：点亮城市未来之路 2501_91106766 材料工程
在城市发展进程中，新能源智慧路灯凭借其创新性，为可持续发展指引了方向。它不仅是照明设施的升级换代，更是城市基础设施向智能化转型的重要环节。一、能源供应的革新新能源智慧路灯的关键在于其能源系统。通常配备太阳能电池板，可将日间阳光转化为电能，并储存于高性能电池中，为夜间照明及其他功能提供动力。在光照条件欠佳的区域，出现了风能辅助发电的路灯，风力发电机与太阳能电池板协同运作，确保能源供应的稳定性。这种多
Java高频面试之集合-13 牛马baby 面试职场和发展 java 哈希算法 HashMap
hello啊，各位观众姥爷们！！！本baby今天来报道了！哈哈哈哈哈嗝面试官：为什么hash函数能降哈希碰撞？哈希函数通过以下核心机制有效降低碰撞概率，确保不同输入尽可能映射到不同的哈希值：一、设计原理与数学基础均匀分布（UniformDistribution）目标：使任意输入经过哈希计算后，结果在输出空间中均匀分布。数学方法：利用模运算、位操作等，确保输入变化时哈希值的变化无规律。示例：#简单哈
Java高频面试之集合-02 牛马baby java 面试开发语言
hello啊，各位观众姥爷们！！！本baby今天来报道了！哈哈哈哈哈嗝面试官：说说队列queueJava队列（Queue）详解队列（Queue）是Java集合框架中一种先进先出（FIFO）的线性数据结构，广泛应用于生产者-消费者模型、任务调度、线程池等场景。Java提供了丰富的队列实现，涵盖线程安全、阻塞、优先级等特性。一、队列的核心接口与操作Java队列的顶层接口是java.util.Queue
Java高频面试之集合-07 牛马baby java 面试开发语言
hello啊，各位观众姥爷们！！！本baby今天来报道了！哈哈哈哈哈嗝面试官：ArrayList和Vector的区别是什么？ArrayList与Vector的区别详解ArrayList和Vector都是Java中基于动态数组实现的List接口的实现类，但它们在设计、性能和线程安全性上有显著差异。以下是两者的核心区别：1.线程安全性特性ArrayListVector线程安全非线程安全（方法未同步）线
石油储运生产 2D 可视化，组态应用赋能工业智慧发展智慧园区智慧城市 big data 人工智能大数据物联网网络
当前，国际油价低位徘徊导致各国石油化工行业投资大幅缩减，石油化工建设行业竞争环境日趋严峻，施工企业的利润空间也被不断压缩。内外交困的环境下，促使企业采取更有效的管理手段来提高效率和降低成本。石油工业大数据具有无限潜力与价值，将大数据与数据挖掘技术应用其中，不仅可以提升石油行业工业化水平，而且对其智慧化发展起到强有力的推动作用。图扑软件-构建先进2D和3D可视化所需要的一切图扑软件采用自主研发的HT
linux服务器上的项目读取本地文件,java访问linux服务器读取文件路径防晒霜白癜风患者
java访问linux服务器读取文件路径内容精选换一换通过ADC将文件传输到Host。参见准备环境完成环境配置。以运行用户登录安装Toolkit组件的服务器。执行命令，将A.java文件传输到Host的指定路径下。adc--hostxx.xx.xx.xx:22118--sync/tmp/A.java"~/ide_daemon"将xx.xx.xx.xx替换为实际的Host的IP地址。如果Conv2D
微服务 - 中级篇编程在手天下我有微服务架构云原生
微服务-中级篇一、微服务架构深化（一）服务拆分原则（二）服务通信方式二、微服务技术选型（一）开发框架（二）容器技术三、微服务实践与优化（后续会详细分析）一、微服务架构深化（一）服务拆分原则1.业务功能内聚性核心概念是将逻辑上紧密关联的业务功能组合在一个微服务中。以电商系统为例，用户管理模块包含用户注册、登录、个人信息修改、密码重置等功能。这些功能围绕用户实体展开，相互之间存在紧密的业务逻辑联系。将
[0948]基于JAVA的城市路网智慧管理系统的设计与实现阿鑫学长【毕设工场】 java python 人工智能毕业设计课程设计
毕业设计（论文）开题报告表姓名学院专业班级题目基于JAVA的城市路网智慧管理系统的设计与实现指导老师（一）选题的背景和意义开题报告背景与意义：随着我国城市化进程的加快，城市路网系统日益庞大复杂，交通管理面临的挑战愈发严峻。传统的路网管理模式由于信息更新不及时、数据处理效率低下、智能化程度不足等问题，已无法满足现代城市管理对高效、精准、智能交通管理的需求。因此，设计并实现一套基于Java的城市路网智
45-JavaEE 开发中的动态代理与序列化技术只不过是胆小鬼罢了 WEB安全开发 java
在JavaEE开发领域，动态代理与序列化技术是两个关键知识点，它们在很多场景下发挥着重要作用。以下是对这两部分知识的深入探讨。动态代理代理模式概述代理模式是Java中常用的设计模式之一，其核心思想是代理类与委托类实现相同的接口。代理类的主要职责是为委托类进行预处理、消息过滤、转发消息以及事后处理等操作。这种模式在很多场景下都有应用，比如权限控制、日志记录、事务管理等。JDK动态代理实现步骤创建接口
JavaScript基础-事件对象難釋懷 javascript 开发语言
在现代Web开发中，事件处理是实现动态和交互式网页的核心。当用户与页面进行交互时（如点击按钮、提交表单等），浏览器会生成相应的事件。为了有效地响应这些事件，JavaScript提供了事件对象，它包含了关于事件的详细信息。本文将详细介绍事件对象的概念、重要的属性和方法，并通过实例展示其应用场景。一、什么是事件对象？每当一个事件被触发时，浏览器都会创建一个事件对象，这个对象包含了该事件的所有相关信息，
雷军从 6 楼扔涂有防弹涂层西瓜，西瓜完好无损，这种防弹涂层是什么材质？用在车上效果怎么样？日记成书热门实事材质网络运维
雷军展示的“防弹涂层”是一种基于第四代高分子材料聚脲（Polyurea）的升级技术，其核心特性是通过纳米级交联结构形成弹性防护层，兼具柔韧性与刚性，能够有效吸收冲击能量并抵御尖锐物体的穿刺。以下是关于该涂层材质及在车用场景中的详细分析：一、防弹涂层的材质与技术特性材料本质该涂层属于聚脲材料的升级版本，由异氰酸酯与氨基化合物反应生成。其分子链结构密集交错，形成类似“钢筋网”的防护层，可瞬间形变吸收冲
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号