以负熵为食

PRML附录笔记

Appendix A. Data set

Handwritten Digits

本书所使用的handwritten digits来自于MNIST数据集，每一张image的size为28×28，且每一个元素中的值都是grey scale。

Synthetic Data

整本书中使用了两个simple synthetic data sets。
第一个是关于regression problem的，它是由正弦函数拟合而来的，如下图所示：

首先input values ${x_n\}$ 通过在(0,1)上的均匀分布进行生成，然后target values ${t_n\}$ 的生成是由两个terms相加得到的：第一个term是sin( $2\pi x$ )，第二个term是random noise (通过一个方差为0.3的Gaussian distribution生成)。
第二是关于classification problem的，该problem的类别有两个，其中的prior为两个类别概率相等，如下图所示：

其中blue class来自于一个Gaussian distribution，而red class来自于两个Gaussian distribution的混合分布。由于我们明确知道prior和class-conditional probability，因此我们可以算出真实的posterior probability，画出这个probability，并画出最小决策边界（如图中所示）。

Appendix C. Properties of Matrices

Appendix D. Calculus of Variations

其实书中关于变分法的一些内容我没太理解。因此下面先对网上一些课程中变分法的思进行归纳。

约翰·伯努利曾问到一个问题：如果在空间上有两个点：点1和点2。然后，我会创造出一些没有摩擦力的轨道，连接点1和点2，如下图所示：

如果我放一个小球，从点1滚到点2，那么请问，我从哪一个线开始，放一个小球滚下来，会使得我所耗费的时间最短。数学上的证明表示，走摆线的时间最短。
而研究走哪条线最短，其核心在于，将球所走的所有可能函数都抓进来，我们来对这一个函数的集合进行研究，并得到其中那个能使得时间最短的函数。那么此时，我们就可以说，这个函数就是我们所要的函数。
这就是变分法的基本原理。
关于小球下落后的时间消耗公式推导在此略去，最终的时间消耗结果为：

$T=\int \frac{\sqrt{1+y\prime}}{\sqrt{2gy}}\text{d}x$

由此，我们可以看到，这里的T其实是y的函数，当y在变化的时候，T的值也在不断变化。而y其实是函数，所以T其实就是函数的函数，不同的函数会对应到不同的T的值。所以这里的T函数就是所谓的“泛函”。

预备定理

（1）

对于下式：
$\int_a^bM(x)h(x)\text{d}x=0$
其中，有 $h (a) = 0, h (b) = 0$ , 且h为任意函数，那么显然有 $M (x)$ 是零函数（ $M (x) = 0$ ）。
这个结论可以推广到以多个函数为变数的变分问题：
$\int_a^b[M(x)\eta(x)+N(x)\epsilon(x)]\text{d}x=0$
其中 $\eta(x)$ 和 $\epsilon(x)$ 都是任意的函数，那么有 $M (x) = 0, N (x) = 0$ 。

假设存在一个解 $F (x)$ ，使得降落时间T最短。同时，我假设 $\bar{F}(x)$ 为所有函数的函数族。虽然这两个函数我都不知道，但是我知道这两个函数之间是会有差别的，我们设差别为 $D (x)$ ，则：
$\bar{F}(x)-F(x)=D(x)$
此时我们引入一个常数 $\epsilon$ , 对于这个常数，我们有：
$\epsilon \frac{D(x)}{\epsilon}=\epsilon \eta(x)$

所以我们有：
$\bar{F}(x)=F(x)+\epsilon \eta(x)$
此时，由于 $\eta(x)$ 是一个任意函数，于是我们就得到了一个以 $\epsilon$ 为参数的函数族 $\bar{F}(x)$ 。
但是这里的 $\eta(x)$ 函数需要满足一些重要的性质，即它在1点和2点的横坐标处（分别设为a和b），有 $\eta(a)=0, \eta(b)=0$ 。
此外， $\eta$ 函数要求其具有较好的连续性，即一阶导数和二阶导数都存在。这两个对 $\eta$ 函数的约束，其实质意义是因为降线的一些基本性质，我们通过这些基本性质，对我们所要寻找的函数所在的空间进行收缩约束。

根据 $\bar{F}(x)$ 的公式可知，无论其他地方如何选取，只要 $\epsilon$ 趋近于0，那么 $\bar{F}(x)$ 一定会趋近于那一个最佳的 $F (x)$ （只是说，由于 $\eta$ 的不同，我们趋近于0的方式会有所不同）。

Euler方程

对于下式：
$I(\epsilon)=T(\bar{y})=\\ \int_{x_1}^{x_2}\sqrt{\frac{1+(\bar{y}\prime)^2}{2g\bar{y}}}\text{d}x=\\ \int_{x_1}^{x_2}F(x,\bar{y},\bar{y\prime})\text{d}x$
这里面的 $\bar{y}$ 就是我选取的某一个曲线，这个曲线对应着一个降落的时间 $T(\bar{y})$ 。在这里的 $\bar{y}, \bar{y}\prime)$ 中，除了x这个自变量之外，还有 $\bar{y},\bar{y}\prime$ , 表示各种可能的试验函数，对应着不同的降落曲线，这样的函数不止一个。因此这样的F被称为“泛函”。
对这个泛函做积分之后，我们就可以得到我们想要的时间 $T$ 。
由之前 $F$ 和 $\bar{F}$ 的关系，我们可以得到：
$\bar{y}=y+\epsilon \eta$
以及
$\bar{y}\prime=y\prime +\epsilon\eta\prime$
其中后者需要利用一下求导的性质。
因此，之前关于 $I(\epsilon)$ 的式子可以写成：
$\int_{x_1}^{x_2}F(x,y+\epsilon\eta,y\prime+\epsilon\eta\prime)\text{d}x$
注意，我们不能忘记的一个前提是，当 $\epsilon$ 趋近于0的时候，我们的 $\bar{y}$ 就会趋近于我们所要找到的这个解 $y$ 。同时我们注意到，这里的 $\eta , \bar{y}, \bar{\eta}$ 都是x的函数，所以当这个积分式进行计算的时候，所有关于x的部分都消掉了，因此这个式子的最终结果中就只剩下 $\epsilon$ 了，即这个积分的结果其实是一个 $\epsilon$ 的函数。这个函数有一个特性，即“当 $\epsilon$ 趋近于0的时候，这个函数最小”。也就是说，在 $\epsilon=0$ 的这个点上，会出现极值，也即 $I(\epsilon)$ 的微分为0，即：
$\left.\frac{\text{d}I}{\text{d}\epsilon}\right|_{\epsilon=0}=0$
因此我们可以通过对 $I(\epsilon)$ 求导的方式，得到：
$\left.\frac{\text{d}I}{\text{d}\epsilon}\right|_{\epsilon=0}=\int_{x_1}^{x_2}\frac{\partial F}{\partial \epsilon}\text{d}x=\\ \int_{x_1}^{x_2}(\frac{\partial F}{\partial y}\eta+\frac{\partial F}{\partial y\prime}\frac{\text{d}\eta}{\text{d}x})\text{d}x=\\ \int_{x_1}^{x_2}(\frac{\partial F}{\partial y}-\frac{\text{d}}{\text{d}x}(\frac{\partial F}{\partial y\prime}))\eta\text{d}x$
又根据前面的预备定理，因为 $\eta$ 是任意的函数，所以有：
$\frac{\partial F}{\partial y}-\frac{\text{d}}{\text{d}x}(\frac{\partial F}{\partial y\prime})=0$
这就是Euler方程。那么满足这个条件的函数y的意义是什么？意义在于，满足这个条件的y，会使得F产生极值。或者反过来说，如果一个函数不能使得这个式子为0，那么微分 $\left.\frac{\text{d}I}{\text{d}\epsilon}\right|_{\epsilon=0}$ 就不会为0，所以这样的函数y就不会使这个泛函F产生极值。

回到附录的内容

我们可以将一个方程 $y (x)$ 看作是一个运算符，它通过输入一个值 $x$ 的方式，得到输出值 $y$ 。对于一个泛函 $F [y]$ , 我们可以将一个函数 $y (x)$ 作为它的输入，将，将 $F$ 作为它的输出。一个经典的泛函例子是，我们通过二维平面的一条曲线的函数，计算得到这条曲线的长度。。
在machine learning 中，泛函被用于entropy $H [x]$ 中。因为，针对一个连续的变量x，我们将它的任意一种概率密度函数 $p (x)$ 输入到这个entropy中，最终我们都会得到一个scalar value。因此，关于 $p (x)$ 的entropy可以被写为 $H [p]$ 。

函数 $y (x)$ 的一个重要问题是，寻找一个x，使得函数 $y (x)$ 的值最大（或最小）。对于泛函而言，它的一个重要问题是，寻找一个函数y，使得泛函 $F [y]$ 的取值最大（或最小）。
我们可以通过泛函求极值的方式，发现“两点之间线段最短”这个结论，也会发现“最大熵分布是高斯分布”这一结论。

我们可以用泰勒展开式的方式，来描述一个函数 $y (x)$ 中，当 $x$ 在小范围之内出现扰动时候的取值情况，并通过取极限的方式得到 $\frac{\text{d}y}{\text{d}x}$ ：
$y(x+\epsilon)=y(x)+\frac{\text{d}y}{\text{d}x}\epsilon+O(\epsilon^2)\ \ \ \ (D.1)$
然后我们可以通过极限 $\epsilon\to 0$ 的方式，得到 $\frac{\text{d}y}{\text{d}x}$ 的具体取值。类似的，通过一个具有多个变量的函数 $y(x_1,...,x_D)$ , 我们可以得到如下的式子：
$y(x_1+\epsilon_1, ..., x_D+\epsilon_D)=y(x_1, ..., x_D)+\sum_{i=1}^D\frac{\partial y}{\partial x_i}\epsilon_i + O(\epsilon^2)\ \ \ \ (D.2)$
以上两个式子展示了我们在函数中如何对导数/偏导数进行估计的方法。那么，类比而论，我们应该如何得到一个泛函在出现扰动 $\epsilon\eta(x)$ 的时候，其泛函导数的具体情况？其中， $\eta(x)$ 是一个关于x的函数，具体的函数曲线如下图所示：

我们将泛函 $E [f]$ 关于函数 $f (x)$ 的导数（变分）表示为 $\delta F/\delta f(x)$ 。注意，这里的 $E$ 是泛函，而 $F$ 是泛函中积分的被积函数（我们称之为“拉格朗日函数”），且变分的表达式是关于拉格朗日函数 $F$ 的式子。由此，我们定义以下关系式：
$F[y(x)+\epsilon\eta(x)]=F[y(x)]+\epsilon\int\frac{\delta F}{\delta y(x)}\eta(x)\text{d}x+O(\epsilon^2)\ \ \ \ (D.3)$

我们可以将其看作是(D.2)的一种自然的扩展，因为我们可以将一个函数看作是无限维的向量，每一个分量都是连续的值， $F [x]$ 以该向量作为输入。

此时我们给出一个定理（就是上面提到过的预备定理），即当下式成立时：
$\int \frac{\delta E}{\delta y(x)}\eta(x)\text{d}x=0\ \ \ \ (D.4)$

其中 $\eta(x)$ 是任意类型的函数。

有， $\frac{\delta E}{\delta y(x)}=0$ 。证明的方法其实就是对 $\eta(x)$ 进行一些特别的构造，让它在除了点 $x=\hat{x}$ 的一个小邻域之外的所有点的取值为0，那么此时如果要让式(D.4)为0的话，那么就有 $\frac{\delta E}{\delta y(x)}$ 在 $x=\hat{x}$ 的邻域内的取值都为0。把这种构造方法扩展到整个定义域，则有变分 $\delta E/\delta y(x)=0$ 。
考虑如如下定义的变分函数：
$F[y]=\int G(y(x), y\prime(x), x)\text{d}x\ \ \ \ (D.5)$
其中， $G$ 函数是拉格朗日函数，并且有函数 $y (x)$ 在积分区域的边界点是固定不动的。
如果我们考虑泛函 $F [x]$ 在 $y (x)$ 上的变分的话，有：
$F[y(x)+\epsilon\eta(x)]=F[y(x)]+\epsilon\int\left\{ \frac{\partial G}{\partial y}\eta(x)+\frac{\partial G}{\partial y\prime}\eta\prime(x) \right\} \text{d}x+ O(\epsilon^2)\ \ \ \ (D.6)$
为了将这个式子转换为(D.3)式（由此我们就可以得到这里变分的表达了），我们将(D.7)式中积分号内的第二项进行分步积分（其中利用了 $\eta(x)$ 在边界为0，这一边界条件），遂得到如下的式子：
$F[y(x)+\epsilon\eta(x)]=F[y(x)]+\epsilon\int\left\{ \frac{\partial G}{\partial y}-\frac{\text{d}}{\text{d}x}\left( \frac{\partial G}{\partial y\prime} \right) \right\} \eta(x) \text{d}x +O(\epsilon^2)\ \ \ \ (D.7)$
类比于公式(D.3)，我们可以得到这里的变分式子：
$\int\left\{ \frac{\partial G}{\partial y}-\frac{\text{d}}{\text{d}x}\left( \frac{\partial G}{\partial y\prime} \right) \right\}$
此时又根据预备定理，我们可以得到：
$\frac{\partial G}{\partial y}-\frac{\text{d}}{\text{d}x} \left(\frac{\partial G}{\partial y\prime}\right)=0\ \ \ \ (D.8)$
这就是著名的Euler-Lagrange 公式。

举个例子，如果我们的拉格朗日函数为：
$G=y(x)^2+(y\prime(x))^2\ \ \ \ (D.9)$
那么有Euler-Lagrange 公式为：
$y(x)-\frac{\text{d}^2y}{\text{d}x^2}=0\ \ \ \ (D.10)$
此时我们可以通过上面的公式与两个关于 $y (x)$ 的边界条件，求解得到 $y (x)$ 的值。
通常，我们定义的拉格朗日函数形式为 $G (y, x)$ , 此时该函数不依赖于 $y\prime(x)$ , 此时对于所有的x有欧拉函数的形式为： $\partial G/\partial y(x)=0$ 。
如果我们要对一个关于概率分布的泛函采用变分法，那么我们需要采用拉格朗日橙乘子的方式，在顾及normalization constraint的时候，采用一种unconstrained optimization。
拉格朗日乘子的具体方法见附录E部分。

Appendix E. Lagrange Multipliers

拉格朗日乘子用于寻找从拥有一个或多个约束条件的函数的驻点。

考虑一个寻找函数 $f(x_1, x_2)$ 最大值的问题，该问题有一个关于 $x_1,x_2$ 的约束条件：
$g(x_1, x_2)=0\ \ \ \ (E.1)$
一种方法是，直接把这个g函数求解出来，于是得到一种用 $x_1$ 表达 $x_2$ 的形式： $x_2=h(x_1)$ 。然后我们将这个结果代回原式： $f(x_1, h(x_2))$ , 然后我们只需要最大化这个关于 $x_1$ 的一元函数即可。我们利用常规的方法解出 $x_1^*$ , 然后得到 $x_2^*=h(x_2^*)$ 。

这种方法的一个问题在于，我们可能很难找到一个等式的解析解，因此无法将 $x_2$ 表示成 $x_1$ 的某种形式。

一种更为简洁的方式是使用被称为拉格朗日乘子的参数 $\lambda$ 。那么我们该如何理解这种方法？接下来我们将从图形的角度来解释这个方法。考虑一个D维的变量 $\mathbf{x}=(x_1, ..., x_D)$ 。约束条件 $g(\mathbf{x})=0$ 形成了一个D-1维度的在 $\mathbf{x}$ -上的空间。如下图所示：

首先，我们注意到，在这个约束表面的任何一个点处，这个约束条件的梯度 $\nabla g(\mathbf{x})$ 都是垂直于这个表面的。为了解释这个问题，我们考虑一个在约束表面上的点 $\mathbf{x}$ , 并且考虑该点周围的一个点 $\mathbf{x+\epsilon}$ , 我们假设这个点也同样在这个表面上。如果我们在 $\mathbf{x}$ 周围进行泰勒展开，就会得到：
$g(\mathbf{x+\epsilon})\simeq g(\mathbf{x})+\mathbf{\epsilon}^{\text{T}}\nabla g(\mathbf{x})\ \ \ \ (E.2)$
又因为 $\mathbf{x}$ 和 $\mathbf{x+\epsilon}$ 都在约束平面上，所以有 $g(\mathbf{x})=g(\mathbf{x+\epsilon})$ , 因此有 $\mathbf{\epsilon}^{\text{T}}\nabla g(\mathbf{x})\simeq 0$ 。当取得极限 $||\epsilon||\to 0$ 的时候，我们有 $\epsilon^{\text{T}}g(\mathbf{x})=0$ 。又因为我们知道， $\epsilon$ 与约束表面 $g(\mathbf{x})=0$ 是平行的，所以我们可以得出的结论是， $\nabla g$ 与表面垂直。

然后我们在这个约束面上选取一个能使得 $f(\mathbf{x})$ 值最大的点 $\mathbf{x}^*$ ，这样一个点同样具有性质： $\nabla f(\mathbf{x})$ 同样垂直于约束面（如上图所示），否则我们可以通过在约束面上移动一个小距离的方式，得到一个更大的 $f(\mathbf{x})$ 。因此， $\nabla f$ 和 $\nabla g$ 之间是平行的，即：
$\nabla f+\lambda \nabla g = 0\ \ \ \ (E.3)$
其中， $\lambda\neq 0$ , 它被称为“拉格朗日乘子”。并且注意， $\lambda$ 可以是正数或负数。

因此，我们可以定义拉格朗日函数如下：
$L(\mathbf{x}, \lambda)\equiv f(\mathbf{x})+\lambda g(\mathbf{x})\ \ \ \ (E.4)$
我们可以通过 $\nabla_{\mathbf{x}}L=0$ 的方式得到带约束条件的驻点(E.3)。更进一步说，我们可以通过 $\partial L/\partial \lambda=0$ 得到约束等式 $g(\mathbf{x})=0$ 。

因此，总结看来，如果我们需要找到函数 $f(\mathbf{x})$ 在约束 $g(\mathbf{x})=0$ 时的最大值，我们首先需要定义关于 $\mathbf{x}$ 和 $\lambda$ 的拉格朗日函数 $L(\mathbf{x}, \lambda)$ 。对于一个D维的向量 $\mathbf{x}$ ,这种方式提供了D+1个方程，用于确定驻点 $\mathbf{x}^*$ 以及 $\lambda$ 的值。如果我们不需要计算出 $\lambda$ ,我们可以在这个方程组中，先把 $\lambda$ 消去。

为了加深对这个方法的印象，我们在此举一个例子。设我们需要找到函数 $f(x_1, x_2)=1-x_1^2-x_2^2$ 在约束 $g(x_1, x_2)=x_1+x_2-1=0$ 下的驻点，如下图所示：

因此相应的拉格朗日函数为：
$L(\mathbf{x}, \lambda)=1-x_1^2-x_2^2+\lambda(x_1+x_2-1)\ \ \ \ (E.5)$
为了使该拉格朗日函数取得驻点，我们需要以下三个等式：
$-2x_1+\lambda=0\ \ \ \ (E.6)$
$-2x_2+\lambda=0\ \ \ \ (E.7)$
$x_1+x_2-1=0\ \ \ \ (E.8)$
最终我们可以得到驻点 $(x_1^*, x_2^*)=(\frac{1}{2}, \frac{1}{2})$ , 相应的拉格朗日乘子为 $\lambda=1$ 。

刚才我们已经讨论了具有“等式”约束的目标方程的最大化问题，现在我们来讨论具有不等式约束的目标方程 $g(\mathbf{x})\geq 0$ 的最大化问题，如下图所示：

对于这个优化问题的解，我们可以将其拆分成两种不同的情况：

驻点位于 $g(\mathbf{x})>0$ 的区域内，此时我们的约束条件是inactive的。此时函数 $g(\mathbf{x})$ 没起到任何作用，因此此时的驻点仅仅依赖于等式 $\nabla f(\mathbf{x})=0$ 。该情况可以归于拉格朗日函数(E.4)这种情况中，但同时有 $\lambda=0$ 。
驻点位于边界 $g(\mathbf{x})=0$ 上，此时约束条件是active的，即解在边界上，那么这种情况则完全可以类比于之前(E.4)拉格朗日函数中对等式约束的处理，并有 $\lambda\neq 0$ 。但是此时，拉格朗日乘子的正负号十分重要，因为 $f(\mathbf{x})$ 达到最大值，当且仅当它的梯度方向与区域 $g(\mathbf{x})>0$ 的方向相反，正如上图所示。因此，有 $\nabla f(\mathbf{x})=-\lambda\nabla g(\mathbf{x}), \lambda>0$ 。

但是，无论是上述哪一种情况，总会有： $\lambda g(\mathbf{x})=0$ , 因此在约束条件 $g(\mathbf{x})\geq 0$ 下对 $f(\mathbf{x})$ 进行最大化的问题转换为，在满足以下条件的同时，最大化拉格朗日函数(E.4)：
$g(\mathbf{x})\geq 0\ \ \ \ (E.9)$
$\lambda \geq 0\ \ \ \ (E.10)$
$\lambda g(\mathbf{x})=0\ \ \ \ (E.11)$

以上条件就是所谓的Karush-Kuhn-Tucker(KKT)条件。

注意到，如果我们要在条件 $g(\mathbf{x})$ 的前提下最小化函数 $f(\mathbf{x})$ ，那么我们需要在保证 $\lambda\geq 0$ 的时候，最小化拉格朗日函数 $L(\mathbf{x}, \lambda)=f(\mathbf{x})-\lambda g(\mathbf{x})$

我们将上述两种方法结合一下，并扩展到多个等式和不等式约束条件。假设我们需要在满足 $g_j(\mathbf{x})=0, \text{for}\ \ j=1,...,J, \text{and}\ \ h_k(\mathbf{x})\geq 0\ \ \text{for}\ \ k=1, ..., K$ 的前提下最大化 $f(\mathbf{x})$ 。我们引入拉格朗日乘子 $\{\lambda_j\}$ 以及 $\{\mu_k\}$ , 并优化如下拉格朗日函数：
$L(\mathbf{x}, \{\lambda_j\}, \{\mu_k\})=f(\mathbf{x})+\sum_{j=1}^J\lambda_jg_j(\mathbf{x})+\sum_{k=1}^K\mu_kh_k(\mathbf{x})\ \ \ \ (E.12)$
并具有约束条件： $\mu_k\geq 0$ 以及 $\mu_kh_k(\mathbf{x})=0, \text{for}\ \ k=1,...,K$ 。

模式识别 | PRML概览 ZIYUE WU Machine Learning
PRML全书概览PRML全称PatternRecognitionandMachineLearning，个人认为这是机器学习领域中最好的书籍之一，全书的风格非常Bayesian，作者试图在贝叶斯框架下解释每一种机器学习模型。阅读起来有一定难度，不适合作为机器学习入门教材。然而这本书提供的贝叶斯视角有助于我们更为立体全面理解一些经典模型。全书分为十四个章节，这里我尽可能简要概述每个章节的主要内容，如果
PRML笔记（十）以负熵为食 PRML 机器学习
10.ApproximateInference在probabilisticmodels中的一个核心任务是，在给定observed（visible）datavariablesX\mathbf{X}X的时候去计算关于latentvariablesZ\mathbf{Z}Z的posteriordistributionp(Z∣X)p(\mathbf{Z|X})p(Z∣X)。并且去在该概率分布下计算一些exp
2018年1月29日真昼之月
积雪还是很多，但是路面不滑不影响交通，所以坐车还是很顺利的。地铁上开始掏出Kindle看《自私的基因》。上午花时间把类别型特征也加了进去，先读了1000行保证程序不会跑崩再上全量数据集，最后全网用户的ROC面积又有了一丝丝提升，所谓蚊子腿也是肉。但是深度学习模型还是不会调参啊……中午在食堂解决，下午则基本是摸鱼为主……PRML也看了一点，不过第三章中后期还是看不懂就跳到第四章了，感觉又犯了心浮气躁
PRML第一章读书小结飞剑客阿飞
PRML第一章读书小结第一章用例子出发，较为简单的引入了概率论、模型、决策、损失、信息论的问题，作为机器学习从业者，读PRML除了巩固已有基础，还受到了很多新的启发，下面将我收到的启发总结如下。1.多项式曲线拟合问题多项式拟合问题作为全书的第一个引例，通过此说明了很多关键的概念。给定一个训练集，训练集由的N次观测组成，记作，对应了相应的观测值，记作。它们拥有了一个内在的规律，这个规律是我们
Bishop新著 - 深度学习:基础与概念 - 前言 Garry1248 深度学习:基础与概念深度学习人工智能 AIGC
译者的话十几年前，笔者在MSRA实习的时候，就接触到了ChristopherM,Bishop的经典巨著《PatternRecogitionandMachineLearning》(一般大家简称为PRML)。Bishop大神是微软剑桥研究院实验室主任，物理出身，对机器学习的基本概念和思想解释的深入浅出，鞭辟入里。以至于这本书被当时从事机器学习和AI方向的研究者奉为圣经。许多同学如饥似渴的阅读全书，连每
[算法]PRML学习笔记 1.2.2 数学期望和协方差 AutismThyself 算法算法
数学期望在概率学中最重要的事情之一就是寻找出函数的加权平均值。其中函数f(x)的数学期望E[f]是根据其在概率分布p(x)下的平均值计算得出。对于离散分布变量，其公式为：E[f]=∑xp(x)f(x)\displaystyle\sum_{x}p(x)f(x)x∑p(x)f(x)因此，从这个公式可以得出对于离散变量来说数学期望（平均权重）来自于根据各个不同变量x相关的f(x)与这个f(x)相对概率p
PRML 第三章萌新待开发 ⑉་机器学习及实践（书）་⑉PRML 机器学习模式识别线性模型
3回归的线性模型1.之前说的是无监督学习：密度估计+聚类。这里讨论监督学习：回归。2.回归就是维变量对应目标变量的问题。第一章由多项式曲线拟合。最简单就是线性回归。但如果将输入变量进行非线性函数变化后进行线性组合，可以得到基函数。3.过程就是有个观测量和对应目标变量的训练数据集。目标有新的x预测新的t。就构建函数y(x)来预测输出。从概率角度看就是对每个x的目标t值的不确定性进行建模。最小化一个合
PRML第二章萌新待开发 ⑉་机器学习及实践（书）་⑉机器学习 PRML 模式识别人工智能
目录2概率分布2.1二元变量2.1.1Beta分布2.2多项式变量2.2.1狄利克雷分布2.3高斯分布2.3.1条件高斯分布2.3.2边缘高斯分布2.3.3高斯变量的贝叶斯定理2.3.4高斯分布的最大似然估计2.3.5顺序估计2.3.6高斯分布的贝叶斯推断2.3.7学生t分布2.3.8周期变量2.3.9高斯混合模型2.4指数分布2.4.1最大似然与充分统计量2.4.2共轭先验2.4.3无信息先验2
leetcode 圆圈中最后剩下的数字(约瑟夫环) 伊凡vnir
关注公众号长歌大腿，发送“机器学习”关键字，可获取包含机器学习（包含深度学习)，统计概率，优化算法等系列文本与视频经典资料，如《ESL》《PRML》《MLAPP》等。题目描述：0,1,,n-1这n个数字排成一个圆圈，从数字0开始，每次从这个圆圈里删除第m个数字。求出这个圆圈里剩下的最后一个数字。例如，0、1、2、3、4这5个数字组成一个圆圈，从数字0开始每次删除第3个数字，则删除的前4个数字依次是
正式找工作第二天一路不向西
这两天生物钟差不多调过来了，已经能正常按时早起，按时午休，身体出现的不适感也没有很多。今天在看书的时候感觉PRML对我来说还是有些太难了，很多公式和推导其实都看不懂，所以感觉不太适合现在的阶段去看，暂时先不想调整，看这周的面试情况吧。做题的话今天感觉比昨天顺畅一点了，但是还是没法得到正确解，慢慢来吧。一、PRML今天看了第一章的第六节，信息熵。讲了一些信息量的概念、平均信息量、乘数等等。对于离散变
PRML1-引言仙守 PRML
本系列是根据《patternrecognitionandmachinelearning》一书写的，算是读书笔记？算是吧。因为是从自己角度出发，所以其实很大程度上自己看得懂，估计别人看不懂，还望见谅。数学符号约定：该书意在能够以最小的数学范围来解释整本书，不过在微积分、现代、概率论上还是不可避免的用到，为了方便概念的理解，所以本书在力求数学上的严谨的同时更多的是从不同的参考资料中将数学符号都能够统一
《现代推荐算法》矩阵分解系列简介伊凡vnir
/关注公众号长歌大腿，发送“机器学习”关键字，可获取包含机器学习（包含深度学习)，统计概率，优化算法等系列文本与视频经典资料，如《ESL》《PRML》《MLAPP》等。/文章来源《现代推荐算法》矩阵分解系列简介.该章主要介绍矩阵分解系列算法，该系列算法是推荐系统中最重要的算法之一，矩阵分解原理清晰，且复杂度不那么高。对于矩阵分解系列算法在推荐算法中而言，其容易编程实现，实现复杂度低，预测效果也好，
《现代推荐算法》神经协同过滤之MLP算法伊凡vnir
关注公众号长歌大腿，发送“机器学习”关键字，可获取包含机器学习（包含深度学习)，统计概率，优化算法等系列文本与视频经典资料，如《ESL》《PRML》《MLAPP》等。《现代推荐算法》神经协同过滤之MLP算法神经协同过滤简介前面的文章介绍了协同过滤算法，主要分为基于用户的协同过滤算法与基于物品的协同过滤算法，同时指出，矩阵分解也属于广义的协同过滤算法。那么之前的文章介绍的SVD，SVD++等等矩阵分
图像分割|机器学习|模式识别(2019-04-29~05-04) Rlinzz
本周计划1.发现pspnet那个多尺度融合对网络有效果，而且，当分割是两类的时候，就效果好，多类就学的很复杂。这周看完pspnet代码。2.完成学习机器学习作业，吴恩达机器学习课程作业。3.继续阅读PRML4.291.看pspnet代码●pythonwith关键字：简单就是打开文件，读完了，自动关文件。open函数withopen('file_name','r')asf:r=f.read()●to
机器学习面试之数据降维梦无音
PCA（主成分分析）和LDA（线性判别分析，FisherLinearDiscriminantAnalysis）都是数据降维的一种方式。但是，PCA是无监督的，而LDA是有监督的。一、PCA在PRML书上有两种定义PCA的方式，其中一种将PCA定义为一种正交投影，使得原始数据在投影子空间的各个维度的方差最大化。对于观测数据x（D维空间），我们的目标是把数据投影到一个更低的M维中。原始数据集的均值向量
图像分割|机器学习|模式识别(2019-04-08~04-12) Rlinzz
本周计划1.完成辅助loss代码2.二值分割效果有所提升，现在训练一下多值分割的效果。有两个思路，只修改class个数还有一个想法是以二值分割为另一个分支网络的gt，但这个需要处理一下分割处理的二值图。3.尽量读完PRML书的高斯部分。每次读英文版的都很慢。但还是要读呀。4.卸载3号服务器上的anaconda然后重新安装●辅助loss代码已完成。BUG1：在Unet末尾cat了前面几层后，在计算l
信息论之从熵、惊奇到交叉熵、KL散度和互信息 woisking2 前端
一、熵（PRML）考虑将A地观测的一个随机变量x，编码后传输到B地。这个随机变量有8种可能的状态，每个状态都是等可能的。为了把x的值传给接收者，需要传输⼀个3⽐特的消息。注意，这个变量的熵由下式给出:⾮均匀分布⽐均匀分布的熵要⼩。如果概率分布非均匀，同样使用等长编码，那么并不是最优的。相反，可以根据随机变量服从的概率分布构建Huffman树，得到最优的前缀编码。可以利⽤⾮均匀分布这个特点，使⽤更短
leetcode 路径总和伊凡vnir
关注公众号长歌大腿，发送“机器学习”关键字，可获取包含机器学习（包含深度学习)，统计概率，优化算法等系列文本与视频经典资料，如《ESL》《PRML》《MLAPP》等。题目描述：给定一个二叉树和一个目标和，判断该树中是否存在根节点到叶子节点的路径，这条路径上所有节点值相加等于目标和。说明:叶子节点是指没有子节点的节点。示例:给定如下二叉树，以及目标和sum=22，5/\48//\11134/\\72
《现代推荐算法》传统协同过滤（user-CF, item-CF）伊凡vnir
关注公众号长歌大腿，发送“机器学习”关键字，可获取包含机器学习（包含深度学习)，统计概率，优化算法等系列文本与视频经典资料，如《ESL》《PRML》《MLAPP》等。《现代推荐算法》传统协同过滤（user-CF,item-CF）协同过滤简介协同过滤算法发展以来，与矩阵分解密切相关，多有时将矩阵分解系列也归于协同过滤种类，我们这里将其分开来对待，这篇文章讲传统的协同过滤算法，主要包含基于用户的协同过
PRML第十四章读书笔记——Combining Models 贝叶斯模型平均、委员会bagging、提升方法/AdaBoost、决策树、条件混合模型/混合线性回归/混合逻辑回归/【层次】混合专家模型 Trade Off 机器学习 #读书笔记 PRML 决策树机器学习人工智能集成学习剪枝
（终于读到最后一章了，吼吼！激动呀。我总感觉combiningmodels已经有点频率派方法的味道了。所以接下来要读ESL？）目录14.1BayesianModelAveraging14.2Committees14.3BoostingP659最小化指数误差P661boosting的误差函数14.4Tree-basedModels14.5ConditionalMixtureModelsP667线性回
PRML一书中关于贝叶斯曲线拟合结论的推导细节 MezereonXP 机器学习算法机器学习人工智能
PRML一书中关于贝叶斯曲线拟合结论的推导细节我们令训练数据集为(X,T)(X,T)(X,T),对于一个新的点xxx,我们希望给出一个预测分布p(t∣x,X,T)p(t|x,X,T)p(t∣x,X,T)p(t∣x,X,T)=∫p(t∣x,w,X,T)dw=∫p(t∣x,w)p(w∣X,T)dwp(t|x,X,T)=\intp(t|x,w,X,T)dw=\intp(t|x,w)p(w|X,T)dw\
《现代推荐算法》神经协同过滤之GMF算法伊凡vnir
关注公众号长歌大腿，发送“机器学习”关键字，可获取包含机器学习（包含深度学习)，统计概率，优化算法等系列文本与视频经典资料，如《ESL》《PRML》《MLAPP》等。《现代推荐算法》神经协同过滤之GMF算法神经协同过滤简介前面的文章介绍了协同过滤算法，主要分为基于用户的协同过滤算法与基于物品的协同过滤算法，同时指出，矩阵分解也属于广义的协同过滤算法。那么之前的文章介绍的SVD，SVD++等等矩阵分
【应用】【正则化】L1、L2正则化八号线土著机器学习正则化
L1正则化的作用：特征选择从可用的特征子集中选择有意义的特征，化简机器学习问题。著名的LASSO（LeastAbsoluteShrinkageandSelectionOperator）模型将L1惩罚项和线性模型结合，使用最小二乘代价函数。L1正则化导致模型参数的稀疏性，被广泛地用于特征选择（featureselection）机制。L2正则化的作用：PRML书中描述“focusonquadratic
【西瓜书/机器学习·周志华】机器学习与模式识别思维导图 - PRML Mind Map Harvey Chui 人工智能
【西瓜书/机器学习·周志华】机器学习与模式识别思维导图提供了与examcoo上作业题相同的知识点范围（由粗体加粗），第一到九章的思维导图第一章-绪论机器学习方法的分类，三大阶段，以及奥卡姆剃刀、NoFreeLunch原理第二章-模型评估与选择什么是误差？机器学习的评估方法，PPP、RRR、F1F_1F1等度量值，ROCROCROC与AUCAUCAUC曲线，代价曲线第三章-线性模型几种典型的线性模型
EM算法详解 oskor
作为N大机器学习方法的一员，EM算法在各种书籍、博客、网上视频上被描述或者介绍，每次看完总感觉很多地方含糊不清，不能让一个初学者（有一定统计概率基础）接受。最近再B站上，看到徐亦达老师的课程，EM算法这块讲解易于理解和接受，再结合PRML一书的关于混合模型和EM章节内容，对整个EM算法从具体的原理上面有了更深入的理解。在下文中，更多的是通过公式推导和一些文字说明来梳理EM算法，尽量做到大家一看就明
正式找工作第三天一路不向西
今天晚上要去面试蘑菇智行还挺开心的，感觉是家A轮公司，应该要求会低一些的吧，然后还针对性地看了些CNN和目标跟踪的问题，结果人家上来就问nccl库有什么特点，这一看要求我就达不到，果然聊了没几句我们就散了。有点受打击了，明天还有两家，好好加油吧。今天只有上午复习了PRML和LeetCode，下午在看之前面试的面经了。一、PRML今天复习了PRML的两节，第三节其实没看懂啥，讲的是顺序轨迹，其中有一
《现代推荐算法》矩阵分解系列（SVD，FunkSVD，BiasSVD）原理伊凡vnir
/关注公众号长歌大腿，发送“机器学习”关键字，可获取包含机器学习（包含深度学习)，统计概率，优化算法等系列文本与视频经典资料，如《ESL》《PRML》《MLAPP》等。/文章来源《现代推荐算法》矩阵分解系列（SVD，FunkSVD，BiasSVD）原理.奇异值分解(SVD)奇异值分解(SVD)原理与主要应用在数据降维中，可以将这个用户物品对应的m×n矩阵M进行SVD分解，并通过选择部分较大的一些奇
模式识别与机器学习(一)——绪论、多项式拟合例子 Ice_spring
1.1绪论内容对应PRML书1.1节部分。多项式拟合例子在这个例子中，假设我们有两个变量，它们满足如下关系：其中是一个均值为、标准差为的高斯噪声。我们首先在区间内等间距地产生了10个点，接着根据如上的关系为这个点得到一组对应的目标函数值。这种数据产生方式符合大部分现实世界中的数据集的性质，即产生样本时既包含潜在的规律，又伴随着随机噪声。这些随机噪声的产生原因可能是某种内在的随机性，也可能是某种未被
【PRML读书笔记-Chapter1-Introduction】1.3 Model Selection weixin_30390075
在训练集上有个好的效果不见得在测试集中效果就好，因为可能存在过拟合(over-fitting)的问题。如果训练集的数据质量很好，那我们只需对这些有效数据训练处一堆模型，或者对一个模型给定系列的参数值，然后再根据测试集进行验证，选择效果最好的即可；大多数情况下，数据集大小是有限的或质量不高，那么需要有个第三测试集，用于测试选中的模型的评估。为了构建好的模型，我们常常选用其中质量较高的数据拿来训练，这
机器学习书单 jueshu 机器学习机器学习算法人工智能
理论PatternRecognitionandMachineLearning作者:ChristopherM.Bishop(英国剑桥大学微软剑桥研究院院长)https://www.microsoft.com/en-us/research/people/cmbishop/prml-book/PRML《模式识别与机器学习》中英文PDF+程序代码+习题解答+笔记总结：《PatternRecognition
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc