dxmato

数据挖掘算法总结,总结学习中遇到的数据挖掘算法，推导过程，实现方式等等

数据挖掘算法总结 $\theta\;tech$

总结学习中遇到的数据挖掘算法，推导过程，实现方式等等

1. ID3

介绍：

ID3算法是一种分类决策树算法，通过一系列规则将数据分类成决策树的形式。决策树中，每次分类都从根节点开始，每一个叶子节点代表一种可能的分类结果。
分类标准
$\sum_{v\epsilon V(A)}\frac{|S_v|}{|S|}Entropy(S_v)$
其中，V(A)是属性A的值域，S是样本集合， $S_v$ 是 $S$ 中在属性A上值等于v的样本集合
分类方法：在每个节点选取尚未被用来划分的具有最高信息增益的属性作为划分标准，然后继续这个过程，直到决策树能完美分类训练样例。
Tags监督学习算法 交叉熵
实现：java

例子：

西瓜分为好瓜和坏瓜，

性质
敲击声音	清脆a1	浑浊a2
颜色	深绿b1	浅b2

a1 b1 1
a1 b1 1
a2 b1 1
a2 b2 0
a1 b2 0
$\frac{3}{5}log(\frac{3}{5}) - \frac{2}{5}log(\frac{2}{5}) = 0.835\\ Entropy(敲击声音) = \frac{3}{5}(- \frac{1}{3}log(\frac{1}{3}) + - \frac{2}{3}log(\frac{2}{3})) + \frac{2}{5}(- \frac{1}{2}log(\frac{1}{2}) + - \frac{1}{2}log(\frac{1}{2})) = 0.817\\ Entropy(颜色) = \frac{3}{5}(- \frac{3}{3}log(\frac{3}{3}) ) + \frac{2}{5}(- \frac{2}{2}log(\frac{1}{2})) = 0$
在上例中，显然颜色是更好的分类标准，因为其信息增益更大一些

2. C4.5

介绍：

C4.5和ID3核心的算法是一样的，但是采取的方法不同，C4.5采用了信息增益率作为划分的依据，克服了ID3算法中采用信息增益偏向选择属性取值比较多的属性的缺点（属性取向多往往结果比较纯，信息增益比较大)。
分类标准：
$\frac{Gain(S,A)}{SplitInformation(S,A)}$
分母的位置是分裂因子，计算公式为：
$-\sum_{i=1}^{c}\frac{|S_i|}{|S|}log_2\frac{|S_i|}{|S|}$
c为在原样本中加入属性A分得的种类数
算法实现：python
Tags监督学习算法 熵 信息增益率 构造过程中树剪枝

3. CART算法*

介绍：

是一种决策树分类算法，最后形成的树是一个二叉树，所以在选定的属性中要划分出最佳的属性划分值，能够二分每个特征
分类标准：基尼指数
$\sum_{k=1}^{C}p_k^2$
$p_k$ 是分别为正负实例的概率，基尼指数越小说明分类纯度越高。和熵的效果相似。

例如对于（是否有房，婚姻状况，年收入）-> 是否拖欠贷款问题，婚姻状况有（单身，已婚，离异）等取值，在选择用婚姻状况划分时，要分别选择一个属性值为一类，剩下的为另一类，计算三个基尼指数，得出基尼指数增益最高的一个划分规则，继续下面的步骤。

而对于取值范围连续的属性值，要分别从小到大选择两个属性的中间值进行二分类，计算基尼指数，得到最优划分规则。
训练结束条件：样本集的基尼指数小于预定阈值（样本基本属于同一类）
算法实现: python
Tags 基尼指数 阈值停止法 监督学习算法 节点二分类

4. AdaBoost装袋提升算法*

装袋算法介绍：装袋算法就是通过多个判别器对同一个事物进行投票，最终分类的结果就是票数最多的分类。

介绍：对于每一个判别器加上一个权重，这样判别结果会更加合理。例子如下：

比如你生病了，去n个医院看了n个医生，每个医生给你开了药方，最后的结果中，哪个药方的出现的次数多，那就说明这个药方就越有可能性是最优解，这个很好理解。而装袋算法就是这个思想。
而AdaBoost算法的核心思想还是基于装袋算法，但是他有一点点的改进，上面的每个医生的投票结果都是一样的，说明地位平等，如果在这里加上一个权重，大城市的医生权重高点，小县城的医生权重低，这样通过最终计算权重和的方式，会更加的合理，这就是AdaBoost算法。AdaBoost算法是一种迭代算法，只有最终分类误差率小于阈值算法才能停止，针对同一训练集数据训练不同的分类器，我们称弱分类器，最后按照权重和的形式组合起来，构成一个组合分类器，就是一个强分类器了。

训练过程：

a. 对于训练集 $D_t$ 训练一个弱分类器 $C_{}$

b. 通过 $C_i$ 对数据进行分类，计算误差率， $P r$ 代表错误点的权值，刚开始给所有点赋初始权值
$\epsilon _t = Pr_{i \sim D_t}[h_t(x_i)\neq y_i]$

$choose\;\; \alpha_t = \frac{1}{2}ln(\frac{1-\epsilon _t}{\epsilon _t})$

c. 将分错的数据权重提高，分对的权重降低，凸显分错的数据。 $Z_t$ 是一个正态因素，这样 $D_{t+1}$ 就会服从某种分布

$\;\; D_{t+1}(i) = \frac{D_t(i)}{Z_t}*\{e^{-\alpha_t},if\;h_t(x_i) =y_i, \\else\;e^{\alpha_t}$
d. 最终分类误差率小于某个阈值时，训练就可以停止

e. 输出最终的预测函数：
$sign(\sum_{t=1}^{T}\alpha _ t h_t(x))$
sign为符号函数，如果值为正，分为+1类，否则为-1类
提高错误点的权值原因：当下一次分类器再次分错了这些点之后，会提高整体的错误率，这样就导致 a 变的很小，最终导致这个分类器在整个混合分类器的权值变低。也就是说，这个算法让优秀的分类器占整体的权值更高，而挫的分类器权值更低。
代码实现：java
Tags监督学习算法 多分类器综合 多次迭代统一训练集

5. Apriori算法

算法的用处是挖掘频繁项集，即找出经常出现的组合，然后根据这些组合最终推出我们的关联规则。比如：

泡面 -> 火腿[support = 2%][confidence = 70%],就是关联规则的表示方法，其中支持度和置信度是两个衡量规则是否有用的度量标准。
几个概念：
- 支持度：所有的事务的2%显示同时购买了泡面和火腿。
- 置信度：所有买泡面的顾客，70%都买了火腿
- 项集：项的集合，由项集可推出关联规则
- 支持度：包含项集的事务数
- 频繁项集： 大于支持度技术阈值的项集。
- 置信度： confidence(泡面->火腿) = P(火腿|泡面)，已知频繁项集即可知置信度

算法原理

算法有两步：
1. 找出所有的频繁项集
  
  a. 扫描所有的事务得到候选项集C1
  
  b. 与支持度阈值作比较，提出小于支持度阈值的项集，得频繁1项集L1
  
  c. 第二次迭代，先是连接步，由 $L1\Join L1$ 得出候选项集
  
  d. 剪枝步，剪掉项集中包含不频繁项的项集，得出C2。
  
  e. 将支持度小于阈值的全部剔除，得出L2
  
  f. 第三次迭代，连接步得出候选项集
  
  g. 剪枝步，减去含有L2中没有的元素的三项集得出C3
  
  h. 计数、比较阈值得到最终的L3
  
  i. 迭代知道 $C_n$ 为空，所以算法到此结束，现在得出了所有的频繁项集
2. 根据频繁项集产生强关联规则
  
  根据 $L_n$ 的非空子集，组合得到关联规则
算法评价

需要生成大量的候选项集，还要一直迭代重复的扫描事物数据来计算支持度，这会导致效率比较底下。

6. EM算法链接

算法介绍

EM算法就是一种从不完全数据或者有数据丢失的数据集(存在隐含变量)中求解概率模型参数的最大似然统计方法。由于不能直接最大化 $l(\theta)$ ，我们可以不断建立 $l(\theta)$ 的下界(E步)，然后最大化下界(M步)。
最大似然估计原理（似然——>已知参数倒推结果）

多数情况下，我们是根据已知条件来推算结果，而最大似然估计就是已经知道了结果，然后寻求使该结果出现的可能性最大的条件，以此作为估计值。也可以解释为：我们已知某个参数能使样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。

求最大似然函数的一般步骤：
- 写出似然函数
  $L(\theta) = L(x_1,...,x_n;\theta) = \prod_{i=1}^np(x_i;\theta) \\ \hat{\theta} = arg\;max\;l(\theta)$
- 对似然函数取对数，写成累加的形式
- 对 $\theta$ 各维求偏导数，即梯度，n个未知的参数，就有n个方程，方程组的解就是似然函数的极值点，就得到n个参数了
EM算法求解原理

$Q_i(z^{(i)})$ 是对每一个样例i，隐含变量z的分布， $\sum_{z^{(i)}}Q_i(z^{(i)})=1$ ，由(1)到(2), 就是分子分母同乘一个相等的函数。
$H(\theta) = lnL(\theta) = ln\prod_{i=1}^np(x_i;\theta) = \sum_{i=1}^nln\;p(x^{(i)},z^{(i)};\theta) \;\;\;(1)\\=\sum_ilog\sum_{z(i)}Q_i(z^{(i)})\frac{p(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})} \;\;\;(2)\\\geq \sum_i\sum_{z^{(i)}}Q_i(z^{(i)})log\frac{p(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})} \;\;(3)\;\;from \;jensen$
从(2)到(3)证明如下：

设Y是随机变量X的函数，Y = g(x), g是连续函数，则：
$KaTeX parse error: Got function '\inf' with no arguments as superscript at position 96: …x)]=\sum_{k=1}^\̲i̲n̲f̲ ̲g(x_k)p_k$
对于上述问题，Y是 $[p(x^{(i)},z^{(i)};\theta)]$ , X是 $z^{(i)}$ ， $Q_i(z^{(i)})$ 是 $p_k$ ,g是 $z^{(i)}$ 到$\frac{p(x^{(i)},z{(i)};\theta)}{Q_i(z^{(i)})} $的映射。

再加上Jensen不等式：
$E[f(x)]\leq f(EX) \\这里f(x)是凸函数，这里暂定为log(x)是凸函数，凸函数的定义是任意两点连线都在y(x)下方。$

Jensen不等式成立的条件是随机变量为常数值，得：
$\frac{p(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})} = C\\由于\sum_{z^{(i)}}Q_i(z^{(i)})=1\\也就是\sum_zp(x^{(i)},z;\theta) = C\\就能推出：Q_i(z^{(i)}) = \frac{p(x^{(i)},z^{(i)};\theta)}{\sum_zp(x^{(i)},z;\theta)}\\ = \frac{p(x^{(i)},z^{(i)};\theta)}{\sum_zp(x^{(i)};\theta)}\\=p(z^{(i)}|x^{(i)};\theta)$
EM算法流程
$\sum_ilog \;p(x^{(i)};\theta) = \sum_ilog\sum_{z(i)}p(x)$
- E（Expectation）步骤
  $Q_i(z^{(i)}):=p(z^{(i)}|x(i);\theta)$
  即根据参数初始值或上一次迭代的模型参数计算出隐性变量的后验概率，其实就是隐性变量的期望，作为隐藏变量的估计值。
- M（Maximization）步骤, 将似然函数最大化以获取新的参数值
  $\theta:=arg\;max_\theta \sum_i\sum_{z^{(i)}}Q_i(z^{(i)})log\frac{p(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})}$
参考知识：

二阶导数为正，为凹函数，或者说是向下凸的。

7. 支持向量机

函数形式（训练目标）：

线性向量机：
$\sum_iw_ix_i + b = \begin{bmatrix} w \\ b \end{bmatrix}dot \begin{bmatrix} x \\ 1 \end{bmatrix}$
损失函数：这里面的loss都是一个训练样例的loss, 累加之后才得到系统的所有loss
$hinge\;loss :l(f(x^n),\hat{y}^n) = max(0,1-\hat{y}^n(f(x^n)*(f(x^n))(0)$

$Square\;loss + Sigmoid :l(f(x^n),\hat{y}^n)=(\sigma(\hat{y}^nf(x))-1)^2\;(1)$

$cross\;entropy\;\;l(f(x^n),\hat{y}^n) = ln(1+exp(-\hat{y}^nf(x))) \; (2)$

由（0）可推导出损失函数（cost_1为label为1的损失函数）：
$\left\{\begin{matrix} max(0,-x+1) (y^{i}=1) \\ max(0,x-1) (y^{i}=0) \end{matrix}\right.$

$J(\theta) = C\sum_{i=1}^{m}[y^{(i)}cost \;t_1(\theta^Tx^{(i)})+(1-y^{(i)})cost\;t_0(\theta^Tx^{(i)})]+\frac{1}{2}\sum_{j=1}^{n}\theta_j^2$

这里的 $\frac{m}{\lambda}$ , C越大，SVM的决策边界margin也越大

当C越大时，margin也越大，我们的目标是最小化代价函数 $J(\theta)$ , 所以C的乘积项
$\sum_{i=1}^{m}[y^{(i)}cost \;t_i(\theta^Tx^{(i)})+(1-y^{(i)})cost\;t_0(\theta^Tx^{(i)})]$
要很小。最终近似为：
$J(\theta) = C*0+\frac{1}{2}\sum_{j=1}^{n}\theta_j^2 = \frac{1}{2}(\theta_1^2+\theta_2^2)$
我们的目标是求使代价最小的 $\theta$
几何论证：对于任意一个点，根据分类条件得出以下限制：
$\left\{\begin{matrix} \theta^Tx^{(i)}\geqslant1 (y^{i}=1) \\ \theta^Tx^{(i)}\leqslant-1 (y^{i}=0) \end{matrix}\right.$
将上述看为x和各个系数的点积，化为几何概念，可以得到：
$\left\{\begin{matrix} p^{(i)}||\theta||\geqslant1 (y^{i}=1) \\ p^{(i)}||\theta||\leqslant-1 (y^{i}=0) \end{matrix}\right.$

到 $\theta$ 上的投影为p,则 $p||\theta||>=1$ 或者 $p||\theta||<=-1$ , 如果因为要求 $\theta$ 很小，所以p要求很大，最终求得的就是点在 $\theta$ 方向投影最小，即在与 $\theta$ 垂直的决策边界上投影最大。
RBF Kernel核函数

RBF核函数，即高斯核函数，公式为：
$=e^{-\frac{||x-u||^2}{2\sigma^2}}$
Sigmoid Kernel核函数
$\;z)$

7a. 支持向量机(解释二)(其实二者的区别在于label为0和1还是-1和1)

如果是后者，则可以把代价函数合并，如下：

函数形式（训练目标）：
$\sum_iw_ix_i + b = \begin{bmatrix} w \\ b \end{bmatrix}dot \begin{bmatrix} x \\ 1 \end{bmatrix}$
损失函数(C的值为无穷大时，为硬间隔向量机，不允许有数据分类错误，否则成为软间隔向量机)：
$C\sum_{n}\epsilon^n+\lambda||w||_2$

$\epsilon^n = max(0,1-\hat{y}^nf(x))$

由上式
$\epsilon^n \geq 0\\ \epsilon^n \geq1-\hat{y}^nf(x) \rightarrow\hat{y}^nf(x)\geq1-\epsilon^n$
优化方式：
$\leftarrow w-\eta\sum_{n}c^n(w)x^n$
w初始化为0，解出的结果是w是x的线性组合， $c^n(w)$ 是f对loss function的偏微分
$\sum_{n}\alpha_nx^n = X\mathbf{\alpha}$
w是nx1维， $w^T$ 是1xn维，x是nx1，X是n*N，所以
$w^T*x \rightarrow f(x) = \alpha^TX^Tx \rightarrow \sum_{n}\alpha_n(x^n\;dot\;x)$
$x^n\;dot\;x)$ 可以记为 $K(x^n,x)$
重写损失函数：
$\sum_{n}l(f(x^n),\hat{y}^n) = \sum_{n}l(\sum_{n'}\alpha_{n'}K(x^{n'},x^n),\hat{y}^n)$
利用拉格朗日乘子法证明w是x的线性组合的合理性：

对硬间隔向量机的损失函数进行转换：
$L(w,b,\alpha) = \frac{1}{2}||w||^2+\sum_{i=1}^{m}\alpha_i(1-y_i(w^Tx_i+b))$

$\sum_{i=1}^{m}\alpha_iy_ix_i \\ 0=\sum_{i=1}^{m}\alpha_iy_i$
核函数Tips
1. 核函数其实就是用来描述相似度的（向量的点积）
2. 通过mercer’s 定理来检测所定核函数能否拆分成点积
3. kernel(x1,x2)函数代表x1、x2先做特征转换之后再做内积的结果，特征转换代表的是将低维提升到高维的转换

8. K-Means算法链接

聚类算法介绍：

是一种无监督学习算法，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质和规律，为进一步的数据分析提供基础。
Kmeans算法执行过程：

先从样本集中随机选取k个样本作为簇中心，计算所有样本与这k个“簇中心”的距离，将其划分到与其距离最近的“簇中心”所在的簇中，对于新的簇计算各个簇的新的簇中心。

算法的要点
k值的选择
距离的度量, 给定样本 $x^{(i)}$ 和 $x^{(j)}$ , 距离的度量方法主要分为以下几种。
- 有序属性距离度量（离散属性或连续属性）
  - 闵可夫斯基距离
    $distmk(x(i),x(j))=(∑_{u=1}^n|x^{(i)}_u−x^{(j)}_u|^p)^{\frac{1}{p}}$

欧氏距离
$dist_{ed}(x^{(i)},x^{(j)})=||x^{(i)}-x^{(j)}||_2=\sqrt{\sum_{u=1}^n |x_u^{(i)}-x_u^{(j)}|^2}$
- 曼哈顿距离
$dist_{man}(x^{(i)},x^{(j)})=||x^{(i)}-x^{(j)}||_1=\sum_{u=1}^n |x_u^{(i)}-x_u^{(j)}|$
- 无序属性距离度量
  
  VDM:
$VDM_p(x_u^{(i)},x_u^{(j)}) = \sum_{z=1}^k \left|\frac{m_{u,x_u^{(i)},z}}{m_{u,x_u^{(i)}}} - \frac{m_{u,x_u^{(j)},z}}{m_{u,x_u^{(j)}}} \right|^p$

其中， $m_{u,x_u^{(i)}}$ 表示在属性u上取值为 $x_u^{(i)}$ 的样本数， $m_{u,x_u^{(i)},z}$ 表示在第z个样本簇中属性u上取值为 $x_u^{(i)}$ 的样本数。得到的结果是在属性u上两个离散值的VDM距离。
- 混合属性距离度量，即为有序与无序的结合：
$MinkovDM_p(x^{(i)},x^{(j)}) = \left( \sum_{u=1}^{n_c} | x_u^{(i)} - x_u^{(j)} | ^p + \sum_{u=n_c +1}^n VDM_p (x_u^{(i)},x_u^{(j)}) \right) ^{\frac{1}{p}}$

其中含有 $n_c$ 个有序属性，与 $n-n_c$ 个无序属性。

更新簇中心

二分k-means算法
k-means算法分析

k-means算法由于初始“簇中心”点是随机选取的，因此最终求得的簇的划分与随机选取的“簇中心”有关，也就是说，可能会造成多种 k 个簇的划分情况。这是因为k-means算法收敛到了局部最小值，而非全局最小值。
二分k-means算法介绍：

使用一种用于度量聚类效果的指标SSE(Sum of Squared Error)，即对于第 i 个簇，其SSE为各个样本点到“簇中心”点的距离的平方的和，SSE值越小表示数据点越接近于它们的“簇中心”点，聚类效果也就越好。以此作为划分簇的标准。

算法思想是：先将整个样本集作为一个簇，该“簇中心”点向量为所有样本点的均值，计算此时的SSE。若此时簇个数小于 k ，对每一个簇进行k-means聚类(k=2) ，计算将每一个簇一分为二后的总误差SSE，选择SSE最小的那个簇进行划分操作。

9. PageRank算法*

算法原理：

用 $p_i(n+1)$ 表示虚拟用户在第n次浏览时访问 $W_i$ 的几率。显然上述假设可以表述为：
$p_i(n+1) = \sum_jp_j(n)p_{j\to i}/N_j$
其中 $p_{j\to i}$ 是一个描述互联网链接结构的指标函数，如果 $W_j$ 到 $W_i$ 有链接指向，则取值为1。将用户第n次浏览时访问网页的几率合并为列向量 $p_n$ ，它的第i个分量为 $p_i(n)$ , 并且引入一个只与互联网结构有关的矩阵H，第i行j列的矩阵元为 $H_{ij} = p_{j\to i}/N_j$ , 则上述公式可以改写为：
$p_{n+1} = Hp_n$
求解上述公式得：
$p_n = H^np_0$
其中， $p_0$ 为虚拟读者初次浏览时访问各网页的几率分布。
悬挂网页的处理

对于悬挂网页，用户会在整个互联网上随机选取一个网页进行访问，用数学语言就是把 H 的列向量中所有的零向量都换成 e/N (其中 e 是所有分量都为 1 的列向量， N 为互联网上的网页总数)。引入描述悬挂网页的指标向量a, 第i个分量指示 $W_i$ 是否为悬挂网页。如果是悬挂网页，取值为1，否则为0。修正原来的矩阵：
$S= H+ea^T/N$
显然，这样定义的S矩阵的每一列矩阵元之和都是1，是一个随机矩阵，这个修正因此被成为随机性修正。
用户访问性格的考量：

他们假定，虚拟用户虽然是虚拟的，但多少也有一些 “性格”，他们假定虚拟用户在每一步都有一个小于 1 的几率 α 访问当前网页所提供的链接，同时却也有一个几率 1-α 不受那些链接所限，随机访问互联网上的任何一个网站。用数学语言来说 (请读者自行证明)，这相当于是把上述 S 矩阵变成了一个新的矩阵 G：
$\alpha S + (1-\alpha)ee^T/N$
由于第二项的增加，这个矩阵的所有矩阵元都为正，这个矩阵就是所谓的素矩阵，这个修正就称为素性修正。因此网页排序更新为：
$p_n = G^np_0$
G称为谷歌矩阵。G是一个超大型矩阵， $G^np_0$ 收敛速度取决于 $\alpha$ ， $\alpha$ 越小，收敛速度越快，但是 $\alpha$ 也不能太小，这样会导致以网页间的彼此链接为基础的排序思路被弱化（这部分的贡献正比于 $\alpha$ ）,最终选择的值是0.85.

10.朴素贝叶斯法

目标：基于贝叶斯定理与特征条件独立假设的分类方法
推导过程：
$P(Y=c_k|X=x) = \frac{P(X=x|Y=c_k)P(Y=c_k)}{P(x)}$

$P(X=x|Y=c_k) = P(X^{(1)}=x^{(1)},X^{(n)}=x^{(n)}|Y=c_k)$
根据条件独立假设，
$P(X=x|Y=c_k) = \prod_{j=1}^nP(X^{(j)} =x^{(j)}|Y=c_k)$

开源Java算法包总结( $\theta\;tech$ )

JDMP

优点：

一致的数据表示，使用矩阵来表示所有事务

缺点：

开发尚未完成
文档不完善

SPMF

优点：

专注于Pattern Mining, 发现数据中隐含的特征。
SPMF can be used as a standalone program with a simple user interface or from the command line. 可以作为程序单独使用
速度快、轻量级（不依赖其他库）

Weka3

优点：

支持深度学习
有相关的课程，不过需要才能看
算法可以直接用于数据集，也可以在java代码中调用
功能比较全面 data pre-processing, classification, regression, clustering, association rules, and visualization

ELKI

重点是聚类分析和离群值检测（ outlier detection ）中的无监督方法
ELKI提供了诸如R * 树之类的数据索引结构，可以大大提高性能。
可扩展性： ELKI具有非常模块化的设计。我们希望允许数据类型，距离函数，算法，输入格式，索引结构和评估方法的任意组合
**开发进度：**每个版本的ELKI都在变化。为了适应新功能并提高性能，API有可能虽坏。我们希望在1.0版本中获得稳定的API，但目前还没有达成。

MOA

MOA是用于数据流（data streams）挖掘的最流行的开源框架
社区规模比较大，有相关书籍
与WEKA项目相关

SAMOA

Apache SAMOA is a distributed streaming machine learning (ML) framework that contains a programing abstraction for distributed streaming ML algorithms. 分布式流机器学习框架，为分布式流机器学习算法提供了编程抽象。
Apache SAMOA支持开发新的ML算法，而无需直接处理底层分布式流处理引擎（DSPEe，例如Apache Storm，Apache Flink和Apache Samza）的复杂性。Apache SAMOA用户可以一次开发分布式流ML算法，然后在多个DSPE上执行它们。

MLlib

MLlib适用于Spark的API
可以与 Python（自Spark 0.9起）和R库（自Spark 1.5起）中的NumPy互操作
可以使用任何Hadoop数据源（例如HDFS，HBase或本地文件），从而轻松插入Hadoop工作流
性能：高质量算法，比MapReduce快100倍。 Spark擅长于迭代计算，从而使MLlib快速运行。同时，我们关注算法性能：MLlib包含利用迭代的高质量算法，并且比有时在MapReduce上使用的单遍逼近（one-pass approximations）可以产生更好的结果。
适用性： You can run Spark using its standalone cluster mode, on EC2, on Hadoop YARN, on Mesos, or on Kubernetes. Access data in HDFS, Apache Cassandra, Apache HBase, Apache Hive, and hundreds of other data sources. 可以和许多数据源、平台结合使用

H2O

用于分布式，可扩展的机器学习的内存平台
与Hadoop和Spark等大数据技术无缝协作
提供了许多流行算法的实现，例如GBM，随机森林，深度神经网络，Word2Vec和集成学习（Ensemble_learning）。
是可扩展的，开发人员可以添加自己选择的数据转换和自定义算法

RankLib

排序算法库（ learning to rank algorithms）,实现了八种常见的算法
- MART (Multiple Additive Regression Trees, a.k.a. Gradient boosted regression tree) [6]
- RankNet
- RankBoost
- AdaRank
- Coordinate Ascent
- LambdaMART
- ListNet
- Random Forests [8]
还实现了许多检索指标，并提供了许多评估方法

你可能感兴趣的:(数据挖掘,python,数据挖掘,算法)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam

数据挖掘算法总结,总结学习中遇到的数据挖掘算法，推导过程，实现方式等等

数据挖掘算法总结 θ t e c h \theta\;tech θtech

1. ID3

2. C4.5

3. CART算法*

4. AdaBoost装袋提升算法*

5. Apriori算法

6. EM算法 链接

7. 支持向量机

7a. 支持向量机(解释二)(其实二者的区别在于label为0和1还是-1和1)

8. K-Means算法 链接

算法的要点

二分k-means算法

9. PageRank算法*

10.朴素贝叶斯法

开源Java算法包总结( θ t e c h \theta\;tech θtech)

JDMP

SPMF

Weka3

ELKI

MOA

SAMOA

MLlib

H2O

RankLib

你可能感兴趣的:(数据挖掘,python,数据挖掘,算法)

数据挖掘算法总结 $\theta\;tech$

6. EM算法链接

8. K-Means算法链接

开源Java算法包总结( $\theta\;tech$ )