杨智友

机器学习基础算法小结

机器学习的问题更多的对算法模型的优化，特征工程也属于对算法模型的优化，这一点在后面均有体现。

说明：本文是对部分机器学习的算法模型的思想进行抽取，不会出现详细的推导。

先看一下要掌握的算法有哪些，我个人觉得部分算法有点偏，不过应该是在某个领域里有应用而且效果很好，否则不会成为必掌握的算法。

线性回归

1、线性函数的表示：

f (x) = θ 0 x 0 + θ 1 x 1 + \dots + θ n x n

向量形式：

f (x) = θ ⃗ T X ⃗

其中：

θ ⃗ = (θ 1; θ 2; \dots θ n)

当 Θ 确定后，模型就确定了，Θ = 0是可得截距项 b。

2、cost function，亦即最小二乘法估计：

J (θ i) = 1 2 m \sum i = 1 m (h θ (x i) - y i) 2

记得前面说过的机器学习的大部分问题都是优化模型吗？开始，使用梯度下降优化代价函数，这也是线性回归算法思想的精髓。

θ j : = θ j - α \partial \partial θ j J (θ)

α 为学习率。

3、为防止过拟合，加入正则化：

J (θ i) = arg min θ 1 2 m ⎡ ⎣ ⎢ ⎢ \sum i = 1 m (h θ (x i) - y i) 2 + λ \sum j = 1 n θ 2 j ⎤ ⎦ ⎥ ⎥

优点：易于理解，计算简单；
缺点：不能拟合非线性数据；

logistic回归

首先明确logistic回归不是回归，而是线性分类器。
1、logistic函数表达式为：

h θ (x) = g (θ T x) = 1 1 + e - θ T x

其中：

g (z) = 1 1 + e - z

经变形后得：

ln h θ 1 - h θ = θ T x

2、logistic回归主要是通过极大似然来估计待求参数 Θ 的值，样本的后验概率为：

L (θ) = p (y ⃗ ∣ X; θ) = \prod i = 1 m p (y (i) ∣ x (i); θ)

= \prod i = 1 m (h θ (x (i))) y (i) (1 - h θ (x (i))) 1 - y (i)

其中：

P (y = 1 ∣ x; θ) = h θ (x)

P (y = 0 ∣ x; θ) = 1 - h θ (x)

对该式取似然对数可得cost function：

J (θ) = - 1 m \sum i = 1 m [y (i) log h θ (x (i)) + (1 - y (i)) log (1 - h θ (x (i)))]

对cost function添加正则项后：

J (θ) = - 1 m \sum i = 1 m [y (i) log h θ (x (i)) + (1 - y (i)) log (1 - h θ (x (i)))] + λ 2 m \sum j = 1 n θ 2 j

3、可用凸优化理论中的牛顿法，梯度下降法等方法最小化cost function，此处使用梯度下降法求最优解：

θ j : = θ j - \partial J ( θ ) \partial θ j

优点：
* 实现简单，易于理解；
* 分类时计算量非常小，速度很快，存储资源低；

缺点：
* 容易欠拟合，一般准确度不太高；
* 只能处理两分类问题（在此基础上衍生出来的softmax可以用于多分类），且必须线性可分。

决策树

决策树中关键点就是选择一个最优属性进行分枝，位于决策树上属性的重要度依次递减，信息增益可用于度量属性的重要度，因此要深入理解信息增益及其计算。

1、信息熵定义，n表示有n个分类类别：

E n t (D) = - \sum k = 1 n p k log 2 p k

信息增益(information gain)：

G a i n (D, a) = E n t (D) - \sum v = 1 V D v D E n t (D v)

其中：属性a产生V个可能分支，|D^v|/|D|为权重，即样本数越多的分支影响越大；信息增益越大的属性a划分效果越好，ID3决策算法以此为划分标准。

2、增益率

G a i n_r a t i o (D, a) = G a i n ( D , a ) I V ( a ),

其中：

I V (a) = - \sum v = 1 V D v D log 2 D v D

注意：C4.5算法先从划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的属性。

3、基尼指数–CART决策树选择属性的标准
基尼值：

G i n i (D) = \sum k = 1 n \sum k' \neq k p k p k' = 1 - \sum k = 1 n p 2 k

Gini(D)越小，数据集D的纯度越高，属性a的基尼指数定义：

G i n i_i n d e x (D, a) = \sum v = 1 V D v D G i n i (D v)

在候选属性集合A中，选择那个能使划分后基尼指数最小的作为最优划分属性。

优点：计算量简单，可解释性强，比较适合处理有缺失属性值的样本，能够处理不相关的特征；
缺点：容易过拟合，对决策树进行剪枝处理以及使用随机森林算法都能减小过拟合现象。

朴素贝叶斯

1、贝叶斯计算公式：

P (c ∣ x) = P ( c ) P ( x ∣ c ) P ( x )

这只是一个理论公式，因为该公式存在一个问题：类条件概率P(x|c)是所有属性的联合概率，计算时会出现组合爆炸，当样本稀疏、属性较多时问题更加严重。

2、为避开上面的问题，朴素贝叶斯分类器基于属性条件独立性假设，将上式变为：

P (c ∣ x) = P ( c ) P ( x ∣ c ) P ( x ) = P ( c ) P ( x ) \prod i = 1 d P (x i ∣ c)

其中d为属性数目，x(i)为x在第i个属性上的取值。
对所有的类别来说P(x)相同，所以朴素贝叶斯分类器的表达式：

h n b (x) = arg max c \in y P (c) \prod i = 1 d P (x i ∣ c)

3、Laplacian correction，如果P(x|c)中的某一项为0，则其联合概率的乘积也可能为0，为了避免这种现象出现，一般情况下会将这一项初始化为1，当然为了保证概率相等，分母应对应初始化为2（这里因为是2类，所以加2，如果是k类就需要加k, 分母加k的原因是使之满足全概率公式）。

优点：对小规模的数据表现很好，适合多分类任务，适合增量式训练。
缺点：对输入数据的表达形式很敏感。

EM算法

有时候因为样本的产生和隐含变量有关（隐含变量是不能被观察出的变量）。

L L (Θ ∣ X, Z) = ln P (X, Z ∣ Θ)

而求模型的参数时一般采用最大化已观测数据的对数“边际似然”：

L L (Θ ∣ X) = ln P (X ∣ Θ) = ln \sum Z P (X, Z ∣ Θ)

可使用梯度下降对隐变量进行估计，但求和的项数会随隐变量的数量以指数形式上升，这时可以采用EM算法来求模型的参数（对应模型参数个数可能有多个），EM算法一般分为2步，迭代至收敛：
1. 基于\Theta^{t}推断隐变量Z的期望，记为

Zt ；
2. 再基于已观测变量X和

Zt 对参数

Θ 做极大似然估计，记为

Θt+1 .

若基于 Θt 计算隐变量Z的概率分布 P(Z|X,Θt) ,则EM为：
* E步(Expectation)：用参数 Θt 推断隐变量发布 P(Z|X,Θt) ，并计算对数似然关于Z的期望；

Q (Θ ∣ Θ t) = E Z ∣ X, Θ t L L (Θ ∣ X, Z)

* M步(Maximization)：寻找参数最大化期望似然；

Θ t + 1 = arg max Θ Q (Θ ∣ Θ t) .

KNN算法

1、KNN的主要内容如下：
1. 计算训练样本和测试样本中每个样本点的距离（常见的距离度量有欧式距离，马氏距离等）；
2. 对上面所有的距离值进行排序；
3. 选前k个最小距离的样本；
4. 根据这k个样本的标签进行投票，得到最后的分类类别；

2、如何选择一个最佳的K值，这取决于数据。一般情况下，在分类时较大的K值能够减小噪声的影响。但会使类别之间的界限变得模糊。一个较好的K值可通过交叉验证获取。另外噪声和非相关性特征向量的存在会使K近邻算法的准确性减小。KNN算法对距离公式较为“敏感”；

3、近邻算法具有较强的一致性结果。随着数据趋于无限，算法保证错误率不会超过贝叶斯算法错误率的两倍。对于一些好的K值，K近邻保证错误率不会超过贝叶斯理论误差率。

优点：
1. 思想简单，理论成熟，既可以用来做分类也可以用来做回归；
2. 可用于非线性分类；
3. 训练时间复杂度为O(n)；
4. 准确度高，对数据没有假设，对outlier不敏感；

缺点：
1. 计算量大，容易造成内存溢出，需要大量的内存；
2. 样本不平衡问题（即有些类别的样本数量很多，而其它样本的数量很少）；

SVM

SVM 和 LDA 模型可谓是对数学能力和思维的极大考验，它的推导过程有必要理解掌握。
1、SVM核心思想一：最大间隔
将训练集中的正负样本最大程度的分隔开，那么该分隔线应位于训练样本中距离分隔边界垂直距离最近的样本点的“正中间”，这样的分割线具有最好的鲁棒性和泛化能力。

{w ⃗ T x i \to + b \geq 1, y i = 1; w ⃗ T x i \to + b \leq - 1, y i = - 1

2、SVM核心思想二：决策公式
将上面的最大间隔公式统一起来，且决策边界上的点(support vector)要满足最大间隔要求，因为y只能取1或-1，所以决策公式为：

y i (w ⃗ T x i \to + b) - 1 = 0

3、SVM核心思想三：目标函数
取决策边界上的正负样本点做向量运算，可得决策边界之间的距离为：

r = = = (x ⃗ + - x ⃗ -) \cdot w ⃗ ∥ w ∥ 1 ∥ w ∥ [1 - b - (- 1 - b)] 2 ∥ w ∥

下一步当然是最大优目标函数：

max w ⃗, b 2 ∥ w ∥ = min w ⃗, b 1 2 ∥ w ∥ 2 s . t . y i (w ⃗ T x i \to + b) \geq 1, i = 1, 2, \dots, m .

4、SVM核心思想四：优化理论
对下式进行优化，它本身就是一个convex quadratic programming–凸二次规划问题，能直接优化。

min w ⃗, b 1 2 ∥ w ∥ 2 s . t . y i (w ⃗ T x i \to + b) \geq 1, i = 1, 2, \dots, m .

但还有一种方法优化方法是对机器学习本身而言很有效的方法(后面感受)，那就是对下式使用拉格朗日乘子约束，可写为：

L (w ⃗, b, α ⃗) = 1 2 ∥ w ∥ 2 + \sum i = 1 m α i (1 - y i (w ⃗ T x i \to + b)), α ⃗ = (α 1; α 2; \dots; α m) .

使 L 对 ω 和 b 求偏导为0得：

w ⃗ = \sum 1 m α i y i x i \to, 0 = \sum 1 m α i y i .

把上面得2个式子带回 L 得：

max α ⃗ \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j x ⃗ T i x j \to, s . t . \sum i = 1 m α i α j = 0, α i \geq 0, i = 1, 2, \dots, m .

解得 α ，ω，b 后，可得模型为：

f (x ⃗) = = w ⃗ T x ⃗ + b \sum i = 1 m α i y i x ⃗ T i x ⃗ + b

此式得约束条件即为KKT条件：

⎧ ⎩ ⎨ ⎪ ⎪ α i \geq 0; y i f (x ⃗ i) - 1 \geq 0; α i (y i f (x ⃗ i) - 1) = 0 .

于是，对任意得训练样本，总有 α = 0或 α ﹥ 0。若 α = 0时，对f(x)无影响；若α ﹥ 0，则对应得样本位于决策边界上，是支持向量。这就表明：当使用SVM训练完成后，只有最终得支持向量对模型有影响。支持向量的美妙就在此。

5、再回决策公式
现在得决策公式变为：

\sum i = 1 m α i y i ⟨ x ⃗ i, u ⃗ ⟩ + b \geq 0

由此可见，当在做决策时，不需要知道x是什么，主要知道训练集中得x与测试集中得u点乘后结果就行。当样本不能线性可分时，将点乘部分换为非线性核即可。

6、SVM的终极杀器：核方法–kernel
当样本线性不可分时，将样本映射到高维空间使其能线性可分，将﹤x, u﹥替换为其他核方法即可实现，其余部分推导类似。核函数：

k (x i \to, x j \to) = ⟨ Φ (x i \to), Φ (x j \to) ⟩ = Φ (x i \to) T Φ (x j \to)

7、SMO
发现我们还有 α 没有求出，这就是SMO存在得理由。SMO的思想：
* 选取一对需要更新的 αi 和 αj ，固定其他 α 参数；
* 求解更新后的 α 。

代入下式循环迭代直至满足要求。

max α ⃗ \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j x ⃗ T i x j \to, s . t . \sum i = 1 m α i α j = 0, α i \geq 0, i = 1, 2, \dots, m .

8、Hinge loss
Hinge loss与logistic回归有关，线性版的SVM。

优点：
* 可用于线性/非线性分类，也可以用于回归；
* 低泛化误差；
* 容易解释；

缺点：
* 对参数和核函数的选择比较敏感；
* 原始的SVM只比较擅长处理二分类问题；
* 时间复杂度高O(n^3)，不能承载大数据的要求.

SVM的终极核心是最大间隔，它的思想很重要。此处我并没有给图，不过结合资料看时没有问题的。
参考：
支持向量机通俗导论（理解SVM的三层境界）
周志华老师的《机器学习》
Ng老师的《machine learning》视频
林轩田老师的《机器学习技法》视频
七月在线冯老师的视频

聚类

在做特征工程时，id 一般都不用，这时可以根据id对数据进行聚类，然后再根据聚类结果给一个clustering id。在社交网络中对某人的社交关系也会使用聚类。
优点：
* （1）k-means算法是解决聚类问题的一种经典算法，算法简单、快速；
* （2）对处理大数据集，该算法是相对可伸缩的和高效率的，因为它的复杂度大约是O(nkt)，其中n是所有对象的数目，k是簇的数目,t是迭代的次数。通常k<

降维

我们都知道当属性太多、维度过高会使得数据变稀疏从而加大计算的开销，有效信息被“埋藏得”更深，此时通过降低维度来缓解该情况，最常见的降维算法是：PCA算法和LDA算法，这里有一篇文章对此有详细的说明，再加上书籍的补充就很容易理解。四大机器学习降维算法：PCA、LDA、LLE、Laplacian Eigenmaps

在这篇文章里面还介绍了另外的两种降维方法。

ensemble learning – 集成学习

到此处，我们看到了每个算法都有各自的优缺点，那我们有什么办法可以尽量的避免一部分算法的缺陷吗？都这么说啦！肯定有的，但不能完全避免，只是减小算法缺陷在使用的过程中所造成的影响。下图是集成学习器的图示。

个体学习器之间依赖性强、必须串行生成的序列化方法，代表是Boosting；另一个是个体学习器之间的依赖性不强、可以同时生成的并行化方法，代表是Bagging和Random Forest。

1、Boosting的代表AdaBoost
Gradient Boosted Decision Tree（GBDT）的特点：
1. Adaboost的Regression版本；
2. 把残差作为下一轮的学习目标；
3. 最终的结果有加权和值得到，不再是简单的多数投票:

G (x) = \sum a m G m (x) .

2、Bagging和Random Forest
Bagging对分类任务使用简单投票法，对回归问题使用简单的平均法。Bagging可以不用修改就可用于多分类、回归任务中，这点与AdaBoost不同。在像决策树和神经网络等易受样本扰动的学习器上效果较为明显。
Random Forest会随着个体学习器的增多，通常会收敛到更低的泛化误差，而且它的训练效率优于Bagging。

XGBoost可谓是kaggle比赛神奇啊，最近Microsoft开源了功能与XGBoost相同的库，叫LightGBM，它的速度和准确度稍优于XGBoost。

pLSA & LDA

pLSA跟LDA的本质区别就在于它们去估计未知参数所采用的思想不同，前者采用的是频率派思想，后者采用的是贝叶斯派思想。LDA就是在pLSA的基础上加层贝叶斯框架，即LDA就是pLSA的贝叶斯版本。

1、pLSA

2、LDA

LDA模型得公式推导很麻烦，但模型思路和我们的思维过程类似。拆分后可变为以下得5步骤：
1. 一个函数：gamma函数；
2. 四个分布：二项分布、多项分布、beta分布、Dirichlet分布；
3. 一个概念和一个理念：共轭先验和贝叶斯框架；
4. 两个模型：pLSA、LDA；
5. 一个采样：Gibbs采样

具体推导过程参考通俗理解LDA主题模型

Regularization

1、以下是两种常用的归一化方法：
1、min-max标准化（Min-Max Normalization）
也称为离差标准化，是对原始数据的线性变换，使结果值映射到[0 - 1]之间。转换函数如下：

χ = X - m i n m a x - m i n

其中max为样本数据的最大值，min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。
2、Z-score标准化方法
这种方法给予原始数据的均值（mean）和标准差（standard deviation）进行数据的标准化。经过处理的数据符合标准正态分布，即均值为0，标准差为1，转化函数为：

χ = X - μ σ

其中

μ 为所有样本数据的均值，

σ 为所有样本数据的标准差。

2、归一化的作用
1. 去掉量纲和数值跨越幅度太大的影响；
2. 控制模型的复杂度，光滑性。复杂性越小且越光滑的目标函数泛化能力越强。而加入规则项能使目标函数复杂度减小，且更光滑。如梯度下降法；
3. 系数越小，模型越简单，而模型越简单则泛化能力越强（Ng宏观上给出的解释）；
4. 可以看成是权值的高斯先验。

异常检测

异常检测算法思路如下：
1. 选定容易出错的n个特征{x(i)1,x(i)2,…,x(i)n}作为变量；
2. 计算m个样本的平均值和方差：

μ j = 1 m \sum i = 1 m x (x) j σ 2 j = 1 m \sum i = 1 m (x (x) j - μ j) 2

3. 给定监测点x，计算p(x)：

P (x) = \prod j = 1 n p (x j; μ j; σ j 2) = \prod j = 1 n 1 2 π ‾ ‾ ‾ \sqrt σ j exp (- ( x j - μ j ) 2 2 σ 2 j)

4. 如果 p(x) < ϵ,则为异常值；反之亦成立。

其中的 ε 也是通过交叉验证得到的，也就是说在进行异常检测时，前面的 p(x) 的学习是用的无监督，后面的参数 ε 学习是用的有监督。那么为什么不全部使用普通有监督的方法来学习呢（即把它看做是一个普通的二分类问题）？主要是因为在异常检测中，异常的样本数量非常少而正常样本数量非常多，因此不足以学习到好的异常行为模型的参数，因为后面新来的异常样本可能完全是与训练样本中的模式不同。另外，上面是将特征的每一维看成是相互独立的高斯分布，其实这样的近似并不是最好的，但是它的计算量较小，因此也常被使用。更好的方法应该是将特征拟合成多维高斯分布，这时有特征之间的相关性，但随之计算量会变复杂，且样本的协方差矩阵还可能出现不可逆的情况（主要在样本数比特征数小，或者样本特征维数之间有线性关系时）。

常见对分布的处理
* 对于高斯分布的数据，直接运用以上算法就好；
* 但是对于非高斯分布的数据，虽然也可是使用上面的算法，但是效果不是很好，所以我们尽量将非高斯分布转化成（近似）高斯分布，然后再进行处理；
* 数据整体偏小，可以求ln(x)或者xa,0

Apriori & FP Growth

Apriori是关联分析中比较早的一种方法，主要用来挖掘那些频繁项集合。其核心思想是：
1. 如果一个项目集合不是频繁集合，那么任何包含它的项目集合也一定不是频繁集合；
2. 如果一个项目集合是频繁集合，那么它的任何非空子集也是频繁集合。

这两句话看起来很简单，不过要体会到其中的深层次的含义可以去看看当时提出该算法的paper。

Aprioir需要扫描项目表多遍，从一个项目开始扫描，舍去掉那些不是频繁的项目，得到的集合称为L，然后对L中的每个元素进行自组合，生成比上次扫描多一个项目的集合，该集合称为C，接着又扫描去掉那些非频繁的项目，重复… 这样扫描其时间复杂度和数据库的I/O开销会很大。

具体的做法参考：《machine learning in action》这本书。

FP Growth是一种比Apriori更高效的频繁项挖掘方法，它只需要扫描项目表2次。其中第1次扫描获得当个项目的频率，去掉不符合支持度要求的项，并对剩下的项排序。第2遍扫描是建立一颗FP-Tree(frequent-patten tree)。这篇文章的讲解还是不错的：频繁项集挖掘算法之FPGrowth

参考

博文：
整理本文的起点来源于该博文：机器学习&数据挖掘笔记_16（常见面试之机器学习算法思想简单梳理）

支持向量机通俗导论（理解SVM的三层境界）

四大机器学习降维算法：PCA、LDA、LLE、Laplacian Eigenmaps

通俗理解LDA主题模型

该文档由Microsoft为使用自家的Azure云平台而写，但内容都是通用的。How to choose algorithms for Microsoft Azure Machine Learning

异常检测部分：机器学习——异常检测

频繁项集挖掘算法之FPGrowth

书籍部分：
《machine learning in action》–> 中文版《机器学习实战》
周志华《机器学习》
《PRML》

视频：
Ng老师的《machine learning》视频
林轩田老师的《机器学习技法》视频
七月在线冯老师的视频

Kafka 的消息压缩机制：优化存储与传输的利器阿贾克斯的黎明 java linq c#java
目录Kafka的消息压缩机制：优化存储与传输的利器一、消息压缩机制的重要意义1.减少存储成本2.提升网络传输效率二、Kafka常用的消息压缩算法1.GZIP压缩2.Snappy压缩3.前端展示压缩状态（Vue3+TS）在消息中间件的大家族中，Kafka以其卓越的性能而备受瞩目。其中，Kafka的消息压缩机制是一项非常重要的特性，它就像是一个高效的“压缩包”，在不损失数据内容的前提下，有效减少数据的
关于AI OS那点事大囚长科普天地大模型人工智能
AIOS（人工智能操作系统）作为面向智能时代的操作系统，其功能定位和架构设计与传统操作系统（如Linux、Windows、iOS等）存在显著差异。一、AIOS需具备的核心功能智能体全生命周期管理智能体调度与并发：需支持多智能体任务的优先级排序、资源分配及并发执行，例如通过轮询调度或动态优先级算法优化LLM资源利用率。上下文感知与切换：通过上下文管理器实现智能体交互状态的快照保存与恢复，解决LLM生
贪心算法之分发饼干努力小子 #刷题（简单难度）#贪心算法
假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。对每个孩子i，都有一个胃口值gi，这是能让孩子们满足胃口的饼干的最小尺寸；并且每块饼干j，都有一个尺寸sj。如果sj>=gi，我们可以将这个饼干j分配给孩子i，这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子，并输出这个最大数值。注意：你可以假设胃口值为正。一个小朋友最多只能拥有一块饼干。示例1:输入:[1
JAVA刷Leecode-贪心算法-分配问题-分发饼干搬砖的水鱼 leetcode 算法 java python leetcode 贪心算法
JAVA刷Leecode-贪心算法算法思想分配问题-分发饼干（135，hard)算法思想采用贪心的策略，保证每次操作都是局部最优解，从而最终的结果是全局最优。贪心算法不是对所有问题都能得到整体最优解，选择的贪心策略必须具有无后效性，即某个状态以前的过程不会影响以后的状态，只和当前的状态相关。包括分配问题（455，135）和区间问题（435）；练习：605，452，763，122，406。分配问题-
【贪心算法】1、分发饼干念奕玥【Java】数据结构与算法 java leetcode 贪心算法
贪心算法或贪心思想采用贪心的策略，保证每次操作都是局部最优的，从而使最后得到的结果是全局最优的。可用于解决分配问题e.g.leetcode455分发饼干解题思路：目标：尽可能满足越多数量的孩子。根据目标，可以容易想到，先去满足胃口值小的孩子。为了尽量使饼干可以满足更多的孩子，所以要把饼干尺寸大于等于孩子胃口值的饼干中挑尺寸最小的饼干给孩子。满足了这个孩子之后，再采取同样的策略去考虑剩下的孩子，直到
流浪地球 - 华为OD机试真题(E卷、C++) 什码情况华为od c++算法数据结构面试机试
针对刷题难，效率慢，我们提供一对一算法辅导，针对个人情况定制化的提高计划（全称1V1效率更高）。有兴趣的同学可以扫码添加我们的微信（code5bug）了解，免费试课一下。题目描述流浪地球计划在赤道上均匀部署了N个转向发动机，按位置顺序编号为0~N。1).初始状态下所有的发动机都是未启动状态;2).发动机启动的方式分为”手动启动”和”关联启动”两种方式;3).如果在时刻1一个发动机被启动，下一个时刻
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
贪心算法-455分发饼干工大一只猿贪心算法算法
classSolution{public:intfindContentChildren(vector&g,vector&s){sort(g.begin(),g.end());sort(s.begin(),s.end());intcount=0;inti=g.size()-1;intj=s.size()-1;for(i;i>=0;i--){if(j>=0&&s[j]>=g[i]){j--;count
455. 分发饼干（贪心算法）穿过漫长林径 LeetCode
455.分发饼干题目描述：有一群孩子和一堆饼干，每个孩子有一个饥饿度，每个饼干都有一个大小。每个孩子只能吃一个饼干，且只有饼干的大小不小于孩子的饥饿度时，这个孩子才能吃饱。求解最多有多少孩子可以吃饱。示例1:输入:g=[1,2,3],s=[1,1]输出:1解释:你有三个孩子和两块小饼干，3个孩子的胃口值分别是：1,2,3。虽然你有两块小饼干，由于他们的尺寸都是1，你只能让胃口值是1的孩子满足。所以
贪心算法：分发饼干 AlphaFinance 求职面试
假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。对每个孩子i，都有一个胃口值g[i]，这是能让孩子们满足胃口的饼干的最小尺寸；并且每块饼干j，都有一个尺寸s[j]。如果s[j]>=g[i]，我们可以将这个饼干j分配给孩子i，这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子，并输出这个最大数值。示例1:输入:g=[1,2,3],s=[1,1]输出:1解释:
2021-11-12 455. 分发饼干（贪心算法） TABE_ 贪心算法 leetcode 算法
注：题目：假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。对每个孩子i，都有一个胃口值g[i]，这是能让孩子们满足胃口的饼干的最小尺寸；并且每块饼干j，都有一个尺寸s[j]。如果s[j]>=g[i]，我们可以将这个饼干j分配给孩子i，这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子，并输出这个最大数值。示例1:输入:g=[1,2,3],s=[1,1]输出
贪心算法（9）（java）最优除法奋进的小暄 java 贪心算法算法
题目：给定一正整数数组nums,nums中的相邻整数将进行浮点除法。例如，[2,3.4]->2/3/4.例如，nums=[2,3,4]，我们将求表达式的值“2/3/4"。但是，你可以在任意位置添加任意数目的括号，来改变算数的优先级。你需要找出怎么添加括号，以便计算后的表达式的值为最大值。以字符串格式返回具有最大值的对应表达式。注意:你的表达式不应该包含多余的括号。输入：【1000，100，10，2
PyTorch基础知识讲解（一）完整训练流程示例苏雨流丰机器学习 pytorch 人工智能 python 机器学习深度学习
文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型。本教程向你介绍一个用PyTorch实现的完整的ML工作流程，并提供链接来了解这些概念中的每一个。我们将使用FashionMNIST数据集来训练一个神经网络，预测输入图像是否属于以下
机器学习中的贝叶斯网络：如何构建高效的风险预测模型 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术文章目录机器学习中的贝叶斯网络：如何构建高效的风险预测模型1.背景介绍2.基本概念术语说明2.1马尔科夫随机场（MarkovRandomField）2.2条件随机场（ConditionalRandomField，CRF）2.3变量elimination算法2.4贝叶斯网络3.核心算法原理和具体操作步骤以及数学公式讲解3.1原理介绍1.贝叶斯网络基础2.贝叶斯网络构建风险
机器臂运动控制算法工程师面试道亦无名面试算法人工智能机器学习
大厂的经验总结：一、基础概念理解请解释机器臂运动学正解和逆解的概念，并分别说明其用途。正解：已知机器臂各关节的角度（或位移），通过运动学模型计算出机器臂末端执行器在笛卡尔空间中的位置和姿态。用途在于可以根据给定的关节驱动值，预测末端的实际位置，用于运动仿真、路径验证等，比如在工业生产前模拟机器臂的动作是否能准确到达加工位置。逆解：已知机器臂末端执行器在笛卡尔空间中的期望位置和姿态，求解出各关节应处
Java高并发容器的内核解析：从无锁算法到分段锁的架构演进猿享天开开发语言 java
《Java高并发容器的内核解析：从无锁算法到分段锁的架构演进》本文将以JUC包核心容器为切入点，深入剖析ConcurrentHashMap在Java8中的64位Hash分段技术，解密LinkedBlockingQueue双锁队列设计的吞吐量秘密，并给出各容器在亿级流量场景下的性能压测对比与选型决策矩阵。一、BlockingQueue体系：生产者-消费者模式的工业级实现1.阻塞队列的四大行为矩阵行为
【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？努力毕业的小土博^_^ AI算法题库人工智能算法计算机视觉深度学习神经网络
【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？前言数据级别的多尺度模型架构上的多尺度表示FPN代码示例（PyTorch）说明其他多尺度处理方法总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校
【大模型书籍PDF】从零开始大模型开发与微调：基于PyTorch与ChatGLM （推荐）_从零开始大模型开发与微调 pdf 喝不喝奶茶丫 pytorch 人工智能语言模型大模型转行大模型 AI大模型微调
今天又来给大家推荐一本大模型方面的书籍。本书使用PyTorch2.0作为学习大模型的基本框架，以ChatGLM为例详细讲解大模型的基本理论、算法、程序实现、应用实战以及微调技术，为读者揭示大模型开发技术。本书配套示例源代码、PPT课件。（书籍分享）
软考系统架构设计师考试学习和考试的知识点大纲，覆盖所有考试考点 DKPT #系统架构设计师系统架构学习
以下是软考系统架构设计师考试的知识点大纲，覆盖所有官方考点，分为基础知识、核心技术、系统设计、案例分析、论文写作五大模块，帮助系统性学习和备考：一、基础知识模块计算机组成与体系结构计算机硬件组成（CPU、内存、I/O设备）存储系统（Cache、RAID、虚拟内存）指令系统与流水线技术操作系统进程与线程管理（调度算法、死锁）内存管理（分页、分段、虚拟内存）文件系统与磁盘管理数据库系统关系数据库（SQ
单调栈详解【C/C++】ん贤算法单调栈算法 c++数据结构贪心算法
前言：了解过单调队列后，你会发现单调栈的思想其实挺简单...当然前提是要了解一下什么是栈(stack)。看待一个问题，从不同角度，也许能有不同的收获。在数学家眼中，单调栈本质上是一个严格或非严格维护的单调递增或单调递减的数学结构。其核心在于动态的维护动态递增或递减的有序关系。而对于算法工程师，他们首先关注单调栈的核心优势：O(n)的时间复杂度。在需要遍历序列，并纪录极值的情况下（如接雨水、每日温度
Caffeine vs Guava Cache：性能巅峰对决，谁才是 Java 本地缓存之王？ Julian.zhou Java 开发基础技能缓存 java 算法
CaffeinevsGuavaCache：性能巅峰对决，谁才是Java本地缓存之王？导语：在Java本地缓存的战场上，Caffeine和GuavaCache是开发者最常用的两大神器。但究竟谁的性能更胜一筹？为何Caffeine被称为“GuavaCache的终结者”？本文通过算法原理、并发性能、内存管理、实战测试四大维度，彻底揭秘两者的性能差异，文末附迁移指南和选型建议！一、核心差异：算法与淘汰策略
122. 买卖股票的最佳时机 II 请向我看齐 LeetCode 算法
题目分析LeetCode第122题是“买卖股票的最佳时机II”。题目描述为：给定一个数组prices，其中prices[i]是一支给定股票第i天的价格。设计一个算法来计算你所能获取的最大利润。你可以尽可能地完成更多的交易（多次买卖一支股票）。模式识别本题属于动态规划或者贪心算法的范畴。由于可以进行多次交易，且没有交易次数限制，所以可以通过比较相邻两天的价格，只要后一天价格比前一天高，就进行一次交易
二分查找算法 WH牛算法算法
目录1.二分查找算法的介绍1.1算法思路1.2算法模版1.2.1查找区间左端点1.2.1查找区间右端点2.模版题2.1数的范围2.2数的三次方根3.典题3.1机器人跳跃问题3.2分巧克力4.课后题1.二分查找算法的介绍1.1算法思路假设目标值在闭区间[l,r]中，每次将区间长度缩小一半，当l=r时，我们就找到了目标值。说人话：就是把答案所在的区间逐渐缩小，直到区间内只有答案。二分查找算法的时间复杂
搜广推校招面经五十四 Y1nhl 搜广推面经搜索算法 python 推荐算法机器学习人工智能
美团推荐算法一、手撕Transformer的位置编码1.1.位置编码的作用Transformer模型没有显式的序列信息（如RNN的循环结构），因此需要通过位置编码（PositionalEncoding）为输入序列中的每个位置添加位置信息。位置编码的作用是：提供序列位置信息：帮助模型理解输入序列中元素的顺序。保持唯一性和连续性：确保每个位置的位置编码是唯一的，且相邻位置的位置编码是连续的。1.2.位
搜广推校招面经五十三 Y1nhl 搜广推面经 python 机器学习人工智能推荐算法搜索算法算法
小红书推荐算法一、ESMM(EntireSpaceMulti-TaskModel)ESMM（EntireSpaceMulti-TaskModel）是一种用于解决推荐系统中多任务学习问题的模型。它由阿里巴巴团队提出，主要用于处理点击率（CTR）和转化率（CVR）的联合预测问题。1.1.背景在推荐系统中，CTR和CVR是两个重要的指标：CTR（Click-ThroughRate）：用户点击广告的概率。
EnerVerse：智元机器人提出首个机器人4D世界模型，在动作规划任务中达到SOTA水平强化学习曾小健机器人
EnerVerse：智元机器人提出首个机器人4D世界模型，在动作规划任务中达到SOTA水平PNP机器人PNP机器人2025年02月10日21:04上海本文来自：公众号智元机器人https://sites.google.com/view/enerverse，出于学术/技术分享进行转载，如有侵权，联系删文。EnerVerse的科研核心团队由智元机器人研究院的具身算法精英组成。黄思渊，作为上海交通大学与
使用 Milvus 进行向量数据库管理与实践 qahaj milvus 数据库 python
技术背景介绍在当今的AI与机器学习应用中，处理和管理大量的嵌入向量是一个常见的需求。Milvus是一个开源向量数据库，专门用于存储、索引和管理深度神经网络以及其他机器学习模型生成的大规模嵌入向量。它的高性能和易用性使其成为处理向量数据的理想选择。核心原理解析Milvus的核心功能体现在其强大的向量索引和搜索能力。它支持多种索引算法，包括IVF、HNSW等，使其能够高效地进行大规模向量的相似性搜索操
【IT大学生必会的】 10 种图表线性回归 .Boss. 深度学习开发语言人工智能机器学习算法
这段时间，不少同学提到了一些图表的问题。每次在使用matplotlib画图，运用这些图表说明问题的时候，很多时候是模糊的，比如说什么时候画什么图合适？其实这个根据你自己的需求，自己的想法来就行。今天的话，我这里举例在线性回归中，最常用的一些图表，应该可以cover绝大多数情况了。其他算法模型适用的图表，咱们在后面再给大家进行总结~至于数据集，表现方式，大家可以根据我给出的代码继续调整即可！那么，在
物理学不存在了？诺贝尔物理学奖颁给了人工智能资讯新鲜事人工智能
2024年10月8日，瑞典皇家科学院宣布，将2024年诺贝尔物理学奖授予美国普林斯顿大学教授约翰·J·霍普菲尔德（JohnJ.Hopfield）和加拿大多伦多大学教授杰弗里·E·辛顿（GeoffreyE.Hinton），以表彰他们“在人工神经网络机器学习方面的基础性发现和发明”。辛顿在接受电话采访时表示：“完全没想到”。实话实说，在结果出来前，大家也都没想到。因为在外界预测里，今年的诺贝尔物理学奖
分布式限流方案：基于 Redis 的令牌桶算法实现代码怪兽大作战后端分布式 redis 算法 java 令牌桶接口限流
分布式限流方案：基于Redis的令牌桶算法实现前言一、原理介绍：令牌桶算法二、分布式限流的设计思路三、代码实现四、方案优缺点五、适用场景总结前言在分布式场景下，接口限流变得更加复杂。传统的单机限流方式难以满足跨节点的限流需求，因此需要一种分布式限流方案。这里介绍一种基于Redis和Redisson实现的令牌桶算法分布式限流方案。一、原理介绍：令牌桶算法令牌桶算法是一种用于控制流量的经典算法，其基本
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源