蕉叉熵

因子分解机（libffm+xlearn）

因子分解机

一、简介

在CTR和CVR预估任务中，可能有大量的ID类特征（Categorical Feature），一般来说并不适合直接送入树模型（xgboost完全不支持，lightgbm只根据取值不同），一种常用的做法是通过Label Encoding变成离散的稀疏的高维向量（最具代表的是Onehot独热编码），然后送入LR训练。在独热编码的作用下，产生了多项式模型参数学习困难的问题。
因子分解机 Factorization Machine（FM）解决了稀疏特征下的参数学习问题，实现了树模型很难做到的特征交叉（树模型需要手动提取交叉特征），而且可以不考虑0特征以加速训练，对稀疏严重的数据有着较好的相性，因此是LR以外的一个不错的选择。常见的使用方法是Onehot特征直接送入FM，或者经过其他模型输出的离散高维特征（比如提升树模型输出的叶子序号的序列）送入FM做stacking。本文参考了其他的文献，对FM、FFM以及相应的实现包括libffm和xlearn做出基本的介绍。文章以后仍会继续完善，尤其是libffm和xlearn还需要进一步follow代码。

二、多项式模型

2.1 多项式模型形式

考虑一个模型，它的输出由单特征（ d 维）与组合特征的线性组合构成，如果不看二次项，这就是一个线性回归模型，现在引入了交叉项。

f (x) = w 0 + \sum i = 1 d w i \cdot x i + \sum i = 1 d \sum j = i + 1 d w i j \cdot x i x j

其中单特征的参数

wi w i 有

d d 个，组合特征的参数

wij w i j 有

d(d−1)2 d ( d − 1 ) 2 个，且任意两个

wij w i j 之间相互独立。

2.2 交叉项参数训练问题

现在假设目标函数是 L(y,f(x)) ，为了使用梯度下降法训练交叉项参数，需要求导：

\partial L \partial w i j = \partial L \partial f ( x ) \cdot \partial f ( x ) \partial w i j = \partial L \partial f ( x ) x i x j

也就是说，每个二次项参数

wij w i j 的训练需要

xi x i 和

xj x j 同时非零，若特征稀疏（例如Onehot过），则一整行中只有一个1，容易导致

wij w i j 训练无法进行。

三、FM

3.1 FM是什么

将矩阵 W={wi,j} 矩阵（这是一个对称方阵）分解成 W=VTV 的形式，其中 V=(v1,v2,⋯,vd) 是一个 k×d 矩阵，且 k≪d ，于是 W 矩阵的每一个元素都可以用 V 矩阵对应的两列做内积得到： wij=vi⋅vj ，同时多项式模型可以重写，这就是因子分解机模型。

f (x) = w 0 + \sum i = 1 d w i \cdot x i + \sum i = 1 d \sum j = i + 1 d (v i \cdot v j) \cdot x i x j

由于只需要用分解后产生的

V V 就能表达

W W ，使得参数个数由

d2 d 2 变成了

kd k d 。另一方面，

V V 矩阵的每一列

vi v i 是第

i i 维特征的隐向量，一个隐向量包含

k k 个描述第

i i 维特征的因子，故称 因子分解。

3.2 为什么FM能解决参数训练问题

经过因子化之后，组合特征 xixj 和 xjxk 的系数 (vi⋅vj) 与 (vj⋅vk) 不再独立，他们共有了 vj ，因此所有包含 xj 特征的非零组合特征的样本都能拿来训练。这是什么意思呢？现在，如果只看交叉项（不管用什么loss，根据链式法则我们总需要乘上 ∂f(x)∂wij ）：

f (x) \propto \sum i \sum j w i j x i x j \to \partial f ( x ) \partial w i j = x i x j

对于稀疏数据而言，

xixj=0 x i x j = 0 很常见，梯度为0，FM改一下变成：

f (x) \propto \sum i = 1 d \sum j = i + 1 d (v i \cdot v j) x i x j \to \partial y \partial v i = \sum j v j \cdot x i x j

原本的多项式模型，为了训练

wij w i j ，要求

xi x i 和

xj x j 不能同时为0，现在我们假设

xi≠0 x i ≠ 0 ，则条件变为 “ xj 绝对不可以为0”。另一方面，同样假设

xi≠0 x i ≠ 0 ，但是对

j j 没有限制，在所有的特征中，任意不为0的

xj x j 都可以参与训练，条件减弱为 “ 存在 xj≠0 即可”。因此， FM缓解了交叉项参数难以训练的问题。

3.3 FM计算的时间复杂度

f (x) \propto \sum i = 1 d \sum j = i + 1 d (v i \cdot v j) x i x j

时间复杂度上，若只看交叉项，两层循环

O(n2) O ( n 2 ) ，内层k维内积（O(k)），综合起来应该是

O(kd2) O ( k d 2 ) 。然而，交叉项是可以化简的，化简为下面的形式后，复杂度是

O(kd) O ( k d ) 。

\sum i = 1 d \sum j = i + 1 d (v i \cdot v j) x i x j = 1 2 \sum j = 1 k ⎛ ⎝ ⎜ ⎜ (\sum i = 1 d v i j x i) 2 - \sum i = 1 d v 2 i j x 2 i ⎞ ⎠ ⎟ ⎟

3.4 FM的梯度下降求解

FM模型方程似乎是通用的，根据任务不同，使用不同的loss。比如，回归问题用MSE，分类问题先取sigmoid或者softmax，然后用cross-entropy，比较灵活。

f (x) = w 0 + \sum i = 1 d w i \cdot x i + 1 2 \sum j = 1 k ⎛ ⎝ ⎜ ⎜ (\sum i = 1 d v i j x i) 2 - \sum i = 1 d v 2 i j x 2 i ⎞ ⎠ ⎟ ⎟

计算FM对各参数的梯度：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ \partial y ( x ) \partial w 0 = 1 \partial y ( x ) \partial w i = x i \partial y ( x ) \partial v i j = x i \sum d t = 1 v t j x t - x 2 i v i j

四、FFM

4.1 FFM (Field-aware Factorization Machine)

在FM的基础上，进一步提出 field 的概念。一般来说，同一个ID类特征进行Onehot而产生的所有特征都可以归为同一个 field。在FFM中，对每一个特征 xi ，每一个field fj ，学习一个隐向量 vi,fj ，不同的特征跟同一个 field 进行关联时使用不同的隐向量。假设总共有 d 个特征，属于 f 个field，那么每个特征都用 f 个隐向量来描述，所以总共有 d×f 个隐向量。而FM中，一个特征只有一个隐向量，所以FM可以看成FFM中所有特征都属于同一个 field 的特例。

f (x) = w 0 + \sum i = 1 d w i \cdot x i + \sum i = 1 d \sum j = i + 1 d (v i, f j \cdot v j, f i) \cdot x i x j

观察一下，内积

vi,fj⋅vj,fi v i , f j ⋅ v j , f i 表示让特征

i i 与特征

j j 的 field 关联，同时让特征

j j 与

i i 的 field 关联，由此可见，FM的交叉是针对特征之间的，而FFM是针对特征与 field 之间的。

4.2 FFM计算举例

为了更直观地理解FFM的计算，下面给出一个例子。

Clicked	User(U)	Advertizer(A)	Gender(G)
0	Arthur	Lancelot	Male
1	Arthur	Guinevere	Male

One-Hot编码转换，其中等于其他情况的列都是0，省略掉了。

Clicked	U=Arthur	A=Lancelot	A=Guinevere	G=Male
0	1	1	0	1
1	1	0	1	1

这么看不够直观，将特征和对应的field映射成整数编号。

field name	field index	feature name	feature index
User	1	U=Arthur	1
Advertizer	2	A=Lancelot	2
		A=Guinevere	3
Gender	3	G=Male	4

第一个instance的FFM的组合项有6项，注意 vi,fj 下标的含义，就很好懂了。由于存在部分0，最后实际上只有3项。

\sum i = 1 d \sum j = i + 1 d (v i, f j \cdot v j, f i) \cdot x i x j = (v 1, 2 \cdot v 2, 1) \cdot 1 \cdot 1 + (v 1, 2 \cdot v 3, 1) \cdot 1 \cdot 0 + (v 1, 3 \cdot v 4, 1) \cdot 1 \cdot 1 + (v 2, 2 \cdot v 3, 2) \cdot 1 \cdot 0 + (v 2, 3 \cdot v 4, 2) \cdot 1 \cdot 1 + (v 1, 4 \cdot v 3, 1) \cdot 0 \cdot 1

第二个instance的FFM的组合项也有6项，最后实际只有3项。

\sum i = 1 d \sum j = i + 1 d (v i, f j \cdot v j, f i) \cdot x i x j = (v 1, 2 \cdot v 2, 1) \cdot 1 \cdot 0 + (v 1, 2 \cdot v 3, 1) \cdot 1 \cdot 1 + (v 1, 3 \cdot v 4, 1) \cdot 1 \cdot 1 + (v 2, 2 \cdot v 3, 2) \cdot 0 \cdot 1 + (v 2, 3 \cdot v 4, 2) \cdot 0 \cdot 1 + (v 1, 4 \cdot v 3, 1) \cdot 1 \cdot 1

4.3 FFM的实现

下面这个算法流程摘自美团-深入FFM原理与实践，实际上正是libffm的实现，具体的介绍可以在ffm论文里找到。首先对数据逐列归一化，然后进行迭代，每次迭代计算梯度并更新参数。

libffm模型省略了常数和一次项，将FFM目标简化为下面这个形式。

ϕ (x) = \sum j 1, j 2 \in C (v j 1, f 2 \cdot v j 2, f 1) x j 1 x j 2

这里的

C C 是组合非零的集合（即

xj1xj2≠0 x j 1 x j 2 ≠ 0 ），

j1 j 1 和

j2 j 2 是特征编号，两个特征分别属于 field

f1 f 1 和

f2 f 2 。下面以logistic loss为损失函数举例，并给目标增加L2 正则。

min v \sum i log (1 + e - y i ϕ (x i)) + λ 2 | | v | | 22

其中，前半部分是风险损失

Lerr L e r r ，后半部分是结构损失

Lreg L r e g 。这个

Lerr L e r r 和我之前看过的logistic loss（交叉熵）不太一样，以前看到的是

yi y i 乘在log外面，但其实这么定义也符合loss的规律，

yi=1 y i = 1 时，

ϕ(x) ϕ ( x ) 越大loss越接近0.

如果用SGD进行更新，具体在计算梯度的时候有一点trick，由于链式法则：

\partial L \partial v = \partial L e r r \partial ϕ \partial ϕ \partial v + \partial L r e g \partial v

∂Lerr∂ϕ ∂ L e r r ∂ ϕ 其实和模型参数无关，只需要预先计算一次就够了，之后在对每一个参数

v v 求梯度的时候，直接调用乘上去即可。

根据论文的描述，学习率更新使用了AdaGrad（但据我所知libffm默认是用sgd的，xlearn默认是用AdaGrad的），学习率分母用历次迭代梯度和代替，前期加速，后期缓和，且保证每个参数的学习率都不同，每个参数既能较快收敛，又不容易震荡。

v j 1, f 2 \leftarrow v j 1, f 2 - α 1 + \sum t ( g ( t ) v j 1 , f 2 ) 2 ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt g v j 1, f 2

五、ffm开源实现之libffm

5.1 数据输入格式

libffm 数据格式如下：

l a b e l f i e l d 1 : f e a t u r e 1 : v a l u e 1 f i e l d 2 : f e a t u r e 2 : v a l u e 2

其中，numeric特征的value用原值，ID类特征的value用1代替。
具体以下面这个instance为例。

Clicked	User(U)	Advertizer(A)	Price(P)
0	Arthur	Lancelot	9.99
1	Arthur	Guinevere	9.99

那么这两条样本应该处理成

01 1 : U = A r t h u r : 1 1 : U = A r t h u r : 1 2 : A = L a n c e l o t : 1 2 : A = G u i n e v e r e : 1 3 : P r i c e : 9.99 3 : P r i c e : 9.99

然后我们要对feature进行编码，编码的方式多种多样，可以直接根据feature取值构造字典（vocabulary），也可以使用哈希函数转换字符串。

例如直接构造字典如下。值得注意的是，只有category类特征需要对不同的特征取值进行编码，数值型特征共享同一编码即可。

vocabulary = {"U=Arthur":1,
              "A=Lancelot":2,
              "A=Guinevere":3,
              "price":4} # 数值型特征共享同一编码

下面列出编码后的结果：

field name	field index	feature name	feature index
User	1	U=Arthur	1
Advertizer	2	A=Lancelot	2
		A=Guinevere	3
Price	3	Price	4

根据以上编码结果，我们的样本变成这样：

01 1 : 1 : 1 1 : 1 : 1 2 : 2 : 1 2 : 3 : 1 3 : 4 : 9.99 3 : 4 : 9.99

另外提供一个hash转换函数

def hashstr(str, nr_bins=1e+6):
    return int(hashlib.md5(str.encode('utf8')).hexdigest(), 16)%(nr_bins-1)+1

5.2 数据处理技巧

1. 样本归一化

libffm有个参数是pa.norm，默认对样本归一化，如果不这样做可能会导致计算的梯度太大而出现inf的溢出。

2. 特征归一化

当特征中同时含有数值类和ID类时，例如某数值特征a取值为10000，ID类特征b取值是1，做样本归一化后，a=0.9999，b=9.999E-5，就会导致ID类特征没有贡献。因此要对每一列特征先做归一化。

3. 零值省略

上面的输入其实应该是这样的：

01 1 : 1 : 1 1 : 1 : 1 2 : 2 : 1 2 : 2 : 0 2 : 3 : 0 2 : 3 : 1 3 : 4 : 9.99 3 : 4 : 9.99

但是没有必要，因为等于0的特征没有贡献，所以在生成输入文件的时候不需要写零值项，这样可以加速训练速度，也减少了文件的空间占用。

六、ffm开源实现之xlearn

xlearn其实不止支持ffm，还支持LR和FM。

安装

pip安装即可
```
sudo pip install xlearn
```

git clone后自己编译

git clone https://github.com/aksnzhy/xlearn.git
cd xlearn
./build.sh

使用

在python中调用

    import xlearn as xl

具体使用可参考 ./demo

在命令行中使用

build/xlearn_train
```
./xlearn_train train_set -m model
```

build/xlearn_predict

./xlearn_predict test_set model -o output

参数

训练指定模型输出文件

-m
-t

# 默认输出模型是 train_set + ".model" 文件
./xlearn_train train_set

# 指定输出模型，就会输出一个 xlearn_model 文件
./xlearn_train train_set -m xlearn_model

# 指定输出模型到txt
./xlearn_train train_set -t xlearn_model.txt

训练指定机器学习算法

支持GLM(LR)，FM和FFM，三种算法对数据有所要求。LR和FM支持libsvm和csv输入格式，libffm格式会被处理成libsvm格式；FFM只支持libffm格式。

:
   label index_1:value_1 index_2:value_2 ... index_n:value_n
:
   value_1 value_2 .. value_n label
:
   label field_1:index_1:value_1 field_2:index_2:value_2 ...

-s 0/1/2

./xlearn_train train_set -s 0  # Linear model
./xlearn_train train_set -s 1  # Factorization machine (FM)
./xlearn_train train_set -s 2  # Field-awre factorization machine (FFM)

训练指定验证集

-v

./xlearn_train train_set -v test_set

训练指定指标metric

分类问题支持accuracy、precision、F1和AUC
-x acc/prec/f1/auc

./xlearn_train train_set -v test_set -x acc
./xlearn_train train_set -v test_set -x prec
./xlearn_train train_set -v test_set -x f1
./xlearn_train train_set -v test_set -x auc

回归问题支持mae、mape和rmsd(rmse)

./xlearn_train train_set -v test_set -x mae
./xlearn_train train_set -v test_set -x rmsd

训练时采用交叉验证

默认是5折，可以用-f改变折数
-f
–cv

./xlearn_train train_set -f 3 --cv # 3折交叉验证

训练选择优化方法

支持sgd、adagrad和FTRL
-p

./xlearn_train train_set -p sgd
./xlearn_train train_set -p adagrad
./xlearn_train train_set -p ftrl

训练参数调整

学习率（默认0.2）

-r

./xlearn_train train_set -r 0.01

正则化（默认L2正则且 λ 是0.00002）

./xlearn_train train_set -b 0.01

FTRL专用参数

-alpha
-beta
-lambda_1
-lambda_2

./xlearn_train train_set -p ftrl -alpha 0.002 -beta 0.8 -lambda_1 0.001 -lambda_2 1.0

FM和FFM专用参数

latent factor

-k

./xlearn_train train_set -s 2 -k 4

模型初始化（默认0.66）

-u

./xlearn_train train_set -s 2 -u 0.1

训练的迭代次数和EarlyStopping

迭代次数

-e

./xlearn_train train_set -e 10 # 训练10个epoch

EarlyStopping

EarlyStopping是默认选项，但是可以设置不用它
–dis-es

./xlearn_train train_set -e 10 --dis-es

样本归一化

归一化是默认选项，但是可以设置不用它
–no-norm

./xlearn_train train_set --no-norm

安静训练

训练时不会计算指标，可以加速
–quiet

./xlearn_train train_set --quiet

预测时输出概率或者01

–sigmoid
–sign

$ 输出概率
./xlearn_predict test_set model --sigmoid

$ 输出0和1
./xlearn_predict test_set model --sigmoid

预测时指定输出文件

-o

$ 指定输出文件
./xlearn_predict test_set model --sigmoid -o submission.txt

数据格式

xlearn支持三种算法LR、FM和FFM，同时支持三种输入数据格式CSV、libsvm和libffm。其中LR和FM支持CSV和libsvm格式，但是FFM只支持libffm格式。LR和FM当然也支持libffm，只不过它会被当成libsvm格式，即field字段无效。
值得注意的是，一般测试集test是没有label的，但仍然需要添加一列label做占位符（全部设-1或0都可以），否则parser会把第一列数据当成Label的。

libsvm format:

l a b e l i n d e x 1 : v a l u e 1 i n d e x 2 : v a l u e 2 \dots

CSV format:

l a b e l v a l u e 1 v a l u e 2 \dots

libffm format:

l a b e l f i e l d 1 : f e a t u r e 1 : v a l u e 1 f i e l d 2 : f e a t u r e 2 : v a l u e 2 \dots

python调用

我最喜欢xlearn的一点是，方便python调用，不得不佩服这些造轮子的人。具体的使用参考这里。

使用感受

支持分类和回归，更像是libffm的改进版，在mushroom数据集上比libffm更快，准确率更高（训练集和测试集都是），libffm不支持直接python调用，xlearn则支持。
根据github上的描述，xlearn支持外存训练（out-of-core），可以并行化。

七、从神经网络的角度看FM

输入是稀疏的高维特征，黑色线是带权值的，将每一维输入直接连接到黄色的带“+”号的结点，这部分是FM中的常数和一次项，相当于LR。另一方面，FM中的二次项相当于首先对输入做了某种Embedding，变成稠密的向量，然后这些向量进行内积，即图中褐色结点，红色线上权值恒为1，不可训练。Embedding涉及到因子 vi ，它们是可训练的。最终一次项和二次项被加起来，送给sigmoid输出概率。

举个例子，field i 是某个原始特征（比如性别=男）onehot后的稀疏特征： [1,0,0] ，让 xi=1 ，我们知道这个field中其他特征都完全没用，因为它们都是0。一方面， xi 参与了一次项的计算：

\sum w i \cdot x i

另一方面，

xi x i 经过embedding，变成了

k k 维向量。怎么做embedding的呢？还记得FM每个

xi x i （标量）对应一个隐向量

vi v i （

k k 维向量）吗？embedding很简单，就是

xi⋅vi x i ⋅ v i 而已。然后，它和其他非零特征的embedding两两交叉，正是FM的二次项：

\sum i \sum j x i v i \cdot x j v j = \sum i \sum j (v i \cdot v j) x i x j

因此，对于 m 个field，共 d 维特征，实际上参与训练的参数包括如下几方面：

w 向量，长度为 d
v 矩阵，大小为 d×k

那么，FM输入格式应该怎么对应到这个网络图上呢？先回顾一下FM格式，以及上面给出的一个实例（省略0）。

l a b e l i n d e x 1 : v a l u e 1 i n d e x 2 : v a l u e 2 \dots

Clicked	U=Arthur	A=Lancelot	A=Guinevere	G=Male
0	1	1	0	1

0 1 : 1 2 : 1 4 : 1

首先设定隐向量长度 k ，然后为每个 index 初始化向量 vi ，这里 index 最大为4，因此 v 矩阵的大小为 4×k 。接着，对于每个特征 xi 选取 v 矩阵对应的 indexi 行向量 vi ，做Embedding得到 xivi 。接下来的步骤不再赘述。
训练的时候，根据样本中每一个 index 取出 v 矩阵中的某一行，经过FM前向计算得到loss，然后梯度下降更新参数。从这里可以看出，只要存在 xi≠0 的样本， vi 就能够得到训练。

多值离散特征的处理

有时候我们会遇到一些特殊的离散特征，在一个样本中该特征会取多个值，例如下面这个例子，我们的劳模Arthur喜欢的水果有四种，如果做onehot的话，Like特征就不像上面介绍的那些特征那样只有一个位置上有1，而是有4个位置有1，其余是0。

Clicked	User	Like
0	Arthur	Apple,Banana,Orange,Grapes

如果我们按照libsvm格式处理样本，让“User=Arthur”特征编码为1，“Like=Apple”到“Like=Grapes”分别编码为2到5，注意虽然2到5特征编码不同，但它们是属于同一个field的（在FFM的概念里）。我们能得到样本：

0 1 : 1 2 : 1 3 : 1 4 : 1 5 : 1

可以发现其实没有任何区别，只不过因为FM里面没有field的概念，所以看起来好像是把Like这个特征分成了4个不同的Onehot field，每个field只有一个位置取值为1.

参考

【github】libffm下载
【博客】美团深入ffm
【论文】libffm原理
【github】xlearn下载
【博客】推荐系统中使用ctr排序的f(x)的设计-dnn篇之DeepFM模型
【API】xlearn文档
【博客】推荐系统遇上深度学习 (一) FM模型理论和实践
【博客】推荐系统遇上深度学习(二) -FFM模型理论和实践
【博客】推荐系统遇上深度学习(三) -DeepFM模型理论和实践
【博客】推荐系统遇上深度学习（四）-多值离散特征的embedding解决方案

awesome python 中文版相见恨晚！(pythonNB的第三方资源库) weixin_30788731
AwesomePython中文版来啦！原文链接：Python资源大全内容包括：Web框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等。GitHub-jobbole/awesome-python-cn:Python资源大全中文版环境管理管理Python版本和环境的工具p–非常简单的交互式python版本管理工具。pyenv–简单
【机器学习】决策树 ( Decision Tree ) AI天才研究院 ChatGPT DeepSeek R1 &大数据AI人工智能大模型深度学习实战机器学习决策树算法支持向量机人工智能
【机器学习】决策树(DecisionTree)文章目录【机器学习】决策树(DecisionTree)1.ID3(1)信息增益(2)ID3的算法流程(3)实现ID32.C4.53.CART(1)决策桩DecisionStump(2)回归CART：最小二乘回归树leastsquaresregressiontree⚪回归CART的例子(3)分类CART(4)处理缺失值Handlemissingfeatu
机器学习-随机森林解析 Mr终游机器学习机器学习随机森林人工智能
目录一、.随机森林的思想二、随机森林构建步骤1.自助采样2.特征随机选择3构建决策树4.集成预测三.随机森林的关键优势**(1)减少过拟合****(2)高效并行化****(3)特征重要性评估****(4)耐抗噪声**四.随机森林的优缺点优点缺点五.参数调优（以scikit-learn为例）波士顿房价预测一、.随机森林的思想1.通过组成多个弱学习器（决策树）形成一个学习器2.多样性增强：每颗决策树通
深度学习笔记——基础部分肆—— 深度学习深度学习笔记人工智能 python pytorch
深度学习是一种机器学习的方式，通过模仿人脑吃力信息的方式，使用多层神经网络来学习数据的复杂模式和特征。深度学习和机器学习的区别：在机器学习中，特征提取通常需要人工设计和选择，依赖于领域专家的知识来确定哪些特征对模型最为重要;而在深度学习中，特征提取是自动进行的，通过多层神经网络结构直接从原始数据(也可能需要初步处理)中学习复杂特征，减少了对人工干预的依赖，使得模型能够处理更加复杂的数据和任务。计算
机器学习基础（4） yyc_audio 深度学习 python 机器学习神经网络人工智能
超越基于常识的基准除了不同的评估方法，还应该利用基于常识的基准。训练深度学习模型就好比在平行世界里按下发射火箭的按钮，你听不到也看不到。你无法观察流形学习过程，它发生在数千维空间中，即使投影到三维空间中，你也无法解释它。唯一的反馈信号就是验证指标，就像隐形火箭的高度计。特别重要的是，我们需要知道火箭是否离开了地面。发射地点的海拔高度是多少？模型似乎有15%的精度——这算是很好吗？在开始处理一个数据
机器学习｜决策树｜Gini指数和熵的区别｜简单示例漂亮_大男孩机器学习决策树人工智能
如是我闻：在决策树模型中，Gini指数和熵（Entropy）是用来计算节点纯度的两种方法。它们都是评估分裂点的好坏，以选择最佳的属性来分裂。让我们先来了解一下这两种方法的定义，然后通过一个简单的例子来讨论它们之间的区别。Gini指数Gini指数是一个衡量数据分布不均匀程度的指标。在决策树中，它用于评估数据集的不纯度。Gini指数越低，数据的纯度越高。其计算公式为：Gini=1−∑i=1npi2Gi
00计算机视觉学习内容依旧阳光的老码农计算机视觉计算机视觉人工智能
计算机视觉（ComputerVision）开发需要掌握数学基础、编程语言、图像处理、机器学习、深度学习等多个方面的知识。以下是一个系统的学习路线：1️⃣数学基础（核心理论支撑）计算机视觉涉及很多数学概念，以下是必备数学知识：✅线性代数（矩阵运算是计算机视觉的核心）向量、矩阵运算（加减、乘法、转置）特征值与特征向量SVD（奇异值分解），用于图像压缩、降维齐次坐标变换（用于3D计算机视觉）✅概率统计（
01计算机视觉学习计划依旧阳光的老码农计算机视觉计算机视觉人工智能
计算机视觉系统学习计划（3-6个月）本计划按照数学→编程→图像处理→机器学习→深度学习→3D视觉→项目实战的顺序，确保从基础到高级，结合理论和实践。第一阶段（第1-2个月）：基础夯实✅目标：掌握数学基础、Python/C++编程、基本图像处理1️⃣数学基础（2周）每日2小时线性代数：矩阵运算、特征值分解（推荐《线性代数及其应用》）概率统计：高斯分布、贝叶斯定理微积分：偏导数、梯度下降傅里叶变换：图
决策树 vs 神经网络：何时使用？ HP-Succinum 机器学习决策树神经网络算法
目录1.决策树（DecisionTrees）1.1特点1.2优点1.3缺点1.4适用场景2.神经网络（NeuralNetworks）2.1特点2.2优点2.3缺点2.4适用场景3.何时选择哪种方法？4.结合使用的可能性5.总结在机器学习领域，决策树（DecisionTrees）和神经网络（NeuralNetworks）是两种常见但风格截然不同的算法。它们各自适用于不同类型的问题，本文将介绍它们的特
使用 Dlib 库进行人脸检测和人脸识别萧鼎 python基础到进阶教程计算机视觉人工智能 python 人脸识别人脸检测
使用Dlib库进行人脸检测和人脸识别什么是Dlib？Dlib是一个广泛使用的C++库，提供了多种用于机器学习和计算机视觉的工具。它包含了人脸检测、人脸识别、物体检测、图像处理等功能。Dlib具有高效、易用的Python接口，因此它也被广泛应用于Python中进行深度学习和计算机视觉任务。安装Dlib首先，我们需要在Python环境中安装Dlib库。你可以通过pip进行安装：pipinstalldl
介绍常见的图片分类模型与算法萧鼎 python基础到进阶教程算法分类数据挖掘
介绍常见的图片分类模型与算法在机器学习和深度学习的领域中，图片分类任务是一个广泛的应用场景。随着深度学习技术的飞速发展，很多强大的图像分类算法和模型已经被提出，广泛应用于从医疗影像到自动驾驶、从人脸识别到图像检索等多个领域。本文将重点介绍多种用于图像分类的经典算法与模型，帮助你了解在图像分类任务中常用的技术。1.传统机器学习模型在深度学习崭露头角之前，传统的机器学习模型是图像分类的主流方法。这些模
量化投资与算法交易 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介量化投资（Quantitativeinvestment）和算法交易（AlgorithmicTrading），两者是近几年兴起的两个热门词汇。市场对这两个词汇的认识也是逐渐加深。在过去几年里，人们普遍认为，算法交易和机器学习结合是未来股票、期货等金融产品的必然趋势。机器学习是由多个数据源（如财务报表、交易历史数据、社交网络数据等）自动分析生成的模型，能够预测出股价
Unity AI 技术浅析（二）爱研究的小牛 AIGC—游戏制作 AIGC—虚拟现实 unity 人工智能游戏引擎 AIGC 机器学习深度学习
UnityAI是Unity引擎中集成的智能技术，旨在为游戏开发者、虚拟现实（VR）和增强现实（AR）应用开发者提供强大的AI工具和功能。UnityAI涵盖了从智能代理（Agents）、机器学习（MachineLearning）到自然语言处理（NLP）等多个领域。一、UnityAI的工作原理1.智能代理（Agents）UnityAI的核心之一是智能代理（Agents），这些代理可以模拟游戏中的非玩家
Paper Reading | AI & 数据库融合经典论文回顾数据库人工智能阅读
人工智能（AI）和数据库（DB）在过去的50年里得到了广泛的研究，随着数据库近年来的不断发展，数据库开始与人工智能结合，数据库和人工智能（AI）可以相互促进。一方面，AI可以使数据库更加智能化（AI4DB）。例如，传统的数据库优化技术无法满足大规模数据库实例、各种应用程序和多样化用户的高性能要求，尤其是在云上。幸运的是，基于机器学习的技术可以缓解这个问题。另一方面，数据库技术可以优化AI模型（DB
2024年Python最新蓝桥杯基础练习全解答案+解析共17题 python，三年经验Python开发面经总结 2401_84139963 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
机器学习——使用分类特征的一种独热编码，小卷心菜. 机器学习人工智能
在我们目前看到的例子中，每个特性只能具有两个可能的值中的一个，耳朵形状不是尖的就是软的，脸型不是圆就是不圆，胡须不是存在就是不存在，但是如果特性可以具有两个以上的离散值呢？如何使用一个热编码来解决这样的特性？下图是我们宠物收养中心申请的新培训集，所有的数据都是一样的，除了耳形特征有尖软之外还有椭圆形，所以这个特征仍然是一个分类值特征，但它可以有三个可能的值，而不仅仅是两个可能的值，这意味着当你在这
深度学习的数学之魂：传统机器学习的超越者洋葱蚯蚓机器学习深度学习机器学习人工智能经验分享个人开发数据挖掘
深度学习的数学之魂：传统机器学习的超越者前言第一部分：神经元的数学语言1.1神经元模型的启示1.2激活函数的非线性魔法第二部分：网络结构的层次之美2.1网络结构的多样性2.2层次结构的力量第三部分：图像的力量与直观理解3.1图表与动图的辅助作用3.2直观理解的桥梁第四部分：深度与专业的对话4.1深度学习与传统机器学习的比较4.2专业性强的技术分析第五部分：数学原理的深度剖析5.1神经网络的数学表达
机器学习与深度学习里生成模型和判别模型的理解程序员羊羊机器学习深度学习人工智能 php 学习 chatgpt 前端
两个模型是啥我们从几句话进入这两个概念：1、机器学习分为有监督的机器学习和无监督的机器学习；2、有监督的机器学习就是已知训练集数据的类别情况来训练分类器，无监督的机器学习就是不知道训练集的类别情况来训练分类器；3、所以说，有监督的机器学习可以抽象为一个分类task，而无监督的基本完成的是聚类；4、有监督的机器学习中，我们可以概述为通过很多有标记的数据，训练出一个模型，然后利用这个，对输入的X进行预
计算机视觉 vs 机器视觉 | 机器学习 vs 深度学习：核心差异与行业启示程序员Linc 计算机视觉计算机视觉机器学习深度学习机器视觉
一、计算机视觉（CV）与机器视觉（MV）：从学术研究到工业落地的分水岭1.定义与目标差异计算机视觉（CV）目标是赋予计算机类似人类的视觉理解能力，通过算法对图像或视频中的目标进行识别、跟踪和语义理解。其核心是研究如何从二维图像反推三维世界的结构和规律。例如，自动驾驶中通过多摄像头融合实现道路场景理解，属于典型的CV任务。机器视觉（MV）聚焦于工业场景的自动化检测与控制，强调实时性和精准性。MV系统
学生行为习惯画像可视分析平台 AI智能涌现深度研究 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
学生行为习惯，画像分析，可视化，机器学习，数据挖掘，教育科技1.背景介绍随着教育信息化进程的不断加速，海量教育数据正在被生成和积累。这些数据蕴含着丰富的学生行为信息，例如学习时间、学习内容、学习方式、学习效果等。有效挖掘和分析这些数据，能够帮助教育工作者深入了解学生的学习习惯和行为模式，从而为个性化教学、精准指导和学习效果提升提供重要支撑。然而，传统的教育数据分析方法往往局限于简单的统计描述，难以
蚂蚁集团可转正实习算法岗内推-自然语言飞300 业界资讯自然语言处理
具备极佳的工程实现能力，精通C/C++、Java、Pvthon、Perl等至少一门语言:对目前主流的深度学习平台:tensorflow、pytorch、mxnet等，至少对其中一个有上手经验;熟悉深度学习以及常见机器学习算法的原理与算法，能熟练运用聚类、分类、回归、排序等模型解决有挑战性的问题，有大数据处理的实战经验;有强烈求知欲，对人工智能领域相关技术有热情，内推链接：https://u.ali
深圳传音控股AI算法岗内推飞300 人工智能 python java 业界资讯
1扎实的数学基础，熟练掌握机器学习相关的数学知识。2熟悉常用的机器学习算法，掌握常用的深度学习模型与编程实践。3熟悉Pytorch或TensorFlow等深度学习框架，有一定项目经验。4良好的沟通协调能力，执着的专业精神。5参与部门AI创新项目，包括自动化测试平台、BPM流程管理等项目开发登录链接：transsion.zhiye.com/campus/jobs填写我的推荐码：EVHPB3投递，简历
基于NLP的客户意见分析：从数据到洞察 Echo_Wish Python 算法 Python 笔记自然语言处理人工智能
友友们好！我的新专栏《Python进阶》正式启动啦！这是一个专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发等。●实战案例：通过丰富的实战案例，带你一步步实现
R语言机器学习系列-随机森林回归代码解读 Mrrunsen R语言大学作业机器学习回归 r语言
回归问题指的是因变量或者被预测变量是连续性变量的情形，比如预测身高体重的具体数值是多少的情形。整个代码大致可以分为包、数据、模型、预测评估4个部分，接下来逐一解读。1、包部分，也就是加载各类包，包括随机森林包randomForest，数据相关包tidyverse、skimr、DataExplorer，模型评估包caret。2、数据部分，主要是读取数据，处理缺失值，转换变量类型。3、模型部分。为了对
神经网络ＶＳ决策树 Persistence is gold 神经网络决策树人工智能
神经网络（NeuralNetworks）和决策树（DecisionTrees）是两种不同的机器学习算法，各自具有独特的优点和适用场景。以下是它们的详细比较：神经网络优点:强大的学习能力:神经网络，尤其是深度神经网络，能够自动学习数据中的复杂特征，可以处理高维和非线性的问题。适用性广泛:神经网络适用于分类、回归、图像处理、语音识别、自然语言处理等多种任务。多层结构:通过增加隐藏层，神经网络可以逐层提
深度神经网络——决策树的实现与剪枝知来者逆人工智能 dnn 决策树人工智能神经网络深度学习机器学习
概述决策树是一种有用的机器学习算法，用于回归和分类任务。“决策树”这个名字来源于这样一个事实：算法不断地将数据集划分为越来越小的部分，直到数据被划分为单个实例，然后对实例进行分类。如果您要可视化算法的结果，类别的划分方式将类似于一棵树和许多叶子。这是决策树的快速定义，但让我们深入了解决策树的工作原理。更好地了解决策树的运作方式及其用例，将帮助您了解何时在机器学习项目中使用它们。决策树的结构决策树的
【Gaussian Model】高斯分布模型 HP-Succinum 机器学习机器学习算法人工智能
目录高斯分布模型用于异常检测（GaussianModelforAnomalyDetection）1.高斯分布简介2.高斯分布模型用于异常检测(1)训练阶段：估计数据分布(2)检测阶段：计算概率判断异常点3.示例代码4.高斯分布异常检测的优缺点优点缺点5.适用场景6.结论高斯分布模型用于异常检测（GaussianModelforAnomalyDetection）在数据分析和机器学习任务中，异常检测（
深入浅出地理解-随机森林与XGBoost模型 HP-Succinum 机器学习随机森林集成学习机器学习
目录一、决策树的不足与集成学习的优势1.1决策树的缺点1.2集成学习：通过集成多个模型提升稳定性二、随机森林：通过多棵决策树减少方差2.1随机森林的基本原理2.2随机森林的优势2.3随机森林的参数调整三、XGBoost：高效且强大的Boosting方法3.1Boosting的基本原理3.2XGBoost的优化3.3XGBoost的优点四、随机森林与XGBoost的对比五、总结在机器学习的实战中，决
芯科科技通过全新并发多协议SoC重新定义智能家居连接电子科技圈 Silicon Labs 智能家居边缘计算 mcu 物联网 iot 人工智能机器学习
MG26系列SoC现已全面供货，为开发人员提供最高性能和人工智能/机器学习功能致力于以安全、智能无线连接技术，建立更互联世界的全球领导厂商SiliconLabs（亦称“芯科科技”，NASDAQ：SLAB），日前宣布其MG26系列无线片上系统（SoC）现已通过芯科科技及其分销合作伙伴全面供货。作为业界迄今为止最先进、高性能的Matter和并发多协议解决方案，MG26SoC的闪存和RAM容量是芯科科技
【Python编程】Python交互式应用框架巅峰对决 —— Streamlit vs Gradio 木亦汐丫 Python编程 Streamlit Gradio Jupyter Hugging Face Pandas PyTorch TensorFlow
Streamlit和Gradio都是非常受欢迎的Python交互式应用框架,但在构建Python交互式Web应用时该如何选择？它们各有独特的设计理念和适用场景，以下是基于功能特性、开发效率和应用场景的对比分析：一、核心定位与功能对比特性GradioStreamlit核心目标快速部署机器学习模型交互界面构建数据科学和复杂交互应用输入/输出支持支持文本、图像、音频、视频等基础组件支持更丰富的交互组件（
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl