zkwdn

特征工程

本片博文对应的代码在github:https://github.com/kunguang/SelectFeature/tree/develop ,develop分支下

转载请注明:http://blog.csdn.net/zkwdn/article/details/53390923

背景

在ctr训练模型之前，我们需要特征交叉，特征选择，特征编号，单特征auc和logloss(这3步是一个重复的循环，得到每个特征的auc和logloss后，选择一些有用的特征重新开始编号)，映射成训练样本(libsvm格式或者其他格式)这5个过程。但是，其中特征交叉和特征编号这2个过程有点复杂，当我们实验一个新的特征的时候，要改写大量的代码。我们熟知的特征交叉形式有如下3种形式:单特征和单特征的交叉，比如性别和年龄的交叉;单特征和多特征的交叉，比如年龄和用户的兴趣;多特征和多特征的交叉，比如用户的兴趣和当前搜索的query包含的关键词。我们最后选取的特征既有连续特征，又有ID特征，其中连续特征需要等频离散或者其他离散方式进行编号，将他们统一编号有些复杂。所以，本代码的目的就是为了能够在不改变代码的前提下，紧紧通过配置文件(xml格式)便可以完成上述5个过程，最终的到训练集和测试集。

模块描述

本小节按照上面的5个过程描述一个真正的实例，

假设现在输入的数据格式如下，

label	uid	sex(性别)	age(年龄)	location(地域)	custuid(广告主ID)	inters(用户兴趣)	搜索query包含关键词	日期
1	1	女	18	北京	1	足球\|篮球	体育\|足球	20161102
0	2	男	19	上海	2	军事\|娱乐	飞机\|大炮	20161102
0	3	女	18	北京	1	体育\|娱乐	范冰冰\|电影	20161103
1	4	男	19	上海	2	足球\|篮球	足球\|奥运	20161103

1.特征交叉和特征选择

特征交叉的形式如背景中描述，有3种形式:

1.单特征和单特征的交叉:比如性别和年龄，广告主三者的交叉，相当于在本来的6个特征中额外又加入了一列sex_age_custuid,

sex_age_custuid

女_18_1

男_19_2

女_18_1

男_19_2

2.单特征和多特征的交叉，比如性别和用户兴趣的2者交叉，相当于在本来的6个特征中额外加入了一列，sex_inters

sex_inters

女_体育|女_足球

男_飞机|男_大炮

女_体育|女_娱乐

男_足球|男_篮球

3.多特征和多特征的交叉，比如兴趣和当前搜索词的交叉，相当于在本来的6个特征中额外加入了一列，inters_query

inters_query

足球_体育|足球_足球|篮球_体育|篮球_足球

军事_飞机|军事_大炮|娱乐_飞机|娱乐_大炮

体育_范冰冰|体育_电影|娱乐_范冰冰|娱乐_电影

足球_足球|足球_奥运|篮球_足球|篮球_奥运

配置文件如下:

每个特征用包括，包含4个属性:

1.index:

用来描述输入数据中该特征在第几列，从0开始.比如性别这个特征，index就是1.对于交叉特征，即输入数据中没有的这个特征，这个属性不应该存在。

2.name : 用来描述该特征的名字，比如性别这个特征的名字叫sex

3.category:有2个取值，singlefeature,crossfeature。对于输入数据中所有的特征都取值single feature,对于所有输入数据中没有需要交叉才能得到的叫做cross feature。

4.selectindex:用来描述输入数据中，该特征应该在第几列。比如想让性别这个特征在输出中是第3列，那么数值就是3。如果不想让性别这个特征在输出数据中存在，就不要这个属性或者值默认为-1。用作特征选择

这样来看，其实category这个属性和index冗余了，即当Index属性不存在时，category的值应该是cross feature,表明这个特征在输入数据中不存在，需要交叉获取。但是为了以后理解起来方便，还是加上吧。

<allitem>

<item>

<index>0index>

<name>labelname>

<category>singlefeaturecategory>

<selectindex>0selectindex>

item>

<item>

<index>1index>

<name>uidname>

<category>singlefeaturecategory>

<selectindex>-1selectindex>

item>

<item>

<index>2index>

<name>sexname>

<category>singlefeaturecategory>

<selectindex>-1selectindex>

item>

<item>

<index>3index>

<name>agename>

<category>singlefeaturecategory>

<selectindex>-1selectindex>

item>

<item>

<index>4index>

<name>locationname>

<category>singlefeaturecategory>

<selectindex>-1selectindex>

item>

<item>

<index>5index>

<name>custuidname>

<category>singlefeaturecategory>

<selectindex>1selectindex>

item>

<item>

<index>5index>

<name>intersname>

<category>singlefeaturecategory>

<selectindex>-1selectindex>

item>

<item>

<index>6index>

<name>queryname>

<category>singlefeaturecategory>

<selectindex>-1selectindex>

item>

<item>

<index>7index>

<name>datetimename>

<category>singlefeaturecategory>

<selectindex>-1selectindex>

item>

<item>

<name>sex_age_custuidname>

<category>crossfeaturecategory>

<selectindex>2selectindex>

item>

<item>

<name>sex_intersname>

<category>crossfeaturecategory>

<selectindex>3selectindex>

item>

<item>

<name>inters_queryname>

<category>crossfeaturecategory>

<selectindex>4selectindex>

item>

allitem>

这个配置文件，说明我们最终的输出会有5列，顺序如下，label,custuid,sex_age_custuid,sex_inters,inters_query。输出的样本如下

label	custuid	sex_age_custuid	sex_inters	inters_query
1	1	女_18_1	女_体育\|女_足球	足球_体育\|足球_足球\|篮球_体育\|篮球_足球
0	2	男_19_2	男_飞机\|男_大炮	军事_飞机\|军事_大炮\|娱乐_飞机\|娱乐_大炮
0	1	女_18_1	女_体育\|女_娱乐	体育_范冰冰\|体育_电影\|娱乐_范冰冰\|娱乐_电影
1	2	男_19_2	男_足球\|男_篮球	足球_足球\|足球_奥运\|篮球_足球\|篮球_奥运

OK！！!到此为止，我们介绍完了特征交叉的主要部分。接下来介绍一下次要部分，可以看到，上面所有的交叉特征都可以用输入数据中的特征进行组合得到，即交叉完都是ID类特征。但是假如我们想做进一步的特征处理，比如我想将特征sex_age_custuid这个特征变成一个连续特征，该特征的取值是该特征的历史ctr，假设我们统计得到如下特征的历史点击率:

特征名字	点击率	曝光次数	点击次数
sex_age_custuid:女_18_1	0.002	1000	2
sex_age_custuid:男_19_2	0.001	1000	1
那么上面的输出数据中sex_age_custuid这一列的数据就变为

label	sex_age_custuid
1	0.002
0	0.001
0	0.002
1	0.001

问题1来了，我们需要一个特征历史文件有3列数据；特征名字,曝光次数，点击次数，即上上个图表，点击率=点击次数/曝光次数，所以点击率这列可以忽略掉。

在讲我们如何使用配置文件获取这个特征历史文件之前，我们先来理解下历史ctr这种类型的特征在模型中是什么意义?假设现在使用sex_age_custuid,location_custuid这2个特征的历史ctr预测当前样本的ctr。即训练集大概是这样子的，

label	sex_age_custuid_historyctr	location_custuid_historyctr
1	0.002	0.003
0	0.001	0.0005

为了形象的理解历史ctr特征的含义，

我们现在假设损失函数是线性回归函数，y=a *sex_age_custuid_historyctr+b *location_custuid_historyctr

需要求解的参数有2个，a和b。

sex_age_custuid_historyctr:表示只使用特征sex_age_custuid训练得到模型1，来预测当前样本的ctr

location_custuid_historyctr:表示只使用特征location_custuid训练得到模型2,来预测当前样本的ctr

所以上面的回归函数就等价于混合模型预估，每个模型都占一个相应的权重。如果权重接近于0，表示这个模型没用。

a参数:表示sex_age_custuid_historyctr这个模型的重要性。

b参数:表示location_custuid_historyctr这个模型的重要性.

当然在实际操作的时候,我们会采用如下2种改进方法:

1.损失函数用lr回归

2.每个连续特征分别进行等频离散。比如sex_age_custuid_historyctr被等频分成200快，location_custuid_historyctr等频分成300块，这样就会有500个参数需要训练。

OK!!!我们知道了历史ctr这个特征的物理含义，继续我们上面的问题，如何获取这个历史文件?

1.输入文件还是样例的输入数据格式，

2.需求:计算sex_age_custuid，location_custuid这2个特征的历史ctr ,.这儿会有两种不同的形式，不分日期计算特征的ctr 和分日期计算,分日期计算的意义在于时间衰减性，比如我们只需要这个特征最近7天的行为。以女_18_1这个特征为例，

不分日期计算，就会得到一条数据结果

特征名字	曝光次数	点击次数
sex_age_custuid:女_18_1	2	1

分日期计算，就会得到两条结果

特征名字	曝光次数	点击次数	日期
sex_age_custuid:女_18_1	1	1	20161102
sex_age_custuid:女_18_1	1	0	20161103

假设输入数据还是最最上面最原始的输入数据，现在我们通过配置文件来得到，sex_age_custuidsex_inters,inters_query这3个特征的历史ctr .sex_inters是单特征和多特征的交叉，inters_query是多特征和多特征的交叉，对于这种特征，最终得到的是每个子项(按“|”符号切分)特征的曝光次数和点击次数，比如sex_inters这个特征，假设全局不考虑日期。会分解为:

特征名字	曝光次数	点击次数
sex_inters:女_体育	2	1
sex_inters:女_足球	1	0
sex_inters:男_飞机	1	0
sex_inters:男_大炮	1	0
sex_inters:女_娱乐	1	0
sex_inters:男_足球	1	1
sex_inters:男_篮球	1	1

可以看到和上面交叉特征唯一的区别在于，将custuid这个特征的selectindex属性值改为-1,添加了一个全局变量partitionname(这个名字和第七列的名字一样即可),用于分日期计算，如果不分日期就去掉这个属性.

<allitem>

<partitionname>datetimepartitionname>

<item>

<index>0index>

<name>labelname>

<category>singlefeaturecategory>

<selectindex>0selectindex>

item>

<item>

<index>1index>

<name>uidname>

<category>singlefeaturecategory>

<selectindex>-1selectindex>

item>

<item>

<index>2index>

<name>sexname>

<category>singlefeaturecategory>

<selectindex>-1selectindex>

item>

<item>

<index>3index>

<name>agename>

<category>singlefeaturecategory>

<selectindex>-1selectindex>

item>

<item>

<index>4index>

<name>locationname>

<category>singlefeaturecategory>

<selectindex>-1selectindex>

item>

<item>

<index>5index>

<name>custuidname>

<category>singlefeaturecategory>

<selectindex>-1selectindex>

item>

<item>

<index>5index>

<name>intersname>

<category>singlefeaturecategory>

<selectindex>-1selectindex>

item>

<item>

<index>6index>

<name>queryname>

<category>singlefeaturecategory>

<selectindex>-1selectindex>

item>

<item>

<index>7index>

<name>datetimename>

<category>singlefeaturecategory>

<selectindex>-1selectindex>

item>

<item>

<name>sex_age_custuidname>

<category>crossfeaturecategory>

<selectindex>2selectindex>

item>

<item>

<name>sex_intersname>

<category>crossfeaturecategory>

<selectindex>3selectindex>

item>

<item>

<name>inters_queryname>

<category>crossfeaturecategory>

<selectindex>4selectindex>

item>

allitem>

OK！！！到此为止，我们得到了每个特征的历史ctr文件。

回到中间的那个问题:但是假如我们想做进一步的特征处理，比如我想将特征sex_age_custuid，sex_inters这2个特征变成连续特征(历史ctr)，但是Inters_query这个交叉特征继续保持ID类数值特征。可以换个方式描述，一次性将ID类和交叉特征和映射历史ctr完成。

我们现在有2个输入文件:一个是最最上面的那个原始的输入文件，还有一个是我们上一步得到的历史ctr文件，有3列数据:特征，曝光次数，点击次数(记住把日期那一列去掉).我们该用什么样的配置文件解决我们上面的问题呢.和最上面的那个配置文件相比，又以下几点不同:

1.我们给每个特征又添加了一个属性叫做”needmap”，这个属性用来描述当前特征是否需要映射成历史ctr,如果需要则是1，如果不需要就去掉。

2.除这个属性为，对需要映射成历史ctr的特征来讲，又额外加了一个属性叫做”replace"，这个属性用来说明当该特征在历史ctr文件中查不到时,需要其他特征来替换,取值格式为name,name,name, 可以由多个特征替换，先查找第一个，如果第一个也不存在则查找第2个。其中的name值只需满足以下2个条件中的任意一个即可。

1).这个name有selectindex值，即在输出数据中。下面的例子说明，当sex_age_custuid的历史ctr不存在时，用sex_inters替换，

2). 这个name有needmap这个属性，但是可以没有selectindex属性。比如下面的custuid这个特征。

除了上述2个(二选一条件外)，有一个必选条件:

这个name只能针对单特征对单特征的替换，比如只能用custuid的ctr替换sex_age_custuid，而不能替换sex_inters或者inters_query。

事实上，如果你强硬这样替换的，比如用custuid的ctr替换sex_inters。这个action触发的前提是sex_inters下所有特征的历史ctr都没在历史ctr文件中找到;如果触发了这个行动，那就是整个sex_inters的历史ctr只有一个custuid的ctr。

如果都查找不到，则丢弃这条样本。假如这个特征就算查不到历史ctr，但也不需要其他特征替换时，则该属性不存在。

3.多了一个全局变量，feature threshold，也是针对需要映射成历史ctr的特征来讲，当这个特征的历史曝光次数低于这个阈值，认为这个特征的点击率不置信，丢弃掉这个特征。这样也就有了上面replace这个属性的用武之地。

<allitem>

<featurethreshold>300

<item>

<index>0index>

<name>labelname>

<category>singlefeaturecategory>

<selectindex>0selectindex>

item>

<item>

<index>1index>

<name>uidname>

<category>singlefeaturecategory>

<selectindex>-1selectindex>

item>

<item>

<index>2index>

<name>sexname>

<category>singlefeaturecategory>

<selectindex>-1selectindex>

item>

<item>

<index>3index>

<name>agename>

<category>singlefeaturecategory>

<selectindex>-1selectindex>

item>

<item>

<index>4index>

<name>locationname>

<category>singlefeaturecategory>

<selectindex>-1selectindex>

item>

<item>

<index>5index>

<name>custuidname>

<category>singlefeaturecategory>

item>

<item>

<index>5index>

<name>intersname>

<category>singlefeaturecategory>

<selectindex>-1selectindex>

item>

<item>

<index>6index>

<name>queryname>

<category>singlefeaturecategory>

<selectindex>-1selectindex>

item>

<item>

<index>7index>

<name>datetimename>

<category>singlefeaturecategory>

<selectindex>-1selectindex>

item>

<item>

<name>sex_age_custuidname>

<category>crossfeaturecategory>

<selectindex>1selectindex>

custuid

item>

<item>

<name>sex_intersname>

<category>crossfeaturecategory>

<selectindex>2selectindex>

item>

<item>

<name>inters_queryname>

<category>crossfeaturecategory>

<selectindex>3selectindex>

item>

allitem>

OK，到此为止，所有关于特征交叉的代码和配置文件都已经交代清楚。

2.特征编号和单特征指标

由上面第一步我们已经产生了新的输入数据，即共有5列数据，假设如下(和上面的数据没有直接对应关系，为了少写点。。)

label	custuid	sex_age_custuid_historyctr	sex_inters_historyctr	inters_query
1	1	0.002	0.003	足球_奥运\|足球_篮球
1	2	0.003	0.001	娱乐_军事
0	3	0.001	0.01	娱乐_范冰冰\|娱乐_电影
0	2	0.01	0.005	军事_飞机
1	2	0.003	0.001	娱乐_军事

可以看到这4个特征中，其中custuid和inters_query是单特征，其它两个是连续特征，我们对连续特征采用简单的等频离散方式，如果想二次开发的话，也很容易。

第一步：连续特征等频离散。将sex_age_custuid_historyctr等频离散成3份，假设区间是[0,0.001],[0.001,0.01],[0.01,无穷大]，sex_inters_historyctr离散成2份，[0,0.003],[0.003,0.01],[0.01,无穷大]。

任何一个无穷大的区间编号最后都不会映射到真实样本中，因为任何一个数据跟无穷大的距离都小于正常点数值。

此时就会形成5个编号,其实真正的编号，应该是这样的，比如sex_inters_historyctr值是0.005,真是区间是落在区间4内，因为和0.003的距离小于和0.01的距离，代码中是这么实现的。

离散区间	编号
sex_age_custuid_historyctr：[0,0.001]	1
sex_age_custuid_historyctr：(0.001,0.01]	2
sex_age_custuid_historyctr：(0.01,0.无穷大]	3
sex_inters_historyctr:(0,0.003]	4
sex_inters_historyctr:(0.003,0.01]	5
sex_inters_historyctr:(0.01,无穷大]	6

第二步:将ID类特征继续编号。

特征名字	编号
custuid:1	7
custuid:2	8
custuid:3	9
inters_query:足球_奥运	10
inters_query:足球_篮球	11
inters_query:娱乐_军事	12
inters_query:娱乐_范冰冰	13
inters_query:娱乐_电影	14
inters_query:军事_飞机	15

第三步:映射回原来的样本，

label	custuid	sex_age_custuid_historyctr	sex_inters_historyctr	inters_query
1	7:1	2:1	4:1	10:0.5\|11:0.5
1	8:1	2:1	4:1	12:1
0	9:1	1:1	5:1	13:0.5\|14:0.5
0	8:1	2:1	4:1	15:1
1	8：1	2:1	4:1	12:1

冒号后的值等于1.0/这个特征下有几个特征值，比如第一行inters_query有2个特征，那么后面的值是1.0/2。

这样做的目的来源于libfm的那篇论文，最原始的来源是SVD++,算是一个小trick，如果不这么做，都设为1也可以。目的其实就是为了表明整个者特征对样本的数值贡献初始为1.0.

第四步:计算每个特征的logloss和auc。

这边其实对于这种多交叉特征计算的结果是无效的，比如计算的时候，是将10:0.5|11:0.5整个作为一个整体，但是在训练模型时，其实是2个特征，10：0.5 11：0.5.

单特征的logloss是很好计算的，我们采用归纳法来理解。

以上述custuid这个特征为例，共有3个不同的特征，7,8,9，同样我们采用lr损失函数的话，最后会得到3个参数，每个特征对应一个参数，假设7对应w0,8对应w1,9对应w2。仔细看上面的例子，

w0参数的求解只受第一条样本影响，只有w0这个参数能使得这条样本贡献的Logloss最小即可

w1这个参数受第二条和第四条样本，第5条样本影响，只要w1这个参数能使得这3条样本贡献的Logloss最小

w2受第三条样本影响，只要w2这个参数能使得这条样本贡献的logloss最小即可。

假如上面每个参数都能使得自己所分割的样本贡献的logloss最小，全局的logloss最小，结论一就是，这些参数之间是独立的，进而可以得到每个参数都是可以独立求解的。

我们正常的求解方法是，是使用各种迭代算法求解，无限逼近最小的logloss。但是本文直接给出参数的解析式，即使得logloss最小的最优值求解算法。

以w1为例，现在w1对应的

第二条样本贡献的logloss是，-log(1.0/(1.0+exp(-w1)))

第四条样本贡献的Logloss是，-log(1.0-1.0/(1.0+exp(-w1)))

第五条样本贡献的Logloss是，-log(1.0/(1.0+exp(-w1)))

现在我们假设f(w1) = .0/(1.0+exp(-w1)).即当样本中有这个特征时，被预测为1的概率。

这样上面两条logloss转化为:

第二条样本: -log(f(w1))

第四条样本: -log(1.0-f(w1))

第5条样本:-log(f(w1))

两条样本的Logloss相加为: -2.0 *log(f(w1)) - log(1.0-f(w1)),我们只要求得w1使得这个logloss最小即可。

我们进一步假设f(w1) =x,将f(w1)整体看做一个变量。现在logloss变为

F(x) = -2.0 * log(x)-log(1.0-x).现在我们的目的是要求解x使得F(x)最小。

d(Fx)/dx = 0 时的x 可以使得F(x)最小，

F(x)关于x的导数是，-2.0 *(1.0/x) + 1.0/(1.0-x) = (3x-2)/(x-x^2)

另上式等于0，只用分子=0即可，即3x-2=0,得到x = 2/3。

结论，即f(w1)=x = 2/3，可以看到这个数值的分子就是w1这个这个参数对应特征8:1的点击次数，分母是曝光次数。通过x就可以直接得到这3条样本的logloss就是-2.0*log(2.0/3) - 1.0 * log(1.0/3),不用再求解w1。而x的值可以通过统计得到，即只用统计8:1这个特征的曝光次数和点击次数即可。

归纳一下，上面w1这个特征对应2条正样本，一条负样本，假设对应n条正样本,m条负样本，那么这个特征对应的(m+n)条样本对应的logloss就是

-n*log(f(w1))- m*log(1.0-f(w1))

进一步假设，f(w1) = x，将f(w1)看做一个变量。现在logloss变为

F(x) = -n*log(x) - m *log(1-x),目标转化为求解x使得F(x)最小

d(Fx)/dx = 0 时的x 可以使得F(x)最小，

F(x)关于x的导数是，-n *(1.0/x) + m/(1.0-x) = ((n+m)x-n)/(x-x^2)

另上式等于0，只用分子=0即可，即(n+m)x-n=0,得到x = n/(n+m)。

进而求解这m+n条样本贡献的logloss就是 -n * log(n/n+m) - m * log(m/(n+m))

结论同上，所以如果我们要就某个单特征的logloss，

第一步就是统计这个特征下每个特征值对应的曝光次数和点击次数,3列数据特征名字，曝光次数，点击次数。

第二步:求解每个特征贡献的logloss。

第三步:将每个特征贡献的logloss相加。

OK，到此为止，单特征的Logloss怎么求解的就说明完了。

单特征auc

参考这篇博文http://www.cnblogs.com/lixiaolun/p/4053499.html。代码里既有分布式的实现方式，也有单机的实现方式。logloss和auc的代码都独立出来了，方便调用。

配置代码如下，针对

label

custuid

sex_age_custuid_historyctr

sex_inters_historyctr

inters_query

其中custuid和inters_query是单特征。另外2个是连续特征。

2个全局变量:

1.featurethreshold: 阈值，默认0。再对特征进行编号的时候，我们要去掉一些置信度低(曝光次数少的特征),这个属性就表示当某个特征的曝光次数小于这个值的时候，就丢掉这个特征。

2.discardsample:丢弃样本,默认不丢弃，当取值为1的时候丢弃。即因为我们上面的阈值变量，肯定会过滤掉一批ID类型的特征，那么在映射到样本的时候，这些被丢弃的特征就找不到编号，此时我们用一个默认编号代替(即最大的编号),一般来讲我们可以丢弃掉这些样本。

每个特征有4个属性:

index：说明当前这个特征是第几列。

name:这个特征的名字

category:有2个取值，single feature:表示这是ID类特征。crossfeature表示这是连续特征，需要离散，

block size:这个数值只有当category时crossfeature时才会生效，即这个连续特征被离散成多少个区间，默认100.

select:表示这个特征是否在此次编号时使用，取值有2种:1(使用),-1，默认为-1(不使用)。因为我们往往在测试某个特征的auc的时候，先去掉这个特征，看样本的auc，然后再加上这个特征，看样本的auc是否提高。

<allitem>

<featurethreshold>300featurethreshold>

<discardsample>1discardsample>

<item>

<index>0index>

<name>labelname>

<category>singlefeaturecategory>

<select>1select>

item>

<item>

<index>1index>

<name>custuidname>

<category>singlefeaturecategory>

<select>1select>

item>

<item>

<index>2index>

<name>sex_age_custuid_historyctrname>

<category>continuefeaturecategory>

<blocksize>100blocksize>

<select>1select>

item>

<item>

<index>3index>

<name>sex_inters_historyctrname>

<category>continuefeaturecategory>

<blocksize>100blocksize>

<select>1select>

item>

<item>

<index>4index>

<name>inters_queryname>

<category>singlefeaturecategory>

<select>1select>

item>

allitem>

最后，以上阐述了代码整体的设计思想和思考逻辑，这些逻辑和设计肯定还是有一些缺陷的，甚至代码里或许还会有一些bug，我工程能力毕竟很弱。只能说随着以后对特征工程的认知提高，逐渐提高这些代码的通用型。作为一个算法同学，最好所有的代码逻辑都不是黑盒，毕竟要做各种尝试。举个简单的例子，还是以上面的输入数据为例，我现在想加入一个新的特征，用户的兴趣关键词是否包含了当前搜索的关键词，那该怎么处理呢?肯定得要自己在代码中修改了,这些接口都留好了~~。

StartFragment EndFragment

你可能感兴趣的:(特征工程)

Python 机器学习基础之数据表示与特征工程【分箱、离散化、线性模型与树 / 交互特征与多项式特征】的简单说明仙魁XAN Python 机器学习基础+实战案例机器学习 python 分箱离散化线性模型与树交互特征与多项式特征
Python机器学习基础之数据表示与特征工程【分箱、离散化、线性模型与树/交互特征与多项式特征】的简单说明目录Python机器学习基础之数据表示与特征工程【分箱、离散化、线性模型与树/交互特征与多项式特征】的简单说明一、简单介绍二、分箱、离散化、线性模型与树三、交互特征与多项式特征附录一、参考文献一、简单介绍Python是一种跨平台的计算机程序设计语言。是一种面向对象的动态类型语言，最初被设计用于
机器学习小组第三周：简单的数据预处理和特征工程 -Helslie 机器学习机器学习
学习目标●无量纲化：最值归一化、均值方差归一化及sklearn中的Scaler●缺失值处理●处理分类型特征：编码与哑变量●处理连续型特征：二值化与分段学习资料首先，参考：《机器学习的敲门砖：归一化与KD树》及《特征工程系列：特征预处理（上）》中相关部分。其次，其他知识点可参考推荐博文：sklearn中的数据预处理和特征工程。20200311数据归一化在量纲不同的情况下，对于部分算法不能反映样本中每
机器学习基础（四）——决策树与随机森林 Bayesian小孙机器学习基础决策树机器学习随机森林
决策树与随机森林文章目录决策树与随机森林一、知识概要（一）二、决策树使用的算法三、sklearn决策树API四、决策树的案例1.数据清洗2.特征工程3.调用决策树API五、集成学习方法-随机森林1.知识概要（二）2.集成学习API3.随机森林的案例importpandasaspdfromsklearn.feature_extractionimportDictVectorizerfromsklear
Spark MLlib 特征工程系列—特征转换VectorSizeHint 不二人生 Spark 实战 spark-ml 机器学习 spark
SparkMLlib特征工程系列—特征转换VectorSizeHintVectorSizeHint是Spark提供的一个特征转换器，用于指定向量列的大小（即维度）。在一些特征转换和建模过程中，要求输入的向量必须有固定的大小。当数据中包含不同大小的向量时，Spark可能无法自动推断出向量的正确大小。这时，VectorSizeHint可以显式地声明向量的大小，确保后续的操作能够顺利进行。为什么需要使用
【机器学习】特征提取特征降维 de-feedback 机器学习人工智能
特征工程特征工程是将原始数据转化为可以用于机器学习的数字特征，比如字典的特征提取，文档的特征提取等。字典特征提取把字典的每个唯一的键作为数据集特征的一个维度，有这个维度的就为1，没有就是0。其他相同的键，该维度的值就是其键值。这样的操作把字典样本的每一条数据转化为了矩阵，但是矩阵中含有大量的0（因为数据中的键和值有很多不同），所以称之为稀疏矩阵为了保存数据的高效，一般使用三元组表存储。保存非零数据
【机器学习】特征工程的基本概念以及LASSO回归和主成分分析优化方法 Lossya 机器学习回归人工智能算法特征工程
引言特征工程是机器学习中的一个关键步骤，它涉及到从原始数据中提取和构造新的特征，以提高模型的性能和预测能力LASSO（LeastAbsoluteShrinkageandSelectionOperator）回归是一种用于回归分析的线性模型，它通过引入L1正则化（Lasso正则化）来简化模型并减少过拟合的风险主成分分析（PrincipalComponentAnalysis，PCA）是一种常用的降维技术
AutoML原理与代码实例讲解 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AutoML原理与代码实例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着数据量的爆炸式增长和算法的日益复杂，机器学习在各个领域的应用越来越广泛。然而，机器学习模型的开发过程往往需要大量的专业知识和经验。数据预处理、特征工程、模型选择、参数调优等步骤都需要人工进行，这使得机器学习模型的开发变得复杂且耗时。为了解决这
python库——sklearn的关键组件和参数设置零度° python python sklearn
文章目录模型构建线性回归逻辑回归决策树分类器随机森林支持向量机K-近邻模型评估交叉验证性能指标特征工程主成分分析标准化和归一化scikit-learn，简称sklearn，是Python中一个广泛使用的机器学习库，它建立在NumPy、SciPy和Matplotlib这些科学计算库之上。sklearn提供了简单而有效的工具来进行数据挖掘和数据分析。我们将介绍sklearn中一些关键组件的参数设置。模
【机器学习】探索数据矿藏：Python中的AI大模型与数据挖掘创新实践 C_GUIQU 机器学习人工智能 python
前言：探索数据矿藏1.数据获取与预处理：AI大模型的燃料1.1数据获取：多样性与规模并重1.2数据清洗与处理：提升数据质量1.3特征工程：挖掘数据的深层次信息1.4自动化特征工程：AI与特征工程的结合2.模型训练与优化：构建智能的大脑2.1模型选择：大模型的基础构建2.2模型训练：从数据到智能的转化2.3⚙️模型优化：精益求精的智能化提升2.4模型解释与可视化：揭示黑盒的内部3实际应用案例：AI大
深度学习的一个完整过程通常包括以下几个步骤 longerVR DL 深度学习人工智能
深度学习的一个完整过程通常包括以下几个步骤：问题定义和数据收集：定义清晰的问题，明确任务的类型（分类、回归、聚类等）以及预期的输出。收集和整理用于训练和评估模型的数据集。确保数据集的质量，进行预处理和清理。数据预处理：处理缺失值、异常值和重复数据。进行特征工程，选择、转换或创建合适的特征。将数据集划分为训练集、验证集和测试集。选择模型架构：根据问题的性质选择适当的深度学习模型架构，如卷积神经网络（
【机器学习】多元线性回归 Mount256 #机器学习机器学习线性回归人工智能
文章目录多元线性回归模型（multipleregressionmodel）损失/代价函数（costfunction）——均方误差（meansquarederror）批量梯度下降算法（batchgradientdescentalgorithm）特征工程（featureengineering）特征缩放（featurescaling）正则化线性回归（regularizationlinearregress
吴恩达机器学习全课程笔记第一篇亿维数组 Machine Learning 机器学习笔记人工智能
目录前言P1-P8监督学习无监督学习P9-P14线性回归模型成本（代价）函数P15-P20梯度下降P21-P24多类特征向量化多元线性回归的梯度下降P25-P30特征缩放检查梯度下降是否收敛学习率的选择特征工程多项式回归前言从今天开始，争取能够在开学之前（2.25）把b站上的【吴恩达机器学习】教程过一遍，并把笔记记录于此，本笔记将会把此课程每一p的重点内容及其截屏记录于此，以供大家参考和本人日后复
零基础入门金融风控-贷款违约预测Task2 数据分析一缕阳光lyz 数据分析数据挖掘
Task2数据分析此部分为零基础入门金融风控的Task2数据分析部分，带你来了解数据，熟悉数据，为后续的特征工程做准备，欢迎大家后续多多交流。赛题：零基础入门数据挖掘-零基础入门金融风控之贷款违约目的：1.EDA价值主要在于熟悉了解整个数据集的基本情况（缺失值，异常值），对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.2.了解变量间的相互关系、变量与预测值之间的存在关系。3.为特征工
【吴恩达·机器学习】第二章：多变量线性回归模型（选择学习率、特征缩放、特征工程、多项式回归） Yaoyao2024 机器学习线性回归人工智能
博主简介：努力学习的22级计算机科学与技术本科生一枚博主主页：@Yaoyao2024每日一言:勇敢的人，不是不落泪的人，而是愿意含着泪继续奔跑的人。——《朗读者》0、声明本系列博客文章是博主本人根据吴恩达老师2022年的机器学习课程所学而写，主要包括老师的核心讲义和自己的理解。在上完课后对课程内容进行回顾和整合，从而加深自己对知识的理解，也方便自己以及后续的同学们复习和回顾。课程地址2022吴恩达
深度学习从入门到不想放弃-1 周博洋K 深度学习人工智能
基本功总是很香的，良好的基础才能决定上层建筑的质量和高度。从今天开始陆续连载一些深度学习的基础，包括概念，数学原理，代码，最近也确实没什么热点可以蹭先看机器学习和深度学习的对比："数据和特征决定了机器学习的上限，而模型与算法则是逼近这个上限而已"，机器学习和深度学习的本质区别之一是特征工程，而特征工程又是决定最终结果好坏的最重要的因素之一；上图最上面描述是机器学习的流程，如果让一个计算机理解输入的
《区块链公链数据分析简易速速上手小册》第8章：实战案例研究（2024 最新版）江帅帅区块链数据分析数据挖掘人工智能 python web3 机器学习
文章目录8.1案例分析：投资决策支持8.1.1基础知识8.1.2重点案例：股票市场趋势预测准备工作实现步骤步骤1:加载和准备数据步骤2:特征工程步骤3:训练模型步骤4:评估模型结论8.1.3拓展案例1：基于情感分析的投资策略准备工作实现步骤
机器学习中的特征工程 qq_44980515 机器学习 python 数据分析人工智能
目录一、特征工程目标二、特征工程内容（一）异常处理（二）特征标准化/归一化（三）数据分桶（四）缺失值处理（五）特征构造（六）特征筛选（特征选择）（七）降维三、代码示例（一）导入数据（二）删除异常值（三）特征构造（四）特征筛选1.过滤式2.包裹式一、特征工程目标对于特征进行进一步分析，并对于数据进行处理。完成对于特征工程的分析，并对于数据进行一些图表或者文字总结。特征工程的主要目的还是在于将数据转换
FFA 2023 专场解读：AI 特征工程、数据集成 flink大数据
今年FlinkForwardAsia（以下简称FFA）重新回归线下，将于12月8-9日在北京望京凯悦酒店举办。FlinkForwardAsia2023大会议程已正式上线！FlinkForward是由Apache官方授权的ApacheFlink社区官方技术大会，作为最受ApacheFlink社区开发者期盼的年度峰会之一，FFA2023将持续集结行业最佳实践以及Flink最新技术动态，是中国Flink
【大厂AI课学习笔记】【2.2机器学习开发任务实例】（1）搭建一个机器学习模型 giszz 人工智能学习笔记人工智能学习笔记
今天学习的是，如何搭建一个机器学习模型。主要有以上的步骤：原始数据采集特征工程数据预处理特征提取特征转换（构造）预测识别（模型训练和测试）在实际工作中，特征比模型更重要。数据和特征的选择，已经决定了模型的天花板，模型算法只是去逼近这个上限。在上述的特征工程中：数据预处理，就是去除数据的噪声，例如文本中的错误、不再使用的词语等；特征提取，就是从原始数据中提取一些有效的特征。例如图像分类中，提取边缘、
基于决策树的金融市场波动性预测与应用 OverlordDuke 机器学习决策树决策树算法机器学习
基于决策树的金融市场波动性预测与应用项目背景与意义数据概述与分析数据来源数据特征数据预处理与特征工程模型训练与评估结果与应用总结LightGBM是一个机器学习算法库，用于梯度提升机（GradientBoostingMachine）的实现。梯度提升机是一种集成学习方法，通过串行训练多个弱学习器（通常是决策树），每次学习的模型都试图纠正前一次模型的错误，从而逐步提升整体模型的性能。LightGBM算法
探索XGBoost：时间序列数据建模 Echo_Wish Python 笔记 Python算法 python 算法开发语言
导言XGBoost是一种强大的机器学习算法，广泛应用于各种领域的数据建模任务中。但是，在处理时间序列数据时，需要特别注意数据的特点和模型的选择。本教程将深入探讨如何在Python中使用XGBoost建模时间序列数据，包括数据准备、特征工程和模型训练等方面，并提供相应的代码示例。准备数据在处理时间序列数据之前，首先需要准备数据。通常，时间序列数据是按照时间顺序排列的，每个时间点都有相应的观测值。以下
葫芦书第一章——特征工程单调不减
葫芦书是机器学习岗位面试的必读书，第一遍读，就当作对自己这四个月以来入门机器学习的知识测验，顺便查漏补缺。葫芦书比较好的一点是它的写作是通过问答方式进行的，就像一场模拟面试一样，而这些问题可能是我自学相关知识的时候没有细想过的，通过这些问题我也可以发现自己的知识盲区，再查阅相关资料。闲言少叙，开始啦。特征工程，顾名思义，是对原始数据进行一系列工程处理，将其提炼为特征，作为输入供算法和模型使用。从本
task3 特征工程 1598903c9dd7
1.采用tsfresh工具包提取时间序列特征导入工具包：提取特征：融合之前单变量特征之后，预测变差......哭
task 13 集成学习罐罐儿111
蒸汽量预测1.特征工程一般流程：1.去掉无用特征2.去掉冗余特征3.利用存在的特征、特征转换、内容中的特征以及其他数据源生成新特征4.特征转换（数值化、类别转换、归一化）5.特征处理（异常值、最大值、最小值、缺失值）观察特征核密度估计，已知散点图，做回归，要求连线尽可能平滑，大致观察数据的分布情况。在本例中，通过核密度估计，观察训练集与测试集数据的分布情况，从而删除不具有相似分布的属性值计算相关性
机器学习各种算法汇总模板怎么菜成这样机器学习机器学习 python 算法随机森林支持向量机
机器学习算法模板包含了KNN，线性回归，逻辑回归，朴素贝叶斯，决策树，支持向量机，随机森林，kmeans，集成算法各种算法，特征工程，评估方式任你选择！！！#导包fromsklearn.neighborsimportKNeighborsClassifierfromsklearn.linear_modelimportLinearRegressionfromsklearn.naive_bayesimp
特征工程:数据平衡林浩杨数据探索与可视化机器学习 python 人工智能机器学习算法数据挖掘
目录一、前言二、正文Ⅰ.基于过采样算法Ⅱ.基于欠采样算法Ⅲ..基于过采样和欠采样的综合算法三、结语一、前言大多数情况下，使用的数据集是不完美的，会出现各种各样的问题，尤其针对分类问题的时候，会出现类别不平衡的问题。例如：在垃圾邮件分类时，垃圾邮件数据会有较少的样本量，从而导致两种类型的邮件数据量差别很大；在欺诈监测数据集中，往往包含的欺诈样本并没有那么多。处理这类数据集的分类的时候，需要对数据集的
掌握XGBoost：特征工程与数据预处理 Echo_Wish Python算法 Python 笔记机器学习 python 人工智能
掌握XGBoost：特征工程与数据预处理导言在应用XGBoost模型之前，特征工程和数据预处理是至关重要的步骤。良好的特征工程和数据预处理可以显著提高模型的性能。本教程将介绍在Python中使用XGBoost进行特征工程和数据预处理的中级教程，通过代码示例详细说明各种技术和方法。安装XGBoost首先，请确保您已经安装了Python和pip。然后，您可以使用以下命令安装XGBoost：pipins
梯度提升树系列6——GBDT在异常检测领域的应用 theskylife 数据挖掘机器学习数据挖掘 GBDT 分类 python
目录写在开头1异常检测的基本概念1.1定义和目标1.2GBDT在异常检测中的适用性2信用卡欺诈检测案例分析2.1场景介绍2.2收集数据和特征工程2.3进行异常值识别2.4模型效果评估2.5模型优化3策略和技巧4面临的挑战和解决方案4.1数据不平衡4.2过拟合4.3模型解释性写在最后在如今数据驱动的时代，异常检测成为了保障系统安全的关键技术，尤其在金融安全、网络安全等领域中扮演着至关重要的角色。梯度
【深度学习：掌握监督学习】掌握监督学习综合指南 jcfszxc 深度学习知识专栏深度学习学习人工智能
【深度学习：掌握监督学习】掌握监督学习综合指南监督学习的定义和简要说明监督学习在人工智能中的重要性和相关性概述什么是监督学习？基本概念主要组件：输入要素和目标标签训练监督式学习模型监督学习算法的类型分类回归每个类别中的流行算法示例监督学习的数据预处理数据清洗数据转换数据缩减特征工程概念简介及其对模型性能的影响模型评估和验证评估和验证监督学习模型的重要性常见评估指标概述模型评估技术挑战和未来方向监督
Titanic - 1 silent_eyes_77
本周原想探究一下seaborn绘图方面的运用，发现用在实际案例中更有效果，遂直接用Kaggel经典的Titanic案例的描述性分析部分进行研究。以下是案例的其中一部分，模型探究有待补充与更新。复习一下，完成这篇分析报告需要进行的几个步骤：一、导入数据包与数据集二、数据分析1、总体预览2、描述性统计分析：使用统计学与绘图，初步了解数据之间相关性，为构造特征工程和模型建立做准备3、数据清洗4、建模与优
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name