城阙

机器学习-特征工程总结

机器学习特征工程总结

归一化和标准化有什么区别
特征工程一般怎么做
如何进行特征筛选
连续特征离散化的作用
特征数值分布比较稀疏如何处理
正负样本不均衡如何处理
海量类别型特征如何处理
id类特征one-hot编码后维度过高如何处理
DNN能做特征交叉吗
pearson相关系数的作用
介绍下最近邻检索

归一化和标准化有什么区别

归一化的依据非常简单，不同变量往往量纲不同，归一化可以消除量纲对最终结果的影响，使不同变量具有可比性。比如两个人体重差10KG，身高差0.02M，在衡量两个人的差别时体重的差距会把身高的差距完全掩盖，归一化之后就不会有这样的问题。

标准化的原理比较复杂，它表示的是原始值与均值之间差多少个标准差，是一个相对值，所以也有去除量纲的功效。同时，它还带来两个附加的好处：均值为0，标准差为1。

怎么用

在涉及到计算点与点之间的距离时，使用归一化或标准化都会对最后的结果有所提升，甚至会有质的区别。那在归一化与标准化之间应该如何选择呢？如果把所有维度的变量一视同仁，在最后计算距离中发挥相同的作用应该选择标准化，如果想保留原始数据中由标准差所反映的潜在权重关系应该选择归一化。另外，标准化更适合现代嘈杂大数据场景。

小结：

如果对输出结果范围有要求，用归一化
如果数据较为稳定，不存在极端的最大最小值，用归一化
如果数据存在异常值和较多噪音，用标准化，可以间接通过中心化避免异常值和极端值的影响

更多解释可参考知乎高赞解答。

参考文章

机器学习中，有哪些特征选择的工程方法？
归一化和标准化的一些理解
标准化和归一化什么区别？
标准化和归一化，请勿混为一谈，透彻理解数据变换
特征工程中的「归一化」有什么作用？

特征工程一般怎么做

特征工程是为了对数据进行处理，特征是原始数据的数值表示。特征工程是在给定数据、模型和任务的情况下设计出最合适的特征的过程。

没有足够的特征，模型将不能完成最终的任务，特征过多，模型会很难训练且训练成本高昂。

特征工程的步骤可大致概括为如下3大块：

1. 数据清洗

特征变换：模型无法处理或不适合处理
a) 定性变量编码：Label Encoder；Onehot Encoder；Distribution coding；
b) 标准化和归一化：z分数标准化（标准正太分布）、min-max 归一化；
缺失值处理：增加不确定性，可能会导致不可靠输出
a) 不处理：少量样本缺失；
b) 删除：大量样本缺失；
c) 补全：（同类）均值/中位数/众数补全；高维映射（One-hot）；模型预测；最邻近补全；
矩阵补全（R-SVD）；
异常值处理：减少脏数据
a) 简单统计：如 describe() 的统计描述；散点图等；
b) 3 $\sigma$ 法则（正态分布）/箱型图截断；
c) 利用模型进行离群点检测：聚类、K近邻、One Class SVM、Isolation Forest；
其他：删除无效列/更改dtypes/删除列中的字符串/将时间戳从字符串转换为日期时间格式等

2. 特征构造

构造统计量特征，报告计数、求和、比例、标准差等；
时间特征，包括相对时间和绝对时间，节假日，双休日等；
地理信息，包括分箱，分布编码等方法；
非线性变换，包括 log/ 平方/ 根号等；
特征组合，特征交叉；

3. 特征选择

过滤式（Filter）：先用特征选择方法对初识特征进行过滤然后再训练学习器，特征选择过程与后续学习器无关。
a) Relief/方差选择/相关系数/卡方检验/互信息法
包裹式（Wrapper）：直接把最终将要使用的学习器的性能作为衡量特征子集的评价准则，其目的在于为给定学习器选择最有利于其性能的特征子集。
a) Las Vegas Wrapper(LVM)
嵌入式（Embedding）：结合过滤式和包裹式方法，将特征选择与学习器训练过程融为一体，两者在同一优化过程中完成，即学习器训练过程中自动进行了特征选择。
a) LR+L1或决策树

特征工程内容总结：

以上图片来自知乎，各模块详细内容可参考深度了解特征工程这篇文章或者机器学习中，有哪些特征选择的工程方法？高赞解答。

参考文章

深度了解特征工程
机器学习中，有哪些特征选择的工程方法？
特征工程完全手册 - 从预处理、构造、选择、降维、不平衡处理，到放弃
探讨特征工程的方法论
什么是特征工程？如何进行特征工程？
机器学习中的特征工程
推荐系统学习笔记——特征工程
（二）数据的特征工程方法总结笔记
特征工程怎么做
手把手教你用sklearn做特征工程
特征工程——连续特征与离散特征处理方法

如何进行特征筛选

1. 特征选择的目的

对于一个特定的学习算法来说，哪一个特征是有效的是未知的。因此，需要从所有特征中选择出对于学习算法有益的相关特征。而且在实际应用中，经常会出现维度灾难问题。如果只选择所有特征中的部分特征构建模型，那么可以大大减少学习算法的运行时间，也可以增加模型的可解释性。

减少特征数量、降维
降低学习任务的难度，提升模型的效率
使模型泛华能力更强，减少过拟合
增强对特征和特征值之间的理解

2. 特征选择的原则

获取尽可能小的特征子集，不显著降低分类精度、不影响分类分布以及特征子集应具有稳定、适应性强等特点。

3. 特征选择方法的内容总结

各模块具体内容介绍参考特征选择方法最全总结！这篇文章。

特征选择方法最全总结！
特征选择/筛选方法总结
如何进行特征选择实践
机器学习中，有哪些特征选择的工程方法？

连续特征离散化的作用

1. 离散化原因

数据离散化是指将连续的数据进行分段，使其变为一段段离散化的区间。分段的原则有基于等距离、等频率或优化的方法。数据离散化的原因主要有以下几点：

1）算法需要
比如决策树、朴素贝叶斯等算法，都是基于离散型的数据展开的。如果要使用该类算法，必须将离散型的数据进行。有效的离散化能减小算法的时间和空间开销，提高系统对样本的分类聚类能力和抗噪声能力。
2）离散化的特征相对于连续型特征更易理解，更接近知识层面的表达
比如工资收入，月薪2000和月薪20000，从连续型特征来看高低薪的差异还要通过数值层面才能理解，但将其转换为离散型数据（底薪、高薪），则可以更加直观的表达出了我们心中所想的高薪和底薪。
3）可以有效的克服数据中隐藏的缺陷，使模型结果更加稳定

2. 离散化的优势

在工业界，很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特征离散化为一系列0、1特征交给逻辑回归模型，这样做的优势有以下几点：

1）离散特征的增加和减少都很容易，易于模型的快速迭代；
2）稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展；
3）离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大的干扰；
4）逻辑回归属于广义线性模型，表达能力受限；单变量离散化为N个后，每个变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力，加大拟合；
5）离散化后可以进行特征交叉，由M+N个变量变为M*N个变量，进一步引入非线性，提升表达能力；
6）特征离散化后，模型会更稳定，比如如果对用户年龄离散化，20-30作为一个区间，不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反，所以怎么划分区间是门学问；
7）特征离散化以后，起到了简化了逻辑回归模型的作用，降低了模型过拟合的风险。

3. 离散化的方法

1）无监督学习方法
等宽法：等宽法即是将属性值分为具有相同宽度的区间，区间的个数k根据实际情况来决定。比如属性值在[0，60]之间，最小值为0，最大值为60，我们要将其分为3等分，则区间被划分为[0,20] 、[21,40] 、[41，60]，每个属性值对应属于它的那个区间
等频法：等宽法即是将属性值分为具有相同宽度的区间，区间的个数k根据实际情况来决定。比如有60个样本，我们要将其分为k=3部分，则每部分的长度为20个样本。
基于聚类的方法：基于聚类的方法分为两个步骤，即：选定聚类算法将其进行聚类；将在同一个簇内的属性值做为统一标记。
注：基于聚类的方法，簇的个数要根据聚类算法的实际情况来决定，比如对于k-means算法，簇的个数可以自己决定，但对于DBSCAN，则是算法找寻簇的个数。
2）有监督学习方法：
1R方法、基于信息熵的方法、基于卡方的方法

关于离散化方法的具体介绍可参考连续特征离散化（整理）这篇文章。

参考文章

连续特征的离散化：在什么情况下将连续的特征离散化之后可以获得更好的效果？
wide&deep模型中为什么要将连续特征离散化？
机器学习处理数据为什么把连续性特征离散化，离散化有何好处？
连续特征是直接离散化还是还是归一化后在离散化？
特征离散化（分箱）综述
连续特征离散化（整理）
西瓜书学习笔记——第十一章：特征选择与稀疏学习

特征数值分布比较稀疏如何处理

为什么深度学习的结构特点不利于稀疏特征向量的处理呢？

一方面，如果我们深入到神经网络的梯度下降学习过程就会发现，特征过于稀疏会导致整个网络的收敛非常慢，因为每一个样本的学习只有极少数的权重会得到更新，这在样本数量有限的情况下会导致模型不收敛。
另一个方面，One-hot 类稀疏特征的维度往往非常地大，可能会达到千万甚至亿的级别，如果直接连接进入深度学习网络，那整个模型的参数数量会非常庞大，这对于一般公司的算力开销都是吃不消的。
所以基于上面两个原因，我们往往先通过 Embedding 把原始稀疏特征稠密化，然后再输入复杂的深度学习网络进行训练，这相当于把原始特征向量跟上层复杂深度学习网络做一个隔离。

机器学习中如何利用id类特征？

id类特征上的信号是将其稀疏的，所以这意味着我们需要更大量的数据。但是其实这并没有想象中的难，计算广告、推荐系统这种机器学习场景中，单个id上搜集的数据其实非常多。但是一定要通过正则的方法来限制以使得id类特征不过拟合；
id类特征在预测中的命中率可能并不高，但这其实也不是问题。因为一个特征就是一个体系，一个体系化的特征是通过层次化的特征设计来达到命中率和个性化的综合。比如说，用户id -> 用户GPS坐标 + 用户喜好Tag + 用户最近行为 -> 用户年龄、用户性别。通过分层的，由最细粒度到最粗细度的特征搭配来保证特征命中率；
组合。单独的id类特征的意义并没有那么高，有意义的是不同层次的交叉组合。这取决于业务理解和特征工程手法；
模型和算法。实际上，LR是适合使用id类特征的，原因在于LR适合接收超高维度的特征输入。对于XGBoost、DNN，这么高维度的特征进来，在工程和算法上都有挑战。然而其实针对这种超高维度的特征灌入Tree、NN模型的方法，并不难想到，就是Embedding。

深度学习模型处理前，一般是先把高维稀疏特征用embedding的方式，转成低维稠密特征。可以先用一些降维的办法对embedding做初始化，以提高训练效果，例如word2vec，svd等等。

以上回答参考知乎~

参考文章

什么是稀疏特征(Sparse Features)?
特征稀疏对于模型训练过程和结果有什么影响？
机器学习中如何利用id类特征？
如何在机器学习模型中如何处理稀疏特征(Sparse Features)？
推荐系统中稀疏特征Embedding的优化表示方法
分解机(Factorization Machines)推荐算法原理
解决样本稀疏/稀缺问题的方法
数据挖掘&机器学习面试题整理（入门级面试）
传统的CTR或推荐系统拥有高维特征和稀疏数据，转向深度学习如何高效实现？
高维稀疏特征向量该如何进行Feature Engineering才能适合神经网络训练？
为什么深度学习的结构特点不利于稀疏特征向量的处理呢？
为何稀疏特征不适合使用树算法？

正负样本不均衡如何处理

1. 样本不均衡现象以及带来的问题

很多机器学习算法都有一个基本假设，就是数据分布是均匀的。当我们把这些算法直接应用在实际数据中时，大多数情况下都无法取得理想的结果，因为实际数据往往分布的很不均衡，都存在长尾效应。

举个例子，大部分（假如是97%以上）的微博的总互动数（包括被转发，评论和点赞数量）都在0~5之间，交互数多的微博（多于100）非常的少，如果我们去预测一条微博交互数所在档位，预测器只需要把所有微博预测为第一档（0-5）就能解决非常高的准确率，而这样的预测器没有任何价值。

再比如，CTR任务中我们需要预测用户是否会对广告进行点击，通常情况下曝光一个广告用户点击的比率非常低，这里我们假如给101个用户曝光广告可能只有一个人点击，那么得到的正负样本比例就为1:100。如果是更高层级的广告转化目标比如下载、付费等正负样本的比例就更低了。

2. 解决办法

总体来看，样本不均衡问题可以从数据层面和模型层面来解决。

2.1 数据层面

上采样（过采样）：通过增加分类中少数类样本的数量来实现样本均衡，最直接的方法是简单复制少数类样本形成多条记录，这种方法的缺点是如果样本特征少而可能导致过拟合的问题；经过改进的过抽样方法通过在少数类中加入随机噪声、干扰数据或通过一定规则产生新的合成样本。如机器学习中的SMOTE算法，NLP中相似文本生成技术，深度学习中数据增强等。

下采样（欠采样）：通过减少分类中多数类样本的样本数量来实现样本均衡，最直接的方法是随机地去掉一些多数类样本来减小多数类的规模，缺点是会丢失多数类样本中的一些重要信息。

上采样和下采样更适合大数据分布不均衡的情况，尤其是第一种（上采样）方法应用更加广泛。

2.2 模型层面

1）正负样本的惩罚权重

在算法实现过程中，对于分类中不同样本数量的类别分别赋予不同的权重（一般思路分类中的小样本量类别权重高，大样本量类别权重低），然后进行计算和建模。

如果算法本身支持基于类别参数的调整设置，这种思路是更加简单且高效的方法。

下面举例说明以下：
可以修改模型的损失函数，比如采用类别加权的loss、Focal Loss等。

拿二分类任务来举例，通常使用交叉熵来计算损失，下面是交叉熵的公式：

上面的公式中y是样本的标签，p是样本预测为正例的概率。

为了解决样本不均衡的问题，最简单的是基于类别的加权Loss，具体公式如下：

基于类别加权的 Loss 其实就是添加了一个参数 $\alpha$ ，这个 $\alpha$ 主要用来控制正负样本对 Loss 带来不同的缩放效果，一般和样本数量成反比。

需要说明的是，上面基于类别加权Loss虽然在一定程度上解决了样本不均衡的问题，但是实际的情况是不仅样本不均衡会影响Loss，而且样本的难易区分程度也会影响Loss。在样本不均衡的场景中，有非常多的负样本是易区分样本。虽然这些样本的Loss很低，但是数量确很多，所以对于最终的Loss有很大的贡献，导致模型最终的效果不够好。基于这个问题2017年何恺明大神在论文《Focal Loss for Dense Object Detection》中提出了非常火的Focal Loss，下面是Focal Loss的计算公式：

相比于公式2来说，Focal Loss 添加了参数 $\gamma$ 从置信的角度来加权 Loss 值。假如 $\gamma$ 设置为0，那么公式3退化成了基于类别的加权也就是公式2；下面重点看看如何通过设置参数 $\gamma$ 来使得简单和困难样本对 Loss 的影响。当 $\gamma$ 设置为2时，对于模型预测为正例的样本也就是 p>0.5 的样本来说，如果样本越容易区分那么 (1-p) 的部分就会越小，相当于乘了一个系数很小的值使得 Loss 被缩小，也就是说对于那些比较容易区分的样本 Loss 会被抑制，同理对于那些比较难区分的样本 Loss 会被放大，这就是 Focal Loss 的核心：通过一个合适的函数来度量简单样本和困难样本对总的损失函数的贡献。关于参数γ的设置问题，Focal Loss 的作者建议设置为2。下面是不同的参数值γ样本难易程度对Loss的影响对比图：

下面是一个Focal Loss的实现：

2）组合/集成

组合/集成方法指的是在每次生成训练集时使用所有分类中的小样本量，同时从分类中的大样本量中随机抽取数据来与小样本量合并构成训练集，这样反复多次会得到很多训练集和训练模型。最后在应用时，使用组合方法（例如投票、加权投票等）产生分类预测结果。

例如，在数据集中的正、负例的样本分别为100和10000条，比例为1:100。此时可以将负例样本（类别中的大量样本集）随机分为100份（当然也可以分更多），每份100条数据；然后每次形成训练集时使用所有的正样本（100条）和随机抽取的负样本（100条）形成新的数据集。如此反复可以得到100个训练集和对应的训练模型。

这种解决问题的思路类似于随机森林。如果计算资源充足，并且对于模型的时效性要求不高的话，这种方法比较合适。

3）一分类

对于正负样本极不平衡的场景，我们可以换一个完全不同的角度来看待问题：把它看做一分类（one class learning）或异常检测问题，这类方法的重点不在于捕捉类间的差别，而是为其中一类进行建模，比较有代表性的是 one-class-SVM。

单分类实际中有很多应用，比如人脸识别，我们不可能给所有的图片让机器去分类，事实上我们只能给出很多人脸的图像，让机器去学习识别。之后再来图像时，符合这些图像特征的就属于人脸，反之则不是。对比二分类，显著的区别就是，二分类不但能的出来这个图片不是人脸，他还能告诉你这个图片是猪脸。

参考文章

机器学习中如何解决样本不均衡的问题？
广告行业中那些趣事系列24：从理论到实践解决文本分类中的样本不均衡问题
推荐系统的正负样本比例悬殊：600(负):1(正),如何处理？
样本数据量很大的情况下，样本极度不平衡（1：370）怎么解决？
正负样本极不平衡的问题？
机器学习中非均衡数据集的处理方法？
样本不均衡的处理（Xgboost，pytorch及tensorflow）
机器学习中，正负样本比例差距大，导致分类效果差的理论依据是什么？怎么解决正负样本不均衡问题？
CTR 预估正负样本不平衡，请问怎么解决？

海量类别型特征如何处理

类别型特征主要指性别（男、女）、血型（A、B、AB、O）等只在有限选项内取值的特征。类别型特征元时输入通常是字符串形式，除了决策树等少数模型能直接处理字符串形式的输入，对于逻辑回归，SVM等模型，类别型特征必须要转换为数值型才能使用。

处理类别型特征的方法

序号编码。序号编码通常用来处理类别间具有大小关系的数据。例如，成绩分为‘高，中，低’三档，将其转换为序号后，序号编码会依据大小关系对类别型特征赋予一个数值ID。例如高表示为3，中表示为2，低表示为1。转换后依然保留了大小关系。
独热编码。当类别间不存在大小关系时，可以采用独热向量编码。比如特征“颜色”有“红，黄，蓝”三种，转换为独热向量之后，红表示为（1，0，0），黄表示为（0，1，0），蓝表示为（0，0，1）。经过这样的变换之后，不同类别之间具有同等的地位。但是，如果采用序号编码，将三种颜色表示为1，2，3的话，就会有问题。因此这种编码方式默认了蓝色比其它颜色的数值要大，这是不合理的，这三种颜色应该是平等的。对于类别特别多的特征，在使用独热向量编码时，需注意如下问题：
a）使用稀疏向量存储来节省空间。one-hot编码中，特征向量只有某一维度取1，其余维度均为0。因此可以利用向量的稀疏表示有效节省空间；
b）配合特征选择降低维度。因为高维度特征会带来如下几方面的问题：
- 在K近邻算法中，高维空间下两点之间的距离很难得到有效的衡量；
- 在LR模型中，参数的数量会随着维度的增高而增加，容易引起过拟合问题；
- 通常只有部分维度对分类、预测有帮助
二进制编码。二进制编码分为两步。首先进行序号编码。给每个类别一个ID，然后再将该ID转换为二进制。这种做法的本质在于利用二进制对ID进行映射，最终也得到0/1向量，但是维度显著小于独热向量编码，节省了存储空间。

lightgdm序号编码后不需要归一化的原因？

1.树模型对于特征量纲没有要求，连续特征，类别型特征都不要归一化操作，一是因为树模型不是利用SGD等优化算法进行优化；二是LightGBM中回归树生长过程中，是利用特征的直方图寻找最优的特征，以及分裂点，因此这个过程只关心取值的顺序，即使归一化之后，各个样本的取值的顺序依然不会改变，所以没有必要；
2.对于类别型的特征，传统的机器学习模型是需要先利用one-hot编码，而在LightGBM中只需要提前将类别映射到非负整数即可(integer-encoded categorical features)，例如，进行如下编码mapping{'川建国': 1, '傻蛋': 2, '其他': 0}，在官方文档中也建议使用从0开始的连续的数值进行编码，当训练集中的某个类别型的特征取值个数超大，可以将其看做是连续特征看待，或者进行embedding编码。

参考文章

浅谈类别特征处理
特征处理经验
用lightgbm建模时，标签编码后的类别型特征还需要归一化吗？还是只需要对连续型特征做归一化呢？
数据采样与特征工程（数值型特征类别型特征时间型特征文本型特征）介绍
【百面机器学习】数据预处理时，应该怎样处理类别特征？

id类特征one-hot编码后维度过高如何处理

对那个很多维度的类别变量，根据每一项出现的次数进行标记；比如，A类出现了5次，就标为5；
特征哈希，进行hashing trick，也就是进行mod分类，再one-hot；
根据类别特征的意义进行合并（分桶），按目标值进行合并，比如A和B和C都有85%概率使结果为1；
对分类变量先one-hot，再对这部分PCA降维；
考虑平均数编码（高基数类别特征），具体参考类别型特征的处理方法与平均数编码；
直接用lightgbm，原因见Optimal Split for Categorical Features；
低纬嵌入，也叫Embedding

lightgdm：Optimal Split for Categorical Features
用一个热编码来表示分类特征是很常见的，但这种方法对于树学习者来说是次优的。特别是对于高基数的分类特征，基于one-hot特征构建的树往往是不平衡的，需要非常深才能获得良好的准确性。

最佳的解决方案不使用one-hot编码，而是通过将类别划分为2个子集来拆分类别特征。如果该特征有k个类别，则有2^（k-1）-1个可能的分区。但是回归树有一个有效的解决方案8。需要大约O（k*log（k））才能找到最佳分区。

其基本思想是根据每次划分的训练目标对类别进行排序。更具体地说，LightGBM根据其累积值（sum_gradient/sum_hessian）对直方图进行排序（针对分类特征），然后在排序后的直方图上找到最佳分割。

以上回答参考知乎~

参考文章

One hot编码维度过高解决方法
onehot编码后生成的特征列太多怎么办？
关于lightgbm处理category特征的理解
类别型特征的处理方法与平均数编码
[Word Embedding系列] one-hot 编码
关于sklearn中的决策树是否应该用one-hot编码？
高基数类别型特征的处理方案记录

DNN能做特征交叉吗

1. 为什么要做特征交叉

特征交叉（Feature Crosses）也叫特征组合，是指通过将两个或多个特征相乘，实现对样本空间的非线性变换，来增加模型的非线性能力。从本质上讲，特征交叉是利用非线性映射函数f(x)将样本从原始空间映射至特征空间的过程。

特征交叉的目的是「提升模型的效果」。通过特征交叉，将样本映射至高维空间，从而增加模型的非线性能力，提升模型的预测效果。

2. 怎么做特征交叉

特征交叉主要有两大类：1) 显示交叉；2) 隐式交叉

2.1 显式交叉

显示交叉主要是基于先验知识通过人工来手动构造交叉特征，主要有三种类型的交叉：1）內积；2）哈达玛积；3）笛卡尔积。

在构造显性交叉特征时，一定要结合业务和数据分析来构造，切忌无脑交叉。

代表方法有：FM、FFM

注：FM从形式上来说应该算显示交叉，但其实其具体交叉向量是在模型训练过程中不断优化的（隐式的）。

2.2 隐式交叉

显示特征交叉有以下几个局限性：（1）对非线性的建模能力是有限的，（2）很难扩展到更高阶的特征交叉，（3）但数据稀疏性很大时，模型训练比较困难，（4）对所有特征交叉项一视同仁，可能会限制模型的表达能力，（5）不能自动化实现特征交叉。

相较于显示交叉，隐式交叉省去了手动设计交叉的工作，直接通过模型来学习交叉。这样做的好处在于可以解决显示交叉需要依赖人工经验、特征交叉计算量大、维度爆炸等问题。主要有基于FM和MLP两大类隐式交叉方法。

代表方法有：DeepFM、Wide & Deep、Deep Crossing、Deep Cross Network等

小结：

在推荐系统中对模型优化基本都是围绕特征交叉进行的，要么手动显示的构造各种交叉特征，让模型根据历史数据学习交叉特征的有效性；要么是采用FM或MLP等方式实现隐式交叉，让模型从历史数据中自动学到有效的交叉特征。

从总体来看，当前主流的推荐模型大多是同时包含了**手动交叉+FM交叉+MLP交叉
**，始终是围绕对业务的分析和理解来选择特征和模型。

另外，当前主流的推荐算法基本都是通过对Wide&Deep进行魔改优化的，总体都逃不过交叉。

参考文章

推荐系统（五）—— 特征交叉
来聊聊：特征交叉
原创 | 想做推荐算法？先把FM模型搞懂再说
特征工程中的特征交叉究竟是什么?
如果说DNN的目的是特征交叉，为什么普通的全连接网络不能很好的表达模型呢？
DNN可以进行高阶特征交互，为什么Wide&Deep和DeepFM等模型仍然需要显式构造Wide部分？
深入理解推荐系统：特征交叉组合模型演化简史
谈谈如何在推荐系统中做特征交叉
梳理汇总特征交叉方向的CTR预估模型
揭秘 Deep & Cross : 如何自动构造高阶交叉特征
[CTR] 高阶特征的显式交叉 – DCN, DCN-v2, xDeepFM, AutoInt
工业界推荐系统怎么做特征？

pearson相关系数的作用

要理解Pearson相关系数，首先要理解协方差（Covariance），协方差是一个反映两个随机变量相关程度的指标，如果一个变量跟随着另一个变量同时变大或者变小，那么这两个变量的协方差就是正值，反之相反，公式如下：

Pearson相关系数公式如下：

由公式可知，Pearson相关系数是用协方差除以两个变量的标准差得到的，虽然协方差能反映两个随机变量的相关程度（协方差大于0的时候表示两者正相关，小于0的时候表示两者负相关），但是协方差值的大小并不能很好地度量两个随机变量的关联程度，例如，现在二维空间中分布着一些数据，我们想知道数据点坐标X轴和Y轴的相关程度，如果X与Y的相关程度较小但是数据分布的比较离散，这样会导致求出的协方差值较大，用这个值来度量相关程度是不合理的，如下图：

为了更好的度量两个随机变量的相关程度，引入了Pearson相关系数，其在协方差的基础上除以了两个随机变量的标准差，容易得出，pearson是一个介于-1和1之间的值，当两个变量的线性关系增强时，相关系数趋于1或-1；当一个变量增大，另一个变量也增大时，表明它们之间是正相关的，相关系数大于0；如果一个变量增大，另一个变量却减小，表明它们之间是负相关的，相关系数小于0；如果相关系数等于0，表明它们之间不存在线性相关关系。《数据挖掘导论》给出了一个很好的图来说明：

以上回答来自知乎~

参考文章

如何理解皮尔逊相关系数（Pearson Correlation Coefficient）？

介绍下最近邻检索

K-最近邻（K-nearest-neighbor, KNN）搜索是高维数据常用的一个操作，一般用于搜索目标数据点周围最近（最相似）的K个数据点。为了提高搜索效率，也会采用近似的搜索方法（approximate nearest neighbor, ANN），即搜索到的K个点未必是最近的点，允许存在一定误差。

如果不使用最近邻检索的库，怎么做最近邻检索

最近邻检索的方法可分为三大类：

1）基于树的方法
KD树是其下的经典算法。一般而言，在空间维度比较低时，KD树的查找性能还是比较高效的；但当空间维度较高时，该方法会退化为暴力枚举，性能较差，这时一般会采用下面的哈希方法或者矢量量化方法。

2）哈希方法
LSH(Locality-Sensitive Hashing)是其下的代表算法。
对于小数据集和中规模的数据集(几个million-几十个million)，基于LSH的方法的效果和性能都还不错。这方面有2个开源工具FALCONN和NMSLIB。

3）矢量量化方法
矢量量化方法，即vector quantization。在矢量量化编码中，关键是码本的建立和码字搜索算法。比如常见的聚类算法，就是一种矢量量化方法。而在相似搜索中，向量量化方法又以PQ方法最为典型。
对于大规模数据集(几百个million以上)，基于矢量量化的方法是一个明智的选择，可以用用Faiss开源工具。

参考文章

开源最近邻（KNN）搜索库
高维空间最近邻逼近搜索算法评测
近似最近邻搜索算法 ANNOY（APPROXIMATE NEAREST NEIGHBORS OH YEAH）
向量召回—近邻快速查找算法总结
Facebook深度学习应用 | 最近邻搜索算法
【annoy】高维空间求近似最近邻
机器学习算法 | K近邻算法 (KNN) 与近邻搜索算法 K-D 树 (K-D Tree)
最近邻搜索 KD树生动图示理解笔记
最近邻检索（NN）和近似最近邻（ANN）检索
最近邻搜索|Nearest neighbor search
最近邻搜索的若干种方法

你可能感兴趣的:(机器学习)

PHP 爬虫实战：爬取淘宝商品详情数据 EcomDataMiner php 爬虫开发语言
随着互联网技术的发展，数据爬取越来越成为了数据分析、机器学习等领域的重要前置技能。而在这其中，爬虫技术更是不可或缺。php作为一门广泛使用的后端编程语言，其在爬虫领域同样也有着广泛应用和优势。本文将以爬取斗鱼直播数据为例，介绍php爬虫的实战应用。准备工作在开始爬虫之前，我们需要做一些准备工作。首先，需要搭建一个本地服务器环境，推荐使用WAMP、XAMPP等集成化工具，方便部署PHP环境。其次，我
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
模拟退火算法：原理、应用与优化策略尹清雅算法
摘要模拟退火算法是一种基于物理退火过程的随机搜索算法，在解决复杂优化问题上表现出独特优势。本文详细阐述模拟退火算法的原理，深入分析其核心要素，通过案例展示在函数优化、旅行商问题中的应用，并探讨算法的优化策略与拓展方向，为解决复杂优化问题提供全面的理论与实践指导，助力该算法在多领域的高效应用与创新发展。一、引言在现代科学与工程领域，复杂优化问题无处不在，如资源分配、路径规划、机器学习模型参数调优等。
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
机器学习是怎么一步一步由神经网络发展到今天的Transformer架构的？ yuanpan 机器学习神经网络 transformer
机器学习和神经网络的发展经历了一系列重要的架构和技术阶段。以下是更全面的总结，涵盖了从早期神经网络到卷积神经网络之前的架构演变：1.早期神经网络：感知机（Perceptron）时间：1950年代末至1960年代。背景：感知机由FrankRosenblatt提出，是第一个具有学习能力的神经网络模型。它由单层神经元组成，可以用于简单的二分类任务。特点：输入层和输出层之间直接连接，没有隐藏层。使用简单的
奇异值分解（SVD）文弱_书生乱七八糟神经网络人工智能
奇异值分解(SVD)介绍奇异值分解(SVD)，这是最强大的矩阵分解技术之一。SVD广泛应用于机器学习、数据科学和其他计算领域，用于降维、降噪和矩阵近似等应用。与仅适用于方阵的特征分解不同，SVD可以应用于任何矩阵，使其成为一种多功能工具。在这里煮啵将分解SVD背后的理论，通过手动计算示例进行分析，并展示如何在Python中实现SVD。在本节结束时，您将清楚地了解SVD的强大功能及其在机器学习中的应
yum install locate出现Error: Unable to find match: locate解决方案爱编程的喵喵 Linux解决方案 linux locate yum 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了yuminstalllocate出现
【人工智能机器学习基础篇】——深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理猿享天开人工智能数学基础专讲人工智能机器学习无监督学习降维
深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理在当今数据驱动的世界中，数据维度的增多带来了计算复杂性和存储挑战，同时也可能导致模型性能下降，这一现象被称为“维度诅咒”（CurseofDimensionality）。降维作为一种重要的特征提取和数据预处理技术，旨在通过减少数据的维度，保留其主要信息，从而简化数据处理过程，并提升模型的性能。本文将深入探讨两种广泛应用于无监督学习中的降
Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
【机器学习】建模流程 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能线性回归逻辑回归
1、数据获取1.1来源数据获取是机器学习建模的第一步，常见的数据来源包括数据库、API、网络爬虫等。数据库是企业内部常见的数据存储方式，例如：MySQL、Oracle等关系型数据库，以及MongoDB等非关系型数据库，它们能够存储大量的结构化和非结构化数据API（应用程序编程接口）提供了从外部获取数据的便捷方式，例如：社交媒体平台的API可以获取用户发布的内容和互动信息网络爬虫则适用于从网页中提取
机器学习课堂4线性回归模型+特征缩放木尘152132 机器学习线性回归 python
一、实验2-2，线性回归模型，计算模型在训练数据集和测试数据集上的均方根误差代码：#2-2线性回归模型importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt#参数设置iterations=3000#迭代次数learning_rate=0.0001#学习率m_train=3000#训练样本的数量flag_plot_lines=False
【机器学习】模型拟合 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能欠拟合过拟合
1、欠拟合1.1现象欠拟合是机器学习和统计建模中的一种常见问题，表现为模型无法充分捕捉数据中的潜在规律和模式。无论是训练数据还是测试数据，模型的预测误差都居高不下。在实际应用中，欠拟合的模型往往显得过于简单和粗糙，无法对数据进行有效的拟合和描述。1.2原因模型过于简单是导致欠拟合的主要原因：例如，使用直线去拟合具有明显曲线趋势的数据，或者使用低阶多项式去拟合高阶的复杂函数关系。这种情况下，模型的表
基于Python的智能决策支持系统：实现智能化决策的关键要素 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录基于Python的智能决策支持系统：实现智能化决策的关键要素11.背景介绍2.核心概念与联系数据收集与预处理模型构建与训练决策规则生成与优化决策结果评估与反馈3.核心算法原理具体操作步骤数据挖掘算法机器学习算法优化算法4.数学模型和公式详细讲解举例说明线性回归模型最小二乘法5.项目实践：代码实例和详细解释说明6.实际应用场景金融领域医疗领域供应链管理智能制造7.工具和资源推荐编程语言和开发
下一代模型技术演进与场景应用突破智能计算研究中心其他
内容概要当前模型技术正经历多维度的范式跃迁，可解释性模型与自动化机器学习（AutoML）成为突破传统黑箱困境的核心路径。在底层架构层面，边缘计算与量子计算的融合重构了算力分配模式，联邦学习技术则为跨域数据协作提供了安全可信的解决方案。主流框架如TensorFlow和PyTorch持续迭代优化能力，通过动态参数压缩与自适应超参数调优策略，显著提升模型部署效率。应用层创新呈现垂直化特征，医疗诊断模型通
TypeScript语言的计算机视觉苏墨瀚包罗万象 golang 开发语言后端
使用TypeScript进行计算机视觉：一个现代化的探索引言随着人工智能和机器学习的快速发展，计算机视觉（ComputerVision）成为了一个极具活力的研究领域。计算机视觉旨在使计算机能够“看”和“理解”数字图像或视频中的内容。近年来，TypeScript作为一种现代化的编程语言，因其类型安全和更好的开发体验，逐渐在前端和后端开发中得到了广泛应用。本文将探讨如何使用TypeScript进行计算
人工智能之数学基础：数学对人工智能技术发展的作用每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习机器学习神经网络自然语言处理数学
本文重点数学是人工智能技术发展的基础，它提供了人工智能技术所需的数学理论和算法，包括概率论、统计学、线性代数、微积分、图论等等。本文将从以下几个方面探讨数学对人工智能技术发展的作用。概率论和统计学概率论和统计学是人工智能技术中最为重要的数学分支之一。概率论和统计学的应用范围非常广泛，包括机器学习、数据挖掘、自然语言处理、计算机视觉等领域。在人工智能技术中，概率论和统计学主要用于处理不确定性的问题，
人工智能之数学基础：线性子空间每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习线性代数线性子空间线性空间
本文重点在前面的课程中，我们学习了线性空间，本文我们我们在此基础上学习线性子空间。在应用中，线性子空间的概念被广泛应用于信号处理、机器学习、图像处理等领域。子空间的性质子空间是线性空间的一部分，它需要满足下面的性质：设V是数域F上的线性空间，W是V的一个非空子集。如果W对于V中的加法运算和数乘运算也构成F上的一个线性空间，则称W为V的线性子空间（或称向量子空间）。具体来说，设V是一个线性空间，W是
详解离线安装Python库爱编程的喵喵 Python基础课程 python 离线安装 requirements
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了详解离线安装Python库，希望能对
ESG证书：AI预测未来十年职场人的黄金入场券 ESG学习圈 pandas python django
当ChatGPT开始撰写ESG报告，当机器学习模型精准预测企业碳排放轨迹，一场由AI驱动的ESG革命正在颠覆传统可持续发展领域。根据彭博新能源财经预测，到2030年全球ESG资产管理规模将突破50万亿美元，而AI技术将成为撬动这个万亿级市场的核心杠杆。一、AI透视下的ESG黄金时代在微软开发的AI模型ESG-NOW系统中，通过分析全球4300家上市公司近十年的环境数据，成功预测2025年新能源行业
【Dive Into Stable Diffusion v3.5】1：开源项目正式发布——深入探索SDv3.5模型全参/LoRA/RLHF训练 Donvink 大模型 #AIGC stable diffusion AIGC 人工智能机器学习深度学习
目录1引言2项目简介3快速上手3.1下载代码3.2环境配置3.3项目结构3.4下载模型与数据集3.5运行指令3.6核心参数说明3.6.1通用参数3.6.2优化器/学习率3.6.3数据相关4结语1引言在人工智能和机器学习领域，生成模型的应用越来越广泛。StableDiffusion作为其中的佼佼者，因其强大的图像生成能力而备受关注。今天，我的开源项目DiveIntoStableDiffusionv3
知识库在意图识别中扮演着**数据支撑**和**语义理解辅助**的双重角色 PersistDZ 大数据与AI 人工智能
知识库在意图识别中扮演着数据支撑和语义理解辅助的双重角色，而训练智能客服的意图识别Agent需要结合知识库的结构化数据与机器学习技术。以下是详细解析：一、知识库在意图识别中的作用1.提供标注数据意图标签定义：知识库中存储了预先定义的意图分类体系（如“订单查询”“退换货”“投诉”等），为模型提供明确的训练目标。标注样本：知识库包含大量用户对话历史及其对应的意图标签，是训练监督学习模型的核心数据源。2
近期计算机领域的热点技术 0dayNu1L 云计算量子计算人工智能
随着科技的飞速发展，计算机领域的新技术、新趋势层出不穷。本文将探讨近期计算机领域的几个热点技术趋势，并对它们进行简要的分析和展望。一、人工智能与机器学习人工智能（AI）和机器学习（ML）是近年来计算机领域最为热门的话题之一。AI和ML技术已经广泛应用于图像识别、自然语言处理、智能推荐等领域，并取得了显著的成果。随着技术的不断进步，AI和ML将更深入地渗透到各个行业，为人类社会带来更多便利和效益。在
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
ChatGPT、DeepSeek、GIS与Python机器学习强强联合！地质灾害风险评估、易发性分析、信息化建库及灾后重建 WangYan2022 DeepSeek ChatGPT 地下水地质灾害 DeepSeek ChatGPT GIS 灾后重建
在地质灾害频繁肆虐的当下，精准开展风险评价刻不容缓。如今，一门极具创新性的教程震撼登场，它将ChatGPT、DeepSeek等前沿技术与GIS、Python以及机器学习深度交融，为学员打造出前所未有的学习体验，助力大家在地质灾害风险评价领域强势突围，一路领先。前沿技术融合，铸就智能学习核心动力教程最闪耀的亮点之一，便是大胆引入了ChatGPT和DeepSeek技术。它们恰似无所不能的“数据魔法师”
Hessian 矩阵是什么 ZhangJiQun&MXP 教学 2021 AI python 2024大模型以及算力矩阵线性代数算法人工智能机器学习
Hessian矩阵是什么目录Hessian矩阵是什么Hessian矩阵的性质及举例说明**1.对称性****2.正定性决定极值类型****特征值为2（正），因此原点(0,0)(0,0)(0,0)是极小值点。****3.牛顿法中的应用****4.特征值与曲率方向****5.机器学习中的实际意义**一、定义与公式二、实例分析Hessian矩阵是多元函数二阶偏导数构成的方阵，用于分析函数局部曲率、判断极
LoRA中黑塞矩阵、Fisher信息矩阵是什么 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵机器学习人工智能 transformer 深度学习算法线性代数
LoRA中黑塞矩阵、Fisher信息矩阵是什么1.三者的核心概念黑塞矩阵（Hessian）二阶导数矩阵，用于优化问题中判断函数的凸性（如牛顿法），或计算参数更新方向（如拟牛顿法）。Fisher信息矩阵（FisherInformationMatrix,FIM）统计学中衡量参数估计的不确定性，反映数据中包含的关于参数的信息量。在机器学习中常用于自然梯度下降（NaturalGradientDescent
神经网络基础之正则化硬水果糖人工智能神经网络人工智能机器学习
引言：正则化（Regularization）是机器学习中一种用于防止模型过拟合技术。核心思想是通过在模型损失函数中添加一个惩罚项（PenaltyTerm），对模型的复杂度进行约束，从而提升模型在新数据上的泛化能力。一、正则化目的防止过拟合：当模型过于复杂（例如神经网络层数过多、参数过多）时，容易在训练数据上“记忆”噪声或细节，导致在测试数据上表现差。简化模型：正则化通过限制模型参数的大小或数量，迫
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio