长路漫漫2021

特征提取与特征选择

特征抽取和特征选择是DimensionalityReduction（降维）的两种方法，针对于the curse of dimensionality(维度灾难)，都可以达到降维的目的。但是这两个有所不同。

特征提取（Feature Extraction）：Creatting a subset of new features by combinations of the exsiting features。即特征提取的方法主要是通过属性间的关系，如组合不同的属性得到新的属性，这样就改变了原来的特征空间。从某种意义上就是特征构造（feature construction）

特征选择（Feature Selection）：choosing a subset of all the features(the ones more informative)。即特征选择的方法是从原始特征数据集中选择出子集，是一种包含的关系，没有更改原始的特征空间。

特征发散： 如果特征不发散，也就是说特征的方差趋近于0，则代表这个特征上不同样本之间没有差异性，对区分样本的作用基本不存在。

特征与目标的相关性： 所谓相关性，就是说特征和目标值之间存在正相关（随着目标值的变大特征值也逐渐变大）或者负相关的特性。代表了特征值和目标值之间具有很强的数据上的因果关系。

1 特征提取

这部分主要借鉴自：特征提取与特征选择——http://lanbing510.info/2014/10/22/Feature-Extraction-Selection.html

1.1 线性特征

PCA-主成分分析
思想：通过某种线性投影，将高维的数据映射到低维的空间中表示，并期望在所投影的维度上数据的方差最大（样本的分布最散乱）以使用较少的数据维度同时保留住较多的原数据点的特征。（降维，可以去相关）
其实就是取协方差矩阵前 $s$ 个最大特征值对应的特征向量构成映射矩阵，对数据进行降维。
LDA-线性判别分析
思想：将数据在低维度上进行投影，投影后希望每一种类别数据的投影点尽可能的接近，而不同类别的数据的类别中心之间的距离尽可能的大。一句话概括，投影后类内方差最小，类间方差最大。
用到了Fisher的思想，即寻找一个向量，使得降维后类内散度最小，类间散度最大；其实就是取 $\pmb{S}_w^{-1}\pmb{S}_b$ 前 $s$ 个特征值对应的特征向量构成映射矩阵，对数据进行处理。

参考文献： Hua Yu and JieYang, A direct LDA algorithm for high - dimensional data with application to face recognition, Pattern Recognition Volume 34, Issue 10, October 2001,pp.2067- 2070
参考博客：线性分类（二）-- 线性判别分析 LDA

ICA-独立成分分析
思想：PCA是将原始数据降维，并提取不相关的部分；ICA是将原始数据降维并提取出相互独立的属性；寻找一个线性变换 $\pmb{z}=\pmb{Wx}$ ，使得 $\pmb{z}$ 的各个分量间的独立性最大， $I(\pmb{z})=Eln\dfrac{p(\boldsymbol{z})}{p(\boldsymbol{z}_1)\cdots p(\boldsymbol{z}_d)}$

参考文献：A. Hyvarinenand E. Oja. Independent Component Analysis: Algorithms and Applications. Neural Networks, 13(4- 5):411 -430, 200

CCA-典型对应分析（Canonical Correlaton Analysis）
思想：找到两组基，使得两组数据在这两组基上的投影相关性最大。
用来描述两个高维变量之间的线性关系

参考文献：R. H. David, S. Sandor and S.- T. John,Canonical correlation analysis: An overview with application to learning methods, Technical Report, CSD - TR- 03-02,2003
参考博客：典型相关分析 CCA

多维尺度分析法（MDS）
思想：根据样本之间的距离关系或不相似度关系在低维空间里生成对样本的一种表示。

度量型：把样本间的距离关系或不相似度关系看作一种定量的度量，尽可能的在低维空间里保持这种度量关系
非度量型：把样本间的距离关系或不相似度关系看作一种定性的关系，在低维空间里只需保持这种关系的顺序

二维 PCA

参考文献：J. Yang, D. Zhang, A.F. Frangi , and J.Y. Yang, Two - dimensional PCA: a new approach to appearance - based face representation and recognition, IEEE Trans. on Pattern Analysis and Machine Intelligence, vol. 26, no. 1, pp. 131- 137, Jan. 2004

1.2 非线性特征

Kernel PCA
核主成分分析法（如核方法KPCA，KDA）的主要思想：先对样本进行非线性变换，再在变换空间进行主成分分析来实现在原空间的非线性主成分分析。

参考论文：B. Scholkopf , A. Smola , and K.R. Muller. Nonlinear component analysis as a kernel eigenvalue problem, Neural Computation, 10(5): 1299- 1319, 1998

Kernel FDA

参考论文：Mika, S., Ratsch , G., Weston, J., Scholkopf , B., Mullers, K.R., Fisher discriminantanalysis with kernels, Neural Networks for Signal Processing IX, Proceedings of the IEEE Signal Processing Society Workshop, pp. 41 – 48, 1999

Manifold Learning 流形学习
思想：通过局部距离来定义非线性距离度量，在样本分布较密集的情况下可以实现各种复杂的非线性距离度量。
利用流形学上的局部结构进行降维的方法有：

等容特征映射（ISOMAP）——欧氏距离累加
局部线性嵌入（LLE）——近邻样本线性重构
拉普拉斯特征映射（Laplacian Eigenmap、LPP）—— 邻域选取和样本间相似度调查

参考文献：
[1] J. B. Tenenbaum , V. de Silva, and J. C. Langford, A global geometric framework for nonlinear dimensionality reduction, Science, 290, pp. 2319 - 2323, 2000
[2] Sam T. Roweis , and Lawrence K. Saul, Nonlinear Dimensionality Reduction by Locally Linear Embedding,Science 22 December 2000
[3] Mikhail Belkin , Partha Niyogi ,Laplacian Eigenmaps for Dimensionality Reduction and Data Representation , Computation , 200
[4] Xiaofei He, Partha Niyogi, Locality Preserving Projections, Advances in Neural Information Processing Systems 16 (NIPS 2003), Vancouver, Canada, 2003

卷积法
局部特征的提取（Extraction of local features）：对于有序的、空间或其他结构化数据，使用特定技术，例如使用手工制作的内核或句法和结构方法的卷积方法，可以将特定于问题的知识编码到特征中。

一般数据是有类别的，最好先考虑用LDA降维。也可先用小幅度的PCA降维消除噪声再用LDA降维，若训练数据没有类别优先考虑PCA。
特征提取是由原始输入形成较少的新特征，它会破坏数据的分布，为了使得训练出的模型更加健壮，若不是数据量很大特征种类很多，一般不要用特征提取。

2 特征选择

这一部分主要借鉴自：机器学习之特征选择和特征提取——https://www.cnblogs.com/dyl222/p/11055756.html
和特征选择算法——https://www.cnblogs.com/nolonely/p/6435083.html

为什么要做特征选择
在有限的样本数目下，用大量的特征来设计分类器计算开销太大而且分类性能差。
特征选择的确切含义
将高维空间的样本通过映射或者是变换的方式转换到低维空间，达到降维的目的，然后通过特征选取删选掉冗余和不相关的特征来进一步降维。
特征选取的原则
获取尽可能小的特征子集，不显著降低分类精度、不影响类分布以及特征子集应具有稳定适应性强等特点

2.1 按搜索策略分类

基于全局寻优的分支定界法：设法将所有可能的特征组合构建成一个树状结构，按照特定的规对树进行搜索,使得搜索过程尽可能早的达到最优解而不必遍历整棵树
基于启发式搜索的方法：单独最优特征组合，序列前向选择(SFS )及广义的SFS ( GSFS)，序列后向选择(SBS)及广义的SBS(GSFS)，增L去R选择及广义的增L去R选择方法，浮动搜索方法及浮动的广义后向选择方法(FGSBS)
随机搜索方法：对每个特征赋予一定的权重 ,再根据给定的或自适应的阈值对特征的重要性进行评价

2.2 按评价准则分类

2.2.1 过滤法（Filter）

过滤法主要思想是：对每一维的特征“打分”，即给每一维的特征赋予权重，这样的权重就代表着该维特征的重要性，然后依据权重排序，完成特征选择。

主要方法有：

方差法：这种方法通过计算每个特征的均值和方差，设定一个基础阈值，当该维度的特征方差小于基础阈值时，则丢弃该特征。这种方法简单高效的过滤了一些低方差的特征，但是存在一个问题就是阈值的设定是一个先验条件，当设置过低时，保留了过多低效的特征，设置过高则丢弃了过多有用的特征。
单变量特征选择：单变量特征选择能够对每一个特征进行测试，衡量该特征和响应变量之间的关系，根据得分扔掉不好的特征。单变量特征选择方法,独立的衡量每个特征与响应变量之间的关系
卡方检验（Chi-squared test）：对于回归和分类问题可以采用卡方检验等方式对特征进行测试。
卡方检验是数理统计中一种常用的检验两个变量独立性的方法。
卡方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。

具体做的时候常常先假设两个变量确实是独立的（行话就叫做“原假设”），然后观察实际值（也可以叫做观察值）与理论值（这个理论值是指“如果两者确实独立”的情况下应该有的值）的偏差程度，如果偏差足够小，我们就认为误差是很自然的样本误差，是测量手段不够精确导致或者偶然发生的，两者确确实实是独立的，此时就接受原假设；如果偏差大到一定程度，使得这样的误差不太可能是偶然产生或者测量不精确所致，我们就认为两者实际上不是相互独立的，即否定原假设，而接受备择假设。

在分类任务的特征选择阶段，我们主要关心一个随机变量（某一特征）与另一个随机变量（样本类别）之间是否相互独立？如果独立，就可以说该特征对样本类别的确定不起作用，即我们根本无法根据该特征出现与否来判断该样本是否属于这个分类。

注意： 首先我们需要明白对特征选择来说原假设是什么，因为计算出的卡方值越大，说明对原假设的偏离越大，我们越倾向于认为原假设的反面情况是正确的。通常我们一般使用”特征xi与类别y不相关“来做原假设。选择的过程也变成了为每个特征xi计算它与类别y的卡方值，从大到小排个序（此时开方值越大越相关），取前k个就可以（因为是从大到小排序的，卡方值越大说明越偏离特征xi与类别y不相关的这个原假设，那么特征和类别相关性就越大）。

总结：卡方通常用于检验两个变量间的独立性，在做特征选择时我们希望检验每个特征和类别之间的独立性，对于每个特征我们假设特征和类别相互独立。卡方值越大越偏离于这个假设，说明特征和类别不相互独立是我们想要选择的特征，因此对卡方值从大到小进行排序，选择前k个。

互信息法选择特征样例：
互信息(Mutual Information)是信息论里一种有用的信息度量，它可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。

2.2.2 包裹法（Wrapper）

所谓包裹法就是选定特定算法，然后再根据算法效果来选择特征集合。

通过不断的启发式方法来搜索特征，主要分为如下两类。

方法一：选择一些特征，逐步增加特征保证算法模型精度是否达标。
方法二：删除一些特征，然后慢慢在保持算法精度的条件下，缩减特征。

即为选用那些本就提供特征重要性测量的模型，直接调用相应方法进行特征选择。

1）利用线性回归模型
这个不常用，因为真实数据的线性关系不是很好，故应选择能处理非线性的随机森林模型，它精确度更高，也提供预测特征重要性的方法。

2）RF选取重要特征的依据

平均不纯度减少（MDI）：表示每个特征对误差的平均减少程度。
平均精确率减少（MDA）：打乱每个特征的特征值顺序，并且度量顺序变动对模型的精确率的影响。对于不重要的特征来说，打乱顺序对模型的精确率影响不会太大，但是对于重要的特征来说，打乱顺序就会降低模型的精确率。

3）sklearn GBDT是根据非叶子节点在分裂时加权不纯度减少的程度来衡量的，减少得越多说明特征越重要。不纯度的减少实际上就是该节点此次分裂的收益，因此我们也可以这样理解，节点分裂时收益越大，该节点对应的特征的重要度越高。

4）XGBoost则有三种方法（get_score）

weight：特征用来作为分裂点的次数
gain：使用特征进行切分的平均增益
cover：某个特征在某个结点进行分裂时所覆盖的样本个数

2.2.3 嵌入法（Embedded）

就是利用正则化的思想，将部分特征属性的权重调整到0，则这个特性相当于就是被舍弃了。（其实就是在损失函数上再加入正则项，不断的利用梯度下降极小化损失函数，调整一些特征的权重，有些权重变为0了则相当于被舍弃了，没被舍弃的相当于被选择出来的向量。）

L1正则方法具有稀疏解的特性，因此天然具备特征选择的特性，但是要注意，L1没有选到的特征不代表不重要，原因是两个具有高相关性的特征可能只保留了一个，如果要确定哪个特征重要应再通过L2正则方法交叉检验。

3 小结

在特征选择前，可以先去掉取值变化小的特征（Removing features with low variance），然后再使用其他的特征选择方法选择特征。在下图给出了特征选择的三种主要方法。阴影显示了三种方法使用的组件：过滤器，包装器和嵌入式方法。：

过滤法和包裹法主要根据评估标准而不同。一般而言，过滤法使用不涉及任何学习机器的标准，例如，基于相关系数或统计的相关性索引，而包裹法使用给定特征子集训练的学习机的性能。

过滤法和包装法都可以利用搜索策略来探索通常太大而无法详尽探索的所有可能特征组合的空间。当然，混合方法也是存在的。另一类嵌入式方法在训练算法中包含特征子集生成和评估。

3.1 单变量特征选择（Univariate feature selection）

单变量特征选择能够对每一个特征进行测试，衡量该特征和响应变量之间的关系，根据得分扔掉不好的特征。对于回归和分类问题可以采用卡方检验等方式对特征进行测试。

3.1.1 Pearson相关系数（Pearson Correlation）

皮尔森相关系数是一种最简单的，能帮助理解特征和响应变量之间关系的方法，该方法衡量的是变量之间的线性相关性，结果的取值区间为[-1，1]，-1表示完全的负相关(这个变量下降，那个就会上升)，+1表示完全的正相关，0表示没有线性相关。

3.1.2 互信息和最大信息系数 Mutual information and maximal information coefficient (MIC)

想把互信息直接用于特征选择其实不是太方便：1、它不属于度量方式，也没有办法归一化，在不同数据集上的结果无法做比较；2、对于连续变量的计算不是很方便（ $X$ 和 $Y$ 都是集合， $x$ ， $y$ 都是离散的取值），通常变量需要先离散化，而互信息的结果对离散化的方式很敏感。

3.1.3 距离相关系数 (Distance correlation)

距离相关系数是为了克服Pearson相关系数的弱点而生的。Pearson相关系数是0，我们也不能断定这两个变量是独立的（有可能是非线性相关）；但如果距离相关系数是0，那么我们就可以说这两个变量是独立的。

3.1.4 基于学习模型的特征排序 (Model based ranking)

这种方法的思路是直接使用你要用的机器学习算法，针对每个单独的特征和响应变量建立预测模型。其实Pearson相关系数等价于线性回归里的标准化回归系数。假如某个特征和响应变量之间的关系是非线性的，可以用基于树的方法（决策树、随机森林）、或者扩展的线性模型等。基于树的方法比较易于使用，因为他们对非线性关系的建模比较好，并且不需要太多的调试。但要注意过拟合问题，因此树的深度最好不要太大，再就是运用交叉验证。

3.2 线性模型和正则化

单变量特征选择方法独立的衡量每个特征与响应变量之间的关系，另一种主流的特征选择方法是基于机器学习模型的方法。有些机器学习方法本身就具有对特征进行打分的机制，或者很容易将其运用到特征选择任务中，例如回归模型，SVM，决策树，随机森林等等。

3.2.1 正则化模型

正则化就是把额外的约束或者惩罚项加到已有模型（损失函数）上，以防止过拟合并提高泛化能力。损失函数由原来的 $E (X, Y)$ 变为 $Y)+\alpha||\pmb{w}||$ ， $\pmb{w}$ 是模型系数组成的向量（有些地方也叫参数parameter，coefficients）， $||\cdot||$ 一般是L1或者L2范数， $\alpha$ 是一个可调的参数，控制着正则化的强度。当用在线性模型上时，L1正则化和L2正则化也称为Lasso和Ridge。

3.2.2 L1正则化/Lasso

L1正则化将系数 $w$ 的L1范数作为惩罚项加到损失函数上，由于正则项非零，这就迫使那些弱的特征所对应的系数变成0。因此L1正则化往往会使学到的模型很稀疏（系数 $\pmb{w}$ 经常为0），这个特性使得L1正则化成为一种很好的特征选择方法。

3.2.3 L2正则化/Ridge regression

L2正则化将系数向量的L2范数添加到了损失函数中。由于L2惩罚项中系数是二次方的，这使得L2和L1有着诸多差异，最明显的一点就是，L2正则化会让系数的取值变得平均。对于关联特征，这意味着他们能够获得更相近的对应系数。还是以 $Y = X 1 + X 2$ 为例，假设 $X 1$ 和 $X 2$ 具有很强的关联，如果用L1正则化，不论学到的模型是 $Y = X 1 + X 2$ 还是 $Y = 2 X 1$ ，惩罚都是一样的，都是 $2\alpha$ 。但是对于L2来说，第一个模型的惩罚项是 $2\alpha$ ，但第二个模型的是 $4*\alpha$ 。可以看出，系数之和为常数时，各系数相等时惩罚是最小的，所以才有了L2让各个系数趋于相同的特点。

可以看出，L2正则化对于特征选择来说一种稳定的模型，不像L1正则化那样，系数会因为细微的数据变化而波动。所以L2正则化和L1正则化提供的价值是不同的，L2正则化对于特征理解来说更加有用：表示能力强的特征对应的系数是非零

3.3 随机森林

随机森林具有准确率高、鲁棒性好、易于使用等优点，这使得它成为了目前最流行的机器学习算法之一。随机森林提供了两种特征选择的方法：mean decrease impurity和mean decrease accuracy。

3.3.1 平均不纯度减少 mean decrease impurity

随机森林由多个决策树构成。决策树中的每一个节点都是关于某个特征的条件，为的是将数据集按照不同的响应变量一分为二。利用不纯度可以确定节点（最优条件），对于分类问题，通常采用基尼不纯度或者信息增益，对于回归问题，通常采用的是方差或者最小二乘拟合。当训练决策树的时候，可以计算出每个特征减少了多少树的不纯度。对于一个决策树森林来说，可以算出每个特征平均减少了多少不纯度，并把它平均减少的不纯度作为特征选择的值。

3.3.2 平均精确率减少 Mean decrease accuracy

另一种常用的特征选择方法就是直接度量每个特征对模型精确率的影响。主要思路是打乱每个特征的特征值顺序，并且度量顺序变动对模型的精确率的影响。很明显，对于不重要的变量来说，打乱顺序对模型的精确率影响不会太大，但是对于重要的变量来说，打乱顺序就会降低模型的精确率。

3.4 两种顶层特征选择算法

之所以叫做顶层，是因为他们都是建立在基于模型的特征选择方法基础之上的，例如回归和SVM，在不同的子集上建立模型，然后汇总最终确定特征得分。

3.4.1 稳定性选择 Stability selection

稳定性选择是一种基于二次抽样和选择算法相结合较新的方法，选择算法可以是回归、SVM或其他类似的方法。它的主要思想是在不同的数据子集和特征子集上运行特征选择算法，不断的重复，最终汇总特征选择结果，比如可以统计某个特征被认为是重要特征的频率（被选为重要特征的次数除以它所在的子集被测试的次数）。理想情况下，重要特征的得分会接近100%。稍微弱一点的特征得分会是非0的数，而最无用的特征得分将会接近于0。

3.4.2 递归特征消除 Recursive feature elimination (RFE)

递归特征消除的主要思想是反复的构建模型（如SVM或者回归模型）然后选出最好的（或者最差的）的特征（可以根据系数来选），把选出来的特征放到一边，然后在剩余的特征上重复这个过程，直到所有特征都遍历了。这个过程中特征被消除的次序就是特征的排序。因此，这是一种寻找最优特征子集的贪心算法。

RFE的稳定性很大程度上取决于在迭代的时候底层用哪种模型。例如，假如RFE采用的普通的回归，没有经过正则化的回归是不稳定的，那么RFE就是不稳定的；假如采用的是Ridge，而用Ridge正则化的回归是稳定的，那么RFE就是稳定的。

3.5 启发式搜索

序列前向选择（SFS，Sequential Forward Seelction）：特征子集 $X$ 从空集开始，每次选择一个特征 $\pmb{x}$ 加入特征子集 $\pmb{X}$ ，使得特征函数 $J(\pmb{X})$ 最优。简单说就是，每次都选择一个使得评价函数的取值达到最优的特征加入，其实就是一种简单的贪心算法。缺点就是只能加入特征而不能去除特征。例如：特征A完全依赖于特征B与C，可以认为如果加入了特征B与C则A就是多余的。假设序列前向选择算法首先将A加入特征集，然后又将B与C加入，那么特征子集中就包含了多余的特征A。

序列后向选择（SBS，Sequential Backward Selection）：从特征全集O开始，每次从特征集O中剔除一个特征 $\pmb{x}$ ，使得剔除特征 $\pmb{x}$ 后评价函数值达到最优。和SFS相反，从特征全集开始，每次选择使评价函数 $J(\pmb{X})$ 最优的特征 $\pmb{x}$ 剔除，也是贪心算法，缺点是只减不增。

双向搜索（BDS,Bidirectional Search）：使用SFS从空集开始，同时使用SBS从全集开始搜索，当两者搜索到一个相同的特征子集C时停止搜索。双向搜索的出发点是。如下图所示，O点代表搜索起点，A点代表搜索目标。灰色的圆代表单向搜索可能的搜索范围，绿色的2个圆表示某次双向搜索的搜索范围，容易证明绿色的面积必定比灰色的要小。

增L去R选择算法（LRS，Plus-L Minus-R Selection）：该算法有两种形式，此算法结合了SBS和SFS思想，L和R的选择是关键。

算法从空集开始，每轮先加入L个特征，然后从中去除R个特征，使得评价函数值最优。（L>R）

算法从全集开始，每轮先去除R个特征，然后加入L个特征，使得评价函数最优。（L

浮动序列选择（Sequential Floating Selection）：序列浮动选择由LRS发展而来，该算法与LRS算法不同之处在：序列浮动选择的L与R不是固定的，而是“浮动”的，也就是会变化的。此算法结合了SBS, SFS, LRS的特点，并弥补了它们的缺点。根据搜索方向的不同，有以下两种变种：

序列浮动前向选择（SFFS, Sequential Floating Forward Selection）：从空集开始，每轮在未选择的特征中选择一个子集x，使加入子集x后评价函数达到最优，然后在已选择的特征中选择子集z，使剔除子集z后评价函数达到最优。

序列浮动后向选择（SBBS, Sequential Floating Backward Selection）：从全集开始，每轮在已选择的特征中剔除一个子集z，使剔除子集z后评价函数达到最优，然后在未选择的特征中选择子集x，使加入子集x后评价函数达到最优。

3.6 特征获取方法的选取原则

a、处理的数据类型
b、处理的问题规模
c、问题需要分类的数量
d、对噪声的容忍能力
e、无噪声环境下，产生稳定性好、最优特征子集的能力。

互信息 Mutual Informantion
$y_j$ 对 $x_i$ 的互信息定义为后验概率与先验概率比值的对数。互信息越大，表明 $y_j$ 对于确定 $x_i$ 的取值的贡献度越大。

实际上，互信息衡量的是 $x_i$ 与 $y$ 的独立性，如果他俩独立，则互信息发值为零，则 $x_i$ 与 $y$ 不相关，则可以剔除 $x_i$ ，反之，如果互信息发值越大则他们的相关性越大

基于期望交叉熵的特征项选择
$\sum_{i}p(c_i|w)log\frac{p(c_i|w)}{p(c_i)}$
$p(c_i|w)$ 表示在出现词条 $w$ 时文档属于类别 $c_i$ 的概率。

交叉熵反应了文本类别的概率分布与在出现了某个词条的情况下文本类别的概率分布之间的距离。词条的交叉熵越大，对文本类别分布影响也就越大。

如果使用具有对称性的交叉熵，那公式就变成了
$CE(w)=\sum_i[p(c_i|w)log\frac{p(c_i|w)}{p(c_i)}+p(c_i)log\frac{p(c_i)}{p(c_i|w)}]$

特征选择代码实现：特征选择-算法实现、特征选择与特征提取最全总结、https://github.com/jundongl/scikit-feature

参考

机器学习之特征选择和特征抽取：https://www.cnblogs.com/dyl222/p/11055756.html
特征选择与特征提取最全总结：https://cloud.tencent.com/developer/article/1882617
机器学习之数据清洗、特征提取与特征选择：https://zhuanlan.zhihu.com/p/34450286
特征提取与特征选择：http://lanbing510.info/2014/10/22/Feature-Extraction-Selection.html
特征选择算法：https://www.cnblogs.com/babyfei/p/9674128.html
关于特征选择算法与Relief的实现：https://www.cnblogs.com/ECJTUACM-873284962/p/7129206.html#_label8_1

你可能感兴趣的:(Machine,Learning,机器学习,特征选择,特征提取,数据预处理,特征工程)

机器学习校招面经二 Y1nhl 搜广推面经机器学习人工智能算法推荐算法数据挖掘搜索算法 pytorch
快手机器学习算法一、AUC（AreaUndertheROCCurve）怎么计算？AUC接近1可能的原因是什么？见【搜广推校招面经四】AUC是评估分类模型性能的重要指标，用于衡量模型在不同阈值下区分正负样本的能力。它是ROC曲线（ReceiverOperatingCharacteristicCurve）下的面积。1.1.ROC曲线的坐标ROC曲线以真正例率（TruePositiveRate,TPR）
linux 远程文件同步(shell) 黑暗的笑 shell expect 远程传文件 while
1.首先安装tcl和expect（先安装tcl,再安装expect,自行百度）,sshpass2.我想把本地文件同步到其他几台机器上,因此,需要知道机器的ip,username,password,我用一个文件来存放这些内容machine_info,内容如下:127.0.0.1usernamepassword192.168.12.12usenamepassword编写expectshell#!/us
华为面试题及答案——机器学习(二) 麦当当MDD 题目挖掘机器学习人工智能数据库开发数据库大数据
21.如何评价分类模型的优劣?（1）模型性能指标准确率（Accuracy）：定义：正确分类的样本数与总样本数之比。适用：当各类样本的数量相对均衡时。精确率（Precision）：定义：预测为正类的样本中实际为正类的比例。适用：当关注假阳性错误的成本较高时（例如垃圾邮件检测）。召回率（Recall）：定义：实际为正类的样本中被正确预测为正类的比例。适用：当关注假阴性错误的成本较高时（例如疾病检测）。
顺丰科技-2024 机器学习算法面经程序员奇奇 offer分享+面试经验顺丰科技机器学习机器学习算法面经
专栏分享：计算机小伙伴秋招春招找工作的面试经验和面试的详情知识点专栏首页：软件测试开发类面经合集主要分享：测试开发类岗位在面试互联网公司时候一些真实的经验面试code学习参考请看：数据结构面试必刷100题一面：1.自我介绍2.线程和进程的区别，什么时候用多进程，什么时候用多线程（这个属于给自挖坑了）3.实习项目问题，项目目标是怎么定的，用的什么算法
基于 Python + Django 的学生成绩综合评价分析预测可视化系统源码空间站11 python django 开发语言课程设计机器学习成绩预测毕业设计
开发报告：一、项目概述本项目是一个基于Python和Django框架开发的学生成绩综合评价分析与预测可视化系统。系统的主要功能包括：学生成绩数据的管理与展示、成绩预测模型的建立与应用、以及预测结果的可视化展示。该系统利用机器学习算法（如线性回归）进行成绩预测，并通过DjangoWeb框架实现数据的展示和用户交互。二、系统功能概述学生信息管理：系统管理学生的基本信息，包括年龄、性别、爱好等，基于Dj
机器学习之学习笔记孤城laugh 机器学习学习笔记人工智能 python
机器学习-学习笔记1.简介2.算法3.特征工程3.1数据集3.2特征提取3.3特征预处理3.4特征降维4.分类算法4.1`sklearn`转换器和估计器4.2K-近邻算法（KNN）4.3模型选择与调优4.4朴素贝叶斯算法4.5决策树4.6集成学习方法之随机森林5.回归算法5.1线性回归5.2过拟合与欠拟合5.3岭回归5.4逻辑回归（实际上是分类算法，用于解决二分类问题）6.聚类算法1.无监督学习2
深度学习day1 孤城laugh 深度学习人工智能笔记学习机器学习
深度学习day11.深度学习与机器学习的区别1.1特征提取方面1.2数据量与计算性能要求1.3算法代表2.深度学习框架之TensorFlow2.1TensorFlow基础2.2TensorFlow基础知识1.**张量（Tensor）**：多维数组、多维列表2.**变量（Variable）**：用于表示程序处理的共享持久状态3.**图与函数**4.**可视化学习（TensorBoard）**：用来展
深度学习现状与未来发展趋势分析报告（深度学习还是主流吗？）与光同尘大道至简深度学习人工智能
此博客分析深度学习当前的主流应用领域、其受关注度的变化趋势、可能的技术替代或补充方案、产业界和学术界的不同发展方向，以及影响其受关注度变化的核心因素。报告将包括结构化分析（背景、现状、挑战、未来趋势）、数据驱动（市场趋势、论文发表量等数据支持）以及行业案例分析，以展示某些行业如何逐步减少对深度学习的依赖。背景深度学习的概念与发展历程：深度学习（DeepLearning）是机器学习中的一类方法，源于
从专利数据中提取IPC代码，构建共现矩阵（IPC共同出现在同一专利为1，否则为0），利用GCN提取特征，并进行链路预测以评估IPC之间的相似度概率 pk_xz123456 算法深度学习矩阵线性代数
要完成这个任务，你可以按照以下步骤进行：数据预处理：从专利数据中提取IPC代码，并构建共现矩阵。图卷积网络（GCN）：使用GCN提取特征。链路预测：评估IPC之间的相似度概率。以下是一个Python示例代码，展示了如何完成上述任务：importnumpyasnpimportnetworkxasnximporttorchimporttorch.nnasnnimporttorch.nn.functio
K-means聚类：解锁数据隐藏结构的钥匙蓝天资源分享 kmeans 聚类机器学习
K-means聚类：解锁数据隐藏结构的钥匙在机器学习的广阔领域中，无监督学习以其独特的魅力吸引了众多研究者和实践者。其中，K-means聚类作为一种经典且实用的无监督学习算法，以其简单高效的特点，广泛应用于市场细分、图像分割和基因聚类等领域。本文将深入探讨K-means聚类的工作原理、应用实例及其在这些领域中的具体应用，旨在揭示其如何智能划分数据，解锁隐藏结构，为相关领域提供精准导航。一、K-me
创建ASCII数字打印机(OpenCV C++) 河边一只猫 opencv c++cv
学习OpenCV3（中文版）LearningOpenCV3ComputerVisioninC++withtheOpenCVLibrary第四章练习1建立一个500×500大小的单通道图像，每个像素值都为0。a.创建一个ASCII数字打印机，你可以在自己电脑上输入数字，并在一个20像素高、10像素宽的方块中显示数字。当你键入时，数字将从左到右显示，直到到达图像的末尾才停止。b.允许键入回车和退格。c
【AI深度学习基础】Pandas完全指南入门篇：数据处理的瑞士军刀（含完整代码） arbboter 人工智能人工智能深度学习 pandas 数据处理数据分析数据清洗数据分析效率提升
Pandas系列文章导航入门篇进阶篇终极篇一、引言在大数据与AI驱动的时代，数据预处理和分析是深度学习与机器学习的基石。Pandas作为Python生态中最强大的数据处理库，以其灵活的数据结构（如DataFrame和Series）和丰富的功能（数据清洗、转换、聚合等），成为数据科学家和工程师的核心工具。Pandas以Series（一维标签数组）和DataFrame（二维表格）为核心数据结构，提供高
对“预训练”的理解衣衣困深度学习神经网络自然语言处理
预训练有什么用传统的机器学习是偏数学的，对数据的量不做过多要求，而深度学习的项目通常是有大量的数据可供使用。在平常的任务或者项目中，我们可能并没有大量数据，只有少量数据，在这时我们就可以通过“借用”有大数据支持的模型的参数，作为基准，这样就能提高效率和准确率。因为他们神经网络的浅层是相似的，也就是说，在任务相似的情况下，可以用已有的模型即“预训练”好的模型参数实现小数据量的模型训练。预训练可以节省
Java 大视界 -- Java 大数据机器学习模型的可解释性增强技术与应用（107）青云交大数据新视界 Java 大视界大数据 java 可解释性 AI SHAP LIME 因果推理可视化交互
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
数据挖掘data mining Wlq0415 学习5 数据挖掘人工智能
数据挖掘是从大量数据集中提取有用信息和知识的过程。它通常涉及使用算法和技术来分析数据，以发现数据中的模式、趋势和关联。数据挖掘可以帮助企业和组织理解客户行为，预测市场趋势，优化运营流程等。数据挖掘的过程大致可以分为以下几个步骤：定义问题：明确数据挖掘的目的和需要解决的问题。数据收集：从各种数据源中收集相关的数据。数据预处理：清洗和整理数据，处理缺失值、异常值等问题。数据转换：将原始数据转换成适合挖
基于K8S设计实现机器学习管理调度平台 richenlin 机器学习
设计和实现一套基于Kubernetes(K8s)的机器学习管理调度平台，目标是利用K8s的容器化和调度能力，提供高效的资源管理、任务调度、可扩展性及灵活性，适应机器学习（ML）训练、推理等不同场景的需求。以下是平台设计的主要模块和实施步骤：1.系统架构概述该平台需要一个多层架构，其中K8s作为底层容器调度和资源管理平台，机器学习任务管理与调度层作为平台的核心模块。平台应具备高可用、弹性伸缩、任务监
【python数据挖掘之numpy】-数组及对象属性和数据转换 sc.溯琛 python 数据挖掘 numpy
Numpy是一个Python库，用于处理多维数组和矩阵，以及针对这些数组执行数学运算的函数。它提供了高效的数组对象和相关的操作，可以用于快速处理大量数据。Numpy的主要功能包括：创建数组、数组运算、数组索引和切片、线性代数、随机数生成等。Numpy在科学计算、数据分析、机器学习等领域都广泛应用。tips：（本博文在jupyter中实训）目录一、创建数组对象1.array（）函数来创建数组的对象2
神经网络:人工智能的核心技术 m0_75126181 人工智能神经网络深度学习
神经网络简介神经网络是一种模仿生物神经系统的计算模型,由大量相互连接的神经元组成。它通过学习大量的数据来完成复杂的模式识别和决策任务,是当前人工智能和机器学习领域最重要的技术之一。神经网络的基本结构包括输入层、隐藏层和输出层。输入层接收外部数据,隐藏层对数据进行处理和特征提取,输出层产生最终结果。神经元之间通过带权重的连接相互作用,通过调整这些权重来实现学习过程。神经网络的工作原理神经网络的工作原
【图像去噪】论文复现：真实噪声转高斯噪声，提升高斯噪声训练的模型性能！Learning to Translate Noise的Pytorch源码复现，跑通流程，框架结构和损失函数详解！十小大 pytorch 人工智能 python 图像去噪图像处理深度学习计算机视觉
请先看【专栏介绍文章】：【图像去噪（ImageDenoising）】关于【图像去噪】专栏的相关说明，包含适配人群、专栏简介、专栏亮点、阅读方法、定价理由、品质承诺、关于更新、去噪概述、文章目录、资料汇总、问题汇总（更新中）完整代码和训练好的模型权重文件下载链接见本文底部，订阅专栏免费获取！本文亮点：跑通LearningtoTranslateNoise源码，包含基于BasicSR的训练和测试代码，得
强化学习是否能够在完全不确定的环境中找到一个合理的策略，还是说它只能在已知规则下生效？ concisedistinct 人工智能人工智能强化学习
强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，广泛应用于机器人控制、自动驾驶、游戏策略和金融决策等领域。其核心理念是通过与环境的互动，不断学习如何选择最优行动以最大化累积奖励。尽管强化学习在许多已知和相对确定的环境中表现出色，但在面对完全不确定或动态变化的环境时，其表现和可靠性是否依然能保持一致是一个值得深入探讨的问题。我们生活的世界充满了不确定性，尤其是在
（一）spark是什么？一智哇大数据框架学习 spark big data 大数据
1.spark是什么？spark是一个用来实现快速，通用的集群计算平台spark适用于各种各样原先需要多种不同的分布式平台的场景，包括批处理，迭代算法，交互式查询，流处理。通过在一个统一的框架下支持这些不同的计算，spark使我们可以简单而低耗地把各种处理流程整合在一起。2.spark的用途（1）：数据科学任务具备SQL、统计、预测建模（机器学习）等方面的经验，以及一定的python，matlab
推荐收藏！数据分析必会的 10 个 python 库！ Python数据挖掘深度学习机器学习数据分析及可视化数据分析 python 数据挖掘算法
大家好，今天给大家分享除了基本的NumPy、Pandas和Matplotlib之外的10个流行的数据分析Python库。文末提供资料和技术交流Scikit-learnScikit-learn是一个功能强大的机器学习库，为监督和无监督学习、模型选择和预处理提供了广泛的算法。Scikit-learn简化了构建机器学习模型的过程，使其成为数据科学家和分析师的热门选择。可以通过pip命令来进行安装。pip
探秘Mixup：数据增强的新利器荣正青
探秘Mixup：数据增强的新利器mixupImplementationofthemixuptrainingmethod项目地址:https://gitcode.com/gh_mirrors/mi/mixup项目简介是一个由HongyiZhang开发的Python库，它实现了机器学习中的数据增强策略——Mixup方法。这个项目的目标是通过混合不同样本的数据点生成新的训练样本，从而帮助模型更好地学习数
AI创业机遇：垂直领域无限可能 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
AI创业垂直领域机器学习深度学习自然语言处理计算机视觉无人驾驶1.背景介绍人工智能（AI）正在各行各业掀起一场革命，为创业者带来了前所未有的机遇。垂直领域，即特定行业或细分市场，正在成为AI创业的热门选择。本文将深入探讨AI在垂直领域的应用，并提供实用的指南，帮助读者把握AI创业机遇。2.核心概念与联系2.1AI与垂直领域AI在垂直领域的应用，需要理解AI与垂直领域的关系。AI可以为垂直领域提供智
国内如何快速拿下微软AI-900!? 全球认证考试中心 microsoft 人工智能 ai
微软AI-900认证，全称AzureAIFundamentals是由微软官方最新研发的一项有关人工智能的认证证书。想要获得该证书，需通过AI-900测试或者AI-102。适用于全行业、全学龄人员，考试不设置专业和年龄限制，对人工智能感兴趣即可参加。获得证书能够证明证书持有者在机器学习（ML）、人工智能（AI）基础概念、云技术基础及MicrosoftAzure服务等多方面的掌握程度。此考试的考生应熟
QKV 注意力机制在Transformer架构中的作用，和卷积在卷积神经网络中的地位，有哪些相似之处？安意诚Matrix 机器学习笔记 transformer cnn 深度学习
QKV注意力机制在Transformer架构中的作用，和卷积在卷积神经网络中的地位，有哪些相似之处？QKV（Query-Key-Value）注意力机制在Transformer架构和卷积在卷积神经网络（CNN）中都起着核心作用，它们有以下一些相似之处：特征提取QKV注意力机制：在Transformer中，QKV注意力机制通过Query与Key的计算来确定对不同位置Value的关注程度，从而自适应地提
PyTorch 中结合迁移学习和强化学习的完整实现方案小赖同学啊人工智能 pytorch 迁移学习人工智能
结合迁移学习（TransferLearning）和强化学习（ReinforcementLearning,RL）是解决复杂任务的有效方法。迁移学习可以利用预训练模型的知识加速训练，而强化学习则通过与环境的交互优化策略。以下是如何在PyTorch中结合迁移学习和强化学习的完整实现方案。1.场景描述假设我们有一个任务：训练一个机器人手臂抓取物体。我们可以利用迁移学习从一个预训练的视觉模型（如ResNet
一文讲清楚自我学习和深度学习平凡而伟大(心之所向) 人工智能人工智能深度学习机器学习
自我学习（Self-Learning）和深度学习（DeepLearning）是两个不同的概念，但它们在某些应用场景中可以有交集。下面我们将分别介绍这两个概念，并探讨如何将它们结合起来用于自我学习系统。自我学习（Self-Learning）自我学习是指个体或系统通过自主探索、实践和反思来获取知识和技能的过程。它强调的是无需外部直接指导的学习方式，通常包括以下几个方面：自主性：学习者根据自己的兴趣、需
【量子退火（Quantum Annealing, QA）在Machine Learning Classification中的应用】搞技术的妹子机器学习量子计算人工智能
随着量子计算技术的发展，**量子退火（QuantumAnnealing,QA）成为了优化问题中一种潜力巨大的方法。它不仅可以用于求解传统优化问题，还被逐渐应用于机器学习领域，特别是机器学习分类（MachineLearningClassification）**任务中。在这篇博客中，我们将探讨量子退火在机器学习分类中的应用，并通过一个实际的案例来展示如何使用量子退火优化分类模型。什么是量子退火（Qua
二维随机变量 Shockang 机器学习数学通关指南机器学习人工智能数学概率论
前言本文隶属于专栏《机器学习数学通关指南》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见《机器学习数学通关指南》正文1.二维随机变量基础1.1基本定义二维随机变量(X,Y)(X,Y)(X,Y)是由两个定义在同一概率空间上的随机变量XXX和YYY组成的向量样本空间：每个试验结果e∈Se\inSe∈S对应到平面上的一个点(X(e),Y(e))(
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地