zpainter

[PED07]Feature Selection for Clustering:A Review聚类特征选择综述

文章目录

0.1 introduction介绍

0.1.1 Data Clustering 聚类
0.1.2 Feature Selection Models 特征选择
0.1.3 Feature Selection for Clustering 聚类的特征选择

0.1.3.1 Filter Model
0.1.3.2 Wrapper Mode
0.1.3.3 Hybrid Model

0.2 Feature Selection for Clustering 聚类的特征选择

0.2.1 Algorithms for Generic Data 通用数据算法

0.2.1.1 Spectral Feature Selection (SPEC)谱特征选择
0.2.1.2 Laplacian Score (LS)拉普拉斯分数
0.2.1.3 Feature Selection for Sparse Clustering稀疏聚类特征选择
0.2.1.4 Localized Feature Selection Based on Scatter Separability(LFSBSS) 基于离散分离性的局部特征选择
0.2.1.5 Multi-Cluster Feature Selection (MCFS)
0.2.1.6 Feature Weighting k-means

0.2.2 Algorithms for Text Data

0.2.2.1 Term Frequency (TF)
0.2.2.2 Inverse Document Frequency (IDF)
0.2.2.3 Term Frequency-Inverse Document Frequency (TF-IDF)
0.2.2.4 Chi Square statistic
0.2.2.5 Frequent Term-Based Text Clustering
0.2.2.6 Frequent Term Sequence

0.2.3 Algorithms for Streaming Data

0.2.3.1 Text Stream Clustering Based on Adaptive Feature Selection (TSC-AFS)
0.2.3.2 High-dimensional Projected Stream Clustering (HPStream)

0.2.4 Algorithms for Linked Data

0.2.4.1 Challenges and Opportunities
0.2.4.2 LUFS: An Unsupervised Feature Selection Framework for Linked Data
0.2.4.3 Conclusion and Future Work for Linked Data

0.3 Discussions and Challenges

0.3.1 The Chicken or the Egg Dilemma
0.3.2 Model Selection: K and l
0.3.4 Stability

Bibliography

0.1 introduction介绍

高通量技术导致数据维度以及样本数量呈指数增长，使得对数据集进行手动处理显得不太实际。但是由于收集数据的技术不完善或者数据本身来源的性质，导致数据噪声。因此如何从庞大而嘈杂的数据集中提取有用的知识是一项艰巨的任务。
降维是一种可以消除噪声和冗余属性（特征）的技术。降维技术可以分为特征提取（feature extraction）和特征选择（feature selection）。
- 特征提取：特征被投影到一个新的低维空间。
  常见的特征提取技术有：PCA、LDA、SVD。（Principle Component Analysis ，Linear Discriminant Analysis ，Singular Value Decomposition）
- 特征选择：从特征中选出一个子集来最小化冗余和最大化与目标的相关性。
  常用的特征选择方法有：Information Gain信息增益，Relief，Chi Squares，Fisher Score，Lasso。
特征提取和特征选择方法都能提高学习性能，降低计算开销并获得更加泛化的模型。但是特征选择优于特征提取，因为特征选择有更好的可读性和可解释性，因为它仍然保持原来的特征，只是去掉了一些认为冗余的。而特征提取将特征从原始空间映射到新的低维空间，得到的转换的特征没有物理含义。
特征选择被分为四种类型：
- filter model
- wrapper model
- embedded model
- hybrid model
特征选择选择能够区分不同类样本的特征。监督学习中，将带标签的样本作为训练集以选择特征，如果 $f_i$ 和 $c_j$ 高度相关，则称特征 $f_i$ 与类 $c_j$ 相关。无监督学习中相关性就比较难定义，但是特征选择可以类似于改进监督学习的方式改进无监督学习。最常用的无监督学习的方法是聚类，通过最大化类内相似性，最小化类间相似性得到不同的簇。利用特征选择使用好的特征子集可以帮助聚类产生好的结果并且可以大幅降低计算开销。

0.1.1 Data Clustering 聚类

数据量太大，人工做标签非常困难。通常用聚类的方式进行数据标记。在聚类中，给出未标记的数据，将类似的样本放在一个簇中，不同的样本应该在不同的簇中。
聚类在很多机器学习和数据挖掘任务中很有用，如：图像分割，信息检索，模式识别，模式分类，网络分析等。它可以被视为探索性任务或预处理步骤。如果目标是探索和揭示数据中隐藏的模式，那么聚类本身就是一个独立的探索任务。但是，如果生成的聚类结果将用于促进另一个数据挖掘或机器学习任务，则在这种情况下，集群将是预处理步骤。
有许多聚类方法。这些方法可以大致分为：
- 分区方法
  - 使用基于距离的度量来基于它们的相似性对点进行聚类。 K-means和k-medoids是流行的分区算法。
- 分层方法
  - 分层方法将数据划分为不同级别，形成层次结构。这种聚类有助于数据可视化和摘要。分层聚类可以以自下而上（agglomerative汇聚）方式或自上而下（divisive分裂）方式进行。这种类型的聚类的例子是BIRCH，Chameleon，AGNES，DIANA。
- 基于密度的方法
  - 与这两种聚类技术不同，基于密度的聚类可以捕获任意形状的聚类，例如S形。密集区域中的数据点将形成簇，而来自不同簇的数据点将由低密度区域分开。 DBSCAN和OPTICS是基于密度的聚类方法的流行示例。

0.1.2 Feature Selection Models 特征选择

高维数据的维度之咒，使得降维非常重要。特征选择是降维的一种重要手段。
特征选择是根据某些相关性评估标准，从原始特征中选择一小部分相关特征，这通常会带来更好的学习性能，例如：更高的学习准确性，更低的计算成本和更好的模型可解释性。特征选择已成功应用于许多实际应用，如模式识别，文本分类，图像处理，生物信息学等。
特征选择的分类
- 1、根据是否使用标签，可以分为无监督、半监督、有监督算法。
- 2、根据不同的选择策略，特征选择算法可以分为：
  - Filter模型
    - 独立于任何分类器，通过使用某些统计标准研究特征的相关性来评估特征的相关性。
    - Relief [59]，Fisher score[16]，CFS [24]和FCBF [76]是Filter模型中最具代表性的算法。
  - Wrapper模型
    - 利用分类器作为选择标准，使用给定的分类器选择一组具有最大判别力的特征，例如：SVM，KNN等。
    - 例子有FSSEM[17]， $l_1$ SVM。Wrapper模型的其他示例可以是优先搜索策略和给定分类器的任何组合。
    - 由于Wrapper模型依赖于给定的分类器，因此评估过程中通常需要交叉验证。它们通常在计算上更昂贵并且依赖选择的分类器。因此实际应用中，Filter模型更受欢迎，特别是对大型数据集的问题。但经验证明，Wrapper模型在分类精度方面优于Filter模型。
  - Hybrid模型
    - 混合模型[13,40]被提出来弥补Filter和Wrapper模型之间的差距。首先，它结合了统计标准，如Filter模型那样，选出几个给定基数的候选特征子集。然后，从中选择具有最高分类精度的子集[40]。因此，混合模型通常可以实现与Wrapper相当的精确度和与Filter模型相当的效率。
    - 混合模型的代表性特征选择算法包括：BBHFS [13]，HGA [53]。
  - Embedded模型
    - Embedded模型在学习时间内执行特征选择。换句话说，它同时实现了模型训练和特征选择。
    - Embedded模型的例子包括：C4.5 [54]，BlogReg [21]和SBMLR [21]。
特征选择的输出：
- 1）子集选择
  - 返回选择的子集，通过特征的索引标识。
- 2）特征加权
  - 返回对应每个特征的权重。
  - 特征加权被认为是特征选择的推广。在特征选择中，为特征分配二进制权重，1表示选择特征，0表示不选择。而特征加权为特征分配一个值，通常在区间[0，1]或[-1，1]中。该值越大，该特征就越显著。在特征相关性得分不同的任务中，特征加权被发现优于特征选择，这在大多数现实问题中都是如此。如果设置阈值来根据权重选择特征，则特征加权也可以简化为特征选择。因此，本章中提到的大多数特征选择算法都可以使用特征加权方案来考虑。
- 3）子集选择和特征加权
  - 返回一个排好序的特征子集。
特征选择步骤：
- 1）子集生成
- 2）子集评估
- 3）停止标准
- 4）结果验证
- 首先基于给定的搜索策略来选择候选特征子集 ；这些子集在第二步骤中根据某个评估标准被评估；将从满足停止标准之后的所有候选中选择最佳子集；最后，使用领域知识或验证集来验证所选择的子集。

0.1.3 Feature Selection for Clustering 聚类的特征选择

从聚类的角度来看，删除不相关的特征不会对聚类准确性产生负面影响，且可以减少所需的存储和计算时间。
图2表示 $f_1$ 可以区分出两个簇，而 $f_2$ 和 $f_3$ 不能区分（(b)中 $f_2$ 方向上蓝色红色都从0到1都有分布，故 $f_2$ 无法区分；而 $f_1$ 方向上蓝色分布在2-3，红色分布在4-5，所以可以区分。），所以 $f_2$ 和 $f_3$ 不会向聚类添加任何重要信息，删除也不会影响聚类。
相关特征的不同子集可能导致不同的聚类
图3(a)显示了利用特征 $f_1$ 和 $f_2$ 形成的的四个簇，而图3(b)显示了仅使用 $f_1$ 形成了两个簇。类似地，( c )显示了仅使用 $f_2$ 形成了两个簇。因此，相关特征的不同子集可能导致不同的聚类，这极大地帮助发现数据中的不同隐藏模式。

受这些事实的启发，提出了很多不同的聚类技术，通过利用特征选择方法消除不相关和冗余的特征，同时保留相关特征，以提高聚类效率和质量。后面我们将描述基于域的不同的特征选择聚类（FSC）方法。介绍：传统FSC，文本数据中的FSC，流数据中的FSC和FSC链接数据。

与监督学习的特征选择类似，用于聚类的特征选择也被分类为Filter[15]、Wrapper[55]、Hybrid[19]。

Wrapper模型通过聚类质量评估候选特征子集。
Filter模型独立于聚类算法。Filter模型在计算时间方面更好，并且对任何聚类方法都是无偏的。但是如果我们事先知道聚类方法，Wrapper模型产生更好的聚类。
为减轻Wrapper模型的计算成本，利用过滤标准来选择Hybrid中的候选特征子集。

0.1.3.1 Filter Model

不是使用聚类算法测试特征的质量，通过一个确定的标准来给特征的打分，然后选择最高评分的特征。

Dash等人在总结Ben-Bassat等人、Doak等人的工作后将评价准则分为五类：
距离度量（Distance Measure）、
信息增益度量（Information Gain Measure）、
依赖性度量（Dependence Measure）、
一致性度量（Consistency Measure）、
分类器错误率度量（Classifier Error Rate Measure）。

（1）距离度量：距离度量一般认为是差异性或者分离性的度量，常用的距离度量方法有欧式距离等。对于一个二元分类问题，对于两个特征f1f1和f2f2，如果特征f1f1引起的两类条件概率差异大于特征f2f2，则认为特征f1f1优于特征f2f2。
（2）信息增益度量：特征f的信息增益定义为使用特征f的先验不确定性与期望的后验不确性之间的差异。若特征f1f1的信息增益大于特征f2f2的信息增益，则认为特征f1f1优于特征f2f2。
（3）依赖性度量：依赖性度量又称为相关性度量（Correlation Measure）、通常可采用皮尔逊相关系数（Pearson correlation coefficient）来计算特征f与类别C之间的相关度，若特征f1f1与类别C之间的相关性大于特征f2f2与类别C之间的相关性，则认为特征f1f1优于特征f2f2。同样也可以计算得到属性与属性之间的相关度，属性与属性之间的相关性越低越好。
（4）一致性度量：假定两个样本，若它们的特征值相同，且所属类别也相同，则认为它们是一致的：否则，则称它们不一致。一致性常用不一致率来衡量，其尝试找出与原始特征集具有一样辨别能力的最小的属性子集。
（5）分类器错误率度量：该度量使用学习器的性能作为最终的评价阈值。它倾向于选择那些在分类器上表现较好的子集。

-以上5种度量方法中，距离度量（Distance Measure）、信息增益度量（Information Gain Measure）、依赖性度量（Dependence Measure）、一致性度量（Consistency Measure）常用于过滤式（filter）；
-分类器错误率度量(Classifier Error Rate Measure)则用于包裹式(wrapper）。
https://blog.csdn.net/u012328159/article/details/53954522
特征评估可以是单变量(univariate)或多变量(multivariate)。
- 单变量意味着每个特征的评估与特征空间无关。比多变量更快、更有效。
- 多变量可以根据其他特征评估特征。与单变量方法不同，多变量能够处理冗余特征。
算法：SPEC（0.2.1.1），是单变量Filter模型的一个例子，在[78]中扩展到多变量方法。feature dependency [62]（特征依赖）, entropy-based distance [15]（基于熵的距离）, and laplacian score [26, 80]（拉普拉斯分数）。

0.1.3.2 Wrapper Mode

Wrapper模型是利用聚类算法进行评估的特征选择模型。
- 首先找一个特征子集。
- 然后使用这个特征子集进行聚类，评估聚类效果。
- 重复上述两个过程直到得到期望的效果出现。
问题：评估所有的可能的特征子集对于高维数据集是不可能的，所以常常采用启发式搜索策略来缩小搜索空间。即便如此 Wrapper模型比Filter模型计算复杂性上还是要昂贵的多。
算法：[18]中提出的方法是一个包含最大似然准则、特征选择和高斯混合作为聚类方法的包装器的例子。[32]中是使用传统的聚类方法，如k-means和任何搜索策略作为特征选择器。

0.1.3.3 Hybrid Model

结合Filter和Wrapper模型：
- 利用Filter的标准选择出不同的候选特征子集
- 评估候选特征子集的聚类结果的质量
- 聚类结果最好的那个子集就是我们要的特征选择的集合
比Filter的聚类效果好，比Wrapper的效率高。

0.2 Feature Selection for Clustering 聚类的特征选择

一些算法处理文本数据，一些算法处理流数据。还有一些算法能够处理不同类型的数据。在本节中，我们将讨论一下算法以及它们可以处理的数据类型。

0.2.1 Algorithms for Generic Data 通用数据算法

能够处理通用数据集的聚类特征选择

0.2.1.1 Spectral Feature Selection (SPEC)谱特征选择

SPEC[80]既可以监督也可以无监督学习，这里作为Filter模型无监督特征选择方法。

[80]提出了一种基于"谱图理论"（spectral graph）的特征选取框架，像Laplacian score 和 ReliefF 都属于这个框架的一个特殊情况而已。而这个框架的假设，依然是本着原数据最重要的原则，假设一个好的特征应该与原来（训练）数据构成的图有着相似的结构。当然一个特征毕竟是有限的（比如用性别来区分人有没有钱），可是这个特征与训练数据的相关性越大，我们就觉得这个特征越好，越可取。
通过评估 从相似矩阵S导出的谱矩阵的特征一致性 来评估特征相关性。
使用径向基函数（Radial Basis Function）作为样本 $x_i$ 和 $x_j$ 之间的相似度函数。径向基函数是某种沿径向对称的标量函数，通常定义为样本到数据中心之间径向距离（通常是欧氏距离）的单调函数。常用的高斯径向基函数形如：
算法：
- 1.构建数据的相似性矩阵S，以及由此基础推出的图的表示G，和D，W，L。
  - $\overline{D}_{ii}=\sum_{j=1}^nW_{ij}$ ， $\overline{D}$ 是对角矩阵。
  - G由S构造，邻接矩阵W由G构造。
- 2.使用三个权重函数评估特征的权重。函数来源于正则化割函数和图谱，并可以扩展到更加一般的形式。我们假设给定特征向量 $f_i$ ，每个函数 $\psi$ 基于归一化拉普拉斯算子 $L$ 返回权重。

0.2.1.2 Laplacian Score (LS)拉普拉斯分数

如果将SPEC 中替换为:

则LS拉普拉斯分数是SPEC的一个特殊的案例。

LS在数据大小方面非常有效。与SPEC相似，LS中最耗时的是构造相似矩阵s。该算法的优点是既能处理带标记的数据，又能处理无标记的数据。

0.2.1.3 Feature Selection for Sparse Clustering稀疏聚类特征选择

[71]用Lasso和 $L_1$ 范数作为特征选择方法嵌入在聚类过程中。特征选择的数量L使用gap statistics选择，类似于[67]中的选择聚类数量。

目标函数：

$n_c$ 是某一类中样本数。
$S i m (i, i^{'}, j)$ 是只使用特征 $j$ 时样本 $i$ 和样本 $i^{'}$ 的相似度。
优化：
采用交替优化方法，首先固定 $w$ ，优化关于 ${C_1,…,C_K\}$ 的(0.4)式，在这一步，仅使用第 $j$ 个特征对 $n\times n$ 的相似度矩阵上用标准K-means聚类。得到一个聚类之后再优化关于 $w$ 的(0.4)式。
算法：

0.2.1.4 Localized Feature Selection Based on Scatter Separability(LFSBSS) 基于离散分离性的局部特征选择

[35]借鉴了Dy和Brodley[18]中离散分离性的概念，并将其作为局部特征选择。他们将分散可分性定义为:

其中 $S_w^{-1}$ 是类内分离性的逆， $S_b$ 是类间分离性。
只要聚类任务不变， $\Omega_i$ 随维数增加单调递增。为了解决这个问题，分离性标准必须根据特征选择的维数进行标准化。此外，由于局部的特征选择尝试为每个簇选择不同的相关特征集，因此簇之间的分离性也需要进行适当的规范化。这是通过对单个簇的交叉投影来实现的。
LFSBSS采用序列向后特性选择。这意味着，集群首先使用整个特征空间生成。然后，迭代地从每个集群中删除基于a的不相关或有噪声的特性。
算法：

0.2.1.5 Multi-Cluster Feature Selection (MCFS)

0.2.1.6 Feature Weighting k-means

0.2.2 Algorithms for Text Data

0.2.2.1 Term Frequency (TF)

0.2.2.2 Inverse Document Frequency (IDF)

0.2.2.3 Term Frequency-Inverse Document Frequency (TF-IDF)

0.2.2.4 Chi Square statistic

0.2.2.5 Frequent Term-Based Text Clustering

0.2.2.6 Frequent Term Sequence

0.2.3 Algorithms for Streaming Data

0.2.3.1 Text Stream Clustering Based on Adaptive Feature Selection (TSC-AFS)

0.2.3.2 High-dimensional Projected Stream Clustering (HPStream)

0.2.4 Algorithms for Linked Data

0.2.4.1 Challenges and Opportunities

0.2.4.2 LUFS: An Unsupervised Feature Selection Framework for Linked Data

0.2.4.3 Conclusion and Future Work for Linked Data

0.3 Discussions and Challenges

0.3.1 The Chicken or the Egg Dilemma

0.3.2 Model Selection: K and l

0.3.4 Stability

Bibliography

[1] Feature selection for dna methylation based cancer classi_cation. Bioinformatics, 17Suppl 1:S157-S164, 2001.
[2] A review of feature selection techniques in bioinformatics. Bioinformatics, 23(19):2507-2517, Oct 2007.
[3] C.C. Aggarwal, J. Han, J. Wang, and P.S. Yu. A framework for clustering evolving data streams. In Proceedings of the 29th international conference on Very large data bases-Volume 29, pages 81-92. VLDB Endowment, 2003.
[4] C.C. Aggarwal, J. Han, J. Wang, and P.S. Yu. A framework for projected clustering of high dimensional data streams. In Proceedings of the Thirtieth international conference on Very large data bases-Volume 30, pages 852-863. VLDB Endowment, 2004.
[5] C.C. Aggarwal, J.L. Wolf, P.S. Yu, C. Procopiuc, and J.S. Park. Fast algorithms for projected clustering. ACM SIGMOD Record, 28(2):61-72, 1999.
[6] T.M. Akhriza, Y. Ma, and J. Li. Text clustering using frequent contextual termset. In Information Management, Innovation Management and Industrial Engineering(ICIII), 2011 International Conference on, volume 1, pages 339-342. IEEE, 2011.
[7] Salem Alelyani, LeiWang, and Huan Liu. The e_ect of the characteristics of the dataset on the selection stability. In Proceedings of the 23rd IEEE International Conference on Tools with Arti_cial Intelligence, 2011.
[8] F. Beil, M. Ester, and X. Xu. Frequent term-based text clustering. In Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, pages 436-442. ACM, 2002.
[9] C. Boutsidis, M.W. Mahoney, and P. Drineas. Unsupervised feature selection for the k-means clustering problem. Advances in Neural Information Processing Systems, 22:153-161, 2009.
[10] P.S. Bradley and O. L. Mangasarian. Feature selection via concave minimization and support vector machines. pages 82-90. Morgan Kaufmann, 1998.
[11] D. Cai, C. Zhang, and X. He. Unsupervised feature selection for multi-cluster data. In Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 333-342. ACM, 2010.
[12] A.C. Carvalho, R.F. Mello, S. Alelyani, H. Liu, et al. Quantifying features using false nearest neighbors: An unsupervised approach. In Tools with Arti_cial Intelligence(ICTAI), 2011 23rd IEEE International Conference on, pages 994-997. IEEE, 2011.
[13] Sanmay Das. Filters, wrappers and a boosting-based hybrid for feature selection. In ICML ‘01: Proceedings of the Eighteenth International Conference on Machine Learning, pages 74-81, San Francisco, CA, USA, 2001. Morgan Kaufmann Publishers Inc.29 30
[14] M. Dash and Y.S. Ong. Relief-c: E_cient feature selection for clustering over noisy data. In Tools with Arti_cial Intelligence (ICTAI), 2011 23rd IEEE International Conference on, pages 869-872. IEEE, 2011.
[15] Manoranjan Dash, Kiseok Choi, Peter Scheuermann, and Huan Liu. Feature selection for clustering - a filter solution. In In Proceedings of the Second International Conference on Data Mining, pages 115-122, 2002.
[16] R.O. Duda, P.E. Hart, and D.G. Stork. Pattern Classi_cation. John Wiley & Sons, New York, 2 edition, 2001.
[17] Jennifer G. Dy and Carla E. Brodley. Feature subset selection and order identi_cation for unsupervised learning. In In Proc. 17th International Conf. on Machine Learning, pages 247-254. Morgan Kaufmann, 2000.
[18] Jennifer G. Dy and Carla E. Brodley. Feature selection for unsupervised learning. J. Mach. Learn. Res., 5:845-889, 2004.
[19] J.G. Dy. Unsupervised feature selection. Computational Methods of Feature Selection, pages 19-39, 2008.
[20] B.C.M. Fung, K. Wang, and M. Ester. Hierarchical document clustering using frequent itemsets. In Proceedings of the SIAM International Conference on Data Mining, volume 30, pages 59-70, 2003.
[21] Nicola L. C. Talbot Gavin C. Cawley and Mark Girolami. Sparse multinomial logistic regression via bayesian l1 regularisation. In NIPS, 2006.
[22] L. Gong, J. Zeng, and S. Zhang. Text stream clustering algorithm based on adaptive feature selection. Expert Systems with Applications, 38(3):1393-1399, 2011.
[23] I. Guyon and A. Elissee. An introduction to variable and feature selection. Journal of Machine Learning Research, 3:1157-1182, 2003.
[24] Mark A. Hall. Correlation-based feature selection for machine learning. Technical report, 1999.
[25] T. Hastie, R. Tibshirani, and J. Friedman. The Elements of Statistical Learning. Springer, 2001.
[26] X. He, D. Cai, and P. Niyogi. Laplacian score for feature selection. Advances in Neural Information Processing Systems, 18:507, 2006.
[27] J.Z. Huang, M.K. Ng, H. Rong, and Z. Li. Automated variable weighting in k-means type clustering. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 27(5):657-668, 2005.
[28] Anil Jain and Douglas Zongker. Feature selection: Evaluation, application, and small sample performance. IEEE Transactions on Pattern Analysis and Machine Intelligence, 19:153-158, 1997.
[29] D. Jensen and J. Neville. Linkage and autocorrelation cause feature selection bias in relational learning. In ICML, pages 259-266, 2002.
[30] L. Jing, M.K. Ng, and J.Z. Huang. An entropy weighting k-means algorithm for subspace clustering of high-dimensional sparse data. Knowledge and Data Engineering, IEEE Transactions on, 19(8):1026-1041, 2007.31
[31] Thorsten Joachims, Fachbereich Informatik, Fachbereich Informatik, Fachbereich Informatik, Fachbereich Informatik, and Lehrstuhl Viii. Text categorization with support vector machines: Learning with many relevant features, 1997.
[32] Y.S. Kim, W.N. Street, and F. Menczer. Evolutionary model selection in unsupervised learning. Intelligent Data Analysis, 6(6):531-556, 2002.
[33] Ron Kohavi and George H. John. Wrappers for feature subset selection, 1996.
[34] Y. Li, S.M. Chung, and J.D. Holt. Text document clustering based on frequent word meaning sequences. Data & Knowledge Engineering, 64(1):381-404, 2008.
[35] Y. Li, M. Dong, and J. Hua. Localized feature selection for clustering. Pattern Recognition Letters, 29(1):10-18, 2008.
[36] Y. Li, C. Luo, and S.M. Chung. Text clustering with feature selection by using statistical data. Knowledge and Data Engineering, IEEE Transactions on, 20(5):641-652,2008.
[37] H. Liu and H. Motoda. Feature Selection for Knowledge Discovery and Data Mining. Boston: Kluwer Academic Publishers, 1998.
[38] H. Liu and H. Motoda, editors. Computational Methods of Feature Selection. Chapman and Hall/CRC Press, 2007.
[39] Huan Liu and Rudy Setiono. A probabilistic approach to feature selection - a filter solution. pages 319-327. Morgan Kaufmann.
[40] Huan Liu and Lei Yu. Toward integrating feature selection algorithms for classi_cation and clustering. Knowledge and Data Engineering, IEEE Transactions on, 17(4):491 -502, April 2005.
[41] B. Long, Z.M. Zhang, X. Wu, and P.S. Yu. Spectral clustering for multi-type relational data. In Proceedings of the 23rd international conference on Machine learning, pages 585-592. ACM, 2006.
[42] B. Long, Z.M. Zhang, and P.S. Yu. A probabilistic framework for relational clustering. In Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 470-479. ACM, 2007.
[43] H.P. Luhn. A statistical approach to mechanized encoding and searching of literary information. IBM Journal of research and development, 1(4):309-317, 1957.
[44] Ulrike Luxburg. A tutorial on spectral clustering. Statistics and Computing, 17(4):395-416, 2007.
[45] S.A. Macskassy and F. Provost. Classi_cation in networked data: A toolkit and a univariate case study. The Journal of Machine Learning Research, 8:935-983, 2007.
[46] Pabitra Mitra, Student Member, C. A. Murthy, and Sankar K. Pal. Unsupervised feature selection using feature similarity. IEEE Transactions on Pattern Analysis and
Machine Intelligence, 24:301-312, 2002.
[47] D.S. Modha and W.S. Spangler. Feature weighting in k-means clustering. Machine learning, 52(3):217-237, 2003.32
[48] K. Morik, A. Kaspari, M. Wurst, and M. Skirzynski. Multi-objective frequent termset clustering. Knowledge and Information Systems, pages 1-24, 2012.
[49] MSK Mugunthadevi, M. Punitha, and M. Punithavalli. Survey on feature selection in document clustering. International Journal, 3, 2011.
[50] Mark E. J. Newman and Michelle Girvan. Finding and evaluating community structure in networks. Physical review E, 69(2):26113, 2004.
[51] Andrew Y. Ng. On feature selection: Learning with exponentially many irrelevant features as training examples. In Proceedings of the Fifteenth International Conference on Machine Learning, pages 404-412. Morgan Kaufmann, 1998.
[52] Kamal Nigam, Andrew Kachites Mccallum, Sebastian Thrun, and Tom Mitchell. Text classi_cation from labeled and unlabeled documents using em. In Machine Learning,pages 103-134, 1999.
[53] I.S. Oh, J.S. Lee, and B.R. Moon. Hybrid genetic algorithms for feature selection. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 26(11):1424-1437,2004.
[54] J. R. Quinlan. C4.5: Programs for Machine Learning. Morgan Kaufmann, 1993. [55] V. Roth and T. Lange. Feature selection in clustering problems. Advances in neural information processing systems, 16, 2003.
[56] Yong Rui and Thomas S. Huang. Image retrieval: Current techniques, promising directions and open issues. Journal of Visual Communication and Image Representation, 10:39-62, 1999.
[57] P. Sen, G. Namata, M. Bilgic, L. Getoor, B. Galligher, and T. Eliassi-Rad. Collective classi_cation in network data. AI magazine, 29(3):93, 2008.
[58] Wojciech Siedlecki and Jack Sklansky. On automatic feature selection. pages 63-87, 1993.
[59] M. R. Sikonja and I. Kononenko. Theoretical and empirical analysis of Relief and ReliefF. Machine Learning, 53:23-69, 2003.
[60] L. Song, A. Smola, A. Gretton, K. Borgwardt, and J. Bedo. Supervised feature selection via dependence estimation. In International Conference on Machine Learning, 2007.
[61] C. Su, Q. Chen, X. Wang, and X. Meng. Text clustering approach based on maximal frequent term sets. In Systems, Man and Cybernetics, 2009. SMC 2009. IEEE International Conference on, pages 1551-1556. IEEE, 2009.
[62] L. Talavera. Feature selection as a preprocessing step for hierarchical clustering. In MACHINE LEARNING-INTERNATIONAL WORKSHOP THEN CONFERENCE-, pages 389-397. MORGAN KAUFMANN PUBLISHERS, INC., 1999.
[63] Jiliang Tang and Huan Liu. Feature selection with linked data in social media. In SDM, 2012.
[64] Jiliang Tang and Huan Liu. Unsupervised feature selection for linked social media data. In KDD, 2012.33
[65] L. Tang and H. Liu. Relational learning via latent social dimensions. In Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 817-826. ACM, 2009.
[66] B. Taskar, P. Abbeel, M.F. Wong, and D. Koller. Label and link prediction in relational data. In Proceedings of the IJCAI Workshop on Learning Statistical Models from Relational Data. Citeseer, 2003.
[67] R. Tibshirani, G. Walther, and T. Hastie. Estimating the number of clusters in a data set via the gap statistic. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 63(2):411-423, 2001.
[68] C.Y. Tsai and C.C. Chiu. Developing a feature weight self-adjustment mechanism for a k-means clustering algorithm. Computational statistics & data analysis, 52(10):4658-4672, 2008.
[69] J. Weston, A. Elisse, B. Schoelkopf, and M. Tipping. Use of the zero norm with linear odels and kernel methods. Journal of Machine Learning Research, 3:1439-1461, 2003.
[70] Dietrich Wettschereck, David W. Aha, and Takao Mohri. A review and empirical valuation of feature weighting methods for a class of lazy learning algorithms. Arti_cial ntelligence Review, 11:273-314, 1997.
[71] D.M. Witten and R. Tibshirani. A framework for feature selection in clustering. Journal f the American Statistical Association, 105(490):713-726, 2010.
[72] I.H. Witten and E. Frank. Data Mining: Practical machine learning tools and techniques. Morgan Kaufmann Pub, 2005.
[73] Zenglin Xu, Rong Jin, Jieping Ye, Michael R. Lyu, and Irwin King. Discriminative semi-upervised feature selection via manifold regularization. In IJCAI’ 09: Proceedings of he 21th International Joint Conference on Arti_cial Intelligence, 2009.
[74] Yiming Yang and Jan O. Pedersen. A comparative study on feature selection in text ategorization. pages 412-420. Morgan Kaufmann Publishers, 1997.
[75] L. Yu and H. Liu. Feature selection for high-dimensional data: A fast correlation-based filter solution. In T. Fawcett and N. Mishra, editors, Proceedings of the 20th Inter-
national Conference on Machine Learning (ICML-03), pages 856-863, Washington,D.C., August 21-24, 2003 2003. Morgan Kaufmann.
[76] L. Yu and H. Liu. E_cient feature selection via analysis of relevance and redundancy.Journal of Machine Learning Research (JMLR), 5(Oct):1205-1224, 2004.
[77] W. Zhang, T. Yoshida, X. Tang, and Q. Wang. Text clustering using frequent itemsets. Knowledge-Based Systems, 23(5):379-388, 2010.
[78] Z. Zhao and H. Liu. Spectral Feature Selection for Data Mining. Chapman & Hall/Crc Data Mining and Knowledge Discovery. Taylor & Francis, 2011.
[79] Zheng Zhao and Huan Liu. Semi-supervised feature selection via spectral analysis. In Proceedings of SIAM International Conference on Data Mining (SDM), 2007.
[80] Zheng Zhao and Huan Liu. Spectral feature selection for supervised and unsupervised learning. In ICML '07: Proceedings of the 24th international conference on Machine

你可能感兴趣的:(paper)

python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
自动写论文的网站推荐这5款实用类工具小猪包333 写论文人工智能深度学习计算机视觉 AI写作
在当今学术研究和写作领域，AI论文写作工具的出现极大地提高了写作效率和质量。这些工具不仅能够帮助研究人员快速生成论文草稿，还能进行内容优化、查重和排版等操作。以下是五款实用类工具推荐，特别是千笔-AIPassPaper。1.千笔-AIPassPaper千笔-AIPassPaper是一款功能强大且全面的AI论文写作助手，用户只需输入基本的研究需求和关键词，便能迅速生成一篇完整的论文。该工具利用先进的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
4款毕业论文参考文献格式生成器（附加详细步骤）小猪包333 写论文人工智能深度学习计算机视觉 AI写作
在撰写毕业论文时，参考文献的格式规范是至关重要的。为了帮助学生和学者们更高效地生成符合要求的参考文献格式，本文将详细介绍四款推荐的参考文献格式生成器，并提供详细的使用步骤。1.千笔-AIPassPaper千笔-AIPassPaper是一款先进的AI辅助论文写作工具，不仅能够自动生成大纲、开题报告，还能一键生成参考文献。AI论文，免费大纲，10分钟3万字https://www.aipaperpass
AI论文写作推荐哪个好？分享5款AI论文写作带数据图表网站小猪包333 写论文人工智能深度学习计算机视觉
在当今学术研究和写作领域，AI论文写作工具的出现极大地提高了写作效率和质量。这些工具不仅能够帮助研究人员快速生成论文草稿，还能进行内容优化、查重和排版等操作。以下是五款推荐的AI论文写作工具，包括千笔-AIPassPaper。千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文写作助手，旨在帮助用户快速生成高质量的论文内容。AI论文，免费大纲，10分钟3万字https:
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
毕业论文附录一般都写什么?大学生写论文是干嘛用的写个原创论文人工智能深度学习 AI写作 chatgpt 论文阅读
毕业论文的附录通常包含一些在正文中不便于展示或详细阐述的内容，但对理解论文整体又具有重要意义的资料。具体来说，附录可能包含以下内容：AI论文，免费大纲，10分钟3万字，查重高于15%退费，支持数据图表！！AIPaperPass-AI论文写作指导平台AIPaperPass是AI原创论文写作平台，免费千字大纲，5分钟生成3万字初稿，提供答辩汇报ppt、开题报告、任务书等，40篇真实中英文知网参考文献，
端到端的自动驾驶论文与代码整理大别山伧父自动驾驶
LearningbyCheatinggithubcodearxivpaperconferenceonrobotlearning最新进展(May2021)Checkoutourlatestfollow-upwork:WorldonRails(2020)Checkoutoursubmissiontothe2020CARLAChallenge!pass
EP6 同一组件通过传递不同属性展示不同效果京城五 uniapp壁纸小程序项目实践前端学习脚步 css 前端 html
文件路径：E:/homework/uniappv3tswallpaper/pages/index/index.vue公告文字内容文字内容文字内容文字内容文字内容文字内容文字内容文字内容文字内容文字内容文字内容文字内容文字内容文字内容文字内容文字内容每日推荐专题精选More+.homeLayout{.banner{width:750rpx;padding:30rpx0;swiper{width:10
EP7 底部tab切换页面标签京城五 uniapp壁纸小程序项目实践前端知识杂合前端 uniapp 小程序
文件路径：E:/homework/uniappv3tswallpaper/pages/classify/classify.vue.classify{padding:30rpx;display:grid;grid-template-columns:repeat(3,1fr);gap:15rpx;}文件路径：E:/homework/uniappv3tswallpaper/pages/user/user
探索任务的隐秘世界：推荐Task2Vec 邓越浪Henry
探索任务的隐秘世界：推荐Task2Vecaws-cv-task2vecOfficialcodeforthepaper"Task2Vec:TaskEmbeddingforMeta-Learning"(https://arxiv.org/abs/1902.03545,ICCV2019)项目地址:https://gitcode.com/gh_mirrors/aw/aws-cv-task2vec在机器学习
Coding and Paper Letter（十四） G小调的Qing歌
资源整理。1Coding:1.R语言包ungeviz，ggplot2的拓展包，专门用来作不确定性的可视化。ungeviz2.计算机图形学相关开源项目。计算机图形学光线追踪开源项目C++源码。computergraphicsraytracing计算机图形学格网开源项目C++源码。computergraphicsmeshes计算机图形学介绍开源项目。computergraphics3.R语言包GLMM
05-树9 Huffman Codes（C） L_glonar c语言数据结构
日常，这一次，耗费我三天，其实第二天时便已经将对整个框架有清晰的了解了，（看了解析了），但是一步步排除，确实让我学到了很多。In1953,DavidA.Huffmanpublishedhispaper"AMethodfortheConstructionofMinimum-RedundancyCodes",andhenceprintedhisnameinthehistoryofcomputersci
线性代数|机器学习-P33卷积神经网络ImageNet和卷积规则取个名字真难呐算法机器学习矩阵人工智能线性代数
文章目录1.ImageNet2.卷积计算2.1两个多项式卷积2.2函数卷积2.3循环卷积3.周期循环矩阵和非周期循环矩阵4.循环卷积特征值4.1卷积计算的分解4.2运算量4.3二维卷积公式5.KroneckerProduct1.ImageNetImageNet的论文paper链接如下：详细请直接阅读相关论文即可通过网盘分享的文件：imagenet_cvpr09.pdf链接:https://pan.
IJCAI2024 无脑敲代码，bug漫天飞会议
CallforPapers–IJCAI2024重要日期(所有时间都是地球上的任何地方，UTC-12)摘要提交截止日期:2024年1月10日作者信息截止日期:2024年1月16日论文全文截止日期:2024年1月17日附录和重新提交信息截止日期:2024年1月24日简易拒绝通知:2024年2月22日作者回复时间:2024年3月18日至21日书面通知:2024年4月16日会议:2024年8月3日星期六至
2019-01-12 q若水
Youcan'trewriteyourpast,butyoucangrabacleansheetofpaperandwriteyourfuture.你不能重写过去，但是你可以用一张干净的纸去书写你的未来。
第66期 | GPTSecurity周报云起无垠 GPTSecurity AIGC gpt
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.利用高级大语言模型
Bilingual engineering 201707 No.360 Alyee AlyeeBonnie
GamesandDailylife:Makealittlemousewithher.Steps1.Useorangepapertomakeacone2.Maketworoundearsandalongtailwiththeorangepaper3.Cutasmallpieceofblackpapertomakethemouseswhiskers4.Pasteallthepartstogether5
IROS2023 马少爷学术人工智能自然语言处理
1、论文要求论文征集提交给IROS会议文件审查委员会作为同行评审的档案出版物，所有被接受的论文都将在IEEEXplore上托管。邀请潜在作者提交代表原创作品的高质量论文。欢迎就主题以及智能机器人和应用的所有领域提交意见。请通过传统的PaperPlaza流程提交论文。格式指南LaTex模板MSWord模板论文长度应为六页（美国字母大小），最多可多出两页（每多出一页收费205美元，应在验收后付款）。页
探索智能边缘计算：Game-Theoretic-Deep-Reinforcement-Learning 瞿旺晟
探索智能边缘计算：Game-Theoretic-Deep-Reinforcement-LearningGame-Theoretic-Deep-Reinforcement-LearningCodeofPaper"JointTaskOffloadingandResourceOptimizationinNOMA-basedVehicularEdgeComputing:AGame-TheoreticDRL
乡村振兴战略下传统村落文化旅游设计 Paperback – Aug. 1 2022 Chinese edition by XU SHAO HUI (Author) 光明理论旅游人工智能媒体生活科技产品运营内容运营
乡村振兴战略下传统村落文化旅游设计Paperback–Aug.12022ChineseeditionbyXUSHAOHUI(Author)Language:Chinese.paperback.PubDate:2022-08-01.publisher:ChinaBuildingIndustryPress.description:Paperback.PubDate:2022-08-01Pages:20
第65期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能网络安全语言模型
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.基于第一性原理的大
特征点提取与匹配原文论文下载长沙有肥鱼视觉SLAM十四讲计算机视觉
ORB原文下载链接：(PDF)ORB:anefficientalternativetoSIFTorSURFSIFT原文下载链接：https://www.cs.ubc.ca/~lowe/papers/ijcv04.pdfSURF原文下载链接:https://www.cs.jhu.edu/~misha/ReadingSeminar/Papers/Bay08.pdfORB和AKAZE对比论文下载链接：h
后端JOIN、LEFT JOIN、RIGHT JOIN的理解 I like Code? java 后端
SELECTf_exam_record.*,f_exam_paper.PaperName,f_exam_paper.PaperTime,exam_class.classnameFROMf_exam_recordJOINf_exam_paperONf_exam_record.PaperId=f_exam_paper.PaperIdLEFTJOINexam_classonf_exam_record.c
仿华为车机功能之--修改Launcher3,增加横向滑动桌面空白处切换壁纸的功能 Kwanvin Android Launcher3深度定制开发华为 java android
本功能基于Android13Launcher3需求：模仿华为问界车机，实现横向滑动桌面空白处，切换壁纸功能（本质只是切换背景，没有切换壁纸）。实现效果：实现思路：第一步首先得增加手势识别第二步切换底图，不切换壁纸是因为切换壁纸动作太大，需要调用到WallpaperManager,耗时且会触发应用activity重启原生系统有识别上滑与下滑的动作，那我们应该增加一个左滑和右滑的动作识别禁止上滑出所有
开源的即时聊天解决方案Papercups 辣码甄源精品开源应用分享开源 github 信息与通信
Papercups：让聊天支持变得简单、私密、实时。-精选真开源，释放新价值。概览Papercups是一款开源的实时客户支持工具，它使用Elixir语言构建，为注重客户数据隐私和安全性的公司提供了一个自托管的解决方案。这款工具的设计理念是简化客户与企业之间的沟通流程，通过一个直观的聊天小部件嵌入到企业的网站中，实现无缝的实时交流。Papercups的聊天小部件不仅易于集成，还提供了丰富的自定义选项
今日欧美圈：Sam Smith专辑改期，The Box狂揽B榜十周冠胡萝卜音乐
新一期Billboard单曲榜上，《TheBox》狂揽十周冠，DuaLipa热单《Don'tStartNow》升至亚军，LilUziVert有三首歌曲进入前十。SamSmith新专辑《ToDieFor》发行日期推迟到6月5日。新单要来啦！LaurenJauregui宣布新单《Lento》将在3月20日发行。HarryStyles登上BeautyPapers写真释出！在《冰雪奇缘2》中为Honeym
Vblog#1 English learning for science research 一粒咖啡
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档Englishlearningforscienceresearchintroduction一、GOALsin1month二、PlanseverydaySummeryintroductionIstartedtowritepaperinEnglishinordertoimproveabilityofEnglishandunderstand
AIGC：Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis 微风❤水墨 AIGC
代码：GitHub-Kwai-Kolors/Kolors:KolorsTeam论文：Kolors/imgs/Kolors_paper.pdfatmaster·Kwai-Kolors/Kolors·GitHub模型：huaggingface:https://huggingface.co/Kwai-Kolors/Kolors-diffusersmodelscope:https://modelscope
PaperWeekly sapienst Papers PaperwithCode General ML
1.Python软件包解决DL在未见过的数据分布下性能差的问题：（1）神经网络和损失分离的模块化设计（2）强大便捷的基准测试能力（3）易于使用但难以修改（4）github:https://github.com/marrlab/domainlabTrainer和Models之间是什么关系Trainer和Models是DomainLab中的两个核心概念。Trainer是一个用于指导数据流向模型并计算S
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio