processor wei's papers 阅读

Unsupervised Feature Selection with Joint Clustering Analysis

由于非监督特征选择可以在没有任何先验类信息的情况下降低数据维度,并且取的很好的表现,所以有很大的研究价值。
非监督特征选择的两大主题:

  • 保存可靠的局部信息
  • 实现良好的聚类归类

现存的方法无法同时很好地达到以上两个主题目标,为了解决这个问题,本文提出了融合聚类分析方法,该方法集成了稀疏特征选择鲁棒融合聚类分析

融合聚类分析:谱聚类算法和正交基聚类算法的融合。

Unsupervised learning of semantic representation for documents with the law of total probability

提取文档的语意信息的意义在于它是很多应用的基础,例如:文档总结、检索文档、文本分析等。

现存的方法(通过分析文档包含相关性来扩充用来表示文档的向量)远不理想的原因是文档的物理限制阻碍了之间的相关性评估——无法捕获深层的相关性。

为了解决以上问题,本文通过之间的公相关词来进一步推测它们之间的深层关联,为了避免高估深层关联本文基于全概率规则来退化深层关系推理——以边缘概率为指标。

Probabilistic Topic and Role Model for Information Diffusion in Social Network

信息扩散理论的广泛应用——病毒式营销、流感控制,使其激起了很大的研究热,其基本机理尚未发现。一个主要的挑战是如何以一种普适的方式捕获社交网络的全部关键因素——参与者的兴趣(topic)、参与者的属性(role)、参与者的传播行为,去为信息的扩散过程建模。

本文提出了一个模型——TRM(joint information diffusion model)解决上面的问题,该模型集成了社交网络中参与者兴趣提取、参与者属性识别,并且把信息扩散过程模型化到一个统一的业务框架中,然后将个体级影响的计算转化为一个role-topic对影响的计算,这可以提供一个粗粒度的扩散表示。

Feature Selection by Maximizing Independent Classification Information

人工特征选择有两个主流的评价指标:

  • 最小化特征冗余
  • 最大化所选特征给目标特征子集带来的新的分类信息
    现存的方法无法平衡以上两个指标的重要性,所以本文定义了一个新的分类信息概念——Independent Classification Information,可以将新加的信息和已保存的信息组合起来并通过信息冗余来进行负相关地修正。该策略有助于找到理想特征(提供大量的新信息、低冗余度)。

已经证明Independent Classification Information是用于分类的特征子集中分类信息的一个宽松的上限,优化它可以达到优化分类表现的目的。

Feature selection based on measurement of ability to classify subproblems

大数据处理过程中特征选择是尤其重要的,现存的方法通常是计算一个可以判别类变量的标量值来评价一个特征的分类能力,但是这个标量很难体现一个特征在多分类问题的不同分类子问题中的分类能力。

为了解决以上问题,本文基于评估特征在分类子问题中的分类能力特征区分度结构结构互补提出了一个新的特征选择方法,在特征选择的过程中,该方法首先选择可以尽可能多地解决分类子问题的特征,并且它们的区分度结构互补的特征将被有选择地选中。

本文算法的处理流程如下:
1)评估不相关特征
2)基于区分度结构互补遗弃冗余特征

你可能感兴趣的:(processor wei's papers 阅读)