july_2

LDA主题聚类学习小结

0人收藏此文章, 我要收藏发表于13天前(2013-10-01 21:40) , 已有 37次阅读，共 0个评论

目录：[ - ]

LDA模型算法简介： LDA模型构建原理： Unigram Model（词袋模型）： Bayes Unigram Model（贝叶斯词袋模型） PLSA潜在语义分析 LDA主题聚类模型 LDA 算法设计与Gibbs Sampling

最近学习了LDA Topic聚类算法，里面涉及到许多概率论的知识，需要回过头去学习，这里做个小结，方便记忆，同时也希望能把它讲明白。

LDA模型算法简介：

算法的输入是一个文档的集合D={d1, d2, d3, ... , dn}，同时还需要聚类的类别数量m；然后会算法会将每一篇文档 di 在所有Topic上的一个概率值p；这样每篇文档都会得到一个概率的集合di=（dp1，dp2，..., dpm）；同样的文档中的所有词也会求出它对应每个Topic的概率，wi = （wp1，wp2，wp3，...，wpm）；这样就得到了两个矩阵，一个文档到Topic，一个词到Topic。

这样LDA算法，就将文档和词，投射到了一组Topic上，试图通过Topic找出文档与词间，文档与文档间，词于词之间潜在的关系；由于LDA属于无监督算法，每个Topic并不会要求指定条件，但聚类后，通过统计出各个Topic上词的概率分布，那些在该Topic上概率高的词，能非常好的描述该Topic的意义。

LDA模型构建原理：

在讲LDA模型之前，会先介绍下 Unigram Model （词袋模型）、Bayes Unigram Model（贝叶斯词袋模型），以及PLSA 概率潜在语义分析，之所以先介绍这些模型，首先它们是LDA模型的基础，LDA是将它们组合和演变的结果；其次这些模型比简单，了解起来会容易些。

Unigram Model（词袋模型）：

LDA既然是聚类算法，而聚类算法大多数时候，都在寻找两个东西的相似度。

最开始，大家想要判断两篇文档是否相似，最简单直接的方法就是看文档里出现的词是否一样，其个数是否相近。于Unigram Model（词袋模型）就是实现这样的思路设计的。所以为了得到文档集合中，所有文档的共性的规律，词袋模型，假设：一篇文档生成的过程就是独立的抛一个具有M面的骰子（M是所有词的个数），N次（N是该文档里词的个数），这样文档的生成，刚好可以看作是个多项式分布：

文档集合中，每个词出现的概率就是要求的参数，通过EM算法可以确定下来，这样就得到了模型。

Bayes Unigram Model（贝叶斯词袋模型）

在词袋模型中，我们简单的认为文档里每个词出现的概率是个定数（即骰子的每个面的概率），但Bayes学派不这么认为，他们认为这些概率应该是一个随机过程产生的，于是生成一篇文档的过程可以描述为：先随机抽取一个M面的骰子，再用这个骰子独立抛N次。那么这个模型的分布如下：

其中后边部分，是多项式分布，我们已经知道，为了方便计算我们假设为Dirichlet分布，它是多项式分布的共轴分布

简单介绍下 Dirichlet 分布：比如抛了100词骰子，得到6个面的一个概率，记为一个实验，重复这个实验100次，那么这100次的实验中，这6个面的概率的概率分布，就是Dirichlet分布，它是分布之上的分布。

例如：1点（骰子六个面之一）在这100次实验（每个实验抛100次）是 0.15的概率为 0.12，实际我们这么想，100次实验中，有12次，1点在一个实验内出现了15次，可以看作是总共抛10000次，1点出现15×12=180次。这10000次实验，视为一个大的多项式分布，于是可以得出他们有相同的概率分布公式，这就是前面所提到的共轴分布，且有如下性质：

先验的Dirichlet分布+多项式分布 = 后验的Dirichlet分布

上述的例子中，你会发现，它与我们的Bayes Unigram Model（贝叶斯词袋模型）已经很相似了。一个实验里的100次抛骰子，可以看作是先验的Dirichlet分布，也就是模型中确定骰子各个面概率的那个随机过程，而重复这个这个实验100次，可以看作是后面的根据这个骰子确定文档的一个过程。

Dirichlet分布还有一个重要的性质，它的最大似然估计可以通过如下公式，证明过程有些复杂，暂不推导了：

PLSA潜在语义分析

在文本聚类的时候，常常会遇到这样一种问题：例如在NBA的相关新闻中提到“石佛”，和提到“邓肯”它们应该是指的同一个人，确实两个不同的词；而另一篇关于教育的新闻里也提到了“邓肯”，但此“邓肯”非彼“邓肯”，它可能指的是美国教育部部长“阿恩·邓肯”；而这两篇NBA新闻和一篇教育新闻，很可能就被错误的聚类了。

于是，可以发现词在不同的语义环境下，同一个词可能表达不同意思，而同一个意思可能产生不同的词。PLSA潜在语义分析，就是为了解决这样的问题。它在文档和词之间加了一层主题（Topic），先让文档和主题产生关联，再在主题中寻找词的概率分布。

PLSA模型将文档的生成这样设计：第一步，我们抛一个有H面的骰子，每个面代表一个主题，各个面概率不一，得到一个主题；第二步，这个主题又对应了一个有T个面的骰子，每个面代表一个词，抛这骰子N次，得到一篇文章。其实我觉得这个模型可以看作是两个词袋模型的组合，第一个做一次，确定主题，第二个重复独立做N词，确定文章。下面是一个直观图（借用LDA数学八卦的图了）：

这样概率分布公式如下：

LDA主题聚类模型

这时Bayes学派的朋友们又出现，历史是如此的相似，他们又对PLSA下手了，认为PLSA里面的两种骰子（产生主题的骰子和主题对应词的骰子），各个面的概率都不应该是确定，应该由一个随机过程来得出。于是让PLSA的两个词袋模型，变成两个Bayes词袋模型，就是LDA了

前面已经介绍了，Bayes词袋模型的概率分布是一个Dirichlet 同轴分布，LDA 的整个物理过程实际就是两个Dirichlet 同轴分布，而 LDA 模型的参数估计也就出来了，通过那个重要的性质，如下：

LDA 算法设计与Gibbs Sampling

算法步骤：

1. 对文档集合中的每篇文档d，做分词，并过滤掉无意义词，得到语料集合W = {w1, w2, …, wx}。
2. 对这些词做统计，得到 p（wi|d）。
3. 为语料集合W中的每个 wi ，随机指定一个主题 t，作为初始主题。
4. 通过 Gibbs Sampling 公式，重新采样每个 w 的所属主题t，并在语料中更新直到Gibbs Sampling 收敛。
收敛以后得到主题-词的概率矩阵，这个就是LDA矩阵，而文档-主题的的概率矩阵也是能得到的，统计后，就能能得到文档-主题的概率分布。

Gibbs Sampling 公式：
Gibbs Sampling 公式，可以用于计算某x维度的空间中，两个平行点之间转移的概率。比如在二维空间（x, y平面），点a（x1，y1）转移到 b（x1，y2）的概率记为P，P（a ->b） = p(y2|x1 )

于是上述中第4步，可以视为我们将一个词对应的文档和Topic的概率看作是一个点在二维平面里的两个维度，词在不同的文档和不同的主题里，通过Gibbs Sampling公式，不断的转移（即重新采样），直至收敛。下面是Gibbs Sampling公式收敛的一个图，可以给大家一个直观印象（来自LDA数学八卦）。

LDA（Latent Dirichlet Allocation）学习笔记

最近在看LDA算法，经过了几天挣扎，总算大致了解了这个算法的整体框架和流程。

示例

LDA要干的事情简单来说就是为一堆文档进行聚类（所以是非监督学习），一种topic就是一类，要聚成的topic数目是事先指定的。聚类的结果是一个概率，而不是布尔型的100%属于某个类。国外有个博客[1]上有一个清晰的例子，直接引用：

Suppose you have the following set of sentences:

I like to eat broccoli and bananas.

I ate a banana and spinach smoothie for breakfast.

Chinchillas and kittens are cute.

My sister adopted a kitten yesterday.

Look at this cute hamster munching on a piece of broccoli.

What is latent Dirichlet allocation? It’s a way of automatically discovering topics that these sentences contain. For example, given these sentences and asked for 2 topics, LDA might produce something like

Sentences 1 and 2: 100% Topic A

Sentences 3 and 4: 100% Topic B

Sentence 5: 60% Topic A, 40% Topic B

Topic A: 30% broccoli, 15% bananas, 10% breakfast, 10% munching, … (at which point, you could interpret topic A to be about food)

Topic B: 20% chinchillas, 20% kittens, 20% cute, 15% hamster, … (at which point, you could interpret topic B to be about cute animals)

上面关于sentence 5的结果，可以看出来是一个明显的概率类型的聚类结果（sentence 1和2正好都是100%的确定性结果）。

再看例子里的结果，除了为每句话得出了一个概率的聚类结果，而且对每个Topic，都有代表性的词以及一个比例。以Topic A为例，就是说所有对应到Topic A的词里面，有30%的词是broccoli。在LDA算法中，会把每一个文档中的每一个词对应到一个Topic，所以能算出上面这个比例。这些词为描述这个Topic起了一个很好的指导意义，我想这就是LDA区别于传统文本聚类的优势吧。

LDA整体流程

先定义一些字母的含义：

文档集合D，topic集合T
D中每个文档d看作一个单词序列< w1,w2,...,wn >，wi表示第i个单词，设d有n个单词。（LDA里面称之为word bag，实际上每个单词的出现位置对LDA算法无影响）
D中涉及的所有不同单词组成一个大集合VOCABULARY（简称VOC）

LDA以文档集合D作为输入（会有切词，去停用词，取词干等常见的预处理，略去不表），希望训练出的两个结果向量（设聚成k个Topic，VOC中共包含m个词）：

对每个D中的文档d，对应到不同topic的概率θ_d < p_t1,..., p_tk >，其中，p_ti表示d对应T中第i个topic的概率。计算方法是直观的，p_ti=n_ti/n，其中n_ti表示d中对应第i个topic的词的数目，n是d中所有词的总数。
对每个T中的topic t，生成不同单词的概率φ_t < p_w1,..., p_wm >，其中，p_wi表示t生成VOC中第i个单词的概率。计算方法同样很直观，p_wi=N_wi/N，其中N_wi表示对应到topic t的VOC中第i个单词的数目，N表示所有对应到topic t的单词总数。

LDA的核心公式如下：

p(w|d) = p(w|t)*p(t|d)

直观的看这个公式，就是以Topic作为中间层，可以通过当前的θ_d和φ_t给出了文档d中出现单词w的概率。其中p(t|d)利用θ_d计算得到，p(w|t)利用φ_t计算得到。

实际上，利用当前的θ_d和φ_t，我们可以为一个文档中的一个单词计算它对应任意一个Topic时的p(w|d)，然后根据这些结果来更新这个词应该对应的topic。然后，如果这个更新改变了这个单词所对应的Topic，就会反过来影响θ_d和φ_t。

LDA算法开始时，先随机地给θ_d和φ_t赋值（对所有的d和t）。然后上述过程不断重复，最终收敛到的结果就是LDA的输出。

Python 数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙清水白石008 python Python题库 python 数据挖掘动画
Python数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙引言在数字化浪潮席卷全球的今天，数据已成为企业和组织最重要的战略资产。海量数据蕴藏着巨大的价值，等待我们去挖掘和发现。数据挖掘(DataMining)，作为从海量数据中提取有价值知识和模式的关键技术，正日益受到各行各业的重视。它如同探矿者的火眼金睛，能够穿透数据的迷雾，发现隐藏在背后的规律和趋势，为商业决策、科学研究和社会发展提供强有
计算机专业保研攻略（二）：研究方向与复习规划（必看干货）乔卿计算机专业保研路保研计算机专业
目录写在最前读研的研究方向有哪些？人工智能（AI）机器学习（MachineLearning）数据挖掘（DataMining）计算机视觉（ComputerVision）自然语言处理（NaturallanguageProcessing）信息检索（TheWeb&informationretrieval）系统（System）计算机体系结构（Computerarchitecture）计算机网络（Comput
CCF推荐学术会议-C（数据库／数据挖掘／内容检索）：ADMA 2025 爱思德学术数据库数据挖掘
ADMA2025The21stInternationalConferenceonAdvancedDataMiningandApplications(ADMA2025)willbeheldinKyoto,Japan,fromOctober22to24,2025.ADMA2025aimstobringtogetherexpertsondataminingfromaroundtheworldandpro
数据挖掘应用实例_数据挖掘综述 weixin_39631932 数据挖掘应用实例
数据挖掘数据挖掘（DataMining，DM）又称数据库中的知识发现（KnowledgeDiscoverinDatabase，KDD）数据挖掘又称数据库中的知识发现（KnowledgeDiscoverinDatabase，KDD），是目前人工智能和数据库领域研究的热点问题，所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程，它主要
【ShuQiHere】探索数据挖掘的世界：从概念到应用 ShuQiHere 数据挖掘人工智能
【ShuQiHere】数据挖掘（DataMining,DM）是一种从大型数据集中提取有用信息的技术，无论是在商业分析、金融预测，还是医学研究中，数据挖掘都扮演着至关重要的角色。本文将带您深入了解数据挖掘的核心概念、经典方法，以及它在日常生活和商业中的应用场景。什么是数据挖掘？数据挖掘的定义与背景数据挖掘（DataMining,DM）是从庞大且复杂的数据集中发现模式和有用信息的过程。它是**知识发现
数据挖掘-学习笔记1 不会写代码的biter 数据挖掘数据挖掘学习笔记人工智能
1.数据挖掘简介数据挖掘（DataMining，DM）是指从大量的有噪声的、不完全的、模糊的和随机的数据中，提取出隐含在其中的事先不知道但具有潜在利用价值的信息的过程。主要包含以下几层含义：1.数据必须真实的、大量且含有噪声的。2.发现的是用户感兴趣的可以接受、理解、运用的知识。3.仅支持特定的问题，并不要求放之四海而皆准的知识。2.数据挖掘的主要任务数据挖掘是通过分析每个数据，从大量数据中寻找其
Weka通过10天的内存指标数据计算内存指标动态阈值飞火流星02027 机器学习 #人工智能 #Java 数据挖掘人工智能机器学习 Weka 计算指标动态阈值使用统计方法计算动态阈值
在数据处理和监控系统中，动态阈值的计算是一种常见的方法，用以根据数据的实际分布和变化来调整阈值，从而更有效地监控和预警。在Weka中，虽然它主要是用于机器学习和数据挖掘的工具，但你可以通过一些间接的方法来实现内存指标的动态阈值计算。下面是一些步骤和思路，你可以用来计算内存指标的动态阈值：环境Weka官方网站：Weka3-DataMiningwithOpenSourceMachineLearning
COMP2121 Data Mining 后端
SchoolofComputing:AssessmentbriefModuletitleDataMiningModulecodeCOMP2121AssignmenttitleAssessmentforCOMP2121DataMining,Semester22024/25AssignmenttypeanddescriptionAssessment1:TestsubmittedasMinervaMCQ
大数据与分析：数据挖掘概念及流程 NSAcbba 数据挖掘人工智能
数据挖掘是一个从大量数据中提取有价值信息或模式的过程，它依赖于统计学、机器学习、数据库技术和人工智能等多个领域的知识和技术。以下是数据挖掘的概念及其流程的详细解释：一、数据挖掘的概念数据挖掘（DataMining）是指通过特定的计算机算法对大量的数据进行自动分析，以揭示数据中的隐藏模式、未知的相关性和其他有用的信息。这些信息可以帮助企业做出更明智的决策，提高运营效率，发现新的市场机会等。数据挖掘不
数据挖掘概念与流程 LekYgn 数据挖掘人工智能
一、定义与特点数据挖掘（DataMining），又称资料探勘、数据采矿，是指从大量的、不完全的、有噪声的、模糊的和随机的数据中，提取隐含在其中的、事先不知道的，但又有潜在有用信息和知识的过程。数据挖掘主要基于人工智能、机器学习数据挖掘具有以下几个特点：1.应用性：数据挖掘是理论算法和应用实践的完美结合，来源于应用实践，也服务于应用实践。2.工程性：数据挖掘是一个由多个步骤组成的工程化过程，在实际应
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
MS6711 Data Mining 后端
MS6711DataMiningHomework2InstructionThishomeworkcontainsbothcodingandnon-codingquestions.Pleasesubmittwofiles,OnewordorpdfdocumentofanswersandplotsofALLquestionswithoutcodingdetails.Onejupyternotebook
从数据中挖掘洞见：初探数据挖掘的艺术与科学 Echo_Wish 大数据数据挖掘人工智能
从数据中挖掘洞见：初探数据挖掘的艺术与科学在当今信息爆炸的时代，我们每天都被海量数据所包围。这些数据不仅记录了我们每天的生活轨迹，还蕴含着无数潜在的模式和洞见。作为大数据领域的自媒体创作者，我笔名Echo_Wish，在这篇文章中，我将带领大家初探数据挖掘的奥秘，揭示如何从数据中寻找隐藏的模式。什么是数据挖掘？数据挖掘（DataMining），顾名思义，就是从大量数据中“挖掘”出有价值的信息和模式。
COMP8410 Data Mining S1 2025 后端
COMP8410DataMiningS12025PostgraduateAssignment1Maximummarks100Weight20%ofthetotalmarksforthecourseMintopasshurdle30%LengthMaximumof8pagesexcludingcoverpage,bibliographyandappendices.LayoutA4.Atleast11
COMP3425 Data Mining S1 2025 后端
COMP3425DataMiningS12025UndergraduateAssignment1Maximummarks100Weight20%ofthetotalmarksforthecourseMintopasshurdle30%LengthMaximumof8pagesexcludingcoverpage,bibliographyandappendices.LayoutA4.Atleast1
ECE 219 Models and Algorithms 后端
Large-ScaleDataMining:ModelsandAlgorithmsECE219Winter2025Project2:DataRepresentationsandClusteringDueFebruary07,2025by11:59pmIntroductionMachinelearningalgorithmsareappliedtoawidevarietyofdata,includi
数据预处理泰坦尼克号_了解泰坦尼克号数据集的数据预处理张_伟_杰机器学习 python 人工智能大数据
数据预处理泰坦尼克号什么是数据预处理？(WhatisDataPre-Processing?)Weknowfrommylastblogthatdatapreprocessingisadataminingtechniquethatinvolvestransformingrawdataintoanunderstandableformat.Real-worlddataisoftenincomplete,i
大数据相关职位介绍之三（数据挖掘，数据安全，数据合规师，首席数据官，数据科学家）小Tomkk 大数据大数据数据挖掘首席数据官数据合规师数据安全数据科学家
大数据相关职位介绍之三（数据挖掘，数据安全，数据合规师，首席数据官，数据科学家）文章目录大数据相关职位介绍之三（数据挖掘，数据安全，数据合规师，首席数据官，数据科学家）1.数据挖掘工程师（DataMiningEngineer）2.数据安全工程师（DataSecurityEngineer）3.数据合规师（DataComplianceOfficer）4.首席数据官（CDO-ChiefDataOffic
Linux使用领域凌愚人杂文 linux 服务器手机
视频笔记：1.查看某网站的服务器信息1)http://www.netcraft.com2)InternetDataMining标签下（可以看到全世界服务器系统的使用情况）3）what'sthatsiterunning?可以输入想要查看的站点网址，查看查询网址的服务器2.用手机搜SSHd
KDD 2024 | 美团技术团队精选论文解读 & 论文分享会预告美团机器学习深度学习
ACMSIGKDD（KnowledgeDiscoveryandDataMining，简称KDD）是数据挖掘领域的国际顶级会议。KDDCup比赛是由SIGKDD主办的数据挖掘研究领域的国际顶级赛事，从1997年开始，每年举办一次，是目前数据挖掘领域最有影响力的赛事。本文精选了美团技术团队被KDD2024收录的5篇长文进行解读，覆盖了用户意图感知、机器学习&运筹优化、在线控制实验、联合广告模型、实时调
Python建模复习：数据挖掘技术理论啾啾二一
第二部分数据挖掘技术理论2.1数据分析方法论KDD知识发现KnowledgeDiscoveryfromDatabase：数据清理、数据集成、数据选择、数据变换（正规化、泛化、离散化）、数据挖掘、模式评估、知识表示。CRISP-DM（cross-industryprocessfordatamining）：业务理解、数据理解、数据准备、建模、模型评估和模型发布。SEMMA：抽样Sample、探索Exp
开发实践12_DataMiningSys. even_123 数据库 sql
朔宁夫基于Pycharm的网页开发课程笔记。Tips1实际的分析系统构建可能涉及不同开发工具，无法基于模型关系关联，需要明确item的id。role_id=models.IntegerField(primary_key=True,verbose_name="Authority")id=models.BigAutoField(primary_key=True,verbose_name="UserID
文本挖掘HW3 在做算法的巨巨
importosimportos.pathimportcodecsimportpandasaspdimportnumpyasnpfilePaths=[]fileContents=[]a=os.walk("C:/Users/dell/Desktop/datamining/2.1+语料库/2.1/SogouC.mini/Sample")forroot,dirs,filesina:fornameinfi
数据挖掘笔记1 幽径微澜数据挖掘笔记 python 数据挖掘大数据算法
课程：清华大学-数据挖掘：理论与算法（国家级精品课）_哔哩哔哩_bilibili一、LearningResources二、Data数据是最底层的一种表现形式。数据具有连续性。从存储上来讲，数据分为逻辑上的和物理层的。大数据：数据量大、产生速度快、数据种类多、三、TheProcessofDataMining四、clustering聚类聚类：把一堆数据分为一组一组的（没有标签）层次性聚类：一个一个单独
一些 AI 机构小田_ LLM python 大模型 AI 机构
文章目录OpenAITHUDMMetaAITIIStabilityAINousResearchOpenAIhf:https://huggingface.co/openai官网：https://openai.comTHUDM清华大学KEG和THUDM团队KnowledgeEngineeringGroup(KEG)&DataMiningatTsinghuaUniversityhf:https://hu
数据仓库（2）-认识数仓 XianMing的博客数据仓库数据仓库 spark 大数据
1、数据仓库是什么数据仓库，由数据仓库之父比尔·恩门（BillInmon）于1990年提出，主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料，透过数据仓库理论所特有的资料储存架构，做有系统的分析整理，以利各种分析方法如联机分析处理(OLAP)、数据挖掘(DataMining)之进行，并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建，帮助决策者能快速有
知识点整理[（GraphGeo）RELATED WORK] 别致的SmallSix 网路空间测绘 php 开发语言
2RELATEDWORK2.1IPGeolocation问题一：IP定位预测方法之一：Datamining-basedmethods回答：依赖于在公开的资源中挖掘位置线索来对目标IP（targetIP）进行地理定位。其中一些数据分析了来自与IP相关的数据库，如WHOIS数据库和DNS的数据。（1）例如，Moore等人[26]提出了NetGeo，其中包括一组Perl脚本(Perlscripts)，用
WSDM 2023 2024时空&时序论文总结 STLearner 时空数据大数据智慧城市 pytorch 数据挖掘论文阅读深度学习机器学习
WSDM（WebSearchandDataMining）是CCFB类会议，清华A类会议（一年就100来篇怎么能不算顶会！）WSDM2024将在2024年3月4日-3月8日在墨西哥梅里达（Mérida,México）举行。目前官网已经放出了所有被录用论文的表单（链接在相关链接给出）。本次会议共收录112篇论文。WSDM2023在2023年2月27日到3月3日在新加坡举行，公布的录用结果为，共收到投稿
How to understand Data Mining qwfys200 Reading 数据挖掘数据库人工智能
HowtounderstandDataMining什么是数据挖掘为何使用数据挖掘数据挖掘有哪些类型流程挖掘文本挖掘预测挖掘数据挖掘如何运作业务了解数据了解数据准备数据筛选数据变量转换缺失值处理坏数据处理数据标准化主成分分析属性选择数据规约数据建模评估模型部署模型数据挖掘的方法有哪些异常检测（Anomalydetection）聚类分析（ClusteringAnalysis）分类分析（Classifi
1.5 The Leaming Problem-Machine Leaming and other Fields|机器学习基石（林轩田）-学习笔记努力奋斗的durian
文章原创,最近更新：2018-06-27学习链接:1.5TheLeamingProblem-MachineLeamingandotherFields1.MachineLearningandDataMining(机器学习与数据挖掘)讲完了机器学习完整的流程,下面将一下机器学习与其他相关领域的关系第一个讲的领域就是数据挖掘,数据挖掘与机器学习有什么不一样,如下:机器学习是用资料找出一个假说g,然后跟我
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

LDA主题聚类学习小结

LDA主题聚类学习小结

LDA模型算法简介：

LDA模型构建原理：

Unigram Model（词袋模型）：

Bayes Unigram Model（贝叶斯词袋模型）

PLSA潜在语义分析

LDA主题聚类模型

LDA 算法设计 与Gibbs Sampling

LDA（Latent Dirichlet Allocation）学习笔记

示例

LDA整体流程

你可能感兴趣的:(datamining)

LDA 算法设计与Gibbs Sampling