概率主题模型简介 Introduction to Probabilistic Topic Models

此文为David M. Blei所写的《Introduction to Probabilistic Topic Models》的译文，供大家参考。

摘要：概率主题模型是一系列旨在发现隐藏在大规模文档中的主题结构的算法。本文首先回顾了这一领域的主要思想，接着调研了当前的研究水平，最后展望某些有所希望的方向。从最简单的主题模型——潜在狄立克雷分配（Latent Dirichlet Allocation，LDA）出发，讨论了其与概率建模的联系，描述了用于主题发现的两种算法。主题模型日新月异，被扩展和应用许多领域，其中不乏有趣之处。我们调研发现很多扩展都弱化了LDA的统计假设，加入元数据（meta-data）进行文档分析，使用近似的模型分析如社会网络、图像和基因这类多样化的数据类型。我们在文章的最后给出了主题模型目前还未探索但很重要的方向，包括严格检验数据模型的方法，文本和其它高维数据可视化的新技术，以及如何从传统信息工程中的应用推广到更多科学应用。

1 引言

如今公开的知识日益以新闻、博客、网页、科学论文、书籍、图像、声音、视频和社交网络的形式被数字化存储，巨大的信息量同时也增加了人们寻找和发现自己所需要的知识的难度。人们需要新的计算工具以组织、搜索和理解这些庞大的信息量。现在的在线信息挖掘使用两种主要的工具——搜索和链接。向搜索引擎提交关键词就可以找到相关的文档和其它相链接的文档。这种与在线文档的交互方式虽然有效，但却丢失了某些信息。
假设所要搜索和寻找的文档由各类主题组成。这样，通过对文章进行“放大”和“缩小”就可以得到较具体或者较粗略的主题；在文档中就可以看到这些主题是如何随着时间变化，或者说是如何相互联系的。搜索文档就不只是通过关键词寻找，取而代之的是先找到相关的主题，然后再查找与这一主题相关的文档。
拿纽约时报所记载的历史举例。从较广的层次来看，报纸中的主题就对应着报纸各个版块——对外政策、国内事务、体育，再拿对外政策进行“放大”，就可以得到其不同方面——中国对外政策、中东冲突、英国与俄罗斯的关系。接下来，我们跟踪这些专题是如何随着时间演变的，例如过去50年里的中东冲突。如此这般探索就能找到与主题相关的原始文档。可见，这种主题结构是探索和理解文档的新窗口。
但以这种方法与电子文档进行交互是不现实的，因为随着网上文本的数量越来越多，单单仅靠人力已经无法全部阅读和研究所有的文本。由此，概率主题建模应运而生。机器学习领域的研究人员们开发出了一套旨在发现和标记大规模文档的主题信息的算法。主题建模算法是一种统计方法，它通过分析原文本中的词以发现蕴藏于其中的主题，主题间的联系，以及主题随时间的演变（就比如后面图3，通过分析耶鲁法律找到主题），而且不需要事前对文档进行标记。也就是说，人力所无法完成的文档标记，主题建模算法能够进行组织和归纳。

2 潜在狄立克雷分配

潜在狄立克雷分配（LDA）是最简单的主题模型，其基础是文档是由多个主题构成的。如图1所示，《Seeking Life’s Bare(Genetic) Necessities》是一篇对基因数量进行数据分析的文章（基因是有机体赖以进化的基础）。

图1：潜在狄立克雷分配的直观现象。如图左所示，假设主题是词语上的概率分布；图右是主题直方图。从直方图到文章的词的过程是这样的：首先随机产生一个主题直方图，然后选择其中一主题，最后从该主题对应的主题分布中选择一个词。这里的主题和主题直方图只作说明之用，与文章其实并不相匹配。相匹配的主题见图2。

文章中不同的词被高亮在不同的颜色。如“computer”和“prediction”之类有关数据分析的词以蓝色标记；如“life”和“organism”之类关于进化生物学的词以粉红色标记；如“sequenced”和“genes”之类有关遗传学的词以黄色标记。将所有词语进行这样的标记，并剔除“and”、“but”和“if”这类包含极少主题内容的词语后可以发现，这篇文章由不同主题以不同的比例组成，更进一步地看，多个主题可以帮助人们在一堆科技论文中发现这篇文章。
建立在文档集合上的统计模型LDA就试图描述上述直观的现象。LDA可以看作是一个文档产生的过程（2.1节将具体解释概率模型LDA）。形式化地定义主题是固定的词语的概率分布。例如，“遗传学”主题中“genes”的概率就相当高，类似地，“进化生物学”主题中“life”的概率也相对较高。假设所有的主题在文档产生之前就已经产生且指定。生成文档（或者说生成文档中的词）可以看成是如下两个过程：

随机产生一个主题直方图（或者说分布）；
对文档中的每个词：
1. (a) 从第一步产生的直方图里随机选择一个主题；
2. (b) 从主题对应的词语的概率分布中随机选择一个词。

从文档产生的过程来看，第一步使得每篇文档由不同主题以不同比例组成。第二步的第二小步（b）使得每篇文档中每个词从一个主题中得来，其中的主题从第一小步（a）得来。实际上，第一步主题直方图（或者说分布）是一个狄立克雷分布（Dirichlet distribution），其作用是将文档中的词分配给不同的主题，那为什么是潜在的呢？且听后面分解。
对图1所示的文章来说，主题直方图中主题“遗传学”、“数据分析”和“进化生物学”都会占一定比例，文章中每个词都由这三个主题中的一个所给出。文档集中也可能会有一篇关于“数据分析”和“神经科学”；其主题直方图中这两个主题都将占有一定的比例；这就是潜在狄立克雷分配的显著特征——集合中所有文档共享同一主题集合，但每个文档中各个主题所占的比例又都各不相同。
如前引言所述，主题建模的目的是为了自动地发现文档集中的主题。文档自然是可被观察到的，但主题结构——主题、主题直方图（或者分布）和主题的词分布——却是隐藏的。所以主题建模的中心问题就是利用看到的文档推断出隐藏的主题结构，其实也就是产生文档的逆过程。

图2：图1的LDA。我们从《自然》上的17000篇文章提取100个主题及其相关词，然后对图1所示的文章进行分析，左边是主题所占比例的直方图，右边是文章常见主题的最常出现的前15个词。

如图2所示，就是一个推断图1中文章的例子。使用主题建模算法（假设有100个主题）推断《科学》上17000篇文章的潜在主题结构，然后推断出最能描述图1中示例文章的主题分布（图左）。需要注意的是，尽管主题分布上有无穷个主题，但事实上只有其中的一小部分的概率不为零。进一步地，文章中词可被分主题进行组织，可以看到最常见的主题所包含的概率最大的词。
需要强调的是，算法事先并不知道这些主题，文章也未有关键词或主题标记。计算潜在结构得到的主题分布可以产生所观察到的文档集合（由推断算法产生的主题对所分析的文档集合几乎都具有可解释性，主题似乎与语言的统计结构和LDA的具体概率假设有关）。如图3显示了《Yale Law Journal》中发现的主题（这里设置主题数为20）。主题由基因和数据分析替换为歧视和合同法。主题建模是管理、组织和标记大规模文本的一种算法。推断得到的隐藏结构近似于文档集的主题结构，能标记文档集中各个文档。这代替了痛苦的手工标记，并有助于信息检索，分类和语料库搜索。

2.1 LDA和概率模型

LDA和其它主题模型都属于概率建模这一更大领域。数据被看作是经过包括隐藏变量在内的生成过程得到的。生成过程定义了观测随机变量和隐藏随机变量的联合概率分布。通过使用联合分布来计算在给定观测变量下隐藏变量的条件分布（后验分布）来进行数据分析。对于LDA来说，观测变量就是文档中的词；隐藏变量就是主题结构；生成过程如之前所述。那么推测从文档中隐藏的主题结构的问题其实就是计算在给定文档下隐藏变量的条件分布（后验分布）。
形式化地定义如下：所有主题为β_1:K，其中βk是第k个主题的词的分布（如图1左部所示）。第d个文档中主题所占的比例为θ_d，其中θ_d,k表示第k个主题在第d个文档中的比例（图1右部的直方图）。第d个文档的主题全体为z_d，其中z_d,n是第d个文档中第n个词的主题（如图1中有颜色的圆圈）。第d个文档中所有词记为w_d，其中w_d,n是第d个文档中第n个词，每个词都是固定的词汇表中的元素。那么LDA的生成过程对应的观测变量和隐藏变量的联合分布如下：

\[\large p\left (\beta_{1:K},\theta_{1:D},z_{1:D},w_{1:D} \right )=\prod_{i=1}^{K}p\left ( \beta \right )\prod_{d=1}^{D}p\left ( \theta_d \right )\left ( \prod_{n=1}^{N}p\left ( z_{d,n}|\theta_d \right ) p\left ( w_{d,n}|\beta_{1:K},z_{d,n} \right ) \right )\]（1）

这一分布指明变量之间的依赖关系。例如，z_d,n依赖于θ_d，w_d,n依赖于z_d,n和β_1:K（在操作上，先确定z_d,n指的哪个主题，然后再看w_d,n在主题中的概率）。正是这些依赖定义了LDA：它们存在于生成过程的统计假设里，在联合分布的特定数学形式里以及LDA的概率图模型里（概率图模型为描述概率分布提供一个图形化的语言，如图4所示。事实上概率图模型是阐明概率独立、图理论和计算概率分布的算法的有力工具）。这三种表现形式在描述LDA的概率假设上是等价的。

图4:LDA的图模型。每个结点表示一个随机变量，并且根据其在生成过程中的角色予以标记（见图1）。隐藏变量对应的结点是白色的，观测变量wd,n对应的结点是灰色的。在图模型中，矩形表示变量的重复。

从历史来看，潜在语义分析中最具开创性的研究是对文档词矩阵进行奇异值分解得到词之间，文档之间和文档与词之间的潜在联系。概率潜在语义分析（probabilistic latent semantic analysis,pLSI）是它的概率版本，而LDA是用以解决pLSI的问题，可以看作是对离散数据进行主成分分析。下一章节将详细描述LDA的推断算法。

2.2 LDA后验概率的计算

使用前面的记号，LDA后验概率的公式为

\[\large p\left (\beta_{1:K},\theta_{1:D},z_{1:D}|w_{1:D} \right )=\frac{p\left (\beta_{1:K},\theta_{1:D},z_{1:D},w_{1:D} \right )}{p\left ( w_{1:D} \right )}\]（2）

分子为随机变量的联合分布。对于隐藏变量的任何值来说，联合分布是容易计算的。分母是观测变量的边际概率，是通过观察可见的语料库得到的概率。理论上，可以通过将联合分布对隐藏变量的所有可能值进行累加得到。但其计算量在实际操作中是异常庞大的（对于一个主题，这种累加包括了将每个词的所有可能的主题配置，而且文档集合通常有数量级达百万的词）。就像众多现代概率模型（包括贝叶斯统计）那样，后验概率的分母（即先验概率）往往是无法计算得到的。故而现代概率建模的一个核心研究目标就是尽一切可能接近之。如前图1和图3所述的那样，主题建模算法其实是求得近似后验分布的常用方法的一种变种。
主题建模算法主要有两类：基于采样的算法和变分算法。基于采样的算法通过收集后验分布的样本，以样本的分布求得后验分布的近似。主题建模中最常用的采样算法是吉布斯采样（Gibbs sampling），通过吉布斯采样构造马尔可夫链（Markov chain），而马尔可夫链的极限分布就是后验分布。马尔可夫链是由独立于前一个随机变量的随机变量组成的串。对主题模型来说，随机变量就是定义在一个特定的语料库上的隐藏主题。采样算法从马尔可夫链的极限分布上收集样本，再用这些样本来近似后验分布。通常，只有概率最高的样本会被收集以作为主题结构的近似。文献[33]详细描述了LDA的吉布斯采样，开源社区里有R语言的快速开源实现（http://cran.r-project.org/web/packages/lda/index.html）。
变分算法的确定性要比基于采样算法高上不少。变分算法先假定一族在隐藏结构之上的参数化的分布，再寻找与后验分布最接近的分布（概率分布之间的距离使用信息论的Kullback-Leibler散度度量，）。也就说，推断问题转换为了最优化问题。变分算法的创新之处也正在于此，它将最优化引入了概率建模中。文献[8]介绍了协调上升的变分推断算法；文献[20]介绍了一个更为快速的在线算法（以及开源软件），它能轻松处理上百万文档并能适应文本流的集合。
粗略地讲，这两种算法都在主题结构上进行了搜索，而固定的文档集合提供了搜索的方向。哪种方法更适合取决于所使用的具体的主题模型（下面的章节会介绍除LDA以外的其它主题模型），而这通常是学院派们争论的导火索。文献[1]很好地讨论了这两种方法的优缺点。

3 主题建模的研究进展

简单的LDA模型提供发现和探索大规模文本中隐藏主题结构的有力工具。LDA形式化为概率模型的一个主要优点在于它可以作为一个模块被其它更复杂的模块应用更为复杂的应用系统中。

3.1 弱化LDA的假设

LDA由对语料库的统计假设定义，主题建模研究领域中一个热点就是如何弱化和扩展这些假设以发现文本中更加复杂的结构。
如果不考虑词在文档中的顺序，那么一个文档就是一个词袋。“词袋”就是LDA的一个假设（对于文档中词的任意排列，式（1）都不变）。这个假设当然不符合现实，对于复杂的诸如语言生成之类的目标显然是不合适的，但对发现文本语义结构是有理可循的（缓慢移动图1文章中的词，尽管词移动了位置，文章仍然与遗传学相关）。LDA上模型的不可交换的词也有诸多扩展。例如，文献[36]弱化了词袋模型，假设主题生成词时以前一个词作为条件；文献[18]提出了在LDA和隐马尔可夫模型之间进行切换的主题模型。这些模型显著地扩展了参数空间，并且显示了语言建模带来的性能提升。
LDA的另一个假设是文档的顺序与LDA无关（对于文档的任意顺序的排列，式（1）同样不变）。但当文档集所跨越的时间有几年或几个世纪时，这个假设可能就不合理了。当遇到这样的集合时，通常假设主题是随着时间而发生变化的。这样，主题就是动态的[5]。动态主题模型考虑了文档的先后顺序，并给出了内涵比LDA更丰富后验主题结构。图5展示了使用动态主题模型分析所有科学杂志得到的一个主题。这个主题就不只是词的单一分布，而是词的一连串分布。这样，潜在的主题就可以被发现和跟踪。

图5：两个主题的动态主题模型。这个模型的语料库是1880年到2002年的《科学》杂志。图中每十年提取一些常见词。

LDA的第三个假设是主题的数量已知且固定。贝叶斯非参数主题模型[34]提供了：在后验推断中文档集决定了主题数量，而且新文档中会有前面文档所没有的主题。贝叶斯非参数主题模型可以通过数据推断，扩展成一系列从较通用到较具体的主题层次，就像一棵主题树一样。
LDA还有弱化其它假设的扩展。相关主题模型[6]和弹球分配机器[24]将同时出现的主题视作相关（例如与地理有关的文档可能运动相关，但它更可能与化学相关）；球状主题模型[28]允许词不太可能在主题中出现（例如，“扭伤”显然不太可能出现有关“猫”的主题里）；稀疏主题模型进一步强化了主题分布的结构[37]；而“稠密”主题模型则是词数的一个更符合实际的模型[15]。

3.2 结合元数据

在文本分析配置中，文档通常包含些诸如作者、题目、地理位置、链接等其它额外信息。这些信息可以被用于适配主题模型。目前如何结合这些元数据是百家争鸣。
作者主题模型[29]是较早成功的例子。每个作者拥有一个主题直方图；多个作者的论文中的词由其中一个作者的主题直方图决定。作者主题模型允许从作者或文档进行推断。Rosen-Zvi等人在论文中展示利用作者的主题直方图计算作者间的相似性的例子，而LDA是无法胜任这一工作的。又比如，由于许多文档集合通常是相互链接的（例如科技论文相互引用或者网页相互链接），一些主题模型就考虑将那些链接用以估计主题。关系主题模型[13]假设所有文档都由LDA生成，文档间的链接取决于它们主题直方图的距离。关系主题模型不仅是新的主题模型，而且是新的网络模型，其与传统网络统计模型不同之处在于，它将用于为链接建模的节点属性（文档的词）考虑在内。
其它结合元数据的主题模型有语言结构模型[10]，关注语料库间的距离的模型[38]，命名实体模型[26]。更一般的方法包括狄立克雷多项式回归模型[25]和监督主题模型[7]。

3.3 其他类型的数据

在LDA中，主题是词上的离散分布，并用于产生文档中的词（观测值）。LDA的一个优势在于其主题参数和数据生成所用的分布，它们经过微调就可以适配于其它类型的观测值所对应的推断算法。LDA作为典型的主题模型，可以看作是分组数据的成员混合模型（mixed-membership model），而不只是将一组文档（观测值）与一个主题（部件）相关。每组文档都以不同的比例包含着不同的主题。为了适配诸如调查数据、用户偏好、声频和音乐、计算机代码、网络日志和社交网络这些多种多样的数据，LDA衍生出众多模型来处理和分析之。下面介绍两个成员混合模型已取得显著成功的领域。
在群体遗传学中，研究人员也独立地开发出了相同的概率模型，用以在个体采样得到的基因中寻找人类祖先（例如，人类从非洲、欧洲或中东等地起源）[27]。基本原理是每个个体的基因型是由一个或多个祖先群体遗传的。生物学家们通过与LDA非常相似的模型，描述了在这些人群中的基因模式（即“主题”），并辨认出单个个体的基因组成（即“主题直方图”）。这一模型如此有效的原因就在于即使具有“纯种”祖先基因的个体不存在，其基因模式依然可以假设，并通过实验得到。
LDA模型的推断算法还可用于自然图像的检索、分类和组织，因此LDA也被广泛地应用于计算机视觉中。研究者们已经从图像到文档做了一个直接的类比。在文档分析的假设中，每个文档包含多个主题，文档集中的所有文档共享同一个主题集。在图像分析的假设中，每副图像是多个视觉模式的组合，同一个视觉模式在图像集中不断重现（预处理阶段会分析图像以得到视觉模式（或者“视觉单词”）的集合）。主题模型在计算机视觉中被用于图像分类[16]，关联图像和字幕[4]，建立图像层次[2,23,31]等。

4 展望

主题模型是机器学习的新兴领域，有很多新方向亟待探索。
评价和模型验证主题模型的评测和有效性脱节。一般的评价过程如下，首先取一部分语料做为测试集，然后从剩下的语料中训练不同的主题模型，并在测试集上度量其近似性（例如概率），最后选择性能最好的模型。但主题模型通常是用于组织、总结和帮助研究者探索大规模语料，技术上无法保证，准确性越高，组织性就越好或者解释得就越简单。主题建模的一个开放课题是与算法使用相匹配的评测方法。那么如何基于主题的解释性来比较主题模型呢？这就是模型验证问题，当面对一个新语料和新问题时，应该如何选择主题模型呢？哪些建模假设对问题是重要的，哪些是不重要的？该如何试验众多已经开发的主题模型呢？这些问题引起了统计学家的兴趣[9,30]，但他们对机器学习处理的问题的规模认识不足。这些计算问题的新答案将是对主题模型的重要贡献。
可视化和用户接口主题模型另一个充满希望的未来方向是开发与主题和语料库交互的新方法。主题模型提供了探索大规模文本的新结构，那么如何使用这一结构呢？一个问题就是如何展示主题。主题一般通过列举其最常出现的词来展示（如图2），但选择不同的词展示或者以不同的方式来标记主题，可能会更有效。更进一步，如何更好地展示一个文档中的主题模型呢？从文档上来看，主题模型提供了文档结构的潜在的有用信息。结合有效的主题标记，读者可以辨认出文档中最感兴趣的部分。此外，隐藏的主题直方图隐式地将各个文档相互连接（考虑文档直方图的距离）。如何显示这些连接？整个语料与其推断的主题结构的有效接口是什么？
这些用户接口问题对主题建模非常重要。主题建模算法很有希望提示大规模文档的有意义的主题结构，但要让它有用需要在信息可视化和用户接口上多下工夫。
用主题模型进行数据发现主题模型伴随着信息工程应用而来，主题模型作为统计模型应该能提供关于数据的信息或者帮助建立假设。主题模型的后验分布提供了什么信息？这一问题已经出现在政治科学[19]、生物学[17]和心理学[32]等领域，这类研究使用主题模型来度量所关注的外部变量，是非监督学习中的难题，必须小心验证。
这个问题通常可由计算机科学家与其它领域的学者合作使用主题模型来助力数据的探索、可视化和抽象假设。除了遗传学和神经学等科学应用系统，主题模型还可以应用于历史、社会、语言、政治学、法律学和比较文学等其它以文本作为研究媒介的领域。通过与各学科的学者进行合作，计算机科学家们开始开发出新的跨学科的计算方法，来处理大量的文本，并从中提取潜在内涵。

5 总结

本文调研了处理大规模文档的一套统计模型——概率主题模型。近年来，随着可扩展部件建模、后验推断的可扩展算法和大数据集的日益增多等非监督机器学习的有力支持，主题模型有希望成为总结和理解人们日益增长的数字化信息档案的重要部件。

参考文献

[1]Asuncion, M. Welling, P. Smyth, and Y. Teh. On smoothing and inference for topic models. In Uncertainty in Artificial Intelligence, 2009.
[2]E. Bart, M. Welling, and P. Perona. Unsupervised organization of image collections: Unsupervised organization of image collections: Taxonomies and beyond. Transactions on Pattern Recognition and Machine Intelligence, 2010.
[3] D. Blei, T. Griffths, and M. Jordan. The nested Chinese restaurant process and Bayesian nonparametric inference of topic hierarchies. Journal of the ACM, 57(2):1–30, 2010.
[4] D. Blei and M. Jordan. Modeling annotated data. In Proceedings of the 26th annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 127–134. ACM Press, 2003.
[5] D. Blei and J. Lafferty. Dynamic topic models. In International Conference on Machine Learning, pages 113–120, New York, NY, USA, 2006. ACM.
[6] D. Blei and J. Lafferty. A correlated topic model of Science. Annals of Applied Statistics, 1(1):17–35, 2007.
[7] D. Blei and J. McAuliffe. Supervised topic models. In Neural Information Processing Systems, 2007.
[8] D. Blei, A. Ng, and M. Jordan. Latent Dirichlet allocation. Journal of Machine Learning Research, 3:993–1022, January 2003.
[9] G. Box. Sampling and Bayes’ inference in scientiﬁc modeling and robustness. Journal of the Royal Statistical Society, Series A, 143(4):383–430, 1980.
[10] J. Boyd-Graber and D. Blei. Syntactic topic models. In Neural Information Processing Systems, 2009.
[11] W. Buntine. Variational extentions to EM and multinomial PCA. In European Conference on Machine Learning, 2002.
[12] W. Buntine and A. Jakulin. Discrete component analysis. In Subspace, Latent Structure and Feature Selection. Springer, 2006.
[13] J. Chang and D. Blei. Hierarchical relational models for document networks. Annals of Applied Statistics, 4(1), 2010.
[14] S. Deerwester, S. Dumais, T. Landauer, G. Furnas, and R. Harshman. Indexing by latent semantic analysis. Journal of the American Society of Information Science, 41(6):391–407, 1990.
[15] G. Doyle and C. Elkan. Accounting for burstiness in topic models. In International Conference on Machine Learning, pages 281–288. ACM, 2009.
[16] L. Fei-Fei and P. Perona. A Bayesian hierarchical model for learning natural scene categories. IEEE Computer Vision and Pattern Recognition, pages 524–531, 2005.
[17] S. Gerrish and D. Blei. A language-based approach to measuring scholarly impact. In International Conference on Machine Learning, 2010.
[18] T. Griﬃths, M. Steyvers, D. Blei, and J. Tenenbaum. Integrating topics and syntax. In L. K. Saul, Y. Weiss, and L. Bottou, editors, Advances in Neural Information Processing Systems 17, pages 537–544, Cambridge, MA, 2005. MIT Press.
[19] J. Grimmer. A Bayesian hierarchical topic model for political texts: Measuring expressed agendas in senate press releases. Political Analysis, 18(1):1, 2010.
[20] M. Hoffman, D. Blei, and F. Bach. On-line learning for latent Dirichlet allocation. In Neural Information Processing Systems, 2010.
[21] T. Hofmann. Probabilistic latent semantic analysis. In Uncertainty in Artiﬁcial Intelli-gence (UAI), 1999.
[22] M. Jordan, Z. Ghahramani, T. Jaakkola, and L. Saul. Introduction to variational methods for graphical models. Machine Learning, 37:183–233, 1999.
[23] J. Li, C. Wang, Y. Lim, D. Blei, and L. Fei-Fei. Building and using a semantivisual image hierarchy. In Computer Vision and Pattern Recognition, 2010.
[24] W. Li and A. McCallum. Pachinko allocation: DAG-structured mixture models of topic correlations. In International Conference on Machine Learning, pages 577–584, 2006.
[25] D. Mimno and A. McCallum. Topic models conditioned on arbitrary features with Dirichlet-multinomial regression. In Uncertainty in Artiﬁcial Intelligence, 2008.
[26] D. Newman, C. Chemudugunta, and P. Smyth. Statistical entity-topic models. In Knowledge Discovery and Data Mining, 2006.
[27] J. Pritchard, M. Stephens, and P. Donnelly. Inference of population structure using multilocus genotype data. Genetics, 155:945–959, June 2000.
[28] J. Reisinger, A. Waters, B. Silverthorn, and R. Mooney. Spherical topic models. In International Conference on Machine Learning, 2010.
[29] M. Rosen-Zvi, T. Griffths, M. Steyvers, and P. Smith. The author-topic model for authors and documents. In Proceedings of the 20th Conference on Uncertainty in Artiﬁcial Intelligence, pages 487–494. AUAI Press, 2004.
[30] D. Rubin. Bayesianly justiﬁable and relevant frequency calculations for the applied statistician. The Annals of Statistics, 12(4):1151–1172, 1984.
[31] J. Sivic, B. Russell, A. Zisserman, W. Freeman, and A. Efros. Unsupervised discovery of visual object class hierarchies. In Conference on Computer Vision and Pattern Recognition, 2008.
[32] R. Socher, S. Gershman, A. Perotte, P. Sederberg, D. Blei, and K. Norman. A Bayesian analysis of dynamics in free recall. In Neural Information Processing Systems, 2009.
[33] M. Steyvers and T. Griffths. Probabilistic topic models. In T. Landauer, D. McNamara, S. Dennis, and W. Kintsch, editors, Latent Semantic Analysis: A Road to Meaning. Laurence Erlbaum, 2006.
[34] Y. Teh, M. Jordan, M. Beal, and D. Blei. Hierarchical Dirichlet processes. Journal of the American Statistical Association, 101(476):1566–1581, 2006.
[35] M. Wainwright and M. Jordan. Graphical models, exponential families, and variational inference. Foundations and Trends in Machine Learning, 1(1–2):1–305, 2008.
[36] H. Wallach. Topic modeling: Beyond bag of words. In Proceedings of the 23rd International Conference on Machine Learning, 2006.
[37] C. Wang and D. Blei. Decoupling sparsity and smoothness in the discrete hierarchical dirichlet process. In Y. Bengio, D. Schuurmans, J. Lafferty, C. K. I. Williams, and A. Culotta, editors, Advances in Neural Information Processing Systems 22, pages 1982–1989. 2009.
[38] C. Wang, B. Thiesson, C. Meek, and D. Blei. Markov topic models. In Artiﬁcial Intelligence and Statistics, 2009.

你可能感兴趣的:(Model)

【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
Xinference如何注册自定义模型玩人工智能的辣条哥人工智能 AI 大模型 Xinference
环境：Xinference问题描述：Xinference如何注册自定义模型解决方案：1.写个model_config.json，内容如下{"version":1,"context_length":2048,"model_name":"custom-llama-3","model_lang":["en","ch"],"model_ability":["generate","chat"],"model
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
matlab mle 优化,MLE+: Matlab Toolbox for Integrated Modeling, Control and Optimization for Buildings... Simon Zhong matlab mle 优化
摘要：FollowingunilateralopticnervesectioninadultPVGhoodedrat,theaxonguidancecueephrin-A2isup-regulatedincaudalbutnotrostralsuperiorcolliculus(SC)andtheEphA5receptorisdown-regulatedinaxotomisedretinalgan
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
使用由 Python 编写的 lxml 实现高性能 XML 解析 hunyxv python 笔记 python xml
转载自：文章lxml简介Python从来不出现XML库短缺的情况。从2.0版本开始，它就附带了xml.dom.minidom和相关的pulldom以及SimpleAPIforXML(SAX)模块。从2.4开始，它附带了流行的ElementTreeAPI。此外，很多第三方库可以提供更高级别的或更具有python风格的接口。尽管任何XML库都足够处理简单的DocumentObjectModel(DOM
前端three.js的Sprite模拟下雪动画效果 qq_35430208 three.js 前端 javascript 三维场景中下雪效果 threejs实现下雪效果
一、效果如图所示：二、原理同下雨一样三、完整代码：index.jsimport*asTHREEfrom'three';import{OrbitControls}from'three/addons/controls/OrbitControls.js';importmodelfrom'./model.js';//模型对象//场景constscene=newTHREE.Scene();scene.add
2018-08-16【Swift 4.1】关于Swift4.0以后调用MJExtension无法模型转换问题码农happy
1、本人使用swift4.1，弄了一晚上才弄好，结果还是一个小问题真是尴尬，要在model中每个属性前面加上@objcimportUIKitclassUserModel:NSObject{@objcvardix=String()}letdic=["dix":"ffffff"]asNSDictionaryletmodel=UserModel.mj_object(withKeyValues:dic)!
ComfyUI中的sam模型国内下载方法 jayli517 ComfyUI python stable diffusion
was-node-suite-comfyui这个节点安装的时候，有它内部的config配置文件，里面其实给了一些下载地址，配置文件里是这么写的："sam_model_vith_url":"https://dl.fbaipublicfiles.com/segment_anything/sam_vit_h_4b8939.pth","sam_model_vitl_url":"https://dl.fba
java的四个层级结构活跃家族 JAVA
java的四个层级结构首先，最底层的就是dto层，dto层就是所谓的model，dto中定义的是实体类，也就是.class文件，该文件中包含实体类的属性和对应属性的get、set方法；其次，是dao层（dao层的文件习惯以*Mapper命名），dao层会调用dto层，dao层中会定义实际使用到的方法，比如增删改查。一般在dao层下还会有个叫做sqlmap的包，该包下有xml文件，文件内容正是根据之
2.8.5Django --8.2 单表操作寒暄_HX
Django目录：https://www.jianshu.com/p/dc36f62b3dc5Yuan先生-Django模型层（1）Django与SQLAlchemy的ORM操作本质上是一样的，但是语法略有不同，如果是用Django进行开发最好使用原生的ORM或者直接使用原生SQL。创建表app06创建模型在app06中的models.py文件内，新建一个模板。one_exa.app06.mode
昇思MindSpore AI框架MindFormers实践3:ChatGLM3-6B对一段文字进行提取 skywalk8163 人工智能项目实践人工智能 mindspore
MindSpore和MindFormers安装参见：昇思AI框架实践1:安装MindSpoe和MindFormers_miniconda安装mindspore-CSDN博客使用了MindSpore2.2和MindFormers1.0支持的模型：KeyError:"modelmustbeinodict_keys(['gpt2','gpt2_lora','gpt2_xl','gpt2_xl_lora'
ResNet的半监督和半弱监督模型 Valar_Morghulis
Billion-scalesemi-supervisedlearningforimageclassificationhttps://arxiv.org/pdf/1905.00546.pdfhttps://github.com/facebookresearch/semi-supervised-ImageNet1K-models/权重在timm中也有：https://hub.fastgit.org/r
document获取元素的方法小成语 js 平时 js
js学习总结----DOM获取元素的方法（8个）DOM:documentobjectmodel文档对象模型DOM就是描述整个html页面中节点关系的图谱，可以如下图理解在DOM中，提供了很多的获取元素的方法和之间关系的属性以及操作这些元素的方法。1、获取页面中元素的方法1）、document.getElementById('元素的ID')在整个文档中，通过元素的ID获取到这个元素对象(获取的是一个
Android干净架构MVI模板使用指南井美婵Toby
Android干净架构MVI模板使用指南android-clean-architecture-mvi-boilerplateAforkofourcleanarchitectureboilerplateusingtheModel-View-Intentpattern项目地址:https://gitcode.com/gh_mirrors/an/android-clean-architecture-mv
报错 | pydantic.v1.error_wrappers.ValidationError ... subclass of BaseModel expected 程序猿林仔报错 python python langchain
文章目录01问题情景02分析问题03阅读源码04解决方案4.1方案1-指定版本安装4.2（通用）方案2-指定v1版本4.3（推荐）方案3-参考源码01问题情景最近在做Langchain的开发，可能是因为我更新了依赖库的版本，在执行下面这部分代码的时候出现了该异常：#出现该异常的代码(仅保留核心逻辑)fromlangchain.output_parsersimportPydanticOutputPa
渗透测试的了解锅盖'awa' 网络安全小白之路安全性测试安全
文章目录概述一、渗透测试分类1.黑盒测试／外部测试2.白盒测试／内部测试3.灰盒测试／组合测试二、渗透测试-目标分类1、主机操作系统渗透2、数据库系统渗透3、应用系统渗透4、网络设备渗透三、渗透测试过程（七个阶段）1.前期交互阶段（Pre-EngagementInteraction）2.情报搜集阶段（InformationGathering）3.威胁建模阶段（ThreatModeling）4.漏洞
ModuleNotFoundError: No module named ‘timm.layers‘ 忽略不计， BUG python YOLO 目标检测人工智能深度学习
解决方式：把fromtimm.layersimportDropPath这个修改为fromtimm.models.layersimportDropPath即可。
座舱交互的下一个时代高工智能汽车交互物联网人工智能
为了满足座舱信息娱乐的更高性能要求，几乎所有的一线品牌都在准备“换芯”。去年开始，不少车型开始推动传统的分布式座舱仪表和中控电子架构进入域控制器时代，高通成为大赢家。今年6月，特斯拉也正式官宣，即将推出的新款ModelS将配备能够运行PS5游戏机性能的AMD芯片，包括专门定制的AMDRyzenCPU和独立的Navi23图形处理器。最新消息，特斯拉将率先在中国市场生产的ModelY高性能版车型换装A
多层建筑能源参数化模型和城市冠层模型的区别 WW、forever WRF模型原理及应用城市模拟
多层建筑能源参数化（Multi-layerBuildingEnergyParameterization,BEP）模型和城市冠层模型（UrbanCanopyModel,UCM）都是用于模拟城市环境中能量交换和微气候的数值模型，但它们的侧重点和应用场景有所不同。以下是两者的主要区别：1.目标和应用场景BEP模型：目标：主要用于模拟多层建筑群的能量交换过程，特别是建筑内部和外部的热量传输、建筑能耗以及建
【笔记】扩散模型（七）：Latent Diffusion Models（Stable Diffusion）论文解读与代码实现 LittleNyima Diffusion Models 笔记 stable diffusion AIGC 人工智能
论文链接：High-ResolutionImageSynthesiswithLatentDiffusionModels官方实现：CompVis/latent-diffusion、CompVis/stable-diffusion这一篇文章的内容是LatentDiffusionModels（LDM），也就是大名鼎鼎的StableDiffusion。先前的扩散模型一直面临的比较大的问题是采样空间太大，学
Android MVVM 架构应用实现(2) 渊Y 程序员 android 架构
Repository类：实现BmobRepository类，作为HomeViewModel的数据提供方。BmobRepository类中有一个挂起函数getAllRecommendLibrary(libraryRecommendData:MutableLiveData)用来获取云数据库中的数据，函数的参数是LiveData，在获取数据后，利用setValue通知View展示数据。classBmob
使用poi替换XWPFTableCell内容，并设置行间距 RR369_yyh javaUtil java poi
使用poi读取word文档（docx类型），进行数据替换。另外，为了记录poi设置行间距的api，真是找了好几十分钟才找到啊啊啊啊！！！importorg.apache.poi.xwpf.usermodel.*;importorg.springframework.util.StringUtils;importjava.io.File;importjava.io.FileInputStream;im
多模态大模型微调Qwen-VL微调及日志 Messi^ 人工智能-大模型应用 python 人工智能深度学习
%pipinstallmodelscope-U%pipinstalltransformersacceleratetiktoken-U%pipinstalleinopstransformers_stream_generator-U%pipinstallpillow-U%pipinstalltorchvision%pipinstallmatplotlib-Ufrommodelscopeimport(s
Java 后端程序员必须要懂的几种框架分享 Java烟雨 java mvc 开发语言
MVC框架MVC模式是软件工程中的一种软件架构模式，可以把软件系统分为三个基本部分：模型（Model），编写程序应有的功能（实现算法等等）、进行数据管理和数据库设计，。视图（View），界面设计人员进行图形界面设计。控制器（Controller），负责转发请求，对请求进行处理。比较知名的MVC框架有SpringMVC，是一种基于请求驱动类型的轻量级Web框架，目的是帮助我们后端程序员简化开发。我个
treeselect只选了分支节点全选_vue Treeselect 树形下拉框:获取选中节点的ids和lables操作... weixin_39637285
API:https://vue-treeselect.js.org/#events1.ids:即value1.lable:需要用到方法：@select(node,instanceId)和@deselect(node,instanceId)v-model="DRHA_EFaultModeTree_value":multiple="true":options="DRHA_EFaultModeTree_
SpringBoot项目俺叫啥好嘞 spring系列 spring springboot
SpringBoot项目大概分为四层：（1）DAO层：包括XxxMapper.java(数据库访问接口类)，XxxMapper.xml(数据库链接实现)；（这个命名，有人喜欢用Dao命名，有人喜欢用Mapper，看个人习惯了吧）（2）Bean层：也叫model层，模型层，entity层，实体层，就是数据库表的映射实体类，存放POJO对象；（3）Service层：也叫服务层，业务层，包括XxxSer
Android应用架构 — 从MVC到MVVM，基于android的app开发 m0_66264134 程序员架构移动开发 android
角色划分Model:用来保存程序的数据状态，比如数据存储，网络请求等。View:GUI组件构成，向用户展示Model中的数据。Controller:连接用户和系统，响应交互，传递数据。解决的问题MVC最重要的目的并不是规定各个模块应该如何交互和联系，而是将原有的混乱的应用程序划分出合理的层级，把以往一团混乱的代码，按照展示层和领域层分成两个部分。这种分离使得位于领域层中的领域对象可以不需要对展示层
基于XTDrone的ZD550+Mid360实现夜雨拾年无人机
前言本文是对ZD550搭载Mid360激光雷达Gazebo仿真平台搭建记录的实现文件导入先下载提供的文件链接:https://pan.baidu.com/s/1reqGCcQOj1T_tGBY3EZWpw?pwd=328c提取码:328c将文件夹ZD550_Mid360中的5个文件夹都添加到PX4_Firmware/Tools/sitl_gazebo/models目录下，其中models目录下可能
多模态大语言模型(MLLMs)-一般架构（非常详细）零基础入门到精通，收藏这一篇就够了程序员_大白语言模型人工智能自然语言处理
多模态大语言模型(MultimodalLargeLanguageModel,MLLM），在LLM原有的强大泛化和推理能力基础上，进一步引入了多模态信息处理能力。相比于以往的多模态方法，例如以CLIP为代表的判别式，或以OFA为代表的生成式，新兴的MLLM展现出一些典型的特质，在下面这两种特质的加持下，MLLM涌现出一些以往多模态模型所不具备的能力！模型大。MLLM通常具有数十亿的参数量，更多的参数
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR