唐名威

《大数据》2015年第3期“网络大数据专题”——网络大数据的文本内容分析

网络大数据的文本内容分析

程学旗，兰艳艳

（中国科学院计算技术研究所北京 100019）

摘要：文本内容分析是实现大数据的理解与价值发现的有效手段。尝试从短文本主题建模、单词表达学习和网页排序学习3个子方向，探讨网络大数据文本内容分析的挑战和研究成果，最后指出未来大数据文本内容分析的一些研究方向和问题。

关键词：文本内容分析；短文本主题建模；单词表达；排序学习

doi: 10.11959/j.issn.2096-0271.2015029

Text Content Analysis for Web Big Data

Cheng Xueqi, Lan Yanyan

(Institute of Computing Technology, Chinese Academy of Sciences, Beijing100019, China)

Abstract: Text content analysis is an effective way to understand and acquire the “value” ofbig fata. The challenges and research results were investigated in the three hot topics: topic modeling for short texts, word embedding and learning to rank for web pages. In the end, some remaining problems in this area were proposed.

Key words: text content analysis, topic modeling for short texts, word embedding, learning to rank

论文引用格式： 程学旗，兰艳艳. 网络大数据的文本内容分析. 大数据, 2015029

Cheng X Q, Lan Y Y. Text content analysis for web big data. Big Data Research, 2015029

1 引言

伴随着互联网技术的迅猛发展和普及以及用户规模的爆发式增长，互联网已经步入了“大数据”时代。网络大数据的“大”，不仅仅体现在其体量巨大（大数据的起始计量单位至少是Petabyte、Exabyte或Zettabyte），而且还体现在其增长异常迅猛（通常是指数级的速率），数据类型多样（包括了文本、图像、声音、视频等），数据质量良莠不齐并且关联关系复杂。同时，网络大数据另外一个突出的特点就是其价值密度低，大数据中包含了大量重复、噪声和垃圾数据，存在大量共现但又毫无意义的关联模式，如果缺乏有效的信息处理手段提取网络大数据中潜在的价值，网络大数据不仅不能成为一个价值“宝藏”，反倒会成为一个数据的“坟墓”。

文本内容分析是网络信息处理的关键技术。网络大数据对于文本内容分析而言是一把双刃剑：一方面，网络大数据提供了需要文本分析丰富的数据源，大规模的样本资源可以更好地支持文本分析关键技术的发展；另一方面，网络大数据复杂的内在特征对传统文本分析技术提出了严峻的挑战。例如，网络大数据越来多地存在于电商、问答等私有化网络或者深网中，包括了结构化数据、半结构化数据和非结构化数据，数据的获取和存储更加困难；数据庞大的规模、复杂的关联关系，使得传统的文本分析和挖掘技术在计算的时空复杂度上激增；另外，迅猛的数据增长速率、巨大的数据体量也使得传统的全量计算模式（依赖于全体样本的计算模式）不再适用。本文从短文本主题建模、单词表达学习和网页排序学习3个子方向探讨网络大数据文本内容分析的挑战和研究成果。

2 文本内容分析关键技术

2.1 短文本主题建模

随着Web2.0、社交媒体和移动互联网等技术的发展，每个网民都成为了互联网上信息的创造者与传播者，促使网上文本信息爆炸式增长。与此同时，互联网上的文本内容形式也在不断变化。从博客到轻博客和微博、从邮件到论坛和即时通信、从新闻到评论等，一个显著的特点就是这些文本信息的长度越来越短。这是因为短文本信息编写简单随意，发布更为便捷。同时，短文本信息比长文本更简约、紧凑，能节省其他用户阅读消息的时间和精力。短文本信息比传统文本信息来源要广得多，更新频率也快得多，大大加速了互联网上信息产生与传播的速度。

海量的短文本数据中蕴藏着大量有价值的信息，但也给现有文本语义分析技术带来了新的挑战。与长文本相比，短文本信息内部上下文信息缺乏。此外，普通用户常常用语不规范，新词、多义词等比较普遍。因此，对一条短文本信息的理解要比长文本要困难得多。在以往的长文本语义分析领域，一种普遍的方法就是利用概率话题模型（如LDA^[1]和PLSA^[2]）对文档内部的话题结构进行建模，然后利用统计推断手段学习出文档集合中潜在的话题以及话题结构。这些模型的一个基本假设是文档是话题的一个混合分布，其中每个词来源于一个话题。当文档长度较长时，可以较准确地根据文档中的词推断出文档的话题属性。然而，当文档很短（只有几个或十几个词，甚至少于话题的个数）时，由于数据不足，难以准确推断出文档中话题混合分布的参数以及每个词的话题属性，从而影响话题学习的效果。

为克服短文本信息的数据稀疏性，一种简单做法是利用外部数据（如Wikipedia、搜索结果）扩充文档的表示，再利用现有的长文本语义建模工具处理。但这种方式的效果严重依赖于原短文本文档与扩充的外部数据的相关程度。对于一些实时性强的数据（如微博），要找到合适的外部数据源是很困难的。为此，很多人尝试利用内部数据扩充文档的表示，如伪相关反馈、加入短语特征^[3]、相关消息聚合^[4]等。无论是利用外部数据扩充，还是利用内部数据扩充，都面临着扩充数据选择不当带来额外噪音的风险。另外，这两种方法并没有从模型上带来任何改变，只是治标不治本。另外，一些研究者^[5,6]则提出一条短文本消息只包含一个话题，将短文本消息用单词混合模型（mixture of unigrams）建模。该方式虽然可缓解参数估计时的数据稀疏性问题，但对短文本消息的建模过于简化。现实情况下，一条短文本消息仍然可能包含多个话题，尤其是在话题粒度较细的时候。此时，单词混合模型无法区分。

由于短文本消息和长文本文档显著不同，传统面向长文本的话题建模方法并不能简单地套用到短文本文档上。为了更好地对短文本进行语义建模，提出了一种新的话题建模方法——双词话题模型（biterm topic model，BTM）^[7]。BTM和传统基于文档产生式建模的话题模型的最大区别是，它通过建模文档集合中双词的产生来学习话题。这里，双词指的是在同一个上下文中共现的词对。由于一条短文本消息很短，可以简单地认为每条消息是一条上下文。比如在“短文本语义建模”中，可以抽取出3个双词：（“短文本”，“语义”）、（“短文本”，“建模”）、（“语义”，“建模”）。其直接体现了词的共现关系，因此采用双词作为建模单元。直观地讲，两个词共现次数越多，其语义越相关，也就越可能属于同一话题。根据这一认识，假设每个双词由同一个话题产生，而话题从一个定义在整个语料集合上的话题混合分布产生。与LDA相比，BTM通过直接建模双词（即词共现模式）来学习话题，从而避免短文本文档过短导致的文档建模困难问题。二者的图模型表示如图1所示。实验结果表明，BTM在短文本上的效果相比LDA等传统方法有明显提升，而且在长文本上的效果也不输于LDA。

除了长度短之外，互联网上的短文本大数据还具有规模大、更新快的特点。为此，提出了BTM的两种在线学习算法：在线BTM（oBTM）和增量BTM（iBTM）^[8]。

这两种算法的主要思想是用最近时间段内接收到的数据来持续更新模型，而不必反复计算较久远的历史数据。这两种算法不仅可以用来处理大规模流式短文本数据，其学到的模型还可以即时反映话题的动态变化，比较适合用于大规模流式短文本语义建模。在微博等互联网应用中，短文本信息还具备很强的时效性，因此其潜在的话题结构也会剧烈变化。尤其受一些突发和热点事件、活动的影响，每天都可能涌现出大量的突发话题。为了对微博中突发话题建模，在BTM的基础上提出了一种突发双词话题模型（BBTM或Bursty BTM）^[9]。BBTM的做法是利用双词的突发性来指导突发话题的建模。原因是双词的突发性可以根据其时序频率估算出来，突发性越强、共现次数越多的双词，越可能来源于某个突发话题。基于这一思想，BBTM首先将文档集合中的话题分为突发和非突发两类，然后将双词的突发性作为一个双词话题类别判定的先验。在实验验证过程中，发现BBTM识别出来的突发话题的准确性和可读性都显著优于现有的启发式方法。

尽管在短文本语义建模方向取得了一些进展，但和人对短文本信息的认知能力相比，目前的研究仍然非常初步。在该方向上，笔者认为目前值得深入探索的一些研究点如下。

（1）多源异质数据下的短文本语义建模

在大数据时代的背景下，如何广泛利用其他数据源中的知识（如Wikipedia、开放网页、知识库等），进一步提高计算机短文本的理解与处理能力，是进一步提升短文本语义建模的必经之路。

（2）复杂结构语义建模

目前研究的话题模型结构都比较简单，只有一层潜在语义结构，话题的数目也很有限。这种简单结构的话题模型只能大概反映文本中的语义，难以准确、全面地描述文本内容。真实文本数据中的语义结构很复杂，可以考虑采用层次、图状等结构提升模型的表达能力。

（3）融合上下文特征的话题建模

目前的语义建模方法大多仍然局限在利用词共现信息上。在真实的应用环境中，短文本消息还包含大量的上下文信息（如词性、词序等内源特征）以及作者、地点、人物关系、时间等外源特征。丰富的上下文特征对解决短文本内容稀疏性会有很大帮助。

（4）与应用结合

对短文本语义建模能力的提升最终还需要落地于具体应用中。要最大限度地提升应用效果，需要研究与具体应用相关的语义建模方法。

2.2 单词表示学习

单词表示一直是人工智能、自然语言处理、信息检索等领域的一个基本核心问题。

自然语言处理等相关领域最常用的单词表示方法是one-hot表达，将单词表示为一个高维向量，这个向量的维度是词表大小，其中绝大多数元素为0，只有一个维度的值为1，这个维度就代表了当前的词。这种one-hot表达如果采用稀疏方式存储，非常简洁、高效，配合上最大熵、SVM、CRF等算法，已经很好地完成了NLP（natural language processing，自然语言处理）领域的各种主流任务。

但是，这种表达有着根本性的缺陷，其假设所有词都是独立无关的，抛弃了单词之间的相关性。这意味着，即使是两个同义词，在此表达下，它们的相似度也是0，这显然是不合理的。同时，也因为每个单词都是一个孤立的离散单元，在许多实际问题中会遇到维度灾难问题。例如语言模型中，对于一个词汇集合为100 000的模型，即使只使用二元组，其可能的组合情况便可以达到100亿种。这样就面临严重的稀疏问题，传统的语言模型必须使用各种复杂的平滑技术来估计那些没有在语料中出现的组合的概率。

为解决语言模型中的维度灾难和稀疏问题，Bengio等人提出了神经网络语言模型^[10]。此模型将每个单词表示为一个连续的低维稠密实数向量，这样得到的语言模型自带平滑，无须传统n-gram模型中那些复杂的平滑算法。这样的连续低维稠密实数向量叫做分布式表达（distributed representation），最早由Hinton提出^[7]，有别于传统语义网络中用一个独立节点表示一个概念的局部表达（local representation）的方式。而其真正意义上流行开来，始于Bengio在语言模型上取得的成功。现在，单词的分布式表达已经广泛应用于自然语言处理的各个方面，如机器翻译、情感分析和词性标注等。

使用语言模型来学习单词表达涉及在给定前文下预测下一个单词出现的概率，因此需要在整个词汇集合中进行归一化操作，这是非常耗时的一个操作。而当年Bengio的神经网络语言模型在今天看来并不很大的语料上训练了4个月之久，即使后来的C&W的工作，也花了两个月时间才得到一份单词的表达。这在更大的数据上几乎是不可忍受的。早期的单词分布式表达工作主要集中在如何加速训练上面。

代表性工作有Bengio等人2005年提出的层次神经网络模型，输出端不再是一个平坦的softmax层，而是一个树状输出，利用WordNet将一个多项分布分解为一串伯努利分布来优化^[11]。AndriyMnih和Geoffrey Hinton提出Log-Bilinear模型，去掉了网络中隐层的非线性，在此基础上又提出hierarchical log-bilinear模型，同样也是将模型的输出改为层级输出，从而加速模型的训练，并且效果也有一定的提升^[12,13]。此后，Mnih将噪声对比估计（noise contrastive estimation，NCE）用于近似优化神经网络语言模型中的sofmax目标函数^[14]。而在这方面走得最远的当属目前最受关注的Mikolov等人的工作——Word2Vec。Mikolov在循环神经网络语言模型的工作中发现，将单词的表达学习与语言模型的学习分离开来，可以获得很好的结果。于是提出了continuous bag-of-words（CBOW）和skip-gram（SG）两种单词表达学习模型^[15]。这两种模型的目标不再是学习语言模型，而是直接利用自然语言处理中的分布式假设（distributional hypothesis）来学习单词表达。这个假设认为一个单词的语义由其周围的上下文决定，因此出现在相似上下文中的词，其含义也相似。CBOW模型利用上下文单词的表达，直接预测当前词的表达；而SG模型则是使用当前词预测上下文中的每一个词。这两种模型都可以使用哈夫曼树或者Negative sampling加速优化。

单词表达学习算法大体都是基于一个同样的假设——分布式假设。其假设一个单词的语义由其周围的上下文决定。由于单词之间存在横向（syntagmatic）和纵向（paradigmatic）两种关系，如图2所示。其中，横向关系主要关注的是词与词之间在上下文中的共现关系，是一种组合性关系；而纵向关系则关注的是词与词之间具有相似上下文的关系，是一种替代性关系。根据所使用的分布信息的不同，单词表达学习方法就可以分为两大类：基于横向关系和基于纵向关系。现有模型都只单独考虑了一种关系。如隐式语义索引（latent semantic indexing，LSI），假设在文档中共现的单词具有相似的语义，其利用了横向关系；而Word2Vec这类方法认为，如果两个单词其周围上下文相似，则其语义相似，其利用了纵向关系。

如图2所示，如果仅仅使用横向关系，不能得到wolf和tiger相似，这并不合理；另一方面，如果只是用纵向关系，则wolf和fierce也不相似。可见，单独使用任一关系，都不能很好地捕捉单词间的关联。在ACL2015的工作^[16]提出了两种新的单词表达学习模型（如图3所示），有别于现有模型只建模单词间的横向关系或纵向关系，以并列（PDC模型）或层次（HDC模型）的方式同时建模这两种关系，以得到更好的单词表达。PDC模型和HDC模型对应地扩展了Word2Vec中CBOW和HDC模型，在其基础上，利用文档表达来预测文档中出现的单词，以捕捉单词间的横向关系。

在单词的类似与相似度任务上，这两个模型均取得了state-of-the-art结果。

分布式表达的假设自身也有不足之处，比如不能很好地处理反义词情形。因为互为反义词的两个词，经常出现在同样的上下文中，所以往往反义词之间的相似度反而高于其他近义词。针对此问题，主流思路都是利用外部的知识库来辅助单词的表达学习。这类工作的思路大体类似，都是利用外部知识库如Wikipedia、WordNet约束单词表达的学习过程，比如让更新同义词表达、限制反义词表达等。此外，分布式表达的假设也不能很好地处理那些出现次数很少的单词。因为这些单词的上下文信息太少，不足以学到一个很好的表达。比较直接的办法就是直接利用语素信息来改善单词的表达，如果两个单词具有相同的词根，则其语义相似。

另外，目前单词的表达学习主要还是无监督的学习。因此，评价更多地集中在对单词本身的语义表达性能，如各种word similarity和word analogy任务。然而，这些任务并不能反映单词表达在真实的自然语言处理或者信息检索任务中的性能，所以更应该使用真实的任务作为实验。但这样带来的一个问题就是前端表达学习作为无监督学习，与后端的具体任务是脱节的。这也导致许多研究反映，虽然不同的单词学习模型在单词表达任务上可能性能差异很大，但是在具体实际任务中并没有显著差异。但如果直接根据任务设计有监督的单词学习模型，又会面临可用的标注数据太少的问题。一种可行的方案可能是先利用大规模数据进行无监督学习，得到初始的单词表达，然后根据具体的监督任务调整单词表达，以期望实现更好的应用性能。

2.3 网页排序学习

网络搜索引擎已经成为人们日常生活中的重要工具，在搜索引擎的各个组成部分中，排序模型直接决定了人们看到的搜索结果，因此这种模型对于搜索引擎的性能起着至关重要的作用。

在信息检索发展的历史上，人们提出了很多排序模型，如进行相关性排序的BM25模型^[17]和语言模型^[18]以及进行搜索结果多样化的MMR^[19]模型等。这些模型对推动搜索技术发展起到了一定作用，但是也存在一些问题：有的模型建立在人们对搜索问题的主观理解之上，需要根据经验人为设定模型参数；还有一些模型虽然可以从大量网页中学习，不断调整参数，但无法利用用户的反馈信息对模型参数进行优化。由于用户提交不同的查询词或者不同用户提交相同的查询词都有可能代表不同的信息需求，因此仅从研究者的主观理解或者仅从网页数据中学习排序模型，都无法很好地解决复杂的网络搜索问题。在这样的背景下，近年来研究人员开始尝试使用有监督的机器学习方法，即从用户标注或者反馈中学习最优的相关性排序模型，称为排序学习（learning to rank）^[20]。

为了学习最优的相关性排序模型，需要一个训练数据集。该集合包含随机抽取的查询词、与查询词有关的网页以及这些网页的标注。这些标注可能是由用户显式提供的绝对信息，如一个网页和查询词是非常相关、相关还是不相关等；也可能是从搜索引擎的用户行为中挖掘出来的相对信息，如某个网页是否比另外一个网页更加相关。为了从这些标注数据中学到最优的排序模型，通常需要定义3个部分：一是表征网页信息的特征向量（如词频、页面分级（PageRank）等）和网页间关系的特征向量（如网页相似度等）；二是模型的基本形式（如线性、非线性等）；三是用来控制学习过程的损失函数（它衡量了当前模型的排序结果和标注信息之间的差别）。极小化损失函数可以得到与标注数据最吻合的模型参数。经过优化的模型将用于回答新的查询词。给定新的查询词，首先通过倒排表找到包含该查询词的网页，然后为每个网页提取特征向量，并将排序模型应用到这些特征向量上，从而给每个网页输出一个分数，最后将网页按照分数的降序进行排列并返回给用户。

目前针对相关性的排序学习算法效果已经做得很好，部分算法甚至还应用到了搜索引擎的部分模块中。然而一个好的排序不仅依赖于相关性，多样化也是一个重要考虑。其目标在于在排序结果的顶部尽量多地展现不同子话题的网页，因此在排序的同时需要考虑网页间的相似度。然而，这种解决方案的难点在于传统的排序算法都以查询和单个文档作为输入，计算查询—文档相关性很难将文档间的关系融入排序模型内。

为了解决上述问题，有的研究者们直接利用结构化支持向量机直接优化多样化排序评价准则^[21]，乐（Yue）等^[22]也利用结构化支持向量机寻找最佳文档子集。然而，由于上述算法没有对排序模型进行本质上的改变，模型仍然难以胜任多样化排序任务。

朱（Zhu）等人^[23]提出了关系排序学习模型R-LTR，其基本思想是：利用传统的搜索结果多样化模型MMR的思想，使用序列文档选择的方式构造文档排序，即从序列的顶部开始，依次选择排在每一个位置上的文档。在每一次进行文档选择时，考虑查询—文档的相关性和当前文档与已选择文档间的相似性，如图4所示。

因此，R-LTR模型的参数分成两个部分：第一部分为相关性参数，其对应的特征描述了与查询—文档之间匹配的情况和文档的重要性等；第二部分为文档关系参数，其对应的特征描述了文档—文档之间的关系，包括文档在话题、词等级别的相似性等。在训练过程中，R-LTR通过最大化似然的方式进行参数估计。在TREC标注数据集合上的测试表明，在搜索结果多样化的任务上，R-LTR能够超过传统的排序学习模型，取得了显著的效果提升。

夏（Xia）等人^[24]针对R-LTR算法只利用了“正例”排序（如α-NDCG=1的最佳排序）进行训练的问题，提出了PAMM算法，其主要思想是：同时利用“正例”排序和“负例”排序进行训练；在排序过程中直接优化多样化排序评价准则。实验结果表明，上述改进方法进一步改善了搜索结果多样化的排序效果，且使得算法具有优化制定的评价准则的能力。

尽管上述各项工作取得了一定的成功，但是由于搜索结果多样化任务本身的复杂性，且评价准则本身不连续、不可导，使得直接对其进行优化仍然存在很多困难。相关的学习算法可能无法收敛或者很容易陷入局部极值点。总体上讲，这个方向还面临很多挑战，需要不断探索。另外，是否能够利用深度学习的方法自动学习多样性排序的特征和样本之间的依赖关系也是一个非常有前景的方向。

3 结束语

综上所述，内容分析成为理解网络大数据的重要手段。其中，短文本主题建模、单词表达学习和多样性排序学习是网络大数据内容分析的热点问题。随着网络大数据的发展，这些方向还存在很多值得探讨的科学问题，例如多源异构数据的主题建模、如何有效利用监督信息得到特定主题的单词表达以及如何使用深度学习的方法来自动学习多样性的特征等。这些问题的解决有助于更好地理解和挖掘网络大数据，从而达到内容分析的目的，为精准检索、推荐等应用提供支持。

参考文献

[1] Hofmann T. Probabilistic latent semanticanalysis. Proceedings of the 15th Conference on Uncertainty in Artificial Intelligence, Stockholm, Sweden, 1999

[2] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation. The Journal of Machine Learning Research, 2003, 3: 993~1022

[3] Metzler D, Dumais S, Meek C. Similarity measuresfor short segments of text. Proceedings of the 29th European Conference on IR Research, Rome, Italy, 2007: 16~27

[4] Hong L, Davison B. Empirical study of topic modeling in Twitter. Proceedings of the 1st Workshop on Social Media Analytics,Washington DC, USA, 2010: 80~88

[5] Zhao W, Jiang J, Weng J, et al. Comparing Twitter and traditional media using topic models. Proceedings of the 33rd European Conference on IR Research, Dublin, Ireland, 2011: 338~349

[6] Lakkaraju H, Bhattacharya I, Bhattacharyya C.Dynamic multi-relational Chinese restaurant process for analyzing influences on users in social media. Proceedings of the 12th IEEE International Conference on Data Mining, Brussels, Belgium, 2012

[7] Yan X H, Guo J F, Lan Y Y, et al. A biterm topicmodel for short texts. Proceedings of the 22nd International Conference on World Wide Web, Rio de Janeiro, Brazil, 2013: 1445~1456

[8] Cheng X Q, Yan X H, Lan Y Y, et al. BTM: topic modeling over short texts. IEEE Transactions on Knowledge and Data Engineering,2014, 26(12): 2928~2941

[9] Yan X H, Guo J F, Lan Y Y, et al. Aprobabilistic model for bursty topic discovery in microblogs. Proceedings ofthe 29th AAAI Conference on Artificial Intelligence, Austin Texas, USA, 2015

[10] Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model. Journal of Machine Learning Research,2003, 3: 1137~1155

[11] Morin F, Bengio Y. Hierarchical probabilistic neural network language model. Proceedings of the 10th International Workshopon Artificial Intelligence and Statistics, Barbados, 2005

[12] Mnih A, Hinton G. Three new graphical models for statistical language modelling. Proceedings of the 24th International Conference on Machine Learning, New York, NY, USA, 2007: 641~648

[13] Mnih A, Hinton G E. A scalable hierarchical distributed language model. Proceedings of the 23rd Annual Conference on Neural Information Processing Systems (NIPS), Vancouver, Canada, 2009

[14] Mnih A, Kavukcuoglu K. Learning word embeddings efficiently with noise-contrastive estimation. Proceedings of the 27rd Annual Conference on Neural Information Processing Systems (NIPS), Lake Tahoe, Nevada,USA, 2013

[15] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space. Proceedings of Workshop of ICLR, Arizona, USA, 2013

[16] Sun F, Guo J F, Lan Y Y, et al. Learning word representation by jointly modeling syntagmatic and paradigmatic relations.Proceedings of the 53rd Annual Metting of the Association for Computational Linguistics, Beijing, China, 2015

[17] Robertson S E. Overview of the okapi projects.Journal of Documentation, 1997, 53(1): 3~7

[18] Zhai C, Lafferty J. A study of smoothing methods for language models applied to Ad Hoc information retrieval.Proceedings of the 24th Annual International ACM SIGIR Conference on Research & Development on Information Retrieval, New Orleans, USA, 2001: 334~342

[19] Carbonell J, Goldstein J. The use of mmr,diversity-based reranking for reordering documents and producing summaries.Proceedings of the 21st Annual International ACM SIGIR Conference on Research& Development on Information Retrieval, Melbourne, Australia, 1998: 335~336

[20] Liu T Y. Learning to Rank for Information Retrieval. New York: Springer-Verlag New York Inc, 2011

[21] Liang S S, Ren Z C, Maarten D R. Personalized search result diversification via structured learning. Proceedings of the 20th ACM SIGKDD, New York, USA, 2014: 751~760

[22] Yue Y, Joachims T. Predicting diverse subsetsusing structural svms. Proceedings of the 25th ICML, Helsinki, Finland,2008:1224~1231

[23] Zhu Y, Lan Y, Guo J, et al. Learning for search result diversification. Proceedings of the 37th Annual International ACM SIGIR Conference on Research & Development on Information Retrieval, Gold Coast,QLD, Australia, 2014: 293~302

[24] Xia L, Xu J, Lan Y Y, et al. Learning maximal marginal relevance model via directly optimizing diversity evaluation measures.Proceedings of the 38th Annual International ACM SIGIR Conference on Researchand Development in Information Retrieval, Santiago, Chile, 2015

你可能感兴趣的:(《大数据》2015年第3期“网络大数据专题”——网络大数据的文本内容分析)

悬镜安全获评专精特新企业！ DevSecOps选型指南软件供应链安全工具悬镜安全开源治理软件成分分析 ASPM 专精特新小巨人
近日，北京安普诺信息技术有限公司（以下简称：悬镜安全）凭借在DevSecOps敏捷安全和中国数字供应链安全领域的关键技术自主创新、市场引领以及在守护中国数字供应链安全做出的行业贡献等多重维度，从众多参评企业中脱颖而出，成功入选第六批专精特新“小巨人”企业！01关键前沿科技引领在此背景下，悬镜安全以关键前沿技术为引领方向，不断完善企业发展体系，增强核心竞争力，持续为行业提供更加高效、安全的数字化服务
安全工具推荐 | 软件成分分析工具悬镜安全源鉴SCA，业内排名TOP 1的SCA工具 DevSecOps选型指南安全开源软件安全威胁分析
开源软件带来的安全性问题非常多，而SCA在软件成分分析、组件投毒检测、许可证合规风险、漏洞风险、软件代码开源比例检测等方面，都有很好的效果。可以看作SCA软件成分分析是数字供应链安全开源风险治理中最核心的工具，也是数字供应链安全的管理入口。本文结合悬镜安全源鉴SCA工具的深度使用来展开介绍国内排名Top1的SCA工具。发展历程：2016年，悬镜开始了第一代SCA产品技术的研发工作，历经4年，201
编程行业必备！12个热门AI工具帮你写代码~ DevSecOps选型指南人工智能软件供应链安全工具代码安全开发助手 SAST 安全
到今年，AI编程工具的发展已经非常成熟了，它们可以极大地提高开发效率，帮助程序员解决复杂问题，并优化代码质量。拒绝废话，今天给大家推荐12款AI编程工具！1悬镜安全灵脉AI开发安全卫士灵脉AI开发安全卫士是基于多模智能引擎的新一代静态代码安全扫描产品，通过自动化审查流程来定位潜在缺陷、提升审计效率和代码质量，并显著减少手动审查所需的时间和精力。该平台利用人工智能技术，提供逐行的代码反馈，建议改进和
android音频概念解析 yyc_audio android 音视频
音频硬件接口（我们可以理解为ASOC的声卡）官方代码里叫audiohardwareinterface也称为module，定义在services/audiopolicy/config/audio_policy_configuration.xml：分别有primary，a2dp，usb，r_submix(用于音频数据回环)；配置文件中的每一个module都被描述为HwModule，保存在mHwModu
MongoDB z小天才b MongoDB mongodb 数据库
一、MongoDB简介1.1什么是MongoDB？MongoDB是一个基于分布式文件存储的开源NoSQL数据库系统，由C++语言编写，旨在为Web应用提供可扩展的高性能数据存储解决方案。MongoDB将数据存储为一个文档，数据结构由键值对组成，类似于JSON对象，字段值可以包含其他文档、数组及文档数组。1.2MongoDB的核心特性文档型数据库：数据以BSON（BinaryJSON）格式存储灵活的
Java设计模式——装饰模式爱吃土豆的程序员 Java设计模式 java 装饰器模式设计模式
目录模式动机模式定义模式结构类图代码分析示例：动态添加功能的流组件接口具体组件装饰抽象类具体装饰类客户端模式分析核心思想动态扩展功能组合优于继承优点动态扩展功能组合优于继承代码复用性高符合开闭原则缺点增加系统的复杂性类的膨胀复杂的调试适用环境动态扩展功能避免继承带来的类爆炸性增长高度可定制化的需求模式应用输入输出流GUI组件日志记录模式扩展多层次装饰结合其他设计模式总结模式动机一般有两种方式可以实
通信之段开销、管理单元指针、净负荷玖Yee 信息与通信
今天来讲讲sdh段开销、管理单元指针、净负荷吧~SDH段开销（SOH）是指STM-N帧结构中为了保证信息净负荷正常灵活传送所必需的附加字节，用于网络的运行、管理和维护。它位于STM-N帧的第1至第9×N列中，第1至第3行和第5行至第9行，可进一步划分为再生段开销（RSOH）和复用段开销（MSOH）。具体介绍如下：再生段开销（RSOH）-帧定位字节（A1、A2）：规定为两种固定代码，A1=11110
设计模式—装饰者模式 BlackTurn 设计模式设计模式
一、什么是装饰者模式装饰者模式是一种结构型设计模式，它允许你动态地向对象添加新的行为而不影响其原有的行为。它在运行时给对象动态地添加一些额外的职责，通常是在原有的行为基础上，通过装饰器进行一些修饰，实现了更加灵活的代码复用和扩充。给对象添加一些职责，但是又不想改变其原有的接口和实现。在不使用继承的情况下（避免出现由于继承关系带来的类很多问题）动态地为一个对象添加一些额外的功能。需要在程序运行时动态
算法刷题记录——LeetCode篇(1) [第1~100题](持续更新) Allen Wurlitzer 实战-算法解题算法 leetcode 职场和发展
更新时间：2025-03-21LeetCode刷题目录：算法刷题记录——专题目录汇总技术博客总目录：计算机技术系列博客——目录页优先整理热门100及面试150，不定期持续更新，欢迎关注！1.两数之和给定一个整数数组nums和一个整数目标值target，请你在该数组中找出和为目标值target的那两个整数，并返回它们的数组下标。你可以假设每种输入只会对应一个答案，并且你不能使用两次相同的元素。你可以
存储系统怎么选？分布式存储vs.集中式存储的区别在哪？东方念分布式
在当今的数字化时代，安防监控已成为维护社会秩序和公共安全的重要手段。随着监控设备的普及和监控数据的不断增加，如何高效、安全地存储和管理这些视频数据，成为了安防行业面临的重要挑战。EasyCVR视频存储系统凭借其卓越的性能和灵活的架构，为安防行业提供了一个理想的解决方案。一、EasyCVR视频监控存核心优势EasyCVR视频汇聚平台是一个具备高度集成化、智能化的视频监控汇聚管理平台，拥有远程视频监控
linux执行python脚本conda库_Pycharm使用远程linux服务器conda/python环境在本地运行的方法(图解）)... weixin_39992462
Pycharm使用远程linux服务器conda/python环境在本地运行的方法(图解))1.首先在PycharmTools->Deployment->Configurations打开新建SFTP输入host:ip地址username密码然后点击TestConnection出现下图，则测试成功因为已经连接成功，这时候已经可以读取远程服务器的目录了：2.选择项目mapping(可以跳过3.在Set
macos安装python-nodejs_MAC平台基于Python Appium环境搭建过程图解 weixin_39612038
前言最近笔者要为python+appium课程做准备，mac在2019年重新安装了一次系统，这次重新在mac下搭建appium环境，刚好顺带写个文稿给大家分享分享搭建过程。一、环境和所需软件概述1.1目前环境：MacOS(10.15.3)1.2所需软件:jdk-8u91-macosx-x64.dmg(jdk1.8及以上版本应该都可以)android-sdk_r24.4.1-macosx.zip(m
android Firebase Cloud Messaging (FCM) 接入遥不可及zzz firebase推送
在Android应用中接入FirebaseCloudMessaging(FCM)可实现消息推送功能，以下是详细的接入步骤和示例代码：步骤1：创建Firebase项目访问Firebase控制台并登录你的Google账号。点击“添加项目”，按提示填写项目名称等信息完成项目创建。步骤2：将Android应用添加到Firebase项目在Firebase控制台中，点击项目概览页面的“添加应用”按钮，选择An
HarmonyOS Next 安全机制深度剖析 SameX-4869 harmonyos 华为
本文旨在深入探讨华为鸿蒙HarmonyOSNext系统（截止目前API12）的安全机制相关技术细节，基于实际开发实践进行总结。主要作为技术分享与交流载体，难免错漏，欢迎各位同仁提出宝贵意见和问题，以便共同进步。本文为原创内容，任何形式的转载必须注明出处及原作者。第一章：安全体系架构一、整体架构介绍HarmonyOSNext的安全体系架构犹如一座坚固的城堡，从多个层面为系统和应用提供全方位的保护。它
全网最细！CentOS 7极速部署MySQL 8.0.23实战手册（附最佳参数模版）从不删库的DBA Mysql centos mysql linux
一、部署前准备1.1环境检查清单在进行MySQL部署前，请确认以下基础条件已满足：检查项标准要求操作系统版本CentOS6/7（推荐7.6+）内存建议≥4GB（生产环境≥16GB）磁盘空间/分区≥30GB，数据盘按需求规划网络连通性确保yum源可访问二、操作系统基础配置2.1关闭网络管理服务根据系统版本选择相应操作：▶CentOS6#serviceNetworkManagerstop停止Netwo
python接口自动化全世界最帅的男人 python 自动化开发语言
Python是一种非常流行的编程语言，也是许多接口自动化测试框架的首选语言。下面是一个简单的接口自动化测试框架的思路：1.安装必要的库和工具：在Python中，我们可以使用requests库来发送HTTP请求，使用unittest库来编写测试用例，使用HTMLTestRunner库来生成测试报告。此外，我们还需要安装一个代码编辑器，如PyCharm或VSCode。2.创建测试用例：编写测试用例是接
Q&A: 设计数据备份方案时，所面临的需求痛点问题是共性问题还是个性问题云祺vinchin 技术分享网络安全数据安全 web安全容灾
在设计数据备份方案时，企业所面临的需求痛点和挑战既包含了行业普遍存在的共性难题，也涵盖了企业自身独特的个性化需求。在我国信息化建设快速发展的背景下，灾备行业的整体发展水平相较于信息化程度仍显不足，尤其是在灾备覆盖率和技术成熟度方面存在较大提升空间。具体而言，以下几点是行业内普遍面临的挑战：1、技术兼容性问题：不同企业的IT架构差异较大，导致备份软件在兼容性上存在一定的局限性。例如，虚拟机、操作系统
redis搭建一主一从+keepalived(虚拟IP)实现高可用 qq_36984017 redis linux keepalived 主从高可用
redis搭建一主一从+keepalived(虚拟IP)实现高可用前提有两台机器：如10.50.3.14110.50.3.142，虚拟ip如：10.50.3.170安装redis（两台机器执行）:#启用Remi仓库（CentOS7）sudoyuminstall-yhttps://rpms.remirepo.net/enterprise/remi-release-7.rpm#安装Redis6.xsu
Python接口自动化花落同学 Python自动化从入门到放弃 python 自动化
4接口自动化4.1使用python实现接口自动化如果不了解接口测试可参考https://ke.qq.com/course/4092904使用Python的request库实现接口测试：importjsonimportrequests#使用session管理：#1.可以自动关联set-cookie里面的内容#2.可以加快与服务器的连接速度session=requests.session()#auth
LLM 大模型技术知识最佳学习路径图发布！ AGI-杠哥学习人工智能语言模型 agi 自然语言处理
近日，经常有小伙伴私信我，大模型知识太多了，有点懵啊，我该如何学习LLM大模型？今天我们就来剖析下LLM大模型技术知识的学习路径。如果你是一个LLM大模型的“技术小白”，我们建议的学习路径如下：技术交流群前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~我们建了大模型技术与面试交流群
深入理解 Redis SDS：高效字符串存储的秘密沉默的煎蛋 bootstrap 前端 html maven 架构开发语言数据库
目录1.引言1.1Redis中字符串的广泛应用2.SDS结构定义2.1Redis3.2之前的SDS结构2.2Redis3.2及之后的SDS结构3.SDS与传统C字符串的比较3.1获取字符串长度3.2缓冲区溢出问题3.3二进制安全性3.4内存分配次数4.SDS的内存分配策略4.1空间预分配4.2惰性空间释放5.SDS的其他特性5.1兼容C字符串函数5.2类型灵活6.SDS的使用场景6.1键值对存储6
前端小食堂 | Day17 - 前端安全の金钟罩喵爪排序前端安全状态模式
️今日盾牌：XSS/CSRF攻防全解析1.XSS防御の三重结界//危险操作：直接渲染未过滤内容document.getElementById('content').innerHTML=userInput;//✅安全姿势一：文本转义constescapeHTML=(str)=>{constmap={'&':'&','':'>','"':'"',"'":'''};ret
阻止 Mac 在运行任务时进入休眠状态好好学习 666 macos
掌握`Caffeinate`命令：让您的Mac保持清醒以完成关键任务开发人员经常发现自己在Mac上运行持续时间较长的进程。无论是大量文件上传、广泛的数据分析脚本，还是复杂的构建过程，我们最不希望的就是我们的机器在任务中途进入睡眠状态。输入`caffeinate`命令–macOS的内置解决方案，可在您最需要时保持系统唤醒。##睡眠困境MacOS在设计时考虑了电源效率，这对电池寿命非常有用，但在运行时
人生建议往死里学网络安全！零基础也能跨行学习！！漏洞挖掘还能做副业程序媛西米网络安全网络 web安全安全网络安全计算机
一、网络安全的重要性：从‘不学会被黑’到‘学会保护别人’网络安全的概念现在不再是技术圈的独立话题，它已经渗透到社会的各个领域。从个人的隐私保护、企业的数据安全，到国家的信息防护，网络安全几乎影响了每一个人的生活。无论是黑客攻击、勒索病毒、数据泄露，还是国家间的信息战，网络安全已经成为现代社会的基础设施之一。所以，首先要明白学习网络安全的重要性：你不仅是在学习技术，更多的是在为自己和他人的安全“筑城
Python异步编程：从基础到高级 CarlowZJ python 网络数据库
前言在现代软件开发中，异步编程已经成为一种必不可少的技能。Python的异步编程模型（基于asyncio）为开发者提供了一种高效的方式来处理高并发任务，而无需依赖多线程或多进程。异步编程不仅可以提高程序的性能，还能简化并发代码的复杂性。本文将带你从异步编程的基础概念出发，逐步深入到高级应用，帮助你掌握Python异步编程的核心技能。一、异步编程的基础概念1.1什么是异步编程？异步编程是一种编程范式
国内高防加速CDN内容分发服务详细接入教程网友阿贵网站运维 web安全安全性测试安全威胁分析
CDN功能与接入指南CDN（内容分发网络）是一种集安全防护和内容加速于一体的网络解决方案，适用于需要兼顾安全性和访问速度的业务场景。以下是其主要功能与接入步骤：核心功能：免费SSL证书：支持一键申请SSL证书，确保数据传输安全。Web攻击防护：集成WAF防火墙，防御SQL注入、XSS等常见攻击。CC攻击防御：智能识别并拦截恶意请求，保护网站稳定运行。BOT机器人分析：自动识别并管理机器人流量，优化
深度解读 C 语言运算符：编程运算的核心工具烂蜻蜓 C语言 c语言 java 前端
一、引言在C语言的编程世界中，运算符是构建逻辑与运算的基石，它如同一位指挥家，精准地协调着程序中各种数据的操作与处理。C语言丰富多样的运算符涵盖了算术、关系、逻辑、位运算、赋值以及其他杂项运算等多个领域，为开发者提供了强大而灵活的编程手段。深入理解和熟练运用这些运算符，对于编写高效、准确的C语言代码至关重要。接下来，让我们一同走进C语言运算符的精彩世界，探寻其奥秘与应用。二、算术运算符：数值运算的
Mysql 报错: (1364, “Field ‘id‘ doesn‘t have a default value“) Lonelypatients° MySQL mysql
主要原因:在于主键表Id没有设置自增而报错,解决办法:设置主键自增会诱发另一个错误:Cannotchangecolumn'id':usedinaforeignkeyconstraint在于主键id已存在外键关系,不允许随意修改主键的属性值,所以我们须得先把外键关联删除之后,在更改主键,主键更改完毕后,加入外键,就好了
【Q&A】装饰模式在Qt中有哪些运用？浅慕Antonio Q&A qt 数据库服务器
在Qt框架中，装饰模式（DecoratorPattern）主要通过继承或组合的方式实现，常见于IO设备扩展和图形渲染增强场景。以下是Qt原生实现的装饰模式典型案例：一、QIODevice装饰体系（继承方式）场景为基础IO设备（如文件、缓冲区）添加数据格式解析、缓冲优化等功能。类图（Mermaid）«abstract»QIODevice+readData()+writeData()QFileQBuf
聚焦热点 | ISC 2022软件供应链安全治理与运营论坛圆满落幕悬镜安全荣誉资质网络安全行业动态安全 DevSecOps 网络安全软件供应链安全积极防御
“软件供应链的开源化使得软件供应链的各个环节都不可避免地受到开源应用的影响。尤其是开源应用的安全性，将直接影响着软件供应链的安全性。除开源应用开发者在开发过程中引入安全缺陷之外，也可能会存在开发者有目的性地预留的安全缺陷，甚至存在攻击者将含有隐藏性恶意功能的异常行为代码上传到上游开源代码托管平台，以便实施定向软件供应链攻击的安全风险。上述开源应用中存在的众多安全问题，都将导致软件供应链安全隐患大大
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，