winkake

AMiner背后的技术细节与挑战

最近准备研究如何自动挖掘研究者的兴趣，读到这篇文章，与大家分享，共同学习。

摘要：AMiner利用数据挖掘和社会网络分析与挖掘技术，提供研究者语义信息抽取、面向话题的专家搜索、权威机构搜索、话题发现和趋势分析、基于话题的社会影响力分析、研究者社会网络关系识别等众多功能。

学术文献记载着科学的发展和进步，在科技日新月异高速发展并成为“第一生产力”的今天，学术信息，包括：论文，作者和会议，以及这些实体之间的相互关系，对研究界和企业界都起着越来越重要的作用。有效进行科技论文的组织与管理不仅可以有效提高论文质量与共享方式，还能有效帮助研究人员进行学术交流，缩短科研成果产业化周期。然而，另一方面随着互联网技术的应用和普及，学术网络信息爆炸式增长，这对学术信息检索、挖掘、共享、评价等各个方面带来全新的挑战。

针对这一问题，近年涌现一些相关的学术搜索系统，如Google Scholar、Citeseer、微软的Libra和马萨诸塞州-阿默斯特大学的Rexa。然而大部分已有系统仅提供论文检索服务，例如专家推荐等高层次挖掘搜索服务方面还存在很多不足。总地来说还有许多问题亟需进一步深入研究，尤其是在研究者的脉络分析和可视化方面，目前还缺少成熟的技术方案和可用的实际系统。具体难点体现在：（1）如何从互联网自动获得研究者的语义描述信息，目前虽然已经有一些系统自动建立研究者信息，但目前语义信息抽取的精度还远不能满足实际应用的需求；（2）如何提高专家搜索的精度和推荐效果，这不仅需要对学术文献的内容进行语义分析，更需要对网络结构的分析；（3）如何对研究者网络进行深层分析和挖掘。研究者之间的合作关系多样，如何有效地实时发现研究者之间的关联网络是一个难点；（4）如何构建大规模学术知识库，构建学术知识点的发展脉络。

AMiner利用数据挖掘和社会网络分析与挖掘技术，提供研究者语义信息抽取、面向话题的专家搜索、权威机构搜索、话题发现和趋势分析、基于话题的社会影响力分析、研究者社会网络关系识别、即时社会关系图搜索、研究者能力图谱、审稿人推荐在内的众多功能，为研究者提供更全面的领域知识，和更具针对性的研究话题和合作者信息，为科研的更好发展提供服务。系统自2006年上线以来，已集成来自多个数据源的近8千万学术文献数据。这些文献数据是构建AMiner上层服务的基石。从海量文献及互联网信息中，AMiner利用信息抽取方法自动获取研究者相关信息（包括：教育背景、基本介绍）并建立研究者描述页面，提供搜索、学术评估、合作者推荐、审稿人推荐、话题趋势分析等多样化的服务。

图1给出AMiner系统的核心架构和主要功能。基于自动获取的语义信息，AMiner系统主要包括以下功能：

1. 语义数据抽取：研究者描述信息抽取、研究者兴趣挖掘、研究者账号关联、同名排歧等；

2. 搜索：研究者搜索、论文搜索、综述文献搜索、关联关系搜索以及基于话题的子图搜索；

3. 学术推荐：权威审稿人推荐、优秀论文推荐、“伯乐”推荐等；

4. 深层分析/挖掘功能：领域专家发现、热点话题发现以及论文引用模式挖掘等；

5. 知识库构建与链接：扩语言的学术知识库构建以及扩语言知识库之间的链接构建等。

截至目前，AMiner系统已收集了7900多万论文信息、3900多万研究者信息，1.3亿论文引用关系、780万知识实体以及3万多学术会议/期刊。吸引了全球220多个国家的600多万用户访问。本文主要从自动信息抽取、账号自动关联、重名排岐、专家发现以及跨语言联系来讲述AMiner所使用的核心技术。

自动信息抽取

AMiner自动从互联网中发现作者的个人主页，并从个人主页中自动抽取单位、邮箱、个人经历以及头像等信息。抽取的个人信息是基于学术网络挖掘的基础。例如，我们可以实现面向研究者的垂直搜索，比如查在UIUC读过(或在读)PhD的所有研究者。同时，利用个人的信息，如个人研究兴趣，个人社会关系，可以提高专家发现的准确度。下面从一个例子入手，介绍个人信息抽取的任务，然后给出解决方案。

首先定义研究者个人信息的描述结构（也称为研究者本体），研究者的属性包括：研究者的基本信息，如研究者的名字、照片、职位、工作单位，研究者的联系信息，如研究者的电话、传真、通讯地址、Email等，研究者的教育经历，如研究者毕业的学校、获得某个具体学位的时间、专业等，以及研究者发表的论文。具体来说，对于每个研究者，我们首先通过搜索引擎用其姓名做关键词搜索相关网页，然后利用一个二分类器判断返回的网页是否是该研究者的个人主页或者是该研究者的介绍性网页。最后通过信息抽取算法从该网页抽取研究者的个人信息，构造研究者本体的实例。图2给出了一个研究者个人主页的示例，其中包含了研究者的各种信息。例如：图的上部包含研究者照片、两个通信地址和他的Email地址，图的中间部分用自然语言描述了研究者的教育经历，图的下部提供了研究者的一些任职和所在组织的信息，图的右边显示了理想的结构化的抽取结果。

分析发现，个人信息的各个属性之间有很强的依赖关系。举例来说，研究者的名字可以帮助识别研究者的照片，因为照片的命名可能是研究者的姓或名。在描述个人的教育经历时，比如研究者获得了博士学位 (Phd)，那么获得博士学位 (Phdmajor) 的专业，获得博士学位的日期 (Phddate)很可能出现在同一句话中，或者一个列表中。比如从 “He received the Bachelor’s Degree in Analog Electronics in 1977”，识别出学士学位的专业会提高识别获得学士学位时间的精度。

手工标注研究者的个人信息比较繁琐，耗时耗力。最近的研究工作验证了自动标注的可行性和有效性，已有技术能够从网页中提取有效信息。这些技术一般都利用一个预先制定的模板，或者针对每个属性学出一个特定的模型来解决各个属性值的提取问题。但是，用这种方法分别提取单个属性效率很低，因为：(1) 对于个人信息的每一个属性，如果要使用这些方法，我们必须定义一个特定模板，或者学习一个特定模型。这些模板和模型比较难维护，训练时间也会很长（实验证明这些针对每个属性的模型训练时间要长于我们提出的统一模型）；(2) 这些特定的规则和模型不能够利用各个属性之间的依赖关系，而我们的数据特点是各个属性之间存在很强的依赖关系。通过以上分析，我们可以看出从网页中准确有效地提取各种信息是一个难题，这要求我们提出的方法必须克服以前模型的缺点才能提高语义标注的准确度。

提出的方法包括三个主要步骤：主页发现，预处理和信息标注。在主页发现中，给定研究者的名字，通过搜索引擎我们得到一系列网页。而后，我们训练一个分类器来判定这些网页是否是个人主页或者包含很多研究者信息的介绍性网页（主页发现问题已经在已有的研究中被深入研究过了，这里就不作为我们系统的重点了）。我们把确认的网页URL作为个人信息的属性Homepage的值。

预处理可分为两大步骤：(A) 把网页文本分成一个个token，这些token分属于不同的类别。(B) 对于不同类型的token，我们给他们设定不同的标签（也就是个人信息的属性）。每个网页的token相当于序列模型每一个观察到的对象，一个网页可以看作一个序列。这样，个人信息的语义标注就可以表示为token的标注。

我们定义特征，从标注好的训练样本学习标注模型，利用学到的标注模型标注新的样本。当新的未标注文本被分成token并生成这些token序列的特征后，我们利用训练好的模型，寻找最好的模拟这个token序列的标签序列，也就是序列模型中状态空间的一个取值作为标注结果。条件随机场是比较流行的序列标注模型，这里我们选择用它做个人信息的语义标注。模型的特征对模型质量有重要的影响，下面我们介绍特征的定义。条件随机场模型的一个好处是对于某个观察值，它可以引入任何形式的特征。对于每一个token单元，我们定义了四种特征，包括基于内容的特征，基于模式的特征，基于term的特征和基于格式的特征。例如，单词的形态：当前单词头一个字母是否大写，单词的词缀等；图像颜色特征：图像中有多少种不同的颜色，图像中每个像素用多少个二进制位表示；格式特征：当前token是否是黑体等。（详细算法请参考[Tang, 2010]Jie Tang, Limin Yao, Duo Zhang, and Jing Zhang. A Combination Approach to Web User Profiling. ACM Transactions on Knowledge Discovery from Data (TKDD), (vol. 5 no. 1), Article 2 (December 2010), 44 pages。）

用户多账号关联

随着社交网络快速发展，不断涌现的大规模社交网络（如Facebook，LinkedIn，新浪微博等）吸引了数以亿计用户。不同的社交网络在其功能，用户体验，目标用户群等各个方面都有不同的特点，例如Facebook是真实社交网络的线上版本，其内部的好友关系大多正是用户在线下的真实好友关系，且其好友关系是双向的；在Twitter或新浪微博上用户则更趋和自己的偶像或是意见领袖建立关系，这种关系是单向的；LinkedIn是职业化的社交网络，以便于用户更新自己展示自己的工作经历和能力水平，Google Scholar和AMiner等学术合作网络则反映了学者在发表学术论文时的合作关系。正因为每种社交网络在用户的工作和生活中都各自扮演着不同的角色，用户常常在不同的社交网络上都拥有账户。每个账户都是用户完整形象的一个局部缩影，很显然，由于分散在各个不同的社交网络，这些局部是不相互连通的。因此，AMiner通过机器学习手段，自动将多个社交网络的账户进行自动关联。

对于这一问题，我们面临许多难点。首先，获取社交网络数据很困难，鉴于这一信息的重要价值，且涉及用户隐私问题，各大互联网公司对自己拥有的社交网络数据都保持非常谨慎的态度，我们只能通过公共API获得少量不完整的数据；其次由于用户会有意或无意地在账户中略去部分个人信息，我们可以观察到的用户特征非常稀疏；同时，各个不同社交网络的用户账户信息条目是异构的，条目不能一一对应，且条目的内容表达方式也不尽相同，因而不同账户之间的相似度也无法直接度量。此外数据存在噪声信息，例如用户在一个社交网络可能存在多个账户，以及账户信息中的错误拼写甚至刻意错填的信息等等。

对于这一问题，我们需要考虑三个层面的因素。首先是用户之间的相似性，对于不同社交网络中的两个用户，我们可以从他们的用户名，账户信息，以及发表内容等方面，判断其是否是现实中的同一个人，我们将这一信息称为节点相似度；同一用户在不同社交网络中常常会有朋友圈的重叠，例如同时在微博和微信上均与某一用户是好友，我们将此称为边相似度；此外，由于两个用户是否是同一个人这一关系为对称关系，当有多个社交网络存在时，我们还应考虑逻辑传递性，即若已知A是B且B是C，则A必然是C。AMiner采用的账户自动关联算法正是综合考虑了节点相似度，边相似度以及逻辑传递性这三个层面的因素。首先，我们将不同社交网络中的账户两两配对，将问题转化为二分类问题（即判断任意配对中的两两账户是否属于同一用户）。我们将每个配对表征为特征向量，用于刻画节点之间的相似度。为了引入边相似度和逻辑传递性，我们考虑使用马尔科夫随机场对问题进行建模。图4给出了对边相似度和逻辑传递性的建模方法示意，对于两个不同社交网络之间的两个配对，若其两两在各自网络中互为好友，则在模型中倾向于使这两个配对的判断结果相同。对于任意三个社交网络中的三个存在传递关系的配对，模型倾向于使得三个配对的判定结果不违背逻辑传递性。

重名排歧

从海量文献中自动建立研究者账户是AMiner的核心功能，其中最大挑战之一即是作者的重名排歧问题。现实世界对于实体的描述是充满二义性的，人的名称指代也是其中之一。同一个人名可能被不同人使用，例如王伟、张静、李刚等。预测同时人名可以有各种变形，如缩写，前后名倒置，中间名，以及加入前后缀等等。此外AMiner同时处理中英文双语数据，这也带来了一些独特的挑战。

同名异义是电子数据库和语义社会网络中普遍存在的问题。比如：在查询一个研究者所发表的文章时，现有的系统会将所有与该研究者同名的作者的文章返回给用户，这样无疑会使用户产生混淆。而语义社会网络中，同名者的个人社会网络往往会出现错误的重叠或合并。针对这些问题，同名排歧的研究工作就显得非常重要。

目前，同名作者文章的排歧工作主要有以下难点：(1) 每篇文章的信息量有限，往往只有文章作者的名字，文章的题目，发表会议和发表时间。(2) 即使有关于文章作者的描述，比如：学校或组织机构，也会因为作者自身职位的变化而产生歧义。现有的研究工作中，有指导的学习算法要对每个排歧目标的数据进行学习和训练，方法的可扩展性差；无指导的学习方法受到可利用信息量的限制，又没有人工的指导，所以排歧效果有待提高。

针对这些问题，我们提出了基于约束的概率模型框架。首先，利用隐马尔可夫随机场理论构造目标函数，将整个问题转化为最小化目标函数问题。这里，目标函数主要包含两个部分：一部分是聚类的每个类别中数据点之间的距离，用来衡量每个聚类结果的紧密程度；另外一部分为当前聚类结果所违背的所有约束的惩罚值之和。所以，整个算法的目标就是要找到内部紧密而且尽量少违背约束的聚类结果来作为同名排歧的结果。而算法中生成约束的方法非常灵活，可以是人工的指导，也可以是通过社会网络找到文章作者之间的关系。也就是说，基于约束的概率模型框架可以灵活的将各种知识以约束的形式放到算法中，从而可以很好地利用各种指导和数据来提高精度。

在求解该问题时用到以下主要约束。所有这些约束都是定义在两篇文章之间的。第一个约束指的是两篇文章的首要作者都来自同一个组织，比如：同一个学校或者同一个研究单位。定义约束一的直观想法是来自于同一个单位而且同名的作者很可能就是同一个人，那么它们发表的文章也应该聚到一起。约束二指的是两篇文章除了首要作者名字相同之外，还有至少一个次要作者的名字也相同。定义约束二的直观想法是和同一个人合作的两个同名者很可能就是同一个人。约束三指的是两篇文章中，一篇文章引用了另外一篇文章。定义约束三的直观想法是研究者往往喜欢引用自己的文章，那么，如果两篇文章的首要作者名字相同而且存在引用关系，那么这两篇文章很可能就是同一个作者发表的。约束四指的是两篇文章的首要作者使用同一个电子邮件地址。可以看出约束四是一个很强的约束，因为电子邮件可以唯一地对作者进行标识。约束约束五指的是由用户反馈得到的约束，当用户指定两篇文章属于同一个作者时，这两篇文章之间就形成约束五。约束五可以看作是将人工指导以一种约束的形式加入到算法框架中，将算法由无指导变为半指导学习算法。

图5给出了一个重名排岐的实例。图中每个点表示一篇论文，每个有向边表示两篇论文之间的不同类型的关系，这些关系即可以转化为上述约束。两个点之间的距离反应了它们内容的相似度。实线框表示论文属于同一个作者（聚类类别）。可以非常直观地看出，仅根据内容相似度不能取得很好的聚类效果。但是不同类型的关系对于区分不同的作者非常有效。例如，根据节点3和8之间的合作关系，很容易将它们分配到同一个类别，尽管它们之间的内容相似度很低。（算法细节请参考[Tang, 2012] Jie Tang, A.C.M. Fong, Bo Wang, and Jing Zhang. A Unified Probabilistic Framework for Name Disambiguation in Digital Library. IEEE Transaction on Knowledge and Data Engineering (TKDE), Volume 24, Issue 6, 2012, Pages 975-987。）

专家发现

专家搜索是AMiner提供的主要服务之一，其根据用户查询的话题找出在相关领域的权威专家。与传统文献检索相比，专家搜索的不同之处在于，搜索对象由传统的文档变成人，一个人关联的信息相比于一个文档来说，不但数量上大幅增加，而且类型上由单一的文本扩展出非文本的信息。例如，一个研究者可以关联多篇论文，论文有文本内容信息，也有非文本的发表会议以及杂志和合作者等非文本信息。因此，信息异构化带来的挑战是，依靠传统的文本检索中使用的文本匹配方法很可能造成语义缺失、检索不够准确的问题。例如，想查找“自然语言处理”方面的专家。结果发现大多数专家不会在自己的论文中撰写“自然语言处理”的字样，因为仅依靠关键词进行匹配几乎不能返回有效的结果。而如果我们知道自然语言处理领域的权威会议是“ACL”等，根据研究者发表的会议信息可以很容易判断出他是否是该领域的权威专家。因此，需要设计一种方法有效地利用研究者的异构关联信息来发现领域专家。

我们首先建立研究者异构信息网络。与同构网络不通，异构网络中可能存在多种不通类型的网络对象，网络链接也呈现日益复杂的关系。图6给出了一个具体的研究者网络实例。在该网络中，异构实体包括：论文、研究者和会议/期刊等，网络关系包括：论文之间的引用关系，论文发表在会议/期刊上的关系，研究者撰写论文的关系等。然后基于主题模型LDA对研究者异构信息网络统一进行建模，从中估计出不同类型的实体，包括研究者、会议、关键词以及论文在不同隐含话题上的概率分布。有了这些概率分布，用户给定一个查询词，就可以推断与之概率分布相近的专家，进一步，还可以推断出相关的会议和论文等异构网络中存在的各种实体类型。具体地，建模时对于每篇论文，根据当前论文对话题的概率分布，为之生成一个隐含话题，然后根据话题对各实体的概率分布，生成该论文关联的每个单词、作者以及会议的实体。求解模型参数（各实体对话题的概率分布）可采用与LDA方法相同的Gibbs sampling算法。（相关研究请参考[Tang, 2008] Jie Tang, Jing Zhang, Limin Yao, Juanzi Li, Li Zhang, and Zhong Su. ArnetMiner: Extraction and Mining of Academic Social Networks. In Proceedings of the Fourteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD'08). pp.990-998，[Tang, 2011] Jie Tang, Jing Zhang, Ruoming Jin, Zi Yang, Keke Cai, Li Zhang, and Zhong Su. Topic Level Expertise Search over Heterogeneous Networks. Machine Learning Journal, Volume 82, Issue 2 (2011), Pages 211-237。）实践中，我们采用主题模型加权语言模型的方法进行检索。

跨语言的知识链接

AMiner正在构建和集成学术领域的知识图谱，从文献中抽取只的是概念，并与知识库进行连接，挖掘相关概念并分析知识概念的上下位关系。同时，AMiner还通过机器学习手段针对跨语言的知识库进行自动链接。

当前各类百科资源存在不同语言的知识分布极不平衡的问题。如果能够在英文维基百科和中文百度百科（或互动百科）之间有效地建立跨语言知识链接，将大大提高中英文知识的跨语言共享。图7展示了一个扩语言知识链接的实例。左边是英文维基百科上的“Anaerobic exercise”，右边是百度百科上的“无氧运动”。很多关键特征可以用来帮忙建立中英文维基之间的关联。例如，图中标出了一些有用的特征，包括标题，出链，类别和作者等。

我们充分利用维基类知识资源中的上述特征，提出基于链接因子图的异构知识库的知识链接方法和基于链接标注的增量式跨语言知识链接方法，在异构百科之间发现大规模跨语言知识链接。模型的目标是判断一个给定中英文维基页面对是否所指相同。基于链接因子图的异构知识库的知识链接方法采用链接关系的相似度进一步使用链接因子图模型对跨语言知识链接任务统一建模。具体地，如果一个中英文维基页面对被预测为相同事物，则它们各自出链的页面所组成的对也有很大概率所指为相同事物。考虑到基于链接因子图的知识链接方法主要依赖于初始种子跨语言链接集合以及词条之间的链接关系，进一步提出了基于链接标注的增量式跨语言知识链接方法，以提高跨语言知识链接的可用性。最终实验证明链接标注和增量式方法，均可有效提高跨语言知识链接的精度。（相关研究请参考[Wang, 2012] Zhichun Wang, Juanzi Li, Zhigang Wang, and Jie Tang. Cross-lingual Knowledge Linking Across Wiki Knowledge Bases. In Proceedings of the Twenty-First World Wide Web Conference (WWW'12). pp. 459-468。）

经验总结与未来展望

总之，在学术研究数据规模不断增长的今天，从海量数据中挖掘有价值的知识使用户真正获益具有极大的挑战。下面从上述四个技术点分别阐述存在的挑战以及未来可能提高的方向。

首先、异构数据提高有效信息提取的难度。例如研究者的个人主页格式五花八门，有个人撰写的，有单位统一制作的，还有Google Scholar生成的，这些不同格式要求自动抽取器能够像人脑一样非常智能地识别有效个人信息。目前处理抽取主要依靠大量训练数据来提高抽取模型的精度，未来希望能够从用户反馈的个人信息中自动识别有效特征来进一步提高抽取模型的精度。

其次、数据规模大，以及跨领域、多语言等特征造成数据合并的难度。目前收集的数据源有专业计算机领域的数据库，包括ACM和DBLP，也有面向全领域的数据源，如英文的Elsevier和中文的CNKI。这些规模庞大，来源各异的数据导致同名不同人、不同名同人、不同语言同人等问题日趋严重。有些常见人名，例如“王伟”，甚至包括跨多个领域的上千个真实个体。尽管重名排岐在过去的多年中一直有研究者不懈努力研究，但是在如此大规模数据上进行排岐还未见真实成效。Google Scholar甚至也回避此问题，简单地将所有同名的人归在一起。由此可见该问题的难度。未来可能的提高点有两个，一是在模型中加入人名常见度这一先验知识，使采用不同模型处理不同人名；二是依靠用户的个人反馈自动修正关联的错误合并结果。

再次、海量数据加大搜索有效信息的难度。目前的系统采用主题模型平滑传统语言模型来客服主题漂移的问题，但主题模型归根到底仍然逃脱不了对词共现的依赖。如果整个数据集中从来没有出现过或者极少出现过某个查询词，那么用该查询词进行检索效果依然不会很好。因此该问题仍然有待进一步提高。其可能的解决方案是让用户互打标签，标识其研究兴趣，搜索时推荐相关标签，按照标签进行搜索。

最后、知识库质量影响用户体验。目前学术知识库的构建仅称得上初见端倪。这其中仍然有很多挑战，除了之前提及的跨语言链接的问题，还存在概念上下位关系识别以及不同源之间概念链接，例如论文数据库到维基百科的链接等诸多问题。这些问题都需要深入到对信息分门别类，各个建模。（责任编辑：周建丁）

参考文献

[Basu, 2004] Basu S, Bilenko M, Mooney R J. A Probabilistic Framework for Semi-Supervised Clustering, In Proceedings of the Tenth ACM SIGKDD International Conference Knowledge Discovery and Data Mining, pp. 59-68, Seattle, USA, August 2004.

[Blei, 2003] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation. Journal of Machine Learning Research, 2003, 3:993–1022.

[Kschischang, 2001] F. Kschischang, B. Frey, and H.-A. Loeliger. Factor graphs and the sum-product algorithm. IEEE Transactions on Information Theory, 47(2):498–519, 2001.

[Lafferty,2001] Lafferty J, McCallum A, and Pereira F. 2001. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. In Proceedings of ICML2001.

[Li, 2009] Juanzi Li, Jie Tang, Yi Li, and Qiong Luo. RiMOM: A Dynamic Multi-Strategy Ontology Alignment Framework. IEEE Transaction on Knowledge and Data Engineering (TKDE). August 2009 (vol. 21 no. 8) pp. 1218-1232.

[Tang, 2008] Jie Tang, Jing Zhang, Limin Yao, Juanzi Li, Li Zhang, and Zhong Su. ArnetMiner: Extraction and Mining of Academic Social Networks. In Proceedings of the Fourteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD'08). pp.990-998.

[Tang, 2010] Jie Tang, Limin Yao, Duo Zhang, and Jing Zhang. A Combination Approach to Web User Profiling. ACM Transactions on Knowledge Discovery from Data (TKDD), (vol. 5 no. 1), Article 2 (December 2010), 44 pages.

[Tang, 2011] Jie Tang, Jing Zhang, Ruoming Jin, Zi Yang, Keke Cai, Li Zhang, and Zhong Su. Topic Level Expertise Search over Heterogeneous Networks. Machine Learning Journal, Volume 82, Issue 2 (2011), Pages 211-237.

[Tang, 2012a] Jie Tang, A.C.M. Fong, Bo Wang, and Jing Zhang. A Unified Probabilistic Framework for Name Disambiguation in Digital Library. IEEE Transaction on Knowledge and Data Engineering (TKDE), Volume 24, Issue 6, 2012, Pages 975-987.

[Tang, 2012b] Jie Tang, Sen Wu, Jimeng Sun, and Hang Su. Cross-domain Collaboration Recommendation. In Proceedings of the Eighteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD'12). pp. 1285-1293.

[Wang, 2012] Zhichun Wang, Juanzi Li, Zhigang Wang, and Jie Tang. Cross-lingual Knowledge Linking Across Wiki Knowledge Bases. In Proceedings of the Twenty-First World Wide Web Conference (WWW'12). pp. 459-468.

[Wang, 2013] Zhichun Wang, Juanzi Li, and Jie Tang. Boosting Cross-lingual Knowledge Linking via Concept Annotation. In Proceedings of the 23rd International Joint Conference on Artificial Intelligence (IJCAI'13). pp. 2733-2739.

本文为《程序员》电子刊原创文章

你可能感兴趣的:(信息抽取,兴趣挖掘,研究者社会网络,AMiner,主题挖掘,社会网络关系)

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
三大师传 beca酱
巴尔扎克的作品被誉为“法国社会的一面镜子”。文学大师维克多·雨果对巴尔扎克的评价是：“在最伟大的人物中间，巴尔扎克是名列前茅者；在最优秀的人物中间，巴尔扎克是佼佼者之一。”一个原本寂寂无名的小人物，从地中海的某个海岛上，只身一人来到巴黎，没有朋友，也没有名望。作为一个一文不名的外乡人，凭着赤手空拳赢得了巴黎，征服了整个法兰西，并且赢得了世界。这个人就是十九世纪法国伟大的军事家、政治家，法兰西第一帝
水泥质量纠纷案代理词徐宝峰律师
贵州领航建设有限公司诉贵州纳雍隆庆乌江水泥有限公司产品质量纠纷案代理词尊敬的审判长、审判员：贵州千里律师事务所接受被告贵州纳雍隆庆乌江水泥有限公司的委托，指派我担任其诉讼代理人，参加本案的诉讼活动。下面，我结合本案事实和相关法律规定发表如下代理意见，供合议庭评议案件时参考：原告应当举证证明其遭受的损失与被告生产的水泥质量的因果关系。首先水泥是一种粉状水硬性无机胶凝材料。加水搅拌后成浆体，能在空气中
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
郎朗大婚娶公主：所有光环的背后，都是十年如一日的自律简小尘
近日，关于郎朗大婚的新闻上了热搜，看了新娘的照片，既有天使般的面容，更有魔鬼般的身材，关键是人家还身世好，又有才华，这真的是让所有男人羡慕嫉妒恨哪。有些人不禁会想，“凭什么郎朗的人生就象开挂了一样，可我却每天都活得这么狼狈！”其实，每个开挂的人生背后，都是苦行僧般的自律。01欲戴王冠，必承其重。练琴不能只靠兴趣，更需要自律！我们先来看一下朗朗在小时候的作息时间表：早晨5:45起床，练琴1小时。中午
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
2023-04-17|篮球女孩长一木
1小学抑或初中阶段，在课外书了解到她的故事。“篮球女孩”。当时佩服她的顽强，也对生命多了一丝敬畏。今天刚好在公众号看到，长大后的“篮球女孩”。佩服之余又满是心疼。网络侵删祝那素未蒙面的女孩，未来一切顺遂。
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
在一台Ubuntu计算机上构建Hyperledger Fabric网络落叶无声9 区块链超级账本 Hyperledger fabric 区块链 ubuntu 构建 hyperledger fabric
在一台Ubuntu计算机上构建HyperledgerFabric网络Hyperledgerfabric是一个开源的区块链应用程序平台，为开发基于区块链的应用程序提供了一个起点。当我们提到HyperledgerFabric网络时，我们指的是使用HyperledgerFabric的正在运行的系统。即使只使用最少数量的组件，部署Fabric网络也不是一件容易的事。Fabric社区创建了一个名为Cello
把握“三度”打造“三有”干部队伍辛德瑞拉卡卡卡
“胜败兴亡之分，不得不归咎于人事也”。干部队伍建设工作的好坏，关系到党和国家的发展全局。近日，新疆维吾尔自治区党委书记马兴瑞在部分党群单位走访调研时强调，要努力培养造就忠诚干净担当的高素质专业化干部队伍。各级组织部门应当在培养选拔干部、吸收优秀青年到党内来、培养造就优秀人才上下功夫，切实增强干部投身实践、解决问题、推进工作的能力，着力打造高素质专业化干部队伍。“天生我材必有用”，增强选育有“准度”
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
读书||陶新华《教育中的积极心理学》1—28 流水淙淙2022
读一本好书，尤如和一位高尚者对话，亦能对人的精神进行洗礼。但是若不能和实践结合起来，也只能落到空读书的状态。读书摘要与感想1、塞利格曼在《持续的幸福》一书中提出了幸福2.0理论，提出幸福由5个元素决定——积极情绪、投入的工作和生活、目标和意义、和谐的人际关系、成就感。2、人的大脑皮层在进行智力活动时，都伴有皮下中枢活动，对这些活动进行体验请假，并由此产生了情感解读。人的情绪情感体验总是优先于大脑的
2022现在哪个打车软件比较好用又便宜实惠的打车软件合集高省APP珊珊
这是一个信息高速传播的社会。信息可以通过手机，微信，自媒体，抖音等方式进行传播。但同时这也是一个交通四通发达的社会。高省APP，是2022年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。珊珊导师，高省邀请码777777，注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。高
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
高级 ECharts 技巧：自定义图表主题与样式 SnowMan1993 echarts 信息可视化数据分析
ECharts是一个强大的数据可视化库，提供了多种内置主题和样式，但你也可以根据项目的设计需求，自定义图表的主题与样式。本文将介绍如何使用ECharts自定义图表主题，以提升数据可视化的吸引力和一致性。1.什么是ECharts主题？ECharts的主题是指定义图表样式的配置项，包括颜色、字体、线条样式等。通过预设主题，你可以快速更改图表的整体风格，而自定义主题则允许你在此基础上进行个性化设置。2.
展现思维导图魅力，不断挖掘人生宝藏思维导图讲师Mandy
第13期最强思维导图训练营已经结束一周了，但是我依旧是感觉所有学员还在努力的学习，这些学员中有教师、学生、白领、公务员、宝妈等等，只要你努力，只要你想改变自己，任何行业，任何岗位都可以参与进来，28天足以让你见成效，在这28天中，我们的学员不仅仅是收获了一枚毕业证，最重要的是让自己的思维方式得到升级，今天的你为自己投资，明天的你就会感谢你今天的付出，我们来听一听来自13期最强思维导图训练营优秀学员
主题升华随机抽总结木棉咕噜
昨天晚上在火山灿教练那里抽了主题升华最后一关。一共抽了两个故事，现总结如下。第一个故事是《并不是你想象的那样》。主题一：有时候，面对别人一些貌似不合常情的行为，不要轻易的指责他，也许背后有我们所不知道的原因。在这一个主题里面，刚开始的时候，我没有加上貌似二字。所以就没有改动之后这么精准。主题二：有时候我们对他人善意的行为，可能会给我们带来一些意外的回报。主题三：面对同样一件事，因为不同的人看待问题
这个世界为何对女性这么苛刻遇见知见
图片发自App当今社会的女性，简直用金刚侠来形容都不为过。虽然早已过了男尊女卑的时代，但是这个世界并没有平等的对待女性。新时代的女性标准：上得了厅堂，下得了厨房，杀得了木马，翻得了围墙，开得起好车，买得起新房，斗得过二奶，打得过流氓，生得了孩子，养得了家庭。这个社会对女性有太多的不公平，既要求女性经济独立，又要求女性贤良淑德。所有的女性的在成长过程中没有任何一项是因为你是女性而给你开绿灯的。图片发
学霸父母学渣娃，这孩子真是亲生的？太扎心了！东北SK皇家成长中心
现在的社会，每个家庭基本都把孩子的教育放在第一位，哪怕父母平时上班再苦再累也不敢在孩子的教育上有丝毫的马虎，平时对孩子的照顾真的是无微不至，每天早起送孩子上学，晚上回家辅导孩子写作业，有的父母的文化程度非常高，但是每每到了辅导孩子写作业这个时候，父母们内心都有这样一种想法，这个孩子真的是我亲生的吗？真想一巴掌拍死他，我上辈子是做了什么孽生出这么一个智障的孩子，家里每每就要上演全武行，看看这些孩子到
一个历史事件和查理一世走上断头台有很大关系，这个事件是什么？王老师聊围棋
今天我要讲的历史事件，查理一世被处死的始末。其实查理一世给被处死的时候，与一个事件有很大的联系。这个事件是“普莱德清洗”。提到这个事件，我们不得不提到一个人，这个人就是克伦威尔。可以说，查理一世能够走上断头台，克伦威尔有很大的功劳。为什么这么说呢。那我们就成英国内战的终结说起吧。我们都知道英国的内战是有保王党挑起来。在保王党军队一路凯歌进攻的同时。就在1645年6月14日，在纳西比荒原上进行最后的
《在战“疫”中成长致敬生活》观后感梅子刘的刀
（作者：周晨）今天上午，我看了“我是接班人”网络大课堂《在战役中成长致敬生活》。有很多人拿出自己攒下的钱，默默地捐给了武汉，有几千块钱的、有几万块钱的，也有十几万块钱的。连小朋友也把自己的压岁钱捐给了武汉。有名环卫工人把自己五年的积蓄全部捐给了武汉。有名外卖小哥为医护人员买鞋子送吃的。还有已经治愈出院的新型肺炎病人捐了400毫升的血浆。还有位叫大树的叔叔，虽然他没有钱，但是他地里有蔬菜，捐了几大卡
王东伟，中原焦点秦皇岛站第五期，每日分享第181天 Vivian_c8c7
《解码青春期》让孩子懂得承担责任，学会道歉。英国诗人亚历山大•蒲柏有句名言：凡人难免犯错宽恕方显神性。学会如何请求对方宽恕对于保持健康的关系至关重要。当青少年把事情搞砸的时候，他们需要从关心他们的成年人那里获得帮助。家长的目标是要培养一个能为自己的行为承担责任的青少年，培养一个敢于诚恳的承认错误，愿意真心悔改的青少年。青少年只关注自己如何委屈，而且会竭尽全力为自己的行为辩解。所以，家长得小心地拆除
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
读《人间鲁迅》有感琳语读书
上周读完《闻一多传》后，我对中国近代知识分子产生了兴趣，这周继续读了《人间鲁迅》。厚厚的两本书，记录了一个人的一生，苦痛，彷徨和挣扎，虽然只读了一小部分，却也心潮澎湃。闻一多和鲁迅是完全不同的。鲁迅是沉郁的，现实的，寂寞的，抗争的。除了天生性格的不同外，环境的塑造也是非常之大。鲁迅少年经历了家庭的变故，看尽了人间冷暖，世态炎凉。这种经历促使他很早就观察思考人生，立志用文学来改变中国国民的劣根。闻一
男女关系里的13条真理梦仔i
1、爱情是一种神奇的力量，会使人从哪里摔倒就从哪里爬起来，除非摔得感情残废了。2、男的追女的，只要男的坚持不懈，最后一般可以追到；而女的追男的，只要男的不愿意，肯定追不到；因为男人皮较厚、心较硬，而女人则相反。3、男人往往可以同时有几个同性好朋友，这些朋友可以互相认识或不认识，可以相差很大；而女人的同性好朋友往往只能有一个，且是排他的。男人的朋友可以是有男有女且年长年幼的，而女人的朋友大多是男的且
道阻且长，行则将至 sweet橘子
本文参与书香澜梦主题征文“行”文章原创首发，文责自负。我们每一个人都应该有属于自己的愿望或者是理想，人一但有了理想也就算是有了方向，它就会像灯塔一样指引我们前进的方向，哪怕是再远大的理想，如果坚持，那么我相信它就一定有收获。屈原是我最喜欢的一个浪漫主义的诗人，他曾今说过：“路漫漫其修远兮，吾将上下而求索。”人生的道路很长，但是为了实现自己的理想抱负我愿意付出我毕生的精力，只专注这一件事，因为“道阻
4招写出高价值文章 zhiliner
文章写得泛泛是因为思考得不够深，思考得越深文章会越有价值。拿到一个主题一定要去深入挖掘事件背后的东西，比如人物困境以及趋势性的东西。写作过程中有几个深度思考的方法一、解剖，让旧素材焕发新意作为一个写作者，我们能够做的最大贡献，就是给出自己看世界的角度。解剖其实就是把这个话题相关的信息都列出来，详细的列出来，看清楚它的内部。我们看到一个老话题或者一段旧素材的时候，不要只看这个素材或者话题本身，一定要
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen