qq_1744828575

动态爬虫管理平台构建与实现

摘要

随着互联网的迅速发展，Web的信息量越来越大。人们往往通过搜索引擎去从互联网上搜索想要的信息，比如:百度，谷歌，搜狗等。这类搜索引擎称之为通用搜索引擎，其为所有的用户所需的内容，但目前互联网上的信息繁杂，难于辨识，用户搜索出来的信息可能与自己想要的信息大相径庭。对于这种问题，就需要更加专业的，面向特定领域的搜索引擎来解决。
主题搜寻技术是垂直搜索引擎的重要组成部分。本文的主要目的是对主题爬虫技术的核心技术进行科学研究。主要研究方向如下：
（1）主题内容的提取是网络主题辨别的关键过程。本文综合了网页内容的特征和主题内容的相关特征，设计了一种提取网页主题内容的方法。
（2）明确提出了一种基于物理线路连接的主题辨别优化算法，以辨别网页的主题。将基于知识库系统的物理线路连接方法应用于特征提取。实验表明，该方法提高了主题网页辨别的准确性。
（3）本文基于Best-First算法，进行平台构建。平台构建是指导主题网络爬虫抓取网页的关键，本文采用基于Best-First算法的平台构建。

关键词：网络爬虫；Best-First算法；平台构建；链接
Abstract

With the rapid development of the Internet, the information online is more and more various. People often use search engines to search for the information they want from the Internet, such as: Baidu, Google, Sogou, etc. This type of search engine is called a general search engine, which provides all users with all the information they want. With the increasing amount of information on the Internet, the information that users search for may be very different from the information they want. For this kind of problem, a more professional, field-oriented search engine is needed to solve it.
The topic web crawler is a key part of the vertical search engine. This article mainly studies the key technologies in the topic web crawler. The main research contents are as follows:
(1) The extraction of subject content is an important step of web subject identification. This paper combines the distribution characteristics of web content and related features of subject content to design a web subject content extraction method.
(2) A topic recognition algorithm based on entity links is proposed to identify the topic of web pages. The entity link method based on knowledge base is applied to feature extraction. Experiments show that this method improves the accuracy of topic webpage recognition.
(3) A platform construction based on Best-First algorithm is proposed. Platform construction is the key to guiding thematic web crawlers to crawl web pages. This article uses a platform construction based on the Best-First algorithm.

Keywords: topic web crawler; entity link; Best-First algorithm; platform construction

第1章绪论 1
1.1背景与意义 1
1.2主题网络爬虫的国内外研究现状 1
1.2.1主题辨别算法及平台构建 1
1.2.2主题爬虫系统 2
1.3本文的研究内容 2
第二章主题网络爬虫的体系结构 4
2.1组成模块 4
2.1.1基本组成 4
2.1.2基本流程 5
2.2主题页面的分布特性 6
2.2.1 Hub/Authority特性 6
2.2.2 Linkage/Sibling Locality特性 6
2.2.3站点的主题特性 6
2.2.4隧道特性 6
2.3搜索策略以及链接提取 6
2.3.1 robots协议和相对链接的转换 6
2.3.2搜索策略概述 7
第三章网页主题内容抽取 8
3.1 HTML简介 8
3.2网页文件解析 8
3.3网页去噪 9
3.3.1利用统计学去噪 11
3.4主题内容的抽取 11
第四章基于实体链接的主题辨别算法 13
4.1实体链接简介 13
4.2 CN-DBpedia 13
4.3基于实体链接的特征抽取 14
4.3.1候选特征集合抽取 14
4.3.2常见特征抽取算法 16
4.3.3最终特征抽取 17
4.4基于朴素贝叶斯算法的分类器 18
第五章基于Best-First算法的平台构建 22
5.1通用搜索策略 22
5.2常用平台构建 22
5.2.1基于内容评价的搜索策略 23
5.2.2基于链接结构评价的搜索策略 23
5.3基于Best-First算法的平台构建 24
5.3.1链接价值评估 24
5.3.2平台构建 25
第六章总结与展望 28
6.1总结 28
6.2展望 28
参考文献 29
致谢 31

第1章绪论

1.1背景与意义

随着Internet的飞速发展，Internet技术信息已成倍增加。根据我国互联网信息管理中心（CNNIC）发布的第四十份《中国互联网发展状况统计报告》 [1]，数据显示：“截至2017年6月，中国互联网用户数量已达7.51亿。占全世界的五分之一。互联网技术覆盖率为54.3％；中国网站总数为506万，在一年中的大部分时间里增长了4.8％。”
如此众多的URL包括无数的网页。网页是信息的媒介。人们通常使用百度搜索和Google之类的通用搜索引擎来从Internet技术中获取所需的信息。众所周知，通用搜索引擎检索到的信息通常更为广泛。垂直搜索引擎是一个特殊的领域，它是通用搜索引擎的细分，它集成了特定行业的网页信息，然后在解决方案之后以某种方式将其返回给客户。垂直场针模块可显示特定行业，特殊客户或特殊要求的相关信息和服务项目。垂直搜索引擎专用于某个行业或技术行业，因此它们似乎更加集中，实用和深入。
主题Web爬虫，也称为焦点Web爬虫，是垂直搜索引擎的关键组件，因此对于主题Web爬虫的科学研究具有关键的现实意义。主题Web搜寻器是一个程序过程，可从Internet技术自动搜寻网页。它浏览与Internet技术相关的链接，并基于预设主题获取网页信息。通用Web爬网程序逐渐从多个种子链接开始，首先对具有种子链接的网页进行爬网，然后从该网页中提取新链接，并将其置于要爬网的顺序中，直到达到由设置的爬网完成标准系统软件或等待。爬网队列为空。相比之下，主题Web搜寻器的搜寻步骤更为复杂。在整个爬网过程中，必须预测和分析所连接主题的相似性，然后放入根据主题相似度排序的待抓取队列中。
1.2主题网络爬虫的国内外研究现状
1999年，S.Chakrabani [2]首次明确提出了焦点网络爬虫的定义，并设计了计划并完成了Focus Proiect系统软件[3]。该技术一经提出很快获得了广泛关注。在下文中，我们将从基础理论和完整的系统软件两个层面详细介绍全球主题网络爬虫的研究现状。

1.2.1主题辨别算法及平台构建
P. DeBra [4]等。建议使用Fish-Search算法作为搜寻器的搜索策略。该算法假定主题相关的网页在逻辑上连接到与最近搜索主题相关的网页。 Shark-Search搜寻器[5]基本上在Fish-Search算法上得到了改进。 Fish-Search算法使用二进制实体模型来评估主题的相关性，而Shark-Search算法则基于连接锚链接和网页的情况。所计算的主题相关内容的相关性值的[0-1]范围内的值。该算法可以改善主题搜寻器的均方误差。 Best-First爬网程序[6]由CHO J等人在1998年提出，其关键概念是构建要爬网的序列，根据查看策略对序列中的连接进行注释，然后选择最佳的连接。
Larry Page以及Sergey Brin[7]两位专家提出了PageRank算法，运用于Google搜索引擎。leinberg博士首先提出HITS算法。
Diligenti[8]利用“语境图”构造分类器来作为爬虫的搜索策略。主题页面较近的页面将会被优先抓取，认为此部分页面的主题有较好的相关性。
陈军[13]提出了一种基于网页分层的Shark-Search算法，该算法以块为基本元素来衡量网页连接结构的使用价值。
熊忠阳[14]等人提出一种基于信息自增益的主题爬虫搜索策略。
1.2.2主题爬虫系统
基于理论基础研究，来自世界各地的权威专家设计并完成了许多高效的主题爬虫系统。
（1）科学体系。Elsevier Science和FAST联合开发了 Scirus系统[15]，是一种垂直搜索的系统，可为在校学生和科研人员提供服务。有很多次，该系统都被评为了最佳垂直搜索引擎。
（2）美国数据科学公共图书馆的馆藏建设计划（CBP）系统。该系统的关键是用于科学和数学课程的在线电子书。实际操作很简单，客户只需要输入简单的查看信息内容即可查看更相关的连接。
（3）NEC研究所的CiteSeer系统。该系统是面向计算机的科学论文检索系统。
STIP系统。该系统是中科院参考信息中心实施中科院参考资源共享系统的子项目，关键是信息技术资源。
南京大学互联网技术数据收集系统（IDGS）。该系统使用匹配算法技术来完成对互联网技术中英文技术文档的自动检索。
北大天网系统[16]选择一组关键字来指示一个主题，并且网络爬虫根据对策使用这组主题关键字从Internet技术中获取数据，以便它可以尽快，全面地捕获该主题。相关信息资源。
专题数据收集系统Gsearch。由周鑫和其他人设计和完成。 Gsearch系统[17]有进行行业中市场评估分析的功能，例如公司管理决策的应用和该领域的市场需求分析。
1.3本文的研究内容
在本文中，基本的搜寻器技术基于获取导入网页的主题内容以及基于物理线路连接的主题标识优化算法辨别目标网页，而后基于Best-First算法进行平台搭建，并指挥主题网络爬虫从互联网上抓取主题相关的网页。
对本文的内容说明如下：
1）结合Web内容的普遍特征和主题内容的相关特征，提出了提取Web主题内容的设计方案。
2）在主题网页的辨别级别，选择基于物理线路连接的主题辨别算法来辨别主题网页。
3）在搜索策略中，选择了基于最佳优先算法的服务平台，以指导主题网络爬虫对主题相关的网页进行爬网。
本文共分为六章，章节安排如下：

第一章，绪论介绍了科学研究的现状和现实意义，各国主题网络爬虫的研究现状以及本文的研究方向和章节结构。
第二章主要介绍了网络爬虫的系统架构。在介绍通用Web爬网程序和主题Web爬网程序系统架构的基础上，讨论主题Web爬网程序和通用Web爬网程序之间的区别。
第三章主要介绍了网页主题内容的提取。首先介绍了HTML结构，然后介绍了网页分析以及如何解决网页噪音问题，最后讨论了如何提取网页主题内容和词性标注的相关内容。
第四章主要介绍了基于物理线路连接的主题辨别算法。本部分主要介绍主要内容有必要介绍物理线路连接以及如何在特征提取中应用主题连接，以提高主题辨别算法的准确性。
第五章基于Best-First算法构建服务平台。首先介绍通用网络爬虫的检索对策及相关算法，然后介绍了通用网络爬虫的搜索策略和相关算法的使用，接下来，介绍了其中两种主要的平台构建以及典型的算法，最后，详细阐述了本文所研究的基于Best-First算法的平台构建方法。
第六章，总结与展望本论文探讨的内容。

第二章主题网络爬虫的体系结构

2.1组成模块
2.1.1基本组成
主题网络爬虫的组成结构如图2-1：

图2-1主题网络爬虫的体系结构
如图所示主题网络爬虫分为5个部分:下载,主题内容抽取,主题网页辨别和链接评价模组。
下载组件。
对于网络爬虫，从头到尾都是免费下载网页的关键任务。免费下载控制模块必须充分考虑各个方面的因素，例如：通常使用网页的点对点传输，在点对点传输中，资源的生产调度非常重要。此外，必须设置请求超时系统以放弃等待时间太长的网页，以改善Web爬网程序的特性。
主题内容提取。
主题网络搜寻器必须对网页进行细致的分析。主题内容提取在很大程度上改变了网页的主题标识。嘈杂的内容将干扰以后识别网页主题的实际效果，因此必须消除它。除了减少噪声外，初步处理还包括实际操作，例如网页主题内容的获取，分词算法和停止词删除。
主题页标识
本文的重点是根据网页内容是否与主题相关来识别主题网页。在本文中，主题是某种类型的预设信息资源的总称。主题选择是主题信息提取的第一步。网页的主题由一组与主题相关的功能指示。
在文本中应用文本分类技术以识别网页主题。整个过程是：选择某个主题和与该主题相关的训练数据信息集，使用矩阵的特征值来表示网页，然后，利用分类算法对其进行分类。首先用特征向量表示网页，然后，利用分类算法对其进行分类。
链接主题相关性评价及抽取
首先删除突出的广告链接，然后将相对链接转换为正链接，最后评估链接的主题相关性，并将其置于要爬网的顺序中。计算链接的主题相关性时要考虑父网页和链接锚链接的主题相关性。 Web爬网程序的基本步骤可以分为两个整个过程：免费下载的整个过程和网页分析的整个过程。免费下载整个过程中的关键日常任务是从要爬网的连接序列中获取连接，然后从Internet技术免费下载网页。网页分析的关键包括两个过程：网页主题内容的提取和主题网页的标识。
2.1.2基本流程
爬虫的基本流程可以分成下载过程和网页分析过程两个过程。下载过程主要的任务是从待抓取的链接队列中获取链接然后从互联网上下载网页，网页分析主要包括网页主题内容的抽取和主题网页的辨别两个步骤。
（1）下载过程
step1生产调度控制模块从要获取的连接序列中获取连接，然后运行相应的免费下载进程总数。
step2为每个免费下载过程创建一个对话框。
Step3创建一个链接并免费下载网页。
step4中，将网页保存在本地，然后再次获取下载地址，然后转到步骤3。如果没有下载地址，则将退出该过程。
（2）网页分析过程
步骤1网页准备处理控制模块首先将初始网页构建为dom树。
步骤2提取网页中的所有锚链接和文本连接点，并将它们存储在两个容器中：锚和文本。
步骤3过滤掉不相关的节点。
步骤4过滤噪音文本。
步骤5还根据网页主题内容的特征提取网页主题内容。
步骤6对提取的网页主题内容执行词性标注解决方案。
步骤7：获取特征，并使用要分类的矩阵的特征值来表示网页。
步骤8：预先结合训练网页，并基于朴素贝叶斯优化算法训练支持向量机。支持向量机对要分类的空间向量进行分类，以区分其是否与主题有关。
如果网页与主题相关，请将该网页保存到网页库中。
步骤10从锚点获得的所有锚点连接点剔除一些链接,并评估链接的主题相关度。将新的链接及其主题相关度存到待抓取的链接队列中。
2.2主题页面的分布特性
主题页面分布需要注意的有四个特性:Hub/Authority和Linkage/siblingLocality特性，以及站点的主题特性和隧道特性，需要符合一定规范。
2.2.1 Hub/Authority特性
康奈尔大学的克莱因伯格专家教授发现，网页可以大致分为两种类型，即管理中心网页和权威网页。管理中心网页上有许多链接。网页的另一种类型是权威网页。这种类型的网页倾向于指示单个主题。专家教授Kleinberg在网页上介绍了Hub和Authority值以反映上述特征[18]，并明确提出了基于这些特征的HITS优化算法。
主题页面分布还有一种特性，即站点上的各个主题页面团往往会通过一些主题无关链接连接在一起。这些链接像
2.2.2 Linkage/Sibling Locality特性
Linkage功能是指网页中包含的链接所偏向的网页主题通常与主题相关。Sibling Locality功能是指网页上同一区域中链接的一般主题[19]。
2.2.3站点的主题特性
网站通常包含一个或多个主题。通常，有关主题的网页会聚在一起，而具有不同主题的网页的链接会更少。
2.2.4隧道特性
它是在主题页面中间粘贴跨隧道施工，这是隧道施工的特征。在整个爬行过程中，隧道施工会作用于爬行的高效性。
2.3搜索以及链接提取
检索对策是Web爬虫从Internet技术爬网网页的关键，它在很大程度上决定了Web爬虫的高效率。必须根据相关协议清除部分连接。

2.3.1 robots协议和相对链接的转换
2.3.1.1 robots.txt文件和META标签
（1）robots.txt。通常，Web爬网程序不会预期网站的某些内容。 ROBOTS开发和设计社区展示了两种解决方案：一种是robots.txt，另一种是META标签。 robots.txt是纯文本文档，其文件夹名称的小写字母存储在网址的根目录中。可以在此文件中声明不希望Web爬网程序浏览的Web地址部分。
“ robots.txt”文件包含许多记录，每个记录的文件格式如下所示：
<字段>：<可选空间> <值> <可选空间>
robots.txt文件用于描述网站的所有URL的网络搜寻器的浏览状态，而META标签是分隔实际网页的关键。
（2）META标记中没有英文区分大小写，name =“ Robots”表示对所有Web爬虫均有效，对于实际的Web爬虫，也可以将其写为name =“ BaiduSpider”。
2.3.1.2相对链接的转换
相对URL包括Web服务器相对URL和文本文档相对URL。确保URL的文件格式如下：
scheme：//服务器/路径/资源
其中：scheme特定资源使用的协议，有诸如http，mailto，ftp等协议。服务器是指资源所属的网络服务器的名称，例如www.baidu.com。路径是指到达资源的方式，例如/ 18/0402/09。资源通常是文件夹的名称，例如：DECL75C900118017.html。它可以是单独的二进制流的“简单文档”，也可以是“结构化文本文档”。精确位置资源的所有信息内容都包含在“肯定URL”中。
相对URL相对于某个网页的整体目标连接。在实际的自然环境中，Web服务器中的更改将导致错误的连接，因此相对连接偏向于同一Web服务器下的网页。如今，网页部分通常被视为特殊的网页部分，或由基本标签定义，例如，那么网页中的所有链接都为“ http：/ /mobile.163.com”作为前缀。
2.3.2搜索策略概述
为了获得更高的渗透率，通用网络爬虫通常选择图的深度和广度来解析Internet技术上的网页。主题Web爬网程序必须检索的内容始终是针对特定主题，并且不需要解是Internet上的全部内容，仅必须选择与主题相关的网页来分析。
主题网络爬虫通常使用“首选”标准从Internet技术中检索网页。每次浏览“最有用的”链接时，您都可以有效地获取大量与主题相关的网页。主题网络爬虫的不同检索策略由连接的使用价值评估方法确定。链接通常包含在网页的内容中，因此通常父网页的使用价值很高，并且包含在其中的链接通常具有较高的使用价值。因此，评论链接的使用价值通常需要分析Web内容。
第三章网页主题内容抽取
3.1 HTML简介
在此阶段，大多数网页都是用HTML编写的。网页根据Web链接连接在一起，从而创建一个间隙连接在一起的网络结构。
对于通用Web搜寻器，仅必须提取网页中的链接；众所周知，主题网络爬虫必须分析并获取网页的内容，然后评估链接的值并选择它。标签可以大致分为三类：
（1）为网页的合理布局开发标签。常见标签是

，，

，

等。
（2）描述信息内容特征的标签。有十多个常见的重要信息标签，例如 ，，，

和

。
（3）包括网页链接的标签：网页链接用于连接每个网页，以指示网页之间的关联。这样的标签是，，等。
HTML文本文档的关键由头和主体组成[20]
HTML文本文档包含以下两个部分：
（1）头部的顶部。
（2）代理主题道路部分，包括此类标签：文章标题，文本和文章段落，自动换行和非自动换行空格字符，道路标记，目录，文本属性。标签由属性和标签名称组成，属性由属性名称及其匹配的属性值组成。有些属性需要一个冒号，而有些则不需要。某些与内容无关的标签及其包含的内容可能会在文本中被忽略。这也有助于消除一些噪音。
3.2网页文件解析
HTML文件通常需用dom树来说明。而解释HTML文件的其实将字符流转化成了HTML树[21]。
以下就是一个html文件如何被html树表示。

标题

百度
网易

段落

上面的html文档的树结构如图3-1所示：

图3-1 html文件的树结构
在此阶段，有许多用于结构标签树的特殊工具，例如：htmlParser，W3C HTML词法分析器[22]等。
3.3网页去噪
许多网页包括与主题无关的内容。如图3-2所示的新闻报道网页的屏幕截图所示，可以感觉到文章正文之外的部分都是杂音。

图3-2网页的正文块
从网页的屏幕截图可以看出，除了文章正文块之外，网页的一部分还包括广告，导航栏链接和站点搜索。
在主题检索行业中，大量的噪声含量会导致主题漂移。当获取与主题相关的内容时，如果不去除初始网页中的噪声内容，通常很容易将噪声内容视为与主题相关的内容，这将作用于对网页主题的识别。
3.3.1利用统计学去噪
用统计分析进行去噪的步骤[23]如下。
删除噪音块：对网页进行降噪的基本方法是使用各种通用功能，将合理的文章正文与其他信息内容（如标题，底部和广告）区分开。共同特征之一是关联文本的比例。根据所连接文字的比例过滤掉噪音。
文章各段的划分。能够将HTML网页分为几个段落（段落）。完成此操作的简单方法是根据

之类的标签划分文章段落。
评估文章的通过。文章各段中的文本由于其视觉效果或对主题的专注程度而具有不同的权重值。为文章段落选择较高的分数，以更多地利用文章正文。
流程图如下：

图3-3去噪流程
3.4主题内容的抽取
提取网页主题内容是识别网页主题的第一步。主题内容提取的准确性立即危及网页主题标识的准确性。刘军等。 [24]（基于DOM网页主题信息内容的提取）明确提出构建文本文档域模型DOM树，然后添加诸如单词含义之类的属性来处理HTML文本文档的半结构不足的问题，并提出了一种基于聚类算法标准的分层算法，最终获得了主题信息的内容。在此基础上，根据对许多网页的分析，除了文章正文的内容块，网页的文章标题内容（标题标签的内容）和元标签的属性内容通常还包含网页的主题信息内容，因此在提取的情况下，这部分内容也应被提取。通常，网页可以分为数据库索引网页和主题网页。 Web主题的标识是针对主题网页的。
主题网页中包含的链接文本通常是与主题无关的文本，例如广告，因此应首先将其删除。以后，您还应该查找与主题无关的杂色文本，例如网页的版本号信息。通常，网页主题内容的提取和优化算法如下：
步骤1首先选择p，li，td，h1作为层次连接点
步骤2删除网页的标签和内容
步骤3获取标题徽标中的文本，然后删除标题徽标和内容
步骤4获取元徽标的特征内容的值，然后删除元徽标
步骤5在p标签上执行与3相同的实际操作。
步骤6在li标签上执行与3相同的实际操作。
步骤7对td徽标执行与3相同的实际操作
步骤8对h1徽标执行与3相同的实际操作
将标点符号“，。？；、,.?”作为分层连接点的特征。如果连接点中的文本包含此功能，则认为内容与主题相关，然后将其提取。

第四章基于实体链接的主题辨别算法

4.1实体链接简介
在详细介绍实体连接之前，首先，我们必须掌握实体的定义。实体是世界上存在的某个目标或目标的集合，并且通常通过特征来描述该实体。
实体连接是将文本中的实体描述连接到知识库系统中相应实体的整个过程[29]。实体连接中使用的知识库系统包括Wikipedia，Freebase，YAGO，DBpedia等[30]。在这个阶段，复旦数据库管理实验室的专业知识处理工厂已经建立了知识库系统，并且显示出了更全面的套接字。本文使用专业知识处理工厂提供的知识库系统和相关套接字。在一段文字中，实体连接的关键是两件事。一种是在文本中标识实体引用，另一种是将标识的实体引用与知识库系统中的相应实体相关联。因为自然语言理解中的常见现象是这种多义和混叠的情况，所以有必要基于文本中实体描述的上下文信息来澄清该实体描述所偏向的实体。因此，实体连接的关键包括两项核心技术：实体标识和实体歧义消除。实体标识[31]是指在文本中标识实体描述，该描述可能是偏向该实体的单词或句子。实体歧义消除[32]是指提供实体名称，其上下文和替代实体，并在当前上下文的上下文中区分其首选实体的整个过程。
4.2 CN-DBpedia
CN-DBpedia [33]是由复旦专业知识工厂实验室（知识工厂）开发和维护的大型通用行业结构的百度百科全书。它的前身是清华GDM中文语义网，该网最初在中国发布。它也是现阶段最大的开放式百度百科中文语义网，包含数百万个实体和数千万个连接。 CN-DBpedia以一般科学知识的沉积为主要内容，垂直深度行业图的积累为主要内容。它着重于展示丰富多彩的情况和专业知识，以了解设备的含义。有必要显示出对完成编程语言认知能力的必要支持。观点。 CN-DBpedia已从百度百科全书行业长期扩展到法律法规，工商局，金融业，文化娱乐，高科技，国防，文化教育，诊断和治疗等十多个垂直行业，显示了智能系统在各个领域中的应用支持点。知识服务项目目前有近100家公司在应用。 CN-DBpedia具有规模大，质量上乘，自动更新，API服务项丰富多彩的特点。长期以来，CN-DBpedia一直是业界向外界开放中文语义网的首选。本文的关键是使用CN-DBpedia作为知识库系统，并使用专业知识处理工厂生产的相关套接字来标识文本中的实体，然后使用所提供的套接字进行物理连接。
例如在下面的文本中:

图4.1
调用“知识工厂”接口，获取结果:

图4.2
上述cuts字段是对文章中的词进行集合的内容,而entities（字段）则是分辨出的文中实在体。
此后，再调用知识工厂提供接口，来得到知识库中的实体明细：

图4.3
其中，status状态表示套接字激活状态，ret字段名称表示获得的结果，包括实体的详细信息：拼音字母，中文名称（也称为中文），外语名称，CATEGORY_ZH，DESC。
上述整个过程是识别文本中的实体并连接到知识库系统以获得实体信息的整个过程，即实体连接的整个过程。
4.3基于实体链接的特征抽取
特征提取对于主体识别而言是特别关键的步骤。所提取的特征是否准确决定了主体识别的准确性。由于存在词性标注的问题，传统方法无法很好地提取某些主题特征。因此，本文将实体连接引入特征提取的全过程，并以知识库系统为支撑点，使其更加准确。提取主题特征。
4.3.1候选特征集合抽取
第一，在给定语料库里面选出备用特征集[34]。

图4.4
如图所示，操作步骤如下：
（1）事先准备训练语料库。预先准备有关多个主题的文本。
（2）物理连接分辨率。使用专业知识处理工厂的套接字，逐字识别与该主题有关的文本，并标记词性，并获得实体信息以从实体信息中提取大量候选特征。
（3）获得一组候选特征。删除上一步中获得的单词集的重复数据，停止单词解析，并获得一组候选特征。
从搜狗搜索语料库中，选择与“国防”主题相关的50条新闻文章作为选择候选特征的语料库。首先，使用知识工程界面标记语料库文章的内容并标识语料库文章内容的实体。由于知识库系统的支持，文章内容中的潜在功能可以被更强地细分。响应于所标识的实体，执行实体连接以获得实体的信息。如下图所示：

图4.5
如图所示，在实体“防空导弹”的实体信息中，可以提取“已知”，“类型”和“ CATEGORY_ZH”的特征并将其组合为一组候选特征。 “ DESC”功能已添加到语料库中，以获取候选功能以进一步解决。
如上所述，根据实体连接的方法，由于知识库系统的支持，一方面可以更准确地提取潜在特征，另一方面，因为用于提取特征的训练语料库相对较快。有限的。可以从实体信息中提取大量特征。
如下图所示，通过实体连接的应用程序筛选出候选功能集的情况：

图4.6
4.3.2常见特征抽取算法
在这一阶段，常见的特征选择优化算法如下：文本文档频率[35]，信息增益值[36]，互信息[37]和关键字统计分析[38]等。
（1）文档频率。
训练语料库中包含单词的文本文档总数是单词和句子的文本文档频率。这种方法的基本思想是：低频词和句子通常携带很少的信息，因此不可能很好地区分类型，因此可以删除低频词，从而降低特征水平。它还可以提高分类的准确性。
信息增益：
信息增益值（IG）用于测量在某个功能出现和未出现两种情况下系统软件所携带的信息量的误差。就文本分类而言，包括特征词t的文本文档和不包含特征词t的文本文档的频率误差是指特征词t的IG值。 IG值使用以下计算公式：
（4-1）
在公式计算中，指示语料库中类别文本文档的出现概率，指示语料库中包含词语文本文档的概率，指示当文字文档包含单词时属于该类别的条件概率，并且指示文本文档在语料库中不包含单词的概率，指示当文本文档不包含单词时在类中的条件概率，指示类型的数量。
CHI统计分析
CHI统计分析通常称为开放根统计分析，用于检测两个独立变量是否独立。在两个自变量不相互关联的前提下，外推特定观察值的偏差水平和模板的标准偏差以指示CHI值。 CHI值越大，两个自变量往往相关；反之亦然。相反，两个自变量往往是分开的。CHI统计分析
特征词和文本文档类型的相对级别也可以通过这种方式来考虑。第一个预设关键字与特定类型分开。因此，基于基本度量计算出的关键字的CHI值越大，结果和假设误差越大，并且关键字和类型越相关。因此，以这种方式进行特征选择的整个过程是测量每个关键字和类型的CHI值，并将其从大到小排列，并且第一个值就是特征。单词和句子类型的CHI值的计算方法如下：
（4-2）
互信息，也叫Mutual Information，在信息论中，互信息（MI）表示当两件事相关时呈现的信息量。互信息量越大，相关性越大。
词语和类别的互信息计算公式如下：
（4-3）
公式（4-3）中A、B、C、D和N的含义与公式（4-2）中一致。
实验表明，信息增益值可以更合理地进行特征获取，因此本文选择了信息增益值的优化算法进行特征获取。
4.3.3最终特征抽取
根据候选特征集，提取最终特征集，操作步骤如下：

图4.7
（1）计算信息增益值。测量训练语料库中候选特征集中每个特征的信息增益值。
（2）获得特征。根据信息增益值的降序，选择顶部的多个特征。
（3）获得最终特征。将特征从实体信息添加到中。
（4）在该过程中获得的特征集中，将该特征集作为最终特征集。
4.4基于朴素贝叶斯算法的分类器
本文选择支持向量机作为朴素贝叶斯优化算法的结构。
假设使用一个特征集来表示每种情况A，并且从相对有限的集合C中分配类c。现在显示训练用例和测试用例（a1，a2，…，am）的集合。
A的目标是获取实例（a1,a2,…,am）的类标记。得到：
（4 - 4）
我们现在需要做的是基于训练案例集的公式（4-14）中的两个概率值。
朴素贝叶斯分类器[39]假设在给出类标识符时特征值彼此独立。换句话说，联合概率恰好是每个独立特征的概率的乘积。实际的公式如下：
（4-5）
代入式（4-14）中，可得朴素贝叶斯分类器的分类公式：
（4-6）
其中，为x的第j个特征值表示、而概率p（c）、以及条件概率都能在计算的训练实例集中以不同类、不同特征值重组的方式，按频率计算:
（4-7）
（4-8）
其中，n是训练案例的数量，是第i个训练案例的类别标识符，是第i个训练案例的第j个特征值,为一个二值函数,当时为l,否则为0。
显然,当出现零频率属性值的时候，这种方法会导致过低估计概率。更极端的情况会使得某个概率值为0,进而导致由式（4-6）计算的整个量为0。常常使用Laplace估计来进行平滑处理进而避免上述问题,重写式（4-7）和式（4-8）得到:
（4-9）
（4-10）

其中是训练案例的第一个特征的作业数量。为训练第个属性的取值的数目。
基于实体连接的朴素贝叶斯支持向量机的总体架构如图4.8所示。

图4.8整体框架图
其工作内容如下：
（1）应用基于物理线路连接特征提取方法的svm算法。
（2）根据获得的特征组合建立朴素的贝叶斯分类器并对其进行训练。
（3）对由网络爬行器爬行的网页进行预处理，包括主体信息提取，词性标注等预处理，然后对网页进行矢量化分析。
（4）在向量化分析解决之后，使用分类器来辨别网页的主题。如果该网页属于主题类别，则将该网页保存到主题网页库中，或者放弃该网页。
4.5测试分析
本节基于主题辨别中基于物理线路连接的朴素贝叶斯分类器的实际效果的实验验证。
为了评估主题辨别的实际效果，选择了三个关键指标值：准确性（P），召回率（R）和F值[40]。准确性是指与准确辨别的主题相关的单词总数中所占的比例；均方误差是与准确辨别的主题相关的总单词数与与培训集中化的所有主题相关的总单词数的比例； F值是一种综合评估方法。假设，在训练语料库中，与主题相关、且被明确判定的文本数量是a,虽然与主题无关但被判定为主题相关的文本数目是b，而属于与主题相关但未能被判定为与主题相关的文本是c,则三个评价指标的公式：
准确性比率：
召回率：
F值：
从搜狗新闻语料库中总共提出选择了1443条文章，其中有关国防的文章587份，非军事文章856份，本章的应用明确基于物理线路连接的方式构建朴素的贝叶斯分类器并进行实验。测试结果如下：

表4.1实验结果

根据结果分析，与传统的朴素贝叶斯分类器进行比较，可以发现，引入实体链接技术后，其性能效果得到了很好的改善。

第五章基于Best-First算法的平台构建

搜索策略是爬虫预先设置的一种爬网方法，专门用于指导Internet爬虫对Internet技术上的网页进行爬网。本章基于先前经验的基础，设计主题样式搜寻器策略以专门指导主题样式搜寻器搜寻网页。
5.1通用搜索策略
网络的链接可认为是一个复杂而庞大的非连通结构[41]。按照图的遍历，一般，通用的网络爬虫可以有两种策略：广度优先策略以及深度优先的策略[42]。

图5.1网络链接结构图
图5.1是一个简单的网络框架图，其中Internet上的网页由节点表示，而连接由边缘表示。深度优先搜索的思想是，爬虫继续沿某个方向搜索，直到在该位置没有可以再次搜索的节点，然后再从另一个方向开始。例如，像5.1一样，搜寻器的搜索顺序是ABDECFG。深度和广度有限的搜索策略是从近到远逐层爬网和搜索Internet上的节点。以5.1这样的网络架构为例，其中节点A是第一级网页，节点B是第二级网页，而D，E，F和G是第三级网页。页面。因此，根据深度优先级和广度优先级选择策略，搜寻器搜寻网页的方式为ABCDEFG。
从理论上讲，这两种搜索策略都是可行的。但是，实际自然环境中的网络技术庞大而复杂。深度优先策略通常会停留在某个位置，并且一般网页的级别越长，使用价值就越低。因此，一般的爬虫通常会选择深度优先策略。众所周知，为了更好地追求普通通用爬虫的完美渗透率，捕获的资源通常具有较低的使用价值。
5.2常用平台构建
主题Web爬网程序的总体目标是对与给定主题相关的网页进行爬网。因此，有必要预测和分析所连接内容的主题相关性，然后决定是否开始爬网。与一般的搜索策略不同，该服务平台旨在在主题的特定指导下评估连接的使用价值。根据连接的主题相关性的大小，将连接插入要获取的序列中，然后选择具有较高主题相关性的连接以再次获取[43]。这样，主题网络爬虫可以尽可能快地爬网与主题相关的网页，从而提高了爬网的效率。
近年来，大体将服务平台构建的关键分为两类：一类是基于内容审查，另一类是基于连接构建[44]。
5.2.1基于内容评价的搜索策略
搜索策略主要基于分析网页和给定主题之间的相关性，以专门指导主题网络爬虫对网页进行搜索。下面的关键是在详细介绍以下优化算法的基础上分析这种搜索策略。
（1）Best-First最佳优先优化算法
最佳优先搜索是一种研究性搜索优化算法，可以看作是深度和广度优先搜索优化算法的改善。最佳优先级搜索优化算法基于深度和广度优先搜索，使用估价函数来注释将在遍历中解析的点，然后选择代价小的分析，找到整个目标连接点后，或者解析完毕所有点后才停止。用来做主题网络爬虫的搜索策略的基本思路是:对链接的价值进行评估，优先抓取价值高的链接所指向的网页。
（2）Fish-Search算法
De Bra等于提出Fish-Search算法，该算法模拟鱼群觅食行为。该算法假设每个链接就是一条鱼，该链接的页面中的链接代表鱼的后代。如果鱼找到事务，即链接找到主题相关页面，那么将继续沿这个方向继续搜索。反之，如果鱼找不到食物，则后代变得虚弱，即此方向找不到主题相关页面。经过多次寻找，直到此线路再无其他链接则从其他方向重新开始搜索。
Shark-Search算法
Fish-Search算法使用二值模型来来判断鱼是否找到食物，这样无法精确的对链接优先队列进行排序。Hersovici提出了Shark-Search算法来改进Fish-Search算法。其相关度一般在0和1之间取值[44]。
5.2.2基于链接结构评价的搜索策略
在基于链接结构评价的整个搜索中，“PageRank”算法和“Hits”算法是最经典的两种。
（1）PageRank算法
定义“入度”和“出度”的概念，“入度”是指向网页的，而“出度”则是由网页指向其他的页面的链接。PageRank算法主要是依据入度和出度，对链接价值进行评估。
页面A的PageRank的计算公式如下:
（5-1）
上述表达式中：表示的是网页A“PageRank”的值。而则表示A的网页的“PageRank”值。代表Ti出度。而d则是阻尼常数，主要起调控作用，在0到1之间取值，一般设置d为0.85。
（2）HITS算法。
HITS算法的步骤如下：
1）网页i具有两个特征分值：中心度h（i）和权威度a（i）。初始情况下，h（i）=1，a（i）=1。
2）每次通过迭代计算页面的中心度和权威度。
计算网页的中心度h（i）为：
网页的权威度a（i）为：
标准化处理：，。其中，|h（i）|表示最大中心度，而|a（i）|则是网页集合中最大的权威度。
3）继续2）步骤，计算两轮迭代权值之差，若二者差的比较小，表面系统已逐渐趋于平稳。
5.3基于Best-First算法的平台构建
5.3.1链接价值评估
Best-First算法的基本思想是构建一个待抓取链接列表，然后从中选择最有价值的链接进行搜索。通常利用页面内容与主题的相似度来对页面的价值进行评估。利用向量空间模型来表示一个页面，将欧式距离和权重计算相结合的方法计算出页面与主题之间的相关性，其计算公式如下：
（5.2）
以上公式在欧式距离计算公式的基础上进行归一化并取反处理后的公式，其中，q,p分别表示主题向量和页面特征向量，向量的维数都为n,表示特征关键字i在页面p中权重，表示k在主题向量q中的权重，权重采用TF-IDF方式计算。
公式表示，当计算值最小为0，表示网页向量与主题向量相似度最低，当计算值最大为1，此时表示网页向量与主题向量相似度最高。
一个主题相关的网页上，并非所有的链接都是主题相关的；反之，一个主题不相关的网页上不一定所有的链接都是主题无关的[46]。所以可以由两部分评价链接的价值，第一部分是链接所继承的父页面的价值。另一部分则是链接的锚文本。
可以做如下假设：父页面的向量作为d1,而链接的锚文本向量表示成d2,至于主题向量则设为q,通过前文的分析，得到最终的计算链接价值的公式:
（5.3）
5.3.2平台构建
本文所使用的检索方式原则上是依据两个队列，它们来引导爬虫获取网络上的网页地址资源。一个是待抓取链接队列，另一个是已抓取链接队列。其中，待抓取链接队列是本文搜索策略的关键。
待抓取链接队列示例:
[{depth=2, url=http://tech.sina.com.cn/mobile/n/apple/2015-02-12/081510009651.shtm l,
thematicCorrelationVal=0.8}]
待抓取链接队列结构如上所示，主要由三个元素组成：url,depth,thematicCorrelationVal。url表示待抓取的链接，depth表示链接深度，thematicCorrelationVal表示链接的计算出的主题相关度。待抓取链接队列是按照主题相关度递减排序的有序队列。
搜索策略的基本思路是：先从种子链接开始抓取，抽取页面上的链接，计算链接主题相关度，将链接按主题相关度大小插入待抓取链接队列中。详情如下图所示：

图5.2计算链接主题相关图
上图流程具体步骤如下:
（1）初始化种子列表。此步骤需要将种子列表初始化入待抓取链接列表，此步骤，将种子链接的深度设为0，主题相似度设为1。然后还需要预设抓取的深度。
（2）从待抓取链接队列中获取链接。
（3）判断待抓取的链接是否在已抓取链接队列。判断待抓取的链接是否在已抓取链接队列中，如果存在则跳到步骤（5）。
（4）丢弃待抓取链接。
（5）待抓取链接队列是否为空。判断待抓取列表是否为空，如果为空则结束。
（6）链接深度是否超过预设的抓取深度值。判断待抓取的链接的深度是否超过预设的抓取深度值，如果超过则跳转到步骤（4）。
（7）抓取页面。根据链接抓取网页。
（8）抽取页面内容及链接。
（9）计算链接的主题相似度。计算抽取出的链接的相似度，丢弃掉主题相似度为0的链接，将主题相似度大于0的链接插入到带抽取链接队列中。
（10）已经抓取过的链接放入已抓取链接队列中。将抓取过的链接放入已抓取链接队列中，然后跳转到步骤（5）。
5.3.2实验分析
实验的基本思路是：设定步长调节公式（5.3）中的参数，寻找最优的阈值。
本文选取“汽车”这个主题，选取网易和新浪这两个主流网站的链接作为种子链接。设定搜索深度depth为3,参数步长为0.1。
采用收获比的方式评价抓取效率。收获比（Harvest Rate）收获比（Harvest Rate）就是抓取到的网页中主题相关网页数目占所有抓取到的网页总数的比率。相应的计算公式如下：
（5-1）
其中，pages_downloadeds代表所抓取到的网页总数，而relevant_pages表示这些网页中与主题相关网页的数量。

图5.3网页中与主题相关网页的数量
如上图所示，当取值为0.6时能取得较好的效果。

第六章总结与展望

6.1总结
互联网的高速发展使得网络上的信息爆发时增长，信息庞大而杂乱。通用搜索引擎的内容陈旧、查全率查准率偏低、信息冗余等问题越来越不能满足用户特定的需求，所以，针对特定搜索领域的垂直搜索引擎逐渐成为研究热点。
本文在现有主题网络爬虫的研究的基础上，进一步进行探索，对于改进方式进行了详细的阐述。
为了提高爬虫对网页主题辨别的准确率，本文在网页预处理模块中，细致地分析了网页并构建了网页树，并对网页树进行减枝。然后，网页消噪也是网页预处理的重要步骤。
本文提出了基于实体链接的主题辨别算法。通过实体链接，更加准确且更多的获取到特征，从而提高主题辨别的准确性。
最后本文提出了基于Best-First算法的平台构建。通过综合父页面的主题相关度及链接锚文本的主题相似度综合评估链接的价值，然后，根据链接的价值决定抓取网页的顺序。
6.2展望
本文所设计的主题网络爬虫在搜索策略及架构方面做了一定的改进，但是还有注意一些问题。
一方面，网页的内容分析上，如果更好的去除网页的噪音，比如利用“统计学”及“视觉”。
另一方面，搜索策略上，可以尝试结合链接结构评价的方式，提高主题网络爬虫的爬行效率。

参考文献

[1]薛丽敏,吴琦,李骏.面向专用信息获取的用户定制主题网络爬虫技术研究[J].信息网络安全,2017(2).
[2]袁小玲.基于校园分布式主题网络爬虫技术基础框架实现研究[J].电子世界,2020,No.602(20):68-69.
[3]赵强.主题爬虫的关键技术[J].现代计算机:上下旬,2014.
[4]李慧,胡辉,庄冬梅.农产品供需对接系统中主题网络爬虫的设计与实现[J].现代计算机（专业版）,2015,000(003):62-65.
[5]蒋宗礼,田晓燕,赵旭.一种基于语义分析的主题爬虫算法[J].计算机工程与科学,2010,32(009):145-147,151.
[6]樊多妮,李禹生.基于Heritrix的网络主题爬虫算法研究与应用——以粮食网站交易信息为例[J].新建设：现代物业上旬刊(9期):97-100.
[7]朱学芳,韩占校.一种图像主题网络爬虫的实现方法研究[J].南京师范大学学报(工程技术版),2008,8(004):115-117.
[8]周孝锞,郭克华.基于网络爬虫和改进的LCS算法的网站更新监测[J].计算机应用与软件,2017(1).
[9]面向专用信息获取的用户定制主题网络爬虫技术探究[J].电脑编程技巧与维护,2019,403(01):33-34.
[10]杨凌云.主题网络爬虫关键技术的应用探讨[J].电脑编程技巧与维护,2018,000(011):33-35.
[11]刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(010):26-29.
[12]施磊磊,施化吉,宋玉平,等.基于Hadoop的分布式主题网络爬虫的设计与实现[J].信息技术,2015,000(007):109-112.
[13]盛亚如,魏振钢,刘蒙.基于主题网络爬虫的信息数据采集方法的研究与应用[J].电子技术与软件工程,2016,No.81(07):168-169.
[14]黄宇.分布式主题网络爬虫的设计与研究[J].黑龙江科技信息,2020,000(015):80-81.
[15]左薇,张熹,董红娟,等.主题网络爬虫研究综述[J].软件导刊,2020,v.19;No.208(02):284-287.
[16]牟宁,郭英杰,陈杰,等.面向社交网站的主题网络爬虫——以豆瓣网站为例[J].电脑知识与技术,2018,014(032):251-253.
[17]李俊,周玉英,唐志航.基于主题网络爬虫的服装信息采集[J].信息技术与信息化,2018,000(008):97-99.
[18]Drees D,Jiang X.Hierarchical Random Walker Segmentation for Large Volumetric Biomedical Data[J].2021.
[19]Ashley D,Kanervisto A,Bennett B.Back to Square One:Superhuman Performance in Chutes and Ladders Through Deep Neural Networks and Tree Search[J].2021.
[20]Madeira G,Izidoro,André,Winter S M G.Building the Galilean moons system via pebble accretion and migration:A primordial resonant chain[J].2021.
[21]Wu T,Liu Z,Huang Q,et al.Adversarial Robustness under Long-Tailed Distribution[J].2021.
[22]Yuan X,Zhao Y,Guo Y,et al.COSINE:A Web Server for Clonal and Subclonal Structure Inference and Evolution in Cancer Genomics[J].2021.
[23]Camisa A,Testa A,Notarstefano G.Multi-Robot Pickup and Delivery via Distributed Resource Allocation[J].2021.
[24]Kaiser M,Buklijas T,Gluckman P.Models and numbers:Representing the world or imposing order?[J].2021.
[25]Li Z.ANITA:An Optimal Loopless Accelerated Variance-Reduced Gradient Method[J].2021.
[26]Qiao J.An Improved Best-First Search Algorithm Based Focused Crawling Research[J].New Technology of Library and Information Service,2013.
[27]Nishizawa N,Kawai H.Unit selection algorithm based on best-first search for concatenative speech synthesis[J].Ieice Technical Report Speech,2006,105:67-72.
[28]Alhusainy M.Best-Job-First CPU Scheduling Algorithm[J].Information Technology Journal,2007,6(2).
[29]A-Husainy M.Best-Job First CPU Scheduling Algorithm[J].Information Technology Journal,2007.
[30]Marinescu R,Dechter R.Best-First AND/OR Search for Most Probable Explanations[J].Computer Science,2012.
[31]丁发梅.一种改进Best-First算法的主题爬虫搜索算法研究[D].重庆大学.
[32]Amirghasemi M.An Effective Decomposition-Based Stochastic Algorithm for Solving the Permutation Flow-Shop Scheduling Problem.2021.
[33]于林轩、李业丽、曾庆涛.PageRank算法在主题网络爬虫中的应用[J].北京印刷学院学报,2020,v.28(10):146-150.
[34]刘景发,李帆,蒋盛益.基于综合优先度和主机信息的暴雨灾害主题退火爬虫算法[J].计算机科学,2019,046(002):215-222.
[35]主题网络爬虫在校园网络平台监测中的应用研究[J].数码世界,2020,No.182(12):271-272.
[36]王鹏,郑贵省,郭强,等.基于网络爬虫的民用运力数据获取[J].军事交通学院学报,2020,v.22;No.150(01):91-94.
[37]郭锋锋.基于python的网络爬虫研究[J].佳木斯大学学报（自然科学版）,2020,038(002):62-65.
[38]郑崇明.网民眼中的政府反腐败——基于网络爬虫和结构主题模型的分析(2012-2017)[J].广州大学学报（社会科学版）,2020,019(002):91-100.
[39]刘亚琼.基于主题的社区挖掘算法[J].信息周刊,2020,000(004).1-1.
[40]孙陈娜,程祥.在线社交网络中基于主题的社交展示广告投放算法[J].2019.
[41]基于主题模型的热点新闻推荐算法研究[J].计算机科学与应用,2019,9(10):8.
[42]郑洪源.基于主题网络爬虫的程序设计资源库建设研究[J].大学教育,2019,000(009):76-79.
[43]朱熙曈.网络爬虫与KNN算法在房价分析中的应用[J].电脑编程技巧与维护,2019,No.404(02):105-106+121.
[44]宋婷婷.基于主题的多线程网络爬虫系统的研究[J].现代信息科技,2020,v.4(07):91-93+96.
[45]刘明洁,李珅,梁毅.基于网络爬虫的法律文本纠错词库构建[J].软件,2020,v.41;No.481(05):65-68.
[46]吴则建,王鹏虎,庞瑞江,等.主题网络爬虫在商业银行内部审计中的应用[J].中国内部审计,2019(11):50-53.

致谢

本论文是在我的老师悉心指导下完成的，从论文的选题、课题的执行、论文的撰写、论文的修改等各个方面都得到了老师细心的指导和帮助。大学生活中老师不仅在科研学习上给予我极大的帮助，而且在平时的生活中也给予我巨大的帮助与关心。同样，我在老师身上也学习到了很多东西，他严肃的科学态度、严谨的治学精神、精益求精的工作作风，这也将成为我在以后对待工作态度的标杆。在此我向老师表示诚挚的谢意，老师在平时的工作中的劳累以及为学生的操劳，望老师保重身体、一切顺利、万事如意。感谢毕业之际代我做毕业设计的老师，在我毕业设计中对我的帮助、关心与支持，以及师兄师姐们在我论文撰写期间以及平时生活给予我的帮助与关怀。感谢我的室友，陪我一起享受快乐的校园生活、陪我一起消磨无聊的时光、陪我一起渡过生活的难关，时刻与我共进退。感谢我的母校大学，虽然我即将毕业，但是对母校依旧怀有浓厚的感情，是母校给了我踏入社会大门的钥匙，让自己重新站到了一个新的起点上。学校给予我们无微不至的关怀，让我开心快乐的渡过校园到社会的过度阶段，给我们将来的工作生涯一个好的开始，同时给予我将来面对社会生活挑战的巨大信心。

你可能感兴趣的:(java,java)

Java集合面试“送命题”合集！这15个问题，你能答对几个？ java干货 java 面试 python
问题1：ConcurrentHashMap和Collections.synchronizedMap()有什么区别？✅答案：两者都提供线程安全的Map，但实现方式截然不同：•ConcurrentHashMap是为并发而设计的。它使用分段锁（Java7及以前）或CAS+节点级锁（Java8+），允许在不锁定整个Map的情况下进行并发的读和写，性能更高。•Collections.synchronized
【vue.js之夯实基础-3】TypeScript 入门之简介 alwarse vuejs typescript javascript vue.js
教程实例参照->入门教程详细教程参照->详细教程完全教程->完全教程什么是TypeScriptTypedJavaScriptatAnyScale.添加了类型系统的JavaScript，适用于任何规模的项目。TypeScript的特性类型系统从TypeScript的名字就可以看出来，「类型」是其最核心的特性。我们知道，JavaScript是一门非常灵活的编程语言：它没有类型约束，一个变量可能初始化时
uniapp uts 插件开发指南 ReyZhang uniapp ios原生插件与混合开发教程 uni-app uts 插件开发
一、了解基本概念1.什么是uts语言?官方：uts，全称unitypescript，统一、强类型、脚本语言。它可以被编译为不同平台的编程语言，如：web平台，编译为JavaScriptAndroid平台，编译为KotliniOS平台，编译为Swift（HX3.6.7+版本支持）harmonyOS平台，编译为ArkTS（HX4.22+版本支持）在现有架构下，ArkTS和JS在同一环境下执行，不涉及通
第06章_java常用类假装不痛 java java jvm 开发语言
6.java常用类6.1String类publicclassMain{/*1.概述1.1String:字符串，使用一对""引起来表示1.2String是声明为final的，不可被继承1.3String实现了Serializable接口：表示字符串是支持序列化的实现了Comparable接口：表示String可以比较大小1.4String内部定义了finalchar[]value用于存储字符串数据(
java课程设计体会_Java课程设计（阶段一） XY LIU java课程设计体会
1选题选题一算术运算测试题目要求实现十道100以内加减法数学题，能根据题目计算出答案，与输入答案对比，判断做题是否正确，最后计算分数。添加排行榜功能存放到文件或数据库中。使用Java知识String类IO：Reader、Writer类集合：ArrayLiastsort()方法选题二猜数游戏题目要求计算机产生随机数，猜中即胜，猜不中，提示是大了还是小了，继续猜，直至猜到，给出所用时间和评语。保留用户
java项目打包_Java项目打包方式分析 weixin_39727402 java项目打包
概述在项目实践过程中，有个需求需要做一个引擎能执行指定jar包的指定main方法。起初我们以一个简单的spring-boot项目进行测试，使用spring-boot-maven-plugin进行打包，使用java-cpdemo.jar.执行，结果报错找不到对应的类。我分析了spring-boot-maven-plugin打包的结构，又回头复习了java原生jar命令打包的结果，以及其他Maven打
java spi 好处_Java SPI 实战 Gaven Wang java spi 好处
SPI全称为(ServiceProviderInterface)，是JDK内置的一种服务提供发现机制，可以轻松实现面向服务的注册与发现，完成服务提供与使用的解耦，并且可以实现动态加载SPI能做什么利用SPI机制，sdk的开发者可以为使用者提供扩展点，使用者无需修改源码，有点类似Spring@ConditionalOnMissingBean的意思动手实现一个SPI例如我们要正在开发一个sdk其中有一
Java中的批处理优化：使用Spring Batch处理大规模数据的实践微赚淘客系统开发者@聚娃科技 java spring batch
Java中的批处理优化：使用SpringBatch处理大规模数据的实践大家好，我是微赚淘客返利系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！在处理大规模数据的场景中，批处理是一个非常常见且必要的操作。Java中的SpringBatch是一个强大的框架，能够帮助我们高效地执行复杂的批处理任务。本文将带大家了解如何使用SpringBatch处理大规模数据，并通过代码示例展示如何实现高效的批
js递归性能优化啃火龙果的兔子开发DEMO javascript 开发语言 ecmascript
JavaScript递归性能优化递归是编程中强大的技术，但在JavaScript中如果不注意优化可能会导致性能问题甚至栈溢出。以下是几种优化递归性能的方法：1.尾调用优化(TailCallOptimization,TCO)ES6引入了尾调用优化，但只在严格模式下有效：'usestrict';//普通递归functionfactorial(n){if(n===1)return1;returnn*fa
2025 VUE常见面试题 hmildj vue.js 面试前端
前言总结一些VUE面试的基础知识，共同学习1.什么是Vue？答案：Vue.js（通常简称为Vue）是一个用于构建用户界面的‌渐进式JavaScript框架，Vue3是Vue.js框架的最新版本，它引入了许多改进和优化，包括性能提升、更好的类型支持、组合API等。2.MVVM模式是什么？Vue如何体现这一模式？‌答案：MVVM将视图（View）与数据（Model）通过ViewModel层解耦，Vue
Java静态static详解 Obltv Java基础 java
更多内容请看我的个人网站date:2025-06-04tags:八股基础静态变量特点被该类的所有对象共享不属于对象，属于类优先于对象存在，随着类的加载而加载调用方式类名调用对象名调用（不推荐）静态方法没有this关键字publicclassStudent{privateStringname;privateintage;privateStringteacherName;publicvoidshow(
Java中多态的一些见解
更多内容请看我的个人网站多态初识调用成员的特点成员变量：编译看左边，运行看左边成员方法：编译看左边，运行看右边多态在调用成员变量时为什么是父类的，但是方法是子类的?一句话解释：在编译时（静态绑定），成员变量是根据引用类型（也就是声明的类型）来决定的；在运行时（动态绑定），方法是根据对象的实际类型（也就是new出来的类型）来决定的。举个经典例子classParent{publicStringname
Java中的值传递 Obltv Java基础 java 开发语言
更多内容请看我的个人网站date:2025-06-01tags:八股基础Java中只有值传递什么是值传递值传递（PassbyValue）调用方法时，传递的是参数的值，是原始数据的一个副本。方法内部改变这个副本，不影响原始数据。什么是引用传递引用传递（PassbyReference）调用方法时，传递的是变量的地址（指针），方法内部对这个引用的任何更改，都会影响原始对象的引用。举例一个方法不能修改一个
代码随想录算法训练营第52天 | 101.孤岛的总面积、102.沉没孤岛、103.水流问题、104.建造最大岛屿 Amor_Fati_Yu 算法 java 数据结构
101.孤岛的总面积importjava.util.*;publicclassMain{privatestaticintcount=0;privatestaticfinalint[][]dir={{0,1},{1,0},{-1,0},{0,-1}};//四个方向privatestaticvoidbfs(int[][]grid,intx,inty){Queueque=newLinkedList=gr
将字符串数组String[]转换成List的三种方法积极向上的Elbert java学习 java 开发语言
通过Arrays.asList(strArray)方式,将数组转换List后，不能对List增删，只能查改，否则抛异常。String[]strArray=newString[2];Listlist=Arrays.asList(strArray)；list.add("1");//此处会报错原因解析：Arrays.asList(strArray)返回值是java.util.Arrays类中一个私有静态
Java Fork/Join 框架详解 empti_ 数据结构与算法 java
JavaFork/Join框架详解Fork/Join框架是Java7引入的一个并行编程框架，专门设计用来高效地实现分治算法（Divide-and-Conquer）。它通过工作窃取（Work-Stealing）算法来最大化多核处理器的利用率。一、核心概念1.基本组成ForkJoinPool：特殊的线程池，管理工作线程ForkJoinTask：表示任务的抽象类，有两个重要子类：RecursiveAct
Java注解的实现原理 empti_ Java基础 java
Java注解的实现原理Java注解的实现涉及Java语言规范、编译器处理和JVM支持等多个层面。下面我将详细解释注解在Java中的实现机制。一、注解的本质注解本质上是一种特殊的接口，所有注解类型都隐式继承自java.lang.annotation.Annotation接口。当你定义一个注解时：public@interfaceMyAnnotation{Stringvalue();}编译器实际上会生成
并行归并排序的 Java 实现 empti_ 数据结构与算法 java 算法排序算法
并行归并排序Java实现importjava.util.concurrent.RecursiveAction;importjava.util.concurrent.ForkJoinPool;publicclassParallelMergeSort{//主方法，供外部调用publicstaticvoidparallelMergeSort(int[]array){ForkJoinPoolpool=ne
Spring Boot项目初始化加载自定义配置文件内容到静态属性字段 @Corgi Java面试题 spring boot 后端 java
文章目录创建配置文件cXXX.properties配置类XXXConfig.java添加第三方JAR包创建配置文件cXXX.properties在resource目录下新建配置文件cXXX.properties，内容如下：#商户号mch_id=xxxxx#商户密码pwd=xxxx#接口请求地址req_url=https://xxx#异步回调通知地址（请替换为实际地址）notify_url=htt
Nginx与Tomcat：谁更适合你的服务器？当归1024 java 中间件 nginx nginx tomcat 服务器
nginx和Tomcat是两种不同类型的服务器软件，它们各有不同的用途和特点：基本定义nginx轻量级的HTTP服务器和反向代理服务器主要用于静态文件服务、负载均衡、反向代理TomcatJavaWeb应用服务器专门用于运行JavaWeb应用（JSP、Servlet）主要区别1.功能定位nginx：静态文件服务器反向代理服务器负载均衡器HTTP缓存服务器Tomcat：Java应用容器JSP/Serv
Spring AI Alibaba 支持国产大模型的Spring ai框架程序员老陈头面试学习路线阿里巴巴 spring 人工智能 java
总计30万奖金，SpringAIAlibaba应用框架挑战赛开赛点此了解SpringAI：java做ai应用的最好选择过去，Java在AI应用开发方面缺乏一个高效且易于集成的框架，这限制了开发者快速构建和部署智能应用程序的能力。SpringAI正是为解决这一问题而生，它提供了一套统一的接口，使得AI功能能够以一种标准化的方式被集成到现有的Java项目中。此外，SpringAI与原有的Spring生
Node.js 全局对象 froginwe11 开发语言
Node.js全局对象引言Node.js作为一种流行的JavaScript运行环境，以其高性能、轻量级和跨平台的特点，被广泛应用于服务器端编程、网络应用开发等领域。在Node.js中，全局对象是一个重要的概念，它为开发者提供了一系列内置的全局变量和方法，使得编程变得更加便捷。本文将详细介绍Node.js的全局对象，帮助开发者更好地理解和运用它们。Node.js全局对象概述Node.js的全局对象指
企业级AI开发利器：Spring AI框架深度解析与实战_spring ai实战 AI大模型-海文人工智能 spring python 算法开发语言 java 机器学习
企业级AI开发利器：SpringAI框架深度解析与实战一、前言：Java生态的AI新纪元在人工智能技术爆发式发展的今天，Java开发者面临着一个新的挑战：如何将大语言模型（LLMs）和生成式AI（GenAI）无缝融入企业级应用。传统的Java生态缺乏统一的AI集成方案，开发者往往需要为不同AI供应商（如OpenAI、阿里云、HuggingFace）编写大量重复的接口适配代码，这不仅增加了开发成本，
009 【入门】单双链表及其反转-堆栈诠释要天天开心啊算法专栏算法链表
链表与堆栈系统详解|[数据结构]-[中级]-[通用]一、基础概念与内存模型1.按值传递vs按引用传递|[Java]-[基础]-[内存]//[典型错误示例]-Java中的引用传递陷阱voidmodify(Nodenode){node=node.next;//[警告]错误！仅修改局部引用的指向，不影响原始链表}//[正确做法]-通过引用修改对象内部状态voidrealModify(Nodenode){
深度解析JavaScript 闭包 coding随想 JavaScript javascript 开发语言 ecmascript
深度解析JavaScript闭包引言：为什么闭包让人又爱又怕？在JavaScript的学习过程中，闭包（Closure）是一个绕不开的“坎”。很多开发者第一次接触闭包时，会感到一头雾水：“为什么函数能记住外部作用域的变量？”、“为什么闭包会导致内存泄漏？”。但另一方面，闭包又是JavaScript最强大的特性之一，它支撑着模块化开发、数据封装、异步编程等核心场景。本文将通过通俗的语言和生动的案例，
JavaScript中的函数柯里化（Currying）：从概念到实战 coding随想 JavaScript javascript ecmascript 开发语言前端
JavaScript中的函数柯里化（Currying）：从概念到实战在JavaScript开发中，函数式编程（FunctionalProgramming）逐渐成为一种主流思想。而函数柯里化（Currying），正是这一思想中的核心技巧之一。它不仅能提升代码的复用性和灵活性，还能帮助我们构建更优雅、更模块化的解决方案。本文将带你从零开始，深入理解柯里化的原理、实现方式及实际应用场景。一、什么是函数柯
webpack和vite区别 PromptOnce webpack 前端 node.js
一、Webpack1.概述Webpack是一个模块打包工具，它会递归地构建依赖关系图，并将所有模块打包成一个或多个bundle（包）。2.特点配置灵活：Webpack提供了高度可定制的配置文件，可以根据项目需求进行各种优化。生态系统丰富：Webpack拥有庞大的插件和加载器生态系统，可以处理各种资源类型（JavaScript、CSS、图片等）。支持代码拆分：通过代码拆分和懒加载，Webpack可以
javascript 动态画心加文字 das白 #javascript javascript 动态心型线文字
测试//铺满屏幕varwidth=document.documentElement.clientWidth;varheight=document.documentElement.clientHeight;document.getElementById("gycanvas").setAttribute("width",width);document.getElementById("gycanvas"
javascript 动态画心 das白 #javascript javascript 动态心型线
测试canvas{background:lawngreen;//画布背景色}//铺满屏幕varwidth=document.documentElement.clientWidth;varheight=document.documentElement.clientHeight;document.getElementById("gycanvas").setAttribute("width",width
javascript 画心型线
测试canvas{background:lawngreen;//画布背景色}//铺满屏幕varwidth=document.documentElement.clientWidth;varheight=document.documentElement.clientHeight;document.getElementById("gycanvas").setAttribute("width",width
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st

动态爬虫管理平台构建与实现

摘 要

目 录

第1章 绪论

第二章 主题网络爬虫的体系结构

和

第四章 基于实体链接的主题辨别算法

第五章 基于Best-First算法的平台构建