weixin_30369041

网络爬虫

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫

产生背景

编辑

随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine)，例如传统的通用搜索引擎AltaVista，Yahoo!和Google等，作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性，如：

(1)不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。

(2)通用搜索引擎的目标是尽可能大的网络覆盖率，有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。

(3) 万维网数据形式的丰富和网络技术的不断发展，图片、数据库、音频、视频多媒体等不同数据大量出现，通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力，不能很好地发现和获取。

(4)通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询。

网络爬虫

为了解决上述问题，定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息。与通用爬虫(general purpose web crawler)不同，聚焦爬虫并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。

1 聚焦爬虫工作原理以及关键技术概述

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

相对于通用网络爬虫，聚焦爬虫还需要解决三个主要问题：

(1) 对抓取目标的描述或定义；

(2) 对网页或数据的分析与过滤；

(3) 对URL的搜索策略。

面临的问题

编辑

截止到 2007 年底，Internet 上网页数量超出 160 亿个，研究表明接近 30%的页面是重复的；动态页面的存在：客户端、服务器端脚本语言的应用使得指向相同 Web 信息的 URL 数量呈指数级增长。上述特征使得网络爬虫面临一定的困难，主要体现在 Web 信息的巨大容量使得爬虫在给定时间内只能下载少量网页。 Lawrence 和 Giles 的研究表明没有哪个搜索引擎能够索引超出 16%的Internet 上 Web 页面，即使能够提取全部页面，也没有足够的空间来存储[1] 。

为提高爬行效率，爬虫需要在单位时间内尽可能多的获取高质量页面，是它面临的难题之一。当前有五种表示页面质量高低的方式[1]：Similarity（页面与爬行主题之间的相似度）、Backlink（页面在 Web 图中的入度大小）、PageRank（指向它的所有页面平均权值之和）、Forwardlink（页面在 Web 图中的出度大小）、Location（页面的信息位置）；Parallel（并行性问题）[3]。为了提高爬行速度，网络通常会采取并行爬行的工作方式，随之引入了新的问题：重复性（并行运行的爬虫或爬行线程同时运行时增加了重复页面）、质量问题（并行运行时，每个爬虫或爬行线程只能获取部分页面，导致页面质量下降）、通信带宽代价（并行运行时，各个爬虫或爬行线程之间不可避免要进行一些通信）。并行运行时，网络爬虫通常采用三种方式：独立方式（各个爬虫独立爬行页面，互不通信）、动态分配方式（由一个中央协调器动态协调分配 URL 给各个爬虫）、静态分配方式（URL 事先划分给各个爬虫）[1] 。

分类

编辑

网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫（General Purpose Web Crawler）、聚焦网络爬虫（Focused Web Crawler）、增量式网络爬虫（Incremental Web Crawler）、深层网络爬虫（Deep Web Crawler）。实际的网络爬虫系统通常是几种爬虫技术相结合实现的[1] 。

通用网络爬虫

通用网络爬虫又称全网爬虫（Scalable Web Crawler），爬行对象从一些种子 URL 扩充到整个 Web，主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。由于商业原因，它们的技术细节很少公布出来。这类网络爬虫的爬行范围和数量巨大，对于爬行速度和存储空间要求较高，对于爬行页面的顺序要求相对较低，同时由于待刷新的页面太多，通常采用并行工作方式，但需要较长时间才能刷新一次页面。虽然存在一定缺陷，通用网络爬虫适用于为搜索引擎搜索广泛的主题，有较强的应用价值[1] 。

通用网络爬虫的结构大致可以分为页面爬行模块、页面分析模块、链接过滤模块、页面数据库、URL 队列、初始 URL 集合几个部分。为提高工作效率，通用网络爬虫会采取一定的爬行策略。常用的爬行策略有：深度优先策略、广度优先策略[1] 。

1) 深度优先策略：其基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止。爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接。当所有链接遍历完后，爬行任务结束。这种策略比较适合垂直搜索或站内搜索，但爬行页面内容层次较深的站点时会造成资源的巨大浪费[1] 。

2) 广度优先策略：此策略按照网页内容目录层次深浅来爬行页面，处于较浅目录层次的页面首先被爬行。当同一层次中的页面爬行完毕后，爬虫再深入下一层继续爬行。这种策略能够有效控制页面的爬行深度，避免遇到一个无穷深层分支时无法结束爬行的问题，实现方便，无需存储大量中间节点，不足之处在于需较长时间才能爬行到目录层次较深的页面[1] 。

聚焦网络爬虫

聚焦网络爬虫（Focused Crawler），又称主题网络爬虫（Topical Crawler），是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫[8]。和通用网络爬虫相比，聚焦爬虫只需要爬行与主题相关的页面，极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快，还可以很好地满足一些特定人群对特定领域信息的需求[1] 。

聚焦网络爬虫和通用网络爬虫相比，增加了链接评价模块以及内容评价模块。聚焦爬虫爬行策略实现的关键是评价页面内容和链接的重要性，不同的方法计算出的重要性不同，由此导致链接的访问顺序也不同[1] 。

1) 基于内容评价的爬行策略：DeBra将文本相似度的计算方法引入到网络爬虫中，提出了 Fish Search 算法，它将用户输入的查询词作为主题，包含查询词的页面被视为与主题相关，其局限性在于无法评价页面与主题相关度的高低。 Herseovic对 Fish Search 算法进行了改进，提出了 Sharksearch 算法，利用空间向量模型计算页面与主题的相关度大小[1] 。

2) 基于链接结构评价的爬行策略：Web 页面作为一种半结构化文档，包含很多结构信息，可用来评价链接重要性。 PageRank 算法最初用于搜索引擎信息检索中对查询结果进行排序，也可用于评价链接重要性，具体做法就是每次选择 PageRank 值较大页面中的链接来访问。另一个利用 Web结构评价链接价值的方法是 HITS 方法，它通过计算每个已访问页面的 Authority 权重和 Hub 权重，并以此决定链接的访问顺序[1] 。

3) 基于增强学习的爬行策略：Rennie 和 McCallum 将增强学习引入聚焦爬虫，利用贝叶斯分类器，根据整个网页文本和链接文本对超链接进行分类，为每个链接计算出重要性，从而决定链接的访问顺序[1] 。

4) 基于语境图的爬行策略：Diligenti 等人提出了一种通过建立语境图（Context Graphs）学习网页之间的相关度，训练一个机器学习系统，通过该系统可计算当前页面到相关 Web 页面的距离，距离越近的页面中的链接优先访问。印度理工大学（IIT）和 IBM 研究中心的研究人员开发了一个典型的聚焦网络爬虫。该爬虫对主题的定义既不是采用关键词也不是加权矢量，而是一组具有相同主题的网页。它包含两个重要模块：一个是分类器，用来计算所爬行的页面与主题的相关度，确定是否与主题相关；另一个是净化器，用来识别通过较少链接连接到大量相关页面的中心页面[1] 。

增量式网络爬虫

增量式网络爬虫（Incremental Web Crawler）是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫，它能够在一定程度上保证所爬行的页面是尽可能新的页面。和周期性爬行和刷新页面的网络爬虫相比，增量式爬虫只会在需要的时候爬行新产生或发生更新的页面，并不重新下载没有发生变化的页面，可有效减少数据下载量，及时更新已爬行的网页，减小时间和空间上的耗费，但是增加了爬行算法的复杂度和实现难度。增量式网络爬虫的体系结构[包含爬行模块、排序模块、更新模块、本地页面集、待爬行 URL 集以及本地页面URL 集[1] 。

增量式爬虫有两个目标：保持本地页面集中存储的页面为最新页面和提高本地页面集中页面的质量。为实现第一个目标，增量式爬虫需要通过重新访问网页来更新本地页面集中页面内容，常用的方法有：1) 统一更新法：爬虫以相同的频率访问所有网页，不考虑网页的改变频率；2) 个体更新法：爬虫根据个体网页的改变频率来重新访问各页面；3) 基于分类的更新法：爬虫根据网页改变频率将其分为更新较快网页子集和更新较慢网页子集两类，然后以不同的频率访问这两类网页[1] 。

为实现第二个目标，增量式爬虫需要对网页的重要性排序，常用的策略有：广度优先策略、PageRank 优先策略等。IBM 开发的 WebFountain是一个功能强大的增量式网络爬虫，它采用一个优化模型控制爬行过程，并没有对页面变化过程做任何统计假设，而是采用一种自适应的方法根据先前爬行周期里爬行结果和网页实际变化速度对页面更新频率进行调整。北京大学的天网增量爬行系统旨在爬行国内 Web，将网页分为变化网页和新网页两类，分别采用不同爬行策略。为缓解对大量网页变化历史维护导致的性能瓶颈，它根据网页变化时间局部性规律，在短时期内直接爬行多次变化的网页，为尽快获取新网页，它利用索引型网页跟踪新出现网页[1] 。

Deep Web 爬虫

Web 页面按存在方式可以分为表层网页（Surface Web）和深层网页（Deep Web，也称 Invisible Web Pages 或 Hidden Web）。表层网页是指传统搜索引擎可以索引的页面，以超链接可以到达的静态网页为主构成的 Web 页面。Deep Web 是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的 Web 页面。例如那些用户注册后内容才可见的网页就属于 Deep Web。 2000 年 Bright Planet 指出：Deep Web 中可访问信息容量是 Surface Web 的几百倍，是互联网上最大、发展最快的新型信息资源[1] 。

Deep Web 爬虫体系结构包含六个基本功能模块（爬行控制器、解析器、表单分析器、表单处理器、响应分析器、LVS 控制器）和两个爬虫内部数据结构（URL 列表、LVS 表）。其中 LVS（Label Value Set）表示标签/数值集合，用来表示填充表单的数据源[1] 。

Deep Web 爬虫爬行过程中最重要部分就是表单填写，包含两种类型：

1) 基于领域知识的表单填写：此方法一般会维持一个本体库，通过语义分析来选取合适的关键词填写表单。 Yiyao Lu[25]等人提出一种获取 Form 表单信息的多注解方法，将数据表单按语义分配到各个组中，对每组从多方面注解，结合各种注解结果来预测一个最终的注解标签；郑冬冬等人利用一个预定义的领域本体知识库来识别 Deep Web 页面内容，同时利用一些来自 Web 站点导航模式来识别自动填写表单时所需进行的路径导航[1] 。

2) 基于网页结构分析的表单填写：此方法一般无领域知识或仅有有限的领域知识，将网页表单表示成 DOM 树，从中提取表单各字段值。 Desouky 等人提出一种 LEHW 方法，该方法将 HTML 网页表示为DOM 树形式，将表单区分为单属性表单和多属性表单，分别进行处理；孙彬等人提出一种基于 XQuery 的搜索系统，它能够模拟表单和特殊页面标记切换，把网页关键字切换信息描述为三元组单元，按照一定规则排除无效表单，将 Web 文档构造成 DOM 树，利用 XQuery 将文字属性映射到表单字段[1] 。

Raghavan 等人提出的 HIWE 系统中，爬行管理器负责管理整个爬行过程，分析下载的页面，将包含表单的页面提交表单处理器处理，表单处理器先从页面中提取表单，从预先准备好的数据集中选择数据自动填充并提交表单，由爬行控制器下载相应的结果页面[1] 。

抓取目标的描述和定义

编辑

抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL 排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。

现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。

基于目标网页特征

基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样本获取方式可分为：

（1）预先给定的初始抓取种子样本；

（2）预先给定的网页分类目录和与分类目录对应的种子样本，如Yahoo!分类结构等；

（3）通过用户行为确定的抓取目标样例，分为：

(a) 用户浏览过程中显示标注的抓取样本；

(b) 通过用户日志挖掘得到访问模式及相关样本。

其中，网页特征可以是网页的内容特征，也可以是网页的链接结构特征，等等。

基于目标数据模式

基于目标数据模式的爬虫针对的是网页上的数据，所抓取的数据一般要符合一定的模式，或者可以转化或映射为目标数据模式。

基于领域概念

另一种描述方式是建立目标领域的本体或词典，用于从语义角度分析不同特征在某一主题中的重要程度。

网页搜索策略

编辑

网页的抓取策略可以分为深度优先、广度优先和最佳优先三种。深度优先在很多情况下会导致爬虫的陷入(trapped)问题，目前常见的是广度优先和最佳优先方法。

广度优先搜索

广度优先搜索策略是指在抓取过程中，在完成当前层次的搜索后，才进行下一层次的搜索。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页，一般使用广度优先搜索方法。也有很多研究将广度优先搜索策略应用于聚焦爬虫中。其基本思想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。另外一种方法是将广度优先搜索与网页过滤技术结合使用，先用广度优先策略抓取网页，再将其中无关的网页过滤掉。这些方法的缺点在于，随着抓取网页的增多，大量的无关网页将被下载并过滤，算法的效率将变低。

最佳优先搜索

最佳优先搜索策略按照一定的网页分析算法，预测候选URL与目标网页的相似度，或与主题的相关性，并选取评价最好的一个或几个URL进行抓取。它只访问经过网页分析算法预测为“有用”的网页。存在的一个问题是，在爬虫抓取路径上的很多相关网页可能被忽略，因为最佳优先策略是一种局部最优搜索算法。因此需要将最佳优先结合具体的应用进行改进，以跳出局部最优点。将在第4节中结合网页分析算法作具体的讨论。研究表明，这样的闭环调整可以将无关网页数量降低30%~90%。

深度优先搜索

深度优先搜索策略从起始网页开始，选择一个URL进入，分析这个网页中的URL，选择一个再进入。如此一个链接一个链接地抓取下去，直到处理完一条路线之后再处理下一条路线。深度优先策略设计较为简单。然而门户网站提供的链接往往最具价值， PageRank也很高，但每深入一层，网页价值和PageRank都会相应地有所下降。这暗示了重要网页通常距离种子较近，而过度深入抓取到的网页却价值很低。同时，这种策略抓取深度直接影响着抓取命中率以及抓取效率，对抓取深度是该种策略的关键。相对于其他两种策略而言。此种策略很少被使用。

网页分析算法

编辑

网页分析算法可以归纳为基于网络拓扑、基于网页内容和基于用户访问行为三种类型。

拓扑分析算法

基于网页之间的链接，通过已知的网页或数据，来对与其有直接或间接链接关系的对象（可以是网页或网站等）作出评价的算法。又分为网页粒度、网站粒度和网页块粒度这三种。

1 网页(Webpage)粒度的分析算法

PageRank和 HITS算法是最常见的链接分析算法，两者都是通过对网页间链接度的递归和规范化计算，得到每个网页的重要度评价。PageRank算法虽然考虑了用户访问行为的随机性和Sink网页的存在，但忽略了绝大多数用户访问时带有目的性，即网页和链接与查询主题的相关性。针对这个问题，HITS算法提出了两个关键的概念：权威型网页（authority）和中心型网页（hub）。

基于链接的抓取的问题是相关页面主题团之间的隧道现象，即很多在抓取路径上偏离主题的网页也指向目标网页，局部评价策略中断了在当前路径上的抓取行为。文献[21]提出了一种基于反向链接（BackLink）的分层式上下文模型（Context Model），用于描述指向目标网页一定物理跳数半径内的网页拓扑图的中心Layer0为目标网页，将网页依据指向目标网页的物理跳数进行层次划分，从外层网页指向内层网页的链接称为反向链接。

2 网站粒度的分析算法

网站粒度的资源发现和管理策略也比网页粒度的更简单有效。网站粒度的爬虫抓取的关键之处在于站点的划分和站点等级(SiteRank)的计算。SiteRank的计算方法与PageRank类似，但是需要对网站之间的链接作一定程度抽象，并在一定的模型下计算链接的权重。

网站划分情况分为按域名划分和按IP地址划分两种。文献[18]讨论了在分布式情况下，通过对同一个域名下不同主机、服务器的IP地址进行站点划分，构造站点图，利用类似PageRank的方法评价SiteRank。同时，根据不同文件在各个站点上的分布情况，构造文档图，结合SiteRank分布式计算得到DocRank。文献[18]证明，利用分布式的SiteRank计算，不仅大大降低了单机站点的算法代价，而且克服了单独站点对整个网络覆盖率有限的缺点。附带的一个优点是，常见PageRank 造假难以对SiteRank进行欺骗。

3 网页块粒度的分析算法

在一个页面中，往往含有多个指向其他页面的链接，这些链接中只有一部分是指向主题相关网页的，或根据网页的链接锚文本表明其具有较高重要性。但是，在PageRank和HITS算法中，没有对这些链接作区分，因此常常给网页分析带来广告等噪声链接的干扰。在网页块级别(Block?level)进行链接分析的算法的基本思想是通过VIPS网页分割算法将网页分为不同的网页块(page block)，然后对这些网页块建立page?to?block和block?to?page的链接矩阵，?分别记为Z和X。于是，在page?to?page图上的网页块级别的PageRank为?W?p=X×Z；?在block?to?block图上的BlockRank为?W?b=Z×X。已经有人实现了块级别的PageRank和HITS算法，并通过实验证明，效率和准确率都比传统的对应算法要好。

网页内容分析算法

基于网页内容的分析算法指的是利用网页内容（文本、数据等资源）特征进行的网页评价。网页的内容从原来的以超文本为主，发展到后来动态页面（或称为Hidden Web）数据为主，后者的数据量约为直接可见页面数据（PIW，Publicly Indexable Web）的400~500倍。另一方面，多媒体数据、Web Service等各种网络资源形式也日益丰富。因此，基于网页内容的分析算法也从原来的较为单纯的文本检索方法，发展为涵盖网页数据抽取、机器学习、数据挖掘、语义理解等多种方法的综合应用。本节根据网页数据形式的不同，将基于网页内容的分析算法，归纳以下三类：第一种针对以文本和超链接为主的无结构或结构很简单的网页；第二种针对从结构化的数据源（如RDBMS）动态生成的页面，其数据不能直接批量访问；第三种针对的数据界于第一和第二类数据之间，具有较好的结构，显示遵循一定模式或风格，且可以直接访问。

基于文本的网页分析算法

1) 纯文本分类与聚类算法

很大程度上借用了文本检索的技术。文本分析算法可以快速有效的对网页进行分类和聚类，但是由于忽略了网页间和网页内部的结构信息，很少单独使用。

2) 超文本分类和聚类算法

根据网页链接网页的相关类型对网页进行分类，依靠相关联的网页推测该网页的类型。

补充

编辑

这些处理被称为网络抓取或者蜘蛛爬行。很多站点，尤其是搜索引擎，都使用爬虫提供最新的数据，它主要用于提供它访问过页面的一个副本，然后，搜索引擎就可以对得到的页面进行索引，以提供快速的访问。蜘蛛也可以在web上用来自动执行一些任务，例如检查链接，确认html代码；也可以用来抓取网页上某种特定类型信息，例如抓取电子邮件地址（通常用于垃圾邮件）。

一个网络蜘蛛就是一种机器人，或者软件代理。大体上，它从一组要访问的URL链接开始，可以称这些URL为种子。爬虫访问这些链接，它辨认出这些页面的所有超链接，然后添加到这个URL列表，可以称作检索前沿。这些URL按照一定的策略反复访问。

1. 爬行策略

下述的三种网络特征，造成了设计网页爬虫抓取策略变得很难：

 它巨大的数据量；

 它快速的更新频率；

 动态页面的产生

它们三个特征一起产生了很多种类的爬虫抓取链接。

巨大的数据量暗示了爬虫，在给定的时间内，只可以抓取所下载网络的一部分，所以，它需要对它的抓取页面设置优先级；快速的更新频率说明在爬虫抓取下载某网站一个网页的时候，很有可能在这个站点又有新的网页被添加进来，或者这个页面被更新或者删除了。

最近新增的很多页面都是通过服务器端脚本语言产生的，无穷的参数组合也增加了爬虫抓取的难度，只有一小部分这种组合会返回一些独特的内容。例如，一个很小照片存储库仅仅通过get方式可能提供就给用户三种操作方式。如果这里存着四种分类方式，三种缩略图方式，两种文件格式，和一个禁止用户提供内容的选项，那么，同样的内容就可以通过48种方式访问。这种数学组合给网络爬虫创造的难处就是，为了获取不同的内容，他们必须筛选无穷仅有微小变化的组合。

正如爱德华等人所说的：“用于检索的带宽不是无限的，也不是免费的；所以，如果引入衡量爬虫抓取质量或者新鲜度的有效指标的话，不但伸缩性，连有效性都将变得十分必要”（爱德华等人，2001年）。一个爬虫就必须小心的选择下一步要访问什么页面。网页爬虫的行为通常是四种策略组合的结果。

♦ 选择策略，决定所要下载的页面；

♦ 重新访问策略，决定什么时候检查页面的更新变化；

♦ 平衡礼貌策略，指出怎样避免站点超载；

♦ 并行策略，指出怎么协同达到分布式抓取的效果；

1.1 选择策略：

就现在网络资源的大小而言，即使很大的搜索引擎也只能获取网络上可得到资源的一小部分。由劳伦斯河盖尔斯共同做的一项研究指出，没有一个搜索引擎抓取的内容达到网络的16%(劳伦斯河盖尔斯，2001)。网络爬虫通常仅仅下载网页内容的一部分，但是大家都还是强烈要求下载的部分包括最多的相关页面，而不仅仅是一个随机的简单的站点。

这就要求一个公共标准来区分网页的重要程度，一个页面的重要程度与他自身的质量有关，与按照链接数、访问数得出的受欢迎程度有关，甚至与他本身的网址（后来出现的把搜索放在一个顶级域名或者一个固定页面上的垂直搜索）有关。设计一个好的搜索策略还有额外的困难，它必须在不完全信息下工作，因为整个页面的集合在抓取时是未知的。

Cho等人（Cho et al，1998）做了第一份抓取策略的研究。他们的数据是斯坦福大学网站中的18万个页面，使用不同的策略分别模仿抓取。排序的方法使用了广度优先，后链计数，和部分pagerank算法。计算显示，如果你想要优先下载pagerank高的页面，那么，部分PageRank策略是比较好的，其次是广度优先和后链计数。并且，这样的结果仅仅是针对一个站点的。

Najork和Wiener (Najork and Wiener, 2001)采用实际的爬虫，对3.28亿个网页，采用广度优先研究。他们发现广度优先会较早的抓到PageRank高的页面（但是他们没有采用其他策略进行研究）。作者给出的解释是：“最重要的页面会有很多的主机连接到他们，并且那些链接会较早的发现，而不用考虑从哪一个主机开始。”

Abiteboul (Abiteboul 等人, 2003)，设计了一种基于OPIC（在线页面重要指数）的抓取战略。在OPIC中，每一个页面都有一个相等的初始权值，并把这些权值平均分给它所指向的页面。这种算法与Pagerank相似，但是他的速度很快，并且可以一次完成。OPIC的程序首先抓取获取权值最大的页面，实验在10万个幂指分布的模拟页面中进行。并且，实验没有和其它策略进行比较，也没有在真正的WEB页面测试。

Boldi等人(Boldi et al., 2004)的模拟检索实验进行在从.it网络上取下的4000万个页面和从webbase得到的1亿个页面上，测试广度优先和深度优先，随机序列和有序序列。比较的基础是真实页面pageRank值和计算出来的pageRank值的接近程度。令人惊奇的是，一些计算pageRank很快的页面（特别明显的是广度优先策略和有序序列）仅仅可以达到很小的接近程度。

Baeza-Yates等人(Baeza-Yates et al., 2005) 在从.gr域名和.cl域名子网站上获取的300万个页面上模拟实验，比较若干个抓取策略。结果显示OPIC策略和站点队列长度，都比广度优先要好；并且如果可行的话，使用之前的爬行抓取结果来指导这次抓取，总是十分有效的。

Daneshpajouh等人(Daneshpajouh et al., 2008)设计了一个用于寻找好种子的社区。它们从来自不同社区的高PageRank页面开始检索的方法，迭代次数明显小于使用随机种子的检索。使用这种方式，可以从以前抓取页面之中找到好的种子，使用这些种子是十分有效的。

1.1.1 限定访问链接

一个爬虫可能仅仅想找到html页面的种子而避免其他的文件类型。为了仅仅得到html的资源，一个爬虫可以首先做一个http head的请求，以在使用request方法获取所有的资源之前，决定这个网络文件的类型。为了避免要发送过多的head请求，爬虫可以交替的检查url并且仅仅对以html，htm和反斜杠结尾的文件发送资源请求。这种策略会导致很多的html资源在无意中错过，一种相似的策略是将网络资源的扩展名同已知是html文件类型的一组扩展名（如.html,.htm,.asp,.php,.aspx,反斜杠）进行比较。

一些爬虫也会限制对任何含有“？”的资源（这些是动态生成的）进行获取请求，以避免蜘蛛爬行在某一个站点中陷入下载无穷无尽的URL的困境。

1.1.2 路径检索

一些爬虫会尽可能多的尝试下载一个特定站点的资源。Cothey(Cothey,2004)引入了一种路径检索的爬虫，它会尝试抓取需要检索资源的所有URL。例如，给定一个种子地址：它将会尝试检索/hamster/menkey/,/hamster/和/ 。Cothey发现路径检索对发现独立资源，或者一些通常爬虫检索不到的的连接是非常有效的。

一些路径检索的爬虫也被称为收割机软件，因为他们通常用于收割或者收集所有的内容，可能是从特定的页面或者主机收集相册的照片。

1.1.3 聚焦抓取

爬虫所抓取页面的重要程度也可以表述成它与给定查询之间相似程度的函数。网络爬虫尝试下载相似页面，可以称为聚焦检索或者主题检索。关于主题检索和聚焦检索的概念，最早是由Menczer（Menczer 1997; Menczer and Belew, 1998）和Chakrabarti等人首先提出来的(Chakrabarti et al., 1999)。

聚焦检索的主要问题是网页爬虫的使用环境，我们希望在实际下载页面之前，就可以知道给定页面和查询之间的相似度。一个可能的方法就是在链接之中设置锚点，这就是在早期时候，Pinkerton（Pinkerton，1994）曾经在一个爬虫中采用的策略。Diligenti等人（Diligenti等人，2000）建议使用已经抓取页面的内容去推测查询和未访问页的相似度。一个聚焦查询的表现的好坏主要依赖于查询主题内容的丰富程度，通常还会依赖页面查询引擎提供的查询起点。

1.1.4 抓取深层的网页

很多的页面隐藏的很深或隐藏在在看不到的网络之中。这些页面通常只有在向数据库提交查询的时候才可以访问到，如果没有链接指向他们的话，一般的爬虫是不能访问到这些页面的。谷歌站点地图协议和mod oai（Nelson等人，2005）尝试允许发现这些深层次的资源。

深层页面抓取器增加了抓取网页的链接数。一些爬虫仅仅抓取形如

1.1.5 WEB3.0检索

Web3.0为下一代搜索技术定义了更先进的技术和新的准则，可以概括为语义网络和网站模板解析的概念。第三代检索技术将建立在人机巧妙的联系的基础上。

1.2重新访问策略

网络具有动态性很强的特性。抓取网络上的一小部分内容可能会花费真的很长的时间，通常用周或者月来衡量。当爬虫完成它的抓取的任务以后，很多操作是可能会发生的，这些操作包括新建，更新和删除。

从搜索引擎的角度来看，不检测这些事件是有成本的，成本就是我们仅仅拥有一份过时的资源。最常使用的成本函数，是新鲜度和过时性（2000年，Cho 和Garcia-Molina）

新鲜度：这是一个衡量抓取内容是不是准确的二元值。在时间t内，仓库中页面p的新鲜度是这样定义的：

新鲜度

过时性:这是一个衡量本地已抓取的内容过时程度的指标。在时间t时，仓库中页面p的时效性的定义如下：

过时性

在页面抓取中，新鲜度和过时性的发展

Coffman等人（Edward G. Coffman，1998）是从事爬虫对象定义的，他们提出了一个相当于新鲜度的概念，但是使用了不同的措词：他们建议爬虫必须最小化过时页面部分。他们指出网络爬行的问题就相当于多个队列，一个投票系统；这里，爬虫是服务器，不同的站点是队列。页面修改是到达的顾客，页面切换的时间是页面进入一个单一站点的间隔。在这个模型下，每一个顾客在投票系统的平均时间，相当于爬虫的平均过时性。

爬虫的目标是尽可能高的提高页面的新鲜度，同时降低页面的过时性。这一目标并不是完全一样的，第一种情况，爬虫关心的是有多少页面时过时的；在第二种情况，爬虫关心的页面过时了多少。

两种最简单的重新访问策略是由Cho和Garcia-Molina研究的（Cho 和Garcia-Molina，2003）：

统一策略：使用相同的频率，重新访问收藏中的所有的链接，而不考虑他们更新频率。

正比策略：对变化越多的网页，重新访问的频率也越高。网页访问的频率和网页变化的频率直接相关。

（两种情况下，爬虫的重新抓取都可以采用随机方式，或者固定的顺序）

Cho和Garcia-Molina证明了一个出人意料的结果。以平均新鲜度方式衡量，统一策略在模拟页面和真实的网络抓取中都比正比策略出色。对于这种结果的解释是：当一个页面变化太快的时候，爬虫将会将会在不断的尝试重新抓取而浪费很多时间，但是却还是不能保证页面的新鲜度。

为了提高页面的新鲜度，我们应该宣判变化太快的页面死罪（Cho和Garcia-Molina, 2003a）。最佳的重新访问策略既不是统一策略，也不是正比策略；保持平均页面新鲜度高的最佳方法策略包括忽略那些变化太快的页面，而保持页面平均过时性低的方法则是对每一页按照页面变化率单调变化的策略访问。两种情况下，最佳的策略较正比策略，都更接近统一策略。正如Coffman等人（Edward G.Coffman，1998）所注意到的：“为了最小化页面过时的时间，对任一个页面的访问都应该尽可能的均匀间隔地访问。”对于重新访问的详尽的策略在大体上是不可以达到的，但是他们可以从数学上得到，因为他们依赖于页面的变化。（Cho和Garcia-Molina,2003a）指出指数变化是描述页面变化的好方法，同时（Ipeirotis等人，2005）指出了怎么使用统计工具去发现适合这些变化的参数。注意在这里的重新访问策略认为每一个页面都是相同的（网络上所有的页面价值都是一样的）这不是现实的情况，所以，为了获取更好的抓取策略，更多有关网页质量的信息应该考虑进去。

1.3 平衡礼貌策略

爬虫相比于人，可以有更快的检索速度和更深的层次，所以，他们可能使一个站点瘫痪。不需要说一个单独的爬虫一秒钟要执行多条请求，下载大的文件。一个服务器也会很难响应多线程爬虫的请求。

就像Koster（Koster，1995）所注意的那样，爬虫的使用对很多工作都是很有用的，但是对一般的社区，也需要付出代价。使用爬虫的代价包括：

 网络资源：在很长一段时间，爬虫使用相当的带宽高度并行地工作。

 服务器超载：尤其是对给定服务器的访问过高时。

 质量糟糕的爬虫，可能导致服务器或者路由器瘫痪，或者会尝试下载自己无法处理的页面。

 个人爬虫，如果过多的人使用，可能导致网络或者服务器阻塞。

对这些问题的一个部分解决方法是漫游器排除协议（Robots exclusion protocol），也被称为 robots.txt议定书（Koster，1996），这份协议对于管理员指明网络服务器的那一部分不能到达是一个标准。这个标准没有包括重新访问一台服务器的间隔的建议，虽然访问间隔是避免服务器超载的最有效的办法。最近的商业搜索软件，如Ask Jeeves，MSN和Yahoo可以在robots.txt中使用一个额外的 “Crawl-delay”参数来指明请求之间的延迟。

对连接间隔时间的第一个建议由Koster 1993年给出，时间是60秒。按照这个速度，如果一个站点有超过10万的页面，即使我们拥有零延迟和无穷带宽的完美连接，它也会需要两个月的时间来下载整个站点，并且，这个服务器中的资源，只有一小部分可以使用。这似乎是不可以接受的。

Cho（Cho和Garcia-Molina, 2003）使用10秒作为访问的间隔时间，WIRE爬虫(Baeza-Yates and Castillo, 2002)使用15秒作为默认间隔。MercatorWeb(Heydon 和Najork, 1999)爬虫使用了一种自适应的平衡策略：如果从某一服务器下载一个文档需要t秒钟，爬虫就等待10t秒的时间，然后开始下一个页面。Dill等人 (Dill et al., 2002) 使用1秒。

对于那些使用爬虫用于研究目的的，一个更详细的成本-效益分析是必要的，当决定去哪一个站点抓取，使用多快的速度抓取的时候，伦理的因素也需要考虑进来。

访问记录显示已知爬虫的访问间隔从20秒钟到3-4分钟不等。需要注意的是即使很礼貌，采取了所有的安全措施来避免服务器超载，还是会引来一些网络服务器管理员的抱怨的。Brin和Page注意到：运行一个针对超过50万服务器的爬虫，会产生很多的邮件和电话。这是因为有无数的人在上网，而这些人不知道爬虫是什么，因为这是他们第一次见到。（Brin和Page，1998）

1.4 并行策略

一个并行爬虫是并行运行多个进程的爬虫。它的目标是最大化下载的速度，同时尽量减少并行的开销和下载重复的页面。为了避免下载一个页面两次，爬虫系统需要策略来处理爬虫运行时新发现的URL，因为同一个URL地址，可能被不同的爬虫进程抓到。

2. 网络爬虫体系结构

网页爬虫的高层体系结构

一个爬虫不能像上面所说的，仅仅只有一个好的抓取策略，还需要有一个高度优化的结构。

Shkapenyuk和Suel（Shkapenyuk和Suel，2002）指出：设计一个短时间内，一秒下载几个页面的颇慢的爬虫是一件很容易的事情，而要设计一个使用几周可以下载百万级页面的高性能的爬虫，将会在系统设计，I/O和网络效率，健壮性和易用性方面遇到众多挑战。

网路爬虫是搜索引擎的核心，他们算法和结构上的细节被当作商业机密。当爬虫的设计发布时，总会有一些为了阻止别人复制工作而缺失的细节。人们也开始关注主要用于阻止主要搜索引擎发布他们的排序算法的“搜索引擎垃圾邮件”。

2.1 URL一般化

爬虫通常会执行几种类型的URL规范化来避免重复抓取某些资源。URL一般化也被称为URL标准化，指的是修正URL并且使其前后一致的过程。这里有几种一般化方法，包括转化URL为小写的，去除逗号（如‘.’ ‘..’等），对非空的路径，在末尾加反斜杠。

3. 爬虫身份识别

网络爬虫通过使用http请求的用户代理(User Agent)字段来向网络服务器表明他们的身份。网络管理员则通过检查网络服务器的日志，使用用户代理字段来辨认哪一个爬虫曾经访问过以及它访问的频率。用户代理字段可能会包含一个可以让管理员获取爬虫更多信息的URL。邮件抓取器和其他怀有恶意的网络爬虫通常不会留任何的用户代理字段内容，或者他们也会将他们的身份伪装成浏览器或者其他的知名爬虫。

对于网路爬虫，留下用户标志信息是十分重要的；这样，网络管理员在需要的时候就可以联系爬虫的主人。有时，爬虫可能会陷入爬虫陷阱或者使一个服务器超负荷，这时，爬虫主人需要使爬虫停止。对那些有兴趣了解特定爬虫访问时间网络管理员来讲，用户标识信息是十分重要的。

4.用户爬虫的例子

以下是一系列已经发布的一般用途的网络爬虫（除了主题检索的爬虫）的体系结构，包括了对不同组件命名和突出特点的简短的描述。

 RBSE （Eichmann，1994）是第一个发布的爬虫。它有两个基础程序。第一个是“spider”，抓取队列中的内容到一个关系数据库中，第二个程序是“mite”，是一个修改后的www的ASCII浏览器，负责从网络上下载页面。

 WebCrawler（Pinkerton，1994）是第一个公开可用的用来建立全文索引的一个子程序，他使用库www来下载页面；另外一个程序使用广度优先来解析获取URL并对其排序；它还包括一个根据选定文本和查询相似程度爬行的实时爬虫。

 World Wide Web Worm (McBryan, 1994)是一个用来为文件建立包括标题和URL简单索引的爬虫。索引可以通过grep式的Unix命令来搜索。

 Google Crawler (Brin and Page, 1998)用了一些细节来描述，但是这些细节仅仅是关于使用C++和Python编写的、一个早期版本的体系结构。因为文本解析就是全文检索和URL抽取的过程，所以爬虫集成了索引处理。这里拥有一个URL服务器，用来给几个爬虫程序发送要抓取的URL列表。在文本解析的时候，新发现的URL传送给URL服务器并检测这个URL是不是已经存在，如果不存在的话，该URL就加入到URL服务器中。

 CobWeb (da Silva et al., 1999)使用了一个中央“调度者”和一系列的“分布式的搜集者”。搜集者解析下载的页面并把找到的URL发送给调度者，然后调度者反过来分配给搜集者。调度者使用深度优先策略，并且使用平衡礼貌策略来避免服务器超载。爬虫是使用Perl语言编写的。

 Mercator (Heydon and Najork, 1999; Najork and Heydon, 2001)是一个分布式的，模块化的使用java编写的网络爬虫。它的模块化源自于使用可互换的的“协议模块”和“处理模块”。协议模块负责怎样获取网页（例如使用HTTP），处理模块负责怎样处理页面。标准处理模块仅仅包括了解析页面和抽取URL，其他处理模块可以用来检索文本页面，或者搜集网络数据。

 WebFountain (Edwards et al., 2001)是一个与Mercator类似的分布式的模块化的爬虫，但是使用C++编写的。它的特点是一个管理员机器控制一系列的蚂蚁机器。经过多次下载页面后，页面的变化率可以推测出来，这时，一个非线性的方法必须用于求解方程以获得一个最大的新鲜度的访问策略。作者推荐在早期检索阶段使用这个爬虫，然后用统一策略检索，就是所有的页面都使用相同的频率访问。

 PolyBot [Shkapenyuk and Suel, 2002]是一个使用C++和Python编写的分布式网络爬虫。它由一个爬虫管理者，一个或多个下载者，一个或多个DNS解析者组成。抽取到的URL被添加到硬盘的一个队列里面，然后使用批处理的模式处理这些URL。平衡礼貌方面考虑到了第二、三级网域，因为第三级网域通常也会保存在同一个网络服务器上。

 WebRACE (Zeinalipour-Yazti and Dikaiakos, 2002)是一个使用java实现的，拥有检索模块和缓存模块的爬虫，它是一个很通用的称作eRACE的系统的一部分。系统从用户得到下载页面的请求，爬虫的行为有点像一个聪明的代理服务器。系统还监视订阅网页的请求，当网页发生改变的时候，它必须使爬虫下载更新这个页面并且通知订阅者。WebRACE最大的特色是，当大多数的爬虫都从一组URL开始的时候，WebRACE可以连续地的接收抓取开始的URL地址。

 Ubicrawer (Boldi et al., 2004)是一个使用java编写的分布式爬虫。它没有中央程序。它由一组完全相同的代理组成，分配功能通过主机前后一致的散列计算进行。这里没有重复的页面，除非爬虫崩溃了（然后，另外一个代理就会接替崩溃的代理重新开始抓取）。爬虫设计为高伸缩性和允许失败的。

 FAST Crawler (Risvik and Michelsen, 2002) 是一个分布式的爬虫，在Fast Search&Transfer中使用，关于其体系结构的一个大致的描述可以在[citation needed]找到。

 Labrador,一个工作在开源项目Terrier Search Engine上的非开源的爬虫。

 TeezirCrawler是一个非开源的可伸缩的网页抓取器，在Teezir上使用。该程序被设计为一个完整的可以处理各种类型网页的爬虫，包括各种JavaScript和HTML文档。爬虫既支持主题检索也支持非主题检索。

 Spinn3r, 一个通过博客构建反馈信息的爬虫。 Spinn3r是基于java的，它的大部分的体系结构都是开源的。

 HotCrawler,一个使用 c语言和php编写的爬虫。

 ViREL Microformats Crawler，搜索公众信息作为嵌入到网页的一小部分。

除了上面列出的几个特定的爬虫结构以外，还有Cho (Cho and Garcia-Molina, 2002)和Chakrabarti (Chakrabarti, 2003)发布的一般的爬虫体系结构。

4.1 开源爬虫

 DataparkSearch是一个在GNU GPL许可下发布的爬虫搜索引擎。

 GNU Wget是一个在GPL许可下，使用C语言编写的命令行式的爬虫。它主要用于网络服务器和FTP服务器的镜像。

 Heritrix是一个互联网档案馆级的爬虫，设计的目标为对大型网络的大部分内容的定期存档快照，是使用java编写的。

 Ht://Dig在它和索引引擎中包括了一个网页爬虫。

 HTTrack用网络爬虫创建网络站点镜像，以便离线观看。它使用C语言编写，在GPL许可下发行。

 ICDL Crawler是一个用C++编写，跨平台的网络爬虫。它仅仅使用空闲的CPU资源，在ICDL标准上抓取整个站点。

 JSpider是一个在GPL许可下发行的，高度可配置的，可定制的网络爬虫引擎。

 LLarbin由Sebastien Ailleret开发；

 Webtools4larbin由Andreas Beder开发；

 Methabot是一个使用C语言编写的高速优化的，使用命令行方式运行的，在2-clause BSD许可下发布的网页检索器。它的主要的特性是高可配置性，模块化；它检索的目标可以是本地文件系统，HTTP或者FTP。

 Nutch是一个使用java编写，在Apache许可下发行的爬虫。它可以用来连接Lucene的全文检索套件；

 Pavuk是一个在GPL许可下发行的，使用命令行的WEB站点镜像工具，可以选择使用X11的图形界面。与wget和httprack相比，他有一系列先进的特性，如以正则表达式为基础的文件过滤规则和文件创建规则。

 WebVac是斯坦福WebBase项目使用的一个爬虫。

 WebSPHINX(Miller and Bharat, 1998)是一个由java类库构成的，基于文本的搜索引擎。它使用多线程进行网页检索，html解析，拥有一个图形用户界面用来设置开始的种子URL和抽取下载的数据；

 WIRE-网络信息检索环境(Baeza-Yates 和 Castillo, 2002)是一个使用C++编写，在GPL许可下发行的爬虫，内置了几种页面下载安排的策略，还有一个生成报告和统计资料的模块，所以，它主要用于网络特征的描述；

 LWP：RobotUA(Langheinrich,2004)是一个在Perl5许可下发行的，可以优异的完成并行任务的 Perl类库构成的机器人。

 Web Crawler是一个为.net准备的开放源代码的网络检索器（C#编写）。

 Sherlock Holmes收集和检索本地和网络上的文本类数据（文本文件，网页），该项目由捷克门户网站中枢（Czech web portal Centrum）赞助并且主用商用于这里；它同时也使用在。

 YaCy是一个基于P2P网络的免费的分布式搜索引擎（在GPL许可下发行）；

 Ruya是一个在广度优先方面表现优秀，基于等级抓取的开放源代码的网络爬虫。在英语和日语页面的抓取表现良好，它在GPL许可下发行，并且完全使用Python编写。按照 robots.txt有一个延时的单网域延时爬虫。

 Universal Information Crawler快速发展的网络爬虫，用于检索存储和分析数据；

 Agent Kernel，当一个爬虫抓取时，用来进行安排，并发和存储的java框架。

 是一个使用C#编写，需要SQL Server 2005支持的，在GPL许可下发行的多功能的开源的机器人。它可以用来下载，检索，存储包括电子邮件地址，文件，超链接，图片和网页在内的各种数据。

 Dine是一个多线程的java的http客户端。它可以在LGPL许可下进行二次开发。

网络爬虫的组成

在网络爬虫的系统框架中，主过程由控制器，解析器，资源库三部分组成。控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。解析器的主要工作是下载网页，进行页面的处理，主要是将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉，爬虫的基本工作是由解析器完成。资源库是用来存放下载到的网页资源，一般都采用大型的数据库存储，如 Oracle数据库，并对其建立索引。

控制器

控制器是网络爬虫的中央控制器，它主要是负责根据系统传过来的URL链接，分配一线程，然后启动线程调用爬虫爬取网页的过程。

解析器

解析器是负责网络爬虫的主要部分，其负责的工作主要有：下载网页的功能，对网页的文本进行处理，如过滤功能，抽取特殊HTML标签的功能，分析数据功能。

资源库

主要是用来存储网页中下载下来的数据记录的容器，并提供生成索引的目标源。中大型的数据库产品有：Oracle、Sql Server等。

转载于:https://www.cnblogs.com/smile-dream/p/6066245.html

你可能感兴趣的:(网络爬虫)

基于Python的三种主流网络爬虫技术吃肉肉335 python 爬虫开发语言
一、网络爬虫是什么网络爬虫，通常也被称为网络蜘蛛或网络机器人，是一种按照一定方法，获取网络各种信息的自动化脚本程序，也可以将其理解为一个在互联网上自动提取网页信息并进行解析抓取的程序。网络爬虫的功能不仅局限于复制网页内容、下载音视频文件，更包括自动化执行行为链以及模拟用户登录等复杂操作。在当前大数据背景下，无论是人工智能应用还是数据分析工作，均依赖于海量的数据支持。如果仅依赖人工采集这一种方式，不
Python网络爬虫核心面试题闲人编程程序员面试 python 爬虫开发语言面试网络编程
网络爬虫1.爬虫项目中如何处理请求失败的问题？2.解释HTTP协议中的持久连接和非持久连接。3.什么是HTTP的持久化Cookie和会话Cookie？4.如何在爬虫项目中检测并处理网络抖动和丢包？5.在爬虫项目中，如何使用HEAD请求提高效率？6.如何在爬虫项目中实现HTTP请求的限速？7.解释HTTP2相对于HTTP1.1的主要改进。8.如何在爬虫项目中模拟HTTP重试和重定向？9.什么是COR
什么是网络爬虫？Python爬虫到底怎么学？糯米导航文末下载资源 python
最近我在研究Python网络爬虫，发现这玩意儿真是有趣，干脆和大家聊聊我的心得吧！咱们都知道，网络上的信息多得就像大海里的水，而网络爬虫就像一个勤劳的小矿工，能帮我们从这片浩瀚的信息海洋中挖掘出需要的内容。接下来，我就带你们一步步看看该怎么用Python搞定网络爬虫。为啥选择Python写爬虫？说到Python，简直是写爬虫的最佳选择！它有许多现成的库，就像拥有了各种好用的工具，使得我们的工作变得
网络爬虫技术如何影响网络安全的德迅云安全-甲锵网络安全爬虫
随着网络的发展和网络爬虫技术的普及，一些人收集某些需要的信息，会使用网络爬虫进行数据抓取。网络爬虫一方面会消耗网络系统的网络资源，同时可能会造成核心数据被窃取，因此对企业来讲如何反爬虫显得非常重要。一、什么是网络爬虫网络爬虫也叫网络蜘蛛，是一种用来自动浏览万维网的网络机器人，按照一定的规则可以自动提取网页内容的程序。网络爬虫主要用于网络资源的收集工作，搜索引擎通过网络爬虫爬取内容并将页面保存下来，
WebRover ：一个功能强大的 Python 库，用于从 Web 内容生成高质量的数据集。数据集
2024-11-30，由Area-25团队开发的一个专门用于生成高质量网络内容数据集的Python库。该数据集旨在为大型语言模型（LLM）和人工智能应用的训练提供丰富的数据资源。数据集地址：WebRoverDataset|自然语言处理数据集|AI模型训练数据集一、让我们一起来看一下WebRoverWebRover通过智能网络爬虫技术，自动从网络中提取与特定主题相关的内容，并支持多种输入格式，如JS
网络爬虫~ rzydal 爬虫
简介网络爬虫，也被称为网页蜘蛛、网络机器人、网页抓取器或网页追逐者，是一种自动化程序或脚本。以下是对网络爬虫的详细介绍一、定义与工作原理网络爬虫按照一定的规则自动地抓取万维网上的信息。它模拟人类用户在网页上的行为，通过发送HTTP请求获取网页内容，并解析网页内容以提取所需信息。通常，网络爬虫从一个或多个种子URL开始，逐步抓取网页中的链接，并递归地访问这些链接，直到满足某个条件（如达到一定的抓取深
网络爬虫技术如何影响网络安全的 silver687 爬虫
网络爬虫技术对网络安全的影响是多方面的，既有积极的一面，也有消极的一面。以下是具体分析：积极影响1.网络安全监测与漏洞发现网络爬虫可以被用于网络安全监测，帮助企业和机构发现网站或网络系统中的漏洞和安全隐患。例如，通过爬取网站内容，检测是否存在SQL注入、XSS攻击等潜在漏洞。2.威胁情报收集爬虫技术可用于收集网络上的威胁情报，帮助安全研究人员了解最新的攻击手段、恶意软件传播路径等，从而提前做好防御
WebRover：专为训练大型语言模型和 AI 应用程序而设计的 Python 库数据集
2024-11-30，由Area-25团队开发的一个专门用于生成高质量网络内容数据集的Python库。该数据集旨在为大型语言模型（LLM）和人工智能应用的训练提供丰富的数据资源。数据集地址：WebRoverDataset|自然语言处理数据集|AI模型训练数据集一、让我们一起来看一下WebRoverWebRover通过智能网络爬虫技术，自动从网络中提取与特定主题相关的内容，并支持多种输入格式，如JS
【爬虫】使用 Scrapy 框架爬取豆瓣电影 Top 250 数据的完整教程 brhhh_sehe 爬虫 scrapy
前言在大数据和网络爬虫领域，Scrapy是一个功能强大且广泛使用的开源爬虫框架。它能够帮助我们快速地构建爬虫项目，并高效地从各种网站中提取数据。在本篇文章中，我将带大家从零开始使用Scrapy框架，构建一个简单的爬虫项目，爬取豆瓣电影Top250的电影信息。Scrapy官方文档：ScrapyDocumentation豆瓣电影Top250：豆瓣电影Top250本文的爬虫项目配置如下：系统：Windo
python网络爬虫selenium(1) 2401_84009529 程序员 python 爬虫 selenium
pipinstallselenium以Chrom浏览器为例，安装相应版本的chromdriver驱动程序，并添加为环境变量安装链接：安装chromdriver2.常用属性和方法===============================================================================fromseleniumimportwebdriverimport
Python 爬虫入门教程：从零构建你的第一个网络爬虫 m0_74825223 面试学习路线阿里巴巴 python 爬虫开发语言
网络爬虫是一种自动化程序，用于从网站抓取数据。Python凭借其丰富的库和简单的语法，是构建网络爬虫的理想语言。本文将带你从零开始学习Python爬虫的基本知识，并实现一个简单的爬虫项目。1.什么是网络爬虫？网络爬虫（WebCrawler）是一种通过网络协议（如HTTP/HTTPS）获取网页内容，并提取其中有用信息的程序。常见的爬虫用途包括：收集商品价格和评价。抓取新闻或博客内容。统计数据分析。爬
python转转商超书籍信息爬虫 Python数据分析与机器学习爬虫 python 网络爬虫爬虫
1基本理论1.1概念体系网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等，可以按照我们设置的规则自动化爬取网络上的信息，这些规则被称为爬虫算法。是一种自动化程序，用于从互联网上抓取数据。爬虫通过模拟浏览器的行为，访问网页并提取信息。这些信息可以是结构化的数据（如表格数据），也可以是非结构化的文本。爬虫任务的执行流程通常包括发送HTTP请求、解析HTML文档、提取所需数据等步骤。1.2技术体系1请求库:
精通爬虫技术：从入门到入狱——网络数据爬虫的合法性与法律边界
了解数据爬虫的原理、用途、法律风险与合规性。本文深入解析网络爬虫的工作机制，探讨其在数据采集、搜索引擎等领域的应用。同时，重点关注Robots协议、反爬虫技术、开放数据等合规性问题，并分析相关法律案例，助您合法安全地使用爬虫技术。文章目录什么是网络数据爬虫？数据爬虫的工作原理数据爬虫的应用与影响数据爬虫的广泛用途数据爬虫带来的负面影响和潜在风险数据爬虫的合规性问题开放数据与非开放数据Robots协
逆袭之路（11）——python网络爬虫：原理、应用、风险与应对策略凋零的蓝色玫瑰逆袭之路 php 开发语言 python
困厄铸剑心，逆袭展锋芒。寒苦凝壮志，腾跃绘华章。我要逆袭。目录一、引言二、网络爬虫的基本原理（一）网络请求与响应（二）网页解析（三）爬行策略三、网络爬虫的应用领域（一）搜索引擎（二）数据挖掘与分析（三）金融领域（四）学术研究（五）社交媒体监测四、网络爬虫带来的风险（一）法律风险（二）隐私风险（三）安全风险五、网络爬虫风险的应对策略（一）遵守法律法规（二）加强技术防护（三）提高道德意识六、结论一、引
Python 网络爬虫高级教程：分布式爬取与大规模数据处理 Milk夜雨 python python 爬虫网络
经过基础爬虫和进阶爬虫的学习，我们已经掌握了爬虫的基本原理、动态内容处理及反爬机制的应对。然而，当我们面对海量数据或需要高效爬取多个站点时，分布式爬虫和数据存储、处理能力就显得尤为重要。本篇博客将带你迈向网络爬虫的高级阶段，学习分布式爬取、大规模数据处理以及性能优化。一、分布式爬虫的概念1.什么是分布式爬虫？分布式爬虫是指通过多个节点协作完成大规模网页爬取任务的爬虫架构。它能有效解决以下问题：单台
网络爬虫——分布式爬虫架构好看资源分享网络爬虫 Python 爬虫分布式架构
分布式爬虫在现代大数据采集中是不可或缺的一部分。随着互联网信息量的爆炸性增长，单机爬虫在性能、效率和稳定性上都面临巨大的挑战。分布式爬虫通过任务分发、多节点协作以及结果整合，成为解决大规模数据抓取任务的核心手段。本节将从Scrapy框架的基本使用、Scrapy-Redis的分布式实现、分布式爬虫的优化策略等多个方面展开，结合实际案例，帮助开发者掌握分布式爬虫的设计与实现。1.Scrapy框架的核心
Python 爬虫入门教程：从零构建你的第一个网络爬虫 m0_66323401 python 爬虫开发语言
网络爬虫是一种自动化程序，用于从网站抓取数据。Python凭借其丰富的库和简单的语法，是构建网络爬虫的理想语言。本文将带你从零开始学习Python爬虫的基本知识，并实现一个简单的爬虫项目。1.什么是网络爬虫？网络爬虫（WebCrawler）是一种通过网络协议（如HTTP/HTTPS）获取网页内容，并提取其中有用信息的程序。常见的爬虫用途包括：收集商品价格和评价。抓取新闻或博客内容。统计数据分析。爬
第03讲原理探究，了解爬虫的基本原理 roc_lpy Python
转载于拉勾教育-52讲轻松搞定网络爬虫-崔庆才1.爬虫概述我们可以把互联网比作一张大网，而爬虫（即网络爬虫）便是在网上爬行的蜘蛛。如果把网的节点比作一个个网页，爬虫爬到这就相当于访问了该页面，获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系，这样蜘蛛通过一个节点后，可以顺着节点连线继续爬行到达下一个节点，即通过一个网页继续获取后续的网页，这样整个网的节点便可以被蜘蛛全部爬行到，网站的数
基于网络爬虫技术的网络新闻分析众拾达人 Java Web 爬虫爬虫
文末附有完整项目代码在信息爆炸的时代，如何从海量的网络新闻中挖掘出有价值的信息呢？今天就来给大家分享一下基于网络爬虫技术的网络新闻分析的实现过程。首先，我们来了解一下系统的需求。我们的目标是能够实时抓取凤凰网新闻、网易新闻、搜狐新闻等网站的新闻数据，正确抽取正文并获取点击量，每日定时抓取。然后对抓取回来的新闻进行中文分词，利用分词结果计算新闻相似度，将相似新闻合并并展示相似新闻的用户点击趋势。接下
Python 网络爬虫进阶：动态网页爬取与反爬机制应对 m0_74824534 python 爬虫开发语言
在上一篇文章中，我们学习了如何使用Python构建一个基本的网络爬虫。然而，在实际应用中，许多网站使用动态内容加载或实现反爬机制来阻止未经授权的抓取。因此，本篇文章将深入探讨以下进阶主题：如何处理动态加载的网页内容应对常见的反爬机制爬虫性能优化通过具体实例，我们将探讨更复杂的网络爬虫开发技巧。一、动态网页爬取现代网页通常通过JavaScript加载动态内容。直接使用requests获取的HTML可
Java网络爬虫技术之路：从基础构建到实战应用 Yori_22 java 爬虫开发语言
在当今信息爆炸的时代，数据已成为一种宝贵的资源。如何从海量的网络数据中提取有价值的信息，成为了众多开发者和数据科学家的共同挑战。Java网络爬虫技术，作为一种自动化采集数据的工具，正逐渐成为解决这一问题的关键。本文将带您踏上Java网络爬虫技术之路，从基础构建到实战应用，一步步揭开其神秘面纱。一、Java网络爬虫技术基础网络爬虫，又称网络蜘蛛或网络机器人，是一种按照一定规则自动抓取互联网信息的程序
Python网络爬虫入门教程：从抓取数据到应用实现冷夜雨. python
引言在大数据时代，信息就是力量。各种网站每天产生着海量的数据，这些数据中蕴藏着巨大的商业价值和研究价值。如何快速、自动化地从互联网上获取这些信息，成为了数据科学、人工智能、市场分析等领域中的一个重要课题。Python，作为一门易于学习且功能强大的编程语言，其丰富的库和工具使得构建网络爬虫变得非常简单。网络爬虫（WebScraper）是一种自动化程序，用来从网页中提取信息。无论是用于数据分析、竞争对
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
Python精选200Tips：121-125 AnFany Python200+Tips python 开发语言
Spendyourtimeonself-improvement121Requests-简化的HTTP请求处理发送GET请求发送POST请求发送PUT请求发送DELETE请求会话管理处理超时文件上传122BeautifulSoup-网页解析和抓取解析HTML和XML文档查找单个标签查找多个标签使用CSS选择器查找标签提取文本修改文档内容删除标签处理XML文档123Scrapy-强大的网络爬虫框架示例
爬虫之隧道代理：如何在爬虫中使用代理IP？ 2401_87251497 python 开发语言爬虫网络 tcp/ip 网络协议
在进行网络爬虫时，使用代理IP是一种常见的方式来绕过网站的反爬虫机制，提高爬取效率和数据质量。本文将详细介绍如何在爬虫中使用隧道代理，包括其原理、优势以及具体的实现方法。无论您是爬虫新手还是有经验的开发者，这篇文章都将为您提供实用的指导。什么是隧道代理？隧道代理是一种高级的代理技术，它通过创建一个加密的隧道，将数据从客户端传输到代理服务器，再由代理服务器转发到目标服务器。这样不仅可以隐藏客户端的真
Python爬虫代理池极客李华 python授课 python 爬虫开发语言
Python爬虫代理池网络爬虫在数据采集和信息抓取方面起到了关键作用。然而，为了应对网站的反爬虫机制和保护爬虫的真实身份，使用代理池变得至关重要。1.代理池的基本概念：代理池是一组包含多个代理IP地址的集合。通过在爬虫中使用代理池，我们能够隐藏爬虫的真实IP地址，实现一定程度的匿名性。这有助于防止被目标网站封锁或限制访问频率。2.为何使用代理池：匿名性：代理池允许爬虫在请求目标网站时使用不同的IP
盘点一个Python网络爬虫抓取股票代码问题（上篇）皮皮_f075
大家好，我是皮皮。一、前言前几天在Python白银群【厚德载物】问了一个Python网络爬虫的问题，这里拿出来给大家分享下。image.png二、实现过程这个问题其实for循环就可以搞定了，看上去粉丝的代码没有带请求头那些，导致获取不到数据。后来【瑜亮老师】、【小王子】给了具体思路，代码如下图所示：image.png后来【小王子】也给了一个具体代码，如下：importrequestsimportt
python ray分布式_取代 Python 多进程！伯克利开源分布式框架 Ray weixin_39946313 python ray分布式
Ray由伯克利开源，是一个用于并行计算和分布式Python开发的开源项目。本文将介绍如何使用Ray轻松构建可从笔记本电脑扩展到大型集群的应用程序。并行和分布式计算是现代应用程序的主要内容。我们需要利用多个核心或多台机器来加速应用程序或大规模运行它们。网络爬虫和搜索所使用的基础设施并不是在某人笔记本电脑上运行的单线程程序，而是相互通信和交互的服务的集合。云计算承诺在所有维度上(内存、计算、存储等)实
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他