u010539352

网络爬虫技术浅析

在万维网飞速发展的网络背景下，搜索引擎在人们的生活工作中无疑扮演着重要的角色，而网络爬虫则是搜索引擎技术的最基础部分。

一、网络爬虫概述

在搜索引擎成为主流检索工具的今天，互联网上的网络爬虫各式各样，但爬虫爬取网页的基本步骤大致相同：

1）人工给定一个URL作为入口，从这里开始爬取。

万维网的可视图呈蝴蝶型，网络爬虫一般从蝴蝶型左边结构出发。这里有一些门户网站的主页，而门户网站中包含大量有价值的链接。

2）用运行队列和完成队列来保存不同状态的链接。

对于大型数据量而言，内存中的队列是不够的，通常采用数据库模拟队列。用这种方法既可以进行海量的数据抓取，还可以拥有断点续抓功能。

3）线程从运行队列读取队首URL，如果存在，则继续执行，反之则停止爬取。

4）每处理完一个URL，将其放入完成队列，防止重复访问。

5）每次抓取网页之后分析其中的URL（URL是字符串形式，功能类似指针），将经过过滤的合法链接写入运行队列，等待提取。

6）重复步骤 3）、4）、5）。

1.1网页搜索策略

万维网高阔无边，为了最大限度利用有限的资源，我们需要进行资源配置，并运用某些策略使爬虫优先爬取重要性较高的网页。

目前主流的网页搜索策略主要有三，即：深度优先、广度优先、最佳优先。

深度优先，即从起始网页开始，选择一个URL，进入，分析这个网页中的URL，选择一个再进入。如此一个链接一个链接地深入追踪下去，处理完一条路线之后再处理下一条路线。

有一个例子是：在封建制度中，封建帝王的继承制度是长子优先级最高，长孙次之，次子随后。即如果长子去世，那么长孙的优先级比次子高。

该类爬虫设计时较为简单。然而深度优先型网络爬虫存在一个问题：门户网站提供的链接往往最具价值，PageRank也很高，而每深入一层，网页价值和PageRank都会相应地有所下降。这暗示了重要网页通常距离种子较近，而过度深入抓取到的网页却价值很低。

由于这个缺陷，广度优先策略产生了。

广度优先（又称宽度优先），即从起始网页开始，抓取其中所有链接的网页，然后从中选择一个，继续抓取该网页中的所有链接页面。

网络爬虫在抓取网页时普遍采用这种策略，这其中有两个原因：

第一，万维网的实际深度最大能达到17层，网页之间四通八达，因此存在从一个网页到另一个网页的最短路径问题。如果采用深度优先，则有可能从一个PageRank很低的网页爬取到一个PageRank实际很高的网页，不方便计算PageRank（个人理解）。

第二，采用宽度优先策略有利于多个爬虫并行爬取。这种多爬虫合作抓取通常是先抓取站内链接，遇到站外连接就爬出去，抓取的封闭性很强。

广度优先策略的优点在于其设计和实现相对简单，且这种策略的基本思想是：与种子在一定距离内的网页重要度较高，符合实际。

在聚焦爬虫的应用中，广度优先策略可以与网页过滤技术结合，即先用广度优先抓取一些网页，再将其中与主题无关的过滤掉。但这种方法的缺点是随着抓取网页的增多，算法的效率会变低。

另外，还有一种常用于聚焦爬虫的网页搜索策略——最佳优先策略。

最佳优先，即按照某种网页分析算法预测候选URL与目标网页的相似度，或主题的相关性，并选取其中评价最好的一个或几个URL进行进一步的爬取。

这种策略的缺陷是可能会有很多相关网页被忽略，但相对的，这种策略可以将无关网页数量降低30%—90%。

1.2对URL的获取和处理

网络爬虫访问的是后台html代码，它分析出URL之后，对其进行过滤并将结果放入运行队列。

在取得URL时要提防一种“爬虫陷阱”。因为即使一个URL能访问到相应内容，也不能保证服务器端有一个相应页面存在，例如动态网页的应用可能会使网站中存在一些无法穷尽的地址，让爬虫在一个位置上无限循环而无法终结。

针对“爬虫陷阱”，其中一种应对方法是：检查URL长度（或“/”的数量），一旦超出某个阈值就不再获取。

链接过滤处理涉及两个数组，第一个是“必须存在的关键字”组。分析链接时，链接中必须存在这个数组中所有关键字（例如关键字为http和index，则http://www.mysite.com/index符合要求,而http://www.mysite.com/html不符合要求）。另一个是“不可存在的关键字”组。分析链接时，链接中必须不存在这个数组中任何一个关键字（例如关键字为index，则http://www.mysite.com/index不符合要求）。

对关键字的过滤方法包括以下两种：

1）只取得包含给定关键字的链接，这样取得的链接为内部链接。

2）只取得不包含给定关键字的链接，这样取得的链接为外部链接。

1.3页面选取问题

为提高资源利用率，我们需要尽可能提取最为重要的网页。

网页的重要程度判断有许多依据，如：链接的欢迎程度（通过反向链接判断）、链接的重要度（通过某种URL函数判断，如认为包含.com和home的URL重要度高于包含.cc和map的网页）、链接平均深度（通过距离种子的深度判断）、历史权重、网页质量等。

当需要判断网页与某些给定关键字的相关性时，我们需要利用网页分析算法。

网页分析算主要有以下三种：基于网页拓补、基于网页内容、基于用户访问。

基于网页拓补，即通过已知的网页或数据，对其有间接关系的网页或网站做出评价的算法，这种算法广泛应用于实时搜索，其中又包括：网页粒度分析算法、网站粒度分析算法、网页块粒度分析算法三种。

1、网页粒度分析算法

常见的有链接分析算法PageRank和hits，两者都得到网页的重要度评价。

其中PageRank考虑了用户访问行为的随机性和sink网页，但忽略了大多数用户访问时具有目的性的事实。针对这个问题，hits提出了权威性网页和中心型网页两个概念。

2、网站粒度分析算法

比网页粒度分析算法更加简单有效，其关键在于站点的划分和评级，SiteRank的计算方法与PageRank类似。利用分布式SiteRank计算，不仅降低了单机站点的算法代价，而且克服了单独站点对整个网络覆盖率有限的缺点。另外，SiteRank不会被常见的针对PageRank的造假所蒙骗。

3、网页块粒度分析算法

基本思想是通过某种网页分割算法，将网页分为不同网页块，排除其中与主题无关的链接后在进行进一步处理。这种分析算法可以避免广告等噪声链接的干扰。

基于网页内容，即利用网页内容（文本、锚文本、其他数据等）特征进行的网页评价。其针对网页数据形式不同可分为三类：

1、针对以文本和超链接为主的无结构或结构很简单的网页。

随着如今网页内容的多样化，该方法已不再单独使用。

2、针对从结构化的数据源（RDBMS）动态生成的页面，其数据不能直接批量访问。

3、介于1和2之间的，具有较好结构，遵循一定模式或风格，可直接访问的网页。

在提取html文档的文本信息时要过滤标识符，但同时还要注意依照标识符来取得版式信息（如标题、粗体、关键字等），另外还要过滤无用链接（如广告链接）。

锚文本可以作为所在页面内容的评估和所指向的页面内容的评估，还可以收集一些搜索引擎不能索引的文件（例如图片）。

多媒体，图片等文件一般通过锚文本和相关文件注释来判断文件内容。

对于doc、pdf等有专业厂商提供的软件生成的文档，厂商会会为爬虫提供相应的文本提取接口的插件。

Google对网页优先性的考虑因素有以下几点：

1）查询驱动的爬取

此方法适于实时搜索。对于一些最新出现的热门话题，或随时变动的数据（如股市信息），数据库里没有这些网页的信息，如果此时接受了用户的查询，则会通过已爬取的其他网页来判断未爬取的网页的相关性。

2）反向链接数

3）PageRank值

4）前向链接数

5）路径深度

路径深度浅的页面被认为更重要。

1.4网页去重方法

网页之间的链接关系错综复杂，为了避免重复抓取同一页面，要把需要入库的链接与数据库中的运行队列和完成队列都进行比较。

另外，大型搜索引擎多采取多爬虫并行合作抓取的方法，这也产生了一些问题。

例如Google为了避免多爬虫合作时重复抓取同一页面，而采用了Crawl Caching Proxy（缓存代理）。

网络爬虫在工作时，首先通过DNS解析一个URL的主机IP地址，然后连接相应服务器的端口并发送请求，通过服务器响应来获取相关页面内容。

URL与IP之间的对应关系可能是一对一、一对多或多对一的。

一个URL对应多个IP通常出现在访问量较大的域名，将一个URL与多个IP绑定以分流访问量，减小单个服务器的访问压力（如Baidu、Google）；一个IP对应多个URL则是出于节约服务器的目的，或是由于公网IP地址匮乏而产生的策略，当客户端对该IP进行访问时，先通过请求的协议头部来获取需要访问的URL，再将该请求通过反向代理或虚拟主机的方式转发到相应服务。

由于这种情况，若用IP作为判断重复网页的标准，则可能因为URL与IP的一对多而出现重复获取，或因为URL与IP的多对一而出现遗漏。因此，爬虫在判断重复页面时主要以URL所谓判断标准，以保证服务的唯一性。

1.5网络爬虫的效率

单线程的爬虫由于页面的分析和下载不能同时而效率较低，因此出现了多线程爬虫。有一个例子可以帮助理解多线程的意义：现在很多下载软件都支持多线程同步下载，即将下载内容分成几部分同步下载，速度比单线程要快上很多。

爬虫采用线程进行循环，但这存在一定弊端：一旦发生网络阻塞，整个线程就一直处于等待状态而导致死亡。

一般采取线程监控的方法来解决，即存在一个主线程和一个监控线程，监控线程每隔一段时间去访问一次主线程并与其分享的变量，一旦发现超时，就认为网络阻塞，这时终止主线程并重新启动，由此避免了网络阻塞导致线程一直等待的问题。

1.6网页更新

对于搜索引擎而言，评价网络爬虫效率的一个重要标准是爬虫的开销。

爬虫开销 = 重复抓取的老页面数 / 发掘的新页面数

即是说，爬虫应当尽量发掘新页面而减少重复页面的爬取，而决定对某个网页的更新频率涉及到时间更新控制。

一般做法是将这次抓取到的页面上的数据与上一次相比较，如果进行连续五次这样的比较都没有变化，则将以后爬取该网页的时间扩大为原来的2倍；如果进行连续五次这样的比较都有变化，则将以后爬取该网页的时间缩短为原来的1/2。

另外，爬虫在更新网页内容时，不需要将网页重新抓取一遍，只需对网页的一些属性加以判断（如日期），并与上次结果相比即可，如果相同则无需更新。

1.7实时搜索

设想当用户查询一个热门话题，而爬虫还未抓取相关网页，这时就不能在用PageRank来评价网页重要性了。PageRank的计算对象是已经抓取下来的网页，即，在计算PageRank过程中不会有新页面加入，这种方法被称为“离线”（off-line）的计算方法。这种方法适合于对结果的排序，但不适用于爬虫的调度（即动态决定URL的抓取顺序），因而诞生了一种OPIC (On-line Page Importance Computation)的新型算法策略。

OPIC的基本思想是：每个页面有一个初始cash，在抓取过程中，通过前向链接将cash平均分给该网页指向的所有页面（分配过程一次完成），而爬虫在爬取过程中只需优先抓取cash较多的页面。

1.8其他

1、对于一些出售资料的网站，他们希望搜索引擎能所引导他们的资料，但又不能无偿将资料的全部内容提供给搜索用户。因此，他们为网络爬虫提供了专门的用户名和密码，设置一定的权限，是爬虫能够对网页进行爬取而又不会让用户看到全部内容（用户点开网页时，需要提供权限验证）。

2、每个网络爬虫都有自己的名字。在抓取网页时会向服务器端发送请求，该请求中包含一个用于表示爬虫身份的字段，这个请求会留在访问日志记录中，便于网站管理员查看。

3、爬虫进入网站时会先访问网站服务器根目录下的robots.txt，这个协议告诉爬虫网站中那些内容希望被抓取，那些内容不希望被抓取。该协议不具备强制力。

二、网络爬虫实例

2.1 Heritrix

Heritrix是一个爬虫框架，可以加入一些可互换的组件。Heritrix是用来获取完整精确的网站内容的爬虫，除文本内容之外，它还获取其他非文本内容（如图片等）并对其进行处理，且不对网页内容进行修改。当重复爬行相同URL时，不会对先前网页进行替换。

Heritrix主要有以下几步：

1）在预定的URL中选择一个并获取。

2）分析，并将结果归档。

3）选择已经发现的感兴趣的URL，加入运行队列。

4）标记已经处理过的URL

Heritrix利用广度优先策略来进行网页获取，其主要部件都具有高效性和可扩展性。然而Heritrix也有其一定的局限性，如：

只支持单线程爬虫，多爬虫之间不能合作；

操作复杂，对有限的资源来说是一个问题；

在硬件是系统失败时，其恢复能力较差等等。

2.2 Nutch

Nutch深度遍历网站资源，将这些资源抓取到本地，使用的方法都是分析网站每一个有效的URL并向服务器端提交请求来获得相应结果，生成本地文件及相应的日志信息等。

Nutch与Heritrix有几点差异，即：

1）Nutch只获取并保存可索引的内容。

2）Nutch 可以修剪内容，或者对内容格式进行转换。

3）Nutch 保存内容为数据库优化格式，便于以后索引；且对重复URL，刷新替换旧的内容。

4）Nutch 从命令行运行、控制。

5）Nutch 的定制能力不够强（不过现在已经有了一定改进）。

2.3 Larbin

Larbin不同于以上两种网络爬虫，它只抓取网页，而不提供包括分析网页、将结果存储到数据库以及建立索引等服务。

Larbin的目的是对页面上的URL进行扩展性的抓取，为搜索引擎提供广泛的数据来源。虽然工作能力较为单一，但Larbin胜在其高度可配置性和良好的工作效率（一个简单的larbin的爬虫可以每天获取５００万的网页），这也是Larbin最初的设计理念。

2.4 Lucene

Lucene 是一个基于Java的全文信息检索工具包，它本身不是一个完整的全文索引应用程序，而是为各种应用程序提供索引和搜索功能。只要能把要索引的数据转化的文本格式，Lucene 就能对该文档进行索引和搜索。

Lucene采用的是一种称为反向索引（inverted index）的方法。因此，在用户输入查询条件的时候，Lucebne能非常快地得到搜索结果。

对文档建立好索引后，搜索引擎首先会对关键词进行解析，然后在建立好的索引上面进行查找并返回和用户输入的关键词相关联的文档。

三、个人体会

在如今信息爆炸的社会中，网络成为人们生活中不可或缺的工具，而搜索引擎又在这其中扮演者至关重要的角色。搜索引擎是一个实用性很强的研究领域，无论是网络爬虫、数据库管理、中文分词还是索引的建立方法，都值得我们去深入了解。

搜索引擎技术已成为如今的热门学科之一，针对搜索引擎而产生的SEO（搜索引擎优化）也逐渐成为主流。对于网站来说，被搜索引擎索引是必要的，但近年来，随着良莠不齐的各类爬虫频繁出没，一些网站也承受着由爬虫带来的困扰。另外，各种针对搜索引擎的作弊也逐渐浮出水面，这些都是今后有待解决的问题。

四、参考文献

*基本资料全部来源于网络

http://www.dunsh.org/2006/08/20/anchor-text/

http://faceye.com/wiki/topic/4028808426231dbb0126232cd9470052

http://kb.cnblogs.com/a/1616586/

http://hi.baidu.com/dudiaodaoke/blog/item/9529de0bea32fe2f6b60fbf1.html

http://www.kuqin.com/searchengine/

http://zh.wikipedia.org/zh-cn/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E

http://zh.wikipedia.org/zh-cn/Robots.txt

店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
新私域是什么平台靠谱吗氧惠佣金真的高
新私域指的是借助与互联网电商，随着平台内商家入驻量、用户量相辅相成的全国化平台。是否靠谱取决于平台是否合规。新私域指的是借助与互联网电商，在传统会员体系外新增的锁定用户跨平台、跨界收益，一种随着平台内商家入驻量、用户量相辅相成的全国化平台。关于新私域平台是否靠谱，这个需要看平台的底层逻辑是否合理、合法、合规以及平台的未来的发展方向氧惠APP抖音购物、看电影、点外卖、打车用氧惠APP！佣金更高、更优
2019考研 | 西交大软件工程笔者阿蓉
本科背景：某北京211学校电子信息工程互联网开发工作两年录取结果：全日制软件工程学院分数：初试350+复试笔试80+面试85+总排名：100+从五月份开始脱产学习，我主要说一下专业课和复试还有我对非全的一些看法。【数学100+】张宇，张宇，张宇。跟着张宇学习，入门视频刷一遍，真题刷两遍，错题刷三遍。书刷N多遍。从视频开始学习，是最快的学习方法。5-7月份把主要是数学学好，8-9月份开始给自己每个周
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
2020年学习什么知识比较好？互联网行业依然是发展较佳编程仔
2019年余额已不足，不少职场人心里也在盘点这一年的工作得失，琢磨新一年的奋斗策略，是继续冲刺还是换个跑道？今年跳槽更难吗？image互联网行业一直以相对较丰厚的薪酬和广阔的发展前景吸引着各界人才。但最近，互联网行业寒冬、互联网企业裁员等话题再次引起热议。正在从前些年的高速发展期转向发展调整期的互联网行业真的步入了“寒冬”？该行业依旧具有吸引力吗？什么职位又最热门呢？image互联网行业仍保持较高
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
广东麻将开发红匣子实力推荐
在中国，麻将作为一种深受人们喜爱的传统娱乐活动，已经有着数百年的历史。随着互联网和移动设备的普及，麻将游戏也从实体桌面转移到了数字平台，其中广东麻将因其独特的地方特色和玩法而备受青睐。本文将介绍广东麻将的开发过程，包括其设计理念、技术实现以及用户体验优化等方面。一、设计理念：广东麻将开发的核心理念是保留传统麻将的精髓，同时融入现代科技元素，使游戏既具有亲切感又不失趣味性。开发者通常会深入研究广东地
原力元宇宙：Web3时代下的虚拟现实融合与普通人逆袭的机遇口碑信息传播者
在数字化浪潮席卷全球的今天，一个崭新的概念——原力元宇宙，正以其独特的魅力吸引着越来越多的目光。作为元宇宙国际性的一个项目，原力元宇宙不仅融合了Web3第三代互联网的前沿技术，更将虚拟现实与现实生活紧密相连，为我们描绘出一幅前所未有的数字新世界画卷。13分钟视频内容讲明白原力元宇宙创富项目，中国区运营服务对接微信：ForceZen原力元宇宙，是一个时代的跨越，它代表着互联网技术的又一次革新。Web
《HTML 与 CSS—— 响应式设计》陈在天box html css 前端
一、引言在当今数字化时代，人们使用各种不同的设备访问互联网，包括智能手机、平板电脑、笔记本电脑和台式机等。为了确保网站在不同设备上都能提供良好的用户体验，响应式设计成为了网页开发的关键。HTML和CSS作为网页开发的基础技术，在实现响应式设计方面发挥着重要作用。本文将深入探讨HTML与CSS中的响应式设计原理、方法和最佳实践。二、响应式设计的概念与重要性（一）概念响应式设计是一种网页设计方法，旨在
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
左手向娱，右手专精，永远年轻永远收割健身小白每天学点经济学
“来源于《互联网那些事》（ID：hlw0823)"不知道从什么时候开始，身边的人都像住进了健身房，朋友圈的人不是在健身房，就是在去健身房的路上。《2022国民健身趋势报告》显示：我国7岁及以上年龄人群中，每周至少参加1次体育锻炼的人数比例为67.5%。在有意识主动参与健身的人群中，平均每周进行1-3天健身人群占经常参加体育健身人群总数的75%，平均每周进行3天以上体育健身的人群占比25%。现在年轻
h5小游戏定制开发红匣子实力推荐
随着科技的不断发展，移动互联网已经成为人们生活中不可或缺的一部分。在这个背景下，H5小游戏应运而生，为人们带来了丰富的娱乐体验。H5小游戏定制开发作为一种新兴的游戏开发方式，正逐渐受到市场的关注和青睐。那么，什么是H5小游戏定制开发呢？它又具有哪些特点和优势呢？让我们一起来深入了解一下。首先，我们来了解一下H5小游戏的基本概念。H5小游戏是一种基于HTML5技术的游戏，可以在移动端、PC端等多平台
Nginx：高性能的Web服务器与反向代理张某布响丸辣 nginx 前端服务器 java SpringBoot
在当今的互联网世界中，Web服务器的选择对于网站的性能、稳定性和安全性至关重要。Nginx（发音为“engineX”）凭借其卓越的性能、丰富的功能集和灵活的配置选项，成为了众多网站和应用程序的首选Web服务器和反向代理。本文将深入探讨Nginx的特点、应用场景、基本配置以及它如何助力你的Web项目。Nginx简介Nginx是一个开源的、高性能的HTTP和反向代理服务器，也是一个IMAP/POP3/
上班族副业做什么可以月入2万？（男生女生都合适）氧惠好物
互联网的兴起，让社会掀起了一波“副业潮”，身边的人都在悄咪咪开启了副业，靠副业实现了双份收入，日子过得风生水起。我自己也是靠副业实现月入过万，并且成功逆袭转行的。我觉得在这个时代里，对于不满足自身岗位，想要寻求更大发展的人来说，选择一门可持续发展的副业作为努力的方向，为将来升级做铺垫，是非常有必要的。那对于我们普通人来说，该做些什么副业才有发展呢？下面小郁儿结合自己及身边人的经历，总结了5个能让你
2022-04-25 L是木子李呢
上门维修APP开发应具备哪些功能随着移动互联网的不断发展，上门维修在我们生活中已经是非常普遍的存在了，为了给用户更方便的找到上门维修的渠道，上门维修APP应运而生，那么上门维修APP开发应具备哪些功能呢？1、维修门店搜索为了更好地方便用户省时省力，上门维修APP会依据用户定位信息搜索线下实体店，促使用户更好的找到线下维修店面，省时又省力。2、维修服务分类包括管道洁具维修、强电弱电维修、木工维修、粉
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
驾校预约学习系统的设计与实现小蒜学长毕业设计学习
摘要伴随着信息技术与互联网技术的不断发展，人们进到了一个新的信息化时代，传统管理技术性没法高效率、容易地管理信息内容。为了实现时代的发展必须，提升管理高效率，各种各样管理管理体系应时而生，各个领域陆续进到信息内容管理时期。驾校预约学习系统管理系统的实现是信息内容时代浪潮时代的产物之一。一切系统都要遵循系统设计的最基本全过程，系统也是如此。它还要通过市场调查、需求分析报告、汇总设计、详尽设计、编号和
如何建设数据中台（五）——数据汇集—打破企业数据孤岛 weixin_47088026 学习记录和总结中台数据中台程序人生经验分享
数据汇集——打破企业数据孤岛要构建企业级数据中台，第一步就是将企业内部各个业务系统的数据实现互通互联，打破数据孤岛，主要通过数据汇聚和交换来实现。企业采集的数据可以是线上采集、线下数据采集、互联网数据采集、内部数据采集等。线上数据采集主要载体分为互联网和移动互联网两种，对应有系统平台、网页、H5、小程序、App等，可以采用前端或后端埋点方式采集数据。线下数据采集主要是通过硬件来采集，例如：WiFi
网络上赚钱的方法有哪些？推荐十个真实靠谱网络上赚钱的方法？好项目高省
现在有太多人感到生活的重压，而发展自己的副业就是最好的出路，看看现在有多少明星出来直播带货就知道了。随着互联网的发展，网上赚钱已经成为很多人追求的职业方向，在网上赚钱已经是很普遍的事了，今天就为大家分享在家也能赚钱的10种方法。一、推广类网络推广带货已经成为商家卖货的常态，无论你擅长写文章带货、短视频带货还是直播带货，这种分享商品的副业方式在很多副业方式中都是最赚钱的。如果你选择佣金高的商品，随意
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
云防火墙和Web应用防火墙（WAF）区别快快小毛毛前端网络
随着互联网的进一步发展，Web应用防火墙（WAF）和云防火墙步入大家的视野。防火墙针对web应用拥有很好的保护作用，由硬件和软件组合，在内部网和外部网、专用网和公共网之间形成一道强有力的保护屏障，使用者可配置不同保护级别的防火墙，高级别的保护会阻止运营一些服务。那么，我们如何理解这两种防火墙，他们有什么区别？一、web防火墙Web应用防火墙,属于硬件级别防火墙（WebApplicationFire
Python精选200Tips：121-125 AnFany Python200+Tips python 开发语言
Spendyourtimeonself-improvement121Requests-简化的HTTP请求处理发送GET请求发送POST请求发送PUT请求发送DELETE请求会话管理处理超时文件上传122BeautifulSoup-网页解析和抓取解析HTML和XML文档查找单个标签查找多个标签使用CSS选择器查找标签提取文本修改文档内容删除标签处理XML文档123Scrapy-强大的网络爬虫框架示例
网站推广爬虫 Bearjumpingcandy 爬虫
网站推广爬虫是一种用于升网站曝光度和推广效果的工具。它通过自动化地访问和收集网站信息，从而实现对目标网站的广告、关键词、排名等数据进行分析和优化。以下是网站推广爬虫的一些介绍：数据收集：网站推广爬虫可以自动访问目标网站，并收集相关的数据，如网站流量、关键词排名、竞争对手信息等。这些数据可以帮助网站推广人员了解网站的现状和竞争环境，从而制定相应的推广策略。关键词优化：通过分析搜索引擎的关键词排名情况
爬虫之隧道代理：如何在爬虫中使用代理IP？ 2401_87251497 python 开发语言爬虫网络 tcp/ip 网络协议
在进行网络爬虫时，使用代理IP是一种常见的方式来绕过网站的反爬虫机制，提高爬取效率和数据质量。本文将详细介绍如何在爬虫中使用隧道代理，包括其原理、优势以及具体的实现方法。无论您是爬虫新手还是有经验的开发者，这篇文章都将为您提供实用的指导。什么是隧道代理？隧道代理是一种高级的代理技术，它通过创建一个加密的隧道，将数据从客户端传输到代理服务器，再由代理服务器转发到目标服务器。这样不仅可以隐藏客户端的真
可以赚钱的公众号：揭秘盈利之道与策略？氧惠购物达人
随着移动互联网的飞速发展，微信公众号已成为许多人获取信息、交流互动的重要平台。同时，许多人也看到了公众号背后的商业价值，纷纷尝试通过公众号赚钱。那么，可以赚钱的公众号究竟有哪些盈利之道与策略呢？本文将深入探讨这一问题，为想要通过公众号赚钱的人提供一些有益的思路和建议。公众号流量主就找善士导师（shanshi2024）公众号：「善士笔记」主理人，《我的亲身经历，四个月公众号流量主从0到日入过万！》公
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

网络爬虫技术浅析

你可能感兴趣的:(搜索引擎,互联网,网络爬虫)