快速搭建python爬虫管理平台

爬虫有多重要

对搜索引擎来说，爬虫不可或缺；对舆情公司来说，爬虫是基础；对 NLP来说，爬虫可以获取语料；对初创公司来说，爬虫可以获取初始内容。但是爬虫技术纷繁复杂，不同类型的抓取场景会运用到不同的技术。例如，简单的静态页面可以用 HTTP 请求＋HTML 解析器直接搞定；一个动态页面需要用 Puppeteer 或 Selenium等自动化测试工具；有反爬的网站需要用到代理、打码等技术；等等。那么此时就需要一个成熟的爬虫管理平台，帮助企业或个人处理大量的爬虫类别。

理解什么是爬虫管理平台

定义

爬虫管理平台是一个一站式管理系统，集爬虫部署、任务调度、任务监控、结果展示等模块于一体，通常配有可视化 UI 界面，可以在 Web 端通过与 UI 界面交互来有效管理爬虫。爬虫管理平台一般来说是支持分布式的，可以在多台机器上协作运行。

当然，上述这个定义是狭义的，通常针对于技术人员或开发者或技术经理。企业内部一般都会开发自己的内部爬虫管理系统，以应对复杂的爬虫管理需求。这样的系统就是上述定义的狭义的爬虫管理平台。

广义爬虫管理平台

而什么是广义的爬虫管理平台呢？您可能听说过神箭手（后转型为后羿采集器）和八爪鱼吧。前者是基于云服务的，可以在线上编写、运行和监控爬虫，在广义爬虫平台中最接近狭义定义的爬虫管理平台；后者是一个大众的商业爬虫抓取工具，可以让小白用户拖拉拽编写、运行爬虫，导出数据。您也可能见过各种 API 聚合服务商，例如聚合数据，这是一个可以直接调用网站接口获取数据的平台，这其实也算作爬虫平台的一个变种，只是它帮你完成了爬虫编写这一过程。而介于这两者之间的呢，国外有一家叫 Kimonolab 的公司，它开发了一个叫 Kimono 的 Chrome 插件，可以让用户在页面上可视化的点击元素并生成抓取规则，并在其网站上生成爬虫程序，用户提交任务，后台就可以自动在网站上抓取数据了。Kimono 是一个伟大的爬虫应用，但可惜的是，Kimonolab 已经被大数据公司 Plantir 收购，现在也就无法体验了。

在本文中，我们主要关注狭义定义的爬虫管理平台，因此后面所讲到的爬虫管理平台都是指狭义的定义。

爬虫管理平台模块

以下是一个典型的爬虫管理平台所涉及的模块。

爬虫管理平台架构

典型爬虫管理平台的模块主要包含以下内容：

任务管理：如何执行、调度爬虫抓取任务，以及如何监控任务，包括日志监控等等；
爬虫管理：包括爬虫部署，即将开发好的爬虫部署（打包或复制）到相应的节点上，以及爬虫配置和版本管理；
节点管理：包括节点（服务器/机器）的注册和监控，以及节点之间的通信，如何监控节点性能状况等；
前端应用：包括一个可视化 UI 界面，让用户可通过与其交互，与后台应用进行通信。

当然，有些爬虫管理平台可能还不止这些模块，它可能包括其他比较实用的功能，例如可配置的抓取规则、可视化配置抓取规则、代理池、Cookie 池、异常监控等等。

为什么需要爬虫管理平台

有了爬虫管理平台，开发者特别是爬虫工程师就能够方便的添加爬虫、执行任务、查看结果，而不用在命令行之间来回切换，非常容易出错。一个常见的场景就是爬虫工程师最初技术选型用了 scrapy 和 crontab 来管理爬虫任务，他不得不小心翼翼的选择定时任务的时间区间，以至于不会将服务器 CPU 或内存占满；更棘手的问题是，他还需要将 scrapy 产生的日志存到文件里，一旦爬虫出错了，他不得不用 shell 命令一个一个来查看日志来定位错误原因，严重时会花上一个整天；还有个严重的问题，爬虫工程师可能发现公司业务量在增加，他需要写上百个爬虫来满足公司的业务需求，而用 scrapy 和 crontab 来管理完全就是个噩梦。可怜的爬虫工程师其实完全可以选择一个合适爬虫管理平台来解决他的问题。

如何选择一个合适的爬虫管理平台

当您愿意解决前面提到的爬虫工程师遇到的困难问题，而转而想选择一个合适的爬虫管理平台时。

您首先应该回答的问题是：我们是否需要从零开始开发一套系统（Start from scratch）？要回答这个问题，您应该先回答下面几个问题：

1.我们的需求是否复杂到需要完全定制化开发一套新系统（例如要求复杂的权限管理）？

2.我们的团队是否有足够的技术实力来开发这套系统（例如有经验丰富的前后端开发工程师）？

3.我们的时间资源是否足够我们开发这套系统（例如项目计划周期为一年）？

如果上述三个问题的答案任意一个为“否”，您应该好好考虑利用市面上已有的开源爬虫管理平台来满足您的需求。

以下为市面上已有的开源爬虫管理平台：

总的来说，SpiderKeeper 可能是最早的爬虫管理平台，但功能相对来说比较局限；Gerapy 虽然功能齐全，界面精美，但有不少 bug 需要处理，建议有需求的用户等待 2.0 版本；Scrapydweb是一个比较完善的爬虫管理平台，不过和前两者一样，都是基于 scrapyd 的，因此只能运行 scrapy 爬虫；而Crawlab是一个非常灵活的爬虫管理平台，可以运行 Python、Nodejs、Java、PHP、Go 写的爬虫，而且功能比较齐全，只是部署起来相对于前三者来说要麻烦一些，不过对于 Docker 使用者来说可以做到一件部署（后面我们会讲）。

因此，对于重度 scrapy 爬虫依赖的、又不想折腾的开发者，可以考虑 Scrapydweb；而对于有各种类型的、复杂技术结构的爬虫开发者来说，应该优先考虑更灵活的 Crawlab。当然，不是说 Crawlab 对 scrapy 支持不友好，Crawlab 同样可以很好的集成 scrapy，后面会介绍。

作为 Crawlab 的作者，不想王婆卖瓜，自卖自夸，作者仅仅希望将最好的技术选型推荐给开发者，让开发者根据自身的需求来决定该使用哪种爬虫管理平台。

爬虫管理平台 Crawlab 介绍简介

Crawlab 是基于 Golang 的分布式爬虫管理平台，支持 Python、NodeJS、Java、Go、PHP 等多种编程语言以及多种爬虫框架。

Crawlab 自今年三月份上线以来受到爬虫爱好者们和开发者们的好评，不少使用者还表示会用 Crawlab 搭建公司的爬虫平台。经过近数月的迭代，Crawlab 陆续上线了定时任务、数据分析、网站信息、可配置爬虫、自动提取字段、下载结果、上传爬虫等功能，将平台变得得更加实用，更加全面，能够真正帮助用户解决爬虫管理困难的问题。如今在 Github 上有近 1k 的 star，相关社区也建立起来，四分之一的用户表示已经将 Crawlab 应用于企业爬虫管理。可以看出，Crawlab 是受开发者们关注和喜欢的。

解决问题

Crawlab 主要解决的是大量爬虫管理困难的问题，例如需要监控上百个网站的参杂 scrapy 和 selenium 的项目不容易做到同时管理，而且命令行管理的成本非常高，还容易出错。Crawlab 支持任何语言和任何框架，配合任务调度、任务监控，很容易做到对成规模的爬虫项目进行有效监控管理。

界面及使用

下面是 Crawlab 爬虫列表页面的截图。

Crawlab 爬虫列表

用户只需要将爬虫上传到 Crawlab，配置执行命令，点击“运行”按钮，就可以执行爬虫任务了。爬虫任务可以在任何节点上运行。从上图可以看到，Crawlab 有节点管理、爬虫管理、任务管理、定时任务、用户管理等模块。

整体架构

以下是 Crawlab 的整体架构图，由五大部分组成：

1.主节点（Master Node）：负责任务派发、API、部署爬虫等；

2.工作节点（Worker Node）：负责执行爬虫任务；

3.MongoDB 数据库：存储节点、爬虫、任务等日常运行数据；

4.Redis 数据库：储存任务消息队列、节点心跳等信息。

5.前端客户端：Vue 应用，负责前端交互和向后端请求数据。

Github地址及Demo

查看演示 DemoGithub: https://github.com/tikazyq/crawlab

使用 Docker 部署安装 Crawlab

Docker 镜像

Docker 是部署 Crawlab 最方便和简洁的方式。其他部署方式包括直接部署，不过对于想快速搭建平台的开发者来说不推荐。Crawlab 已在Dockerhub上注册了相关的镜像，开发者仅需要执行docker pull tikazyq/crawlab命令就可以将 Crawlab 的镜像下载下来。

读者可以去 Dockerhub 上查看 Crawlab 的镜像，只有仅不到 300Mb。地址：https://hub.docker.com/r/tikazyq/crawlab/tags

Dockerhub Page

安装 Docker

要使用 Docker 来部署 Crawlab，您首先得保证 Docker 已经安装好。请参考以下文档来安装。

安装 Docker Compose

Docker Compose 是简单的运行 Docker 集群的工具，非常轻量级，我们将用到 Docker Compose 来一键部署 Crawlab。

Docker 的官方网站已经有如何安装 Docker Compose 的教程，点击链接查看。这里简单介绍一下。

Linux 用户请用以下命令安装。

# 下载 docker-compose
sudo curl -L "https://github.com/docker/compose/releases/download/1.24.1/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose`

# 将 docker-compose 变成执行文件
sudo chmod +x /usr/local/bin/docker-compose

拉取镜像

在拉取镜像之前，您需要配置一下镜像源。因为在国内，使用原有的镜像源速度不是很快，需要使用 DockerHub 在国内的加速器。请创建/etc/docker/daemon.json文件，输入如下内容。

{
  "registry-mirrors": ["https://registry.docker-cn.com"]
}

然后拉取镜像，就会快很多了。当然，您也可以用其他镜像源，可以网上去搜索一下。执行以下命令将 Crawlab 镜像拉取下来。

docker pull tikazyq/crawlab:latest

下图为拉取镜像时的命令行界面。

docker pull

启动 Crawlab

我们将用 Docker Compose 启动 Crawlab 以及其依赖的数据库 MongoDB 和 Redis。首先我们需要修改一下 Docker Compose 的 yaml 配置文件docker-compose.yml。这个配置文件定义了需要启动的容器服务（Container Services）以及网络配置（Network Configuration）。这里我们用 Crawlab 自带的docker-compose.yml。

version: '3.3'  # Docker Compose 的版本号（请看后续说明）
services:  # 服务
  master:  # 服务名称
    image: tikazyq/crawlab:latest  # 服务对应的镜像名称
    container_name: master  # 服务对应的容器名称
    environment:  # 这里定义传入的环境变量
      CRAWLAB_API_ADDRESS: "localhost:8000"  # 前端调用的 API 地址，默认为 localhost:8000
      CRAWLAB_SERVER_MASTER: "Y"  # 是否为主节点，Y/N
      CRAWLAB_MONGO_HOST: "mongo"  # MongoDB host，由于在 Docker Compose 里，可以引用服务名称
      CRAWLAB_REDIS_ADDRESS: "redis"  # Redis host，由于在 Docker Compose 里，可以引用服务名称
    ports:  # 映射的端口
      - "8080:8080" # 前端端口
      - "8000:8000" # 后端端口
    depends_on: # 依赖的服务
      - mongo  # MongoDB
      - redis  # Redis
  worker:  # 工作节点，与主节点配置类似，不重复写了
    image: tikazyq/crawlab:latest
    container_name: worker
    environment:
      CRAWLAB_SERVER_MASTER: "N"
      CRAWLAB_MONGO_HOST: "mongo"
      CRAWLAB_REDIS_ADDRESS: "redis"
    depends_on:
      - mongo
      - redis
  mongo:  # MongoDB 服务名称
    image: mongo:latest  # MongoDB 镜像名称
    restart: always  # 重启策略为“总是”
    ports:  # 映射端口
      - "27017:27017"
  redis:  # Redis 服务名称
    image: redis:latest  # Redis 镜像名称
    restart: always  # 重启策略为“总是”
    ports:  # 映射端口
      - "6379:6379"

读者可以根据自己的要求来配置docker-compose.yml。尤其需要注意CRAWLAB_API_ADDRESS这个环境变量，很多初学使用者都是因为该变量配置不正确而导致无法登陆。大多数情况，您不用做任何配置更改。请参考Q&A来处理常见问题，以及详细的环境变量配置文档来帮助根据自身环境配置 Crawlab。

然后，运行下列命令启动 Crawlab。可以加一个-d参数让 Docker Compose 后台运行。

docker-compose up

运行上述命令后，Docker Compose 会去拉取 MongoDB 和 Redis 的镜像，这可能会花几分钟时间。拉取完毕后，四个服务会依次启动，您将会在命令行中看到如下内容。

docker-compose

正常情况下，您应该可以看到四个服务都启动成功，并能够顺利打印日志。

如果您是在本机上启动的 Docker Compose，可以在浏览器中输入http://localhost:8080，然后就能看到登陆界面了；如果您是在其他机器上启动的 Docker Compose，您需要在浏览器中输入http://:8080来看到登陆界面，是其他机器的 IP 地址（请保证 8080 端口在该机器已对外开放）。

初始登陆用户名密码是 admin/admin，您可以使用这个用户名密码来登陆。如果您的环境变量CRAWLAB_API_ADDRESS设置得不正确，您可能会看到点击登陆后登陆按钮会一直转圈而没有任何提示。这时请重新在docker-compose.yml中设置正确的CRAWLAB_API_ADDRESS（将localhost替换为），重新启动docker-compose up。然后在浏览器中输入http://:8080。

登陆之后您将看到 Crawlab 的主页。

home

本篇文章主要介绍如何搭建爬虫管理平台 Crawlab，因此不会详细介绍如何使用 Crawlab（可能会创建另一篇文章来详细介绍，有兴趣者可以关注一下）。如果您有困惑，请查看相关文档来了解如何使用。

如何将 Scrapy 等爬虫集成到 Crawlab

众所周知，Scrapy 是非常受欢迎的爬虫框架，其灵活的框架设计、高并发、易用性以及可扩展性让很多开发者和企业大量采用。市面上的爬虫管理平台几乎都支持 Scrapy 爬虫，Crawlab 也不例外，但 Crawlab 可以运行 puppeteer、selenium 等其他爬虫。下面将介绍一下在 Crawlab 中如何运行 scrapy 爬虫。

Crawlab 是执行爬虫基本原理

Crawlab 执行爬虫的原理很简单，其实就是一个 shell 命令。用户在爬虫中输入执行爬虫的 shell 命令，例如scrapy crawl some_spider，Crawlab 执行器会读取这个命令，并在 shell 中直接执行。因此，每一次运行爬虫任务，就是执行了一次 shell 命令（当然，实际情况要比这个复杂很多，感兴趣的可以去参考官方文档）。Crawlab 是支持展示和导出爬虫结果的，不过这需要稍微多做一些工作。

编写 Pipeline

要集成 scrapy 爬虫，无非就是将爬虫抓取的数据存到 Crawlab 的数据库里，然后用任务 ID 关联起来。每次执行爬虫任务，任务 ID 会通过环境变量传到爬虫程序中，因此我们需要做的就是将任务 ID 加上结果存到数据库里（Crawlab 现在只支持 MongoDB，后期会开发 MySQL、SQL Server、Postgres 等关系型数据库，有需求的用户可以关注一下）。

在 Scrapy 中，我们需要编写储存逻辑。示意代码如下：

# 引入相关的库，pymongo 是标准连接 MongoDB 的库
import os
from pymongo import MongoClient

# MongoDB 配置参数
MONGO_HOST = '192.168.99.100'
MONGO_PORT = 27017
MONGO_DB = 'crawlab_test'

class JuejinPipeline(object):
    mongo = MongoClient(host=MONGO_HOST, port=MONGO_PORT)  # mongo 连接实例
    db = mongo[MONGO_DB]  # 数据库实例
    col_name = os.environ.get('CRAWLAB_COLLECTION')  # 集合名称，通过环境变量 CRAWLAB_COLLECTION 传过来

 # 如果 CRAWLAB_COLLECTION 不存在，则默认集合名称为 test
    if not col_name:
        col_name = 'test'
 
    col = db[col_name]  # 集合实例

 # 每一个传入 item 会调用的函数，参数分别为 item 和 spider
    def process_item(self, item, spider):
        item['task_id'] = os.environ.get('CRAWLAB_TASK_ID')  # 将 task_id 设置为环境变量传过来的任务 ID
        self.col.save(item)  # 保存 item 在数据库中
        return item

同时，您也需要在items.py中加入task_id字段，已保证值能够被赋上（这很重要）。

上传并配置爬虫

在运行爬虫之前，您需要上传爬虫文件到主节点。步骤如下：

1.将爬虫文件打包成 zip（注意，要保证在根目录下直接打包）；

2.在侧边栏点击“爬虫”导航至爬虫列表，点击“添加爬虫”按钮，选择“自定义爬虫”；

3.点击“上传”按钮，选择刚刚打包好的 zip 文件

4.上传成功后，爬虫列表中会出现新添加的自定义爬虫，这样就算上传成功了。

可以在爬虫详情中点击“文件”标签，选择一个文件，可以在文件中编辑代码。

接下来，您需要在“概览”标签中的“执行命令”一栏输入爬虫的 shell 执行命令。Crawlab 的 Docker 镜像里是内置了 scrapy 的，因此可以直接运行 scrapy 爬虫。命令就是scrapy crawl 。点击“保存”按钮保存爬虫配置。

运行爬虫任务

然后就是运行爬虫任务了。其实很简单，在“概览”标签中点击“运行”按钮，爬虫任务就开始运行了。如果日志提示找不到 scrapy 命令，可以将scrapy改为绝对路径/usr/local/bin/scrapy，这样就会运行成功。

任务运行情况会在“任务”页面或者爬虫“概览”里展现，会每 5 秒钟更新一次，大家可以在这上面查看。而且在爬虫“结果”标签里，可以预览结果的详情，还可以导出数据成 CSV 文件。

构建持续集成（CI）工作流

对于企业来说，软件开发一般是一个自动化过程。它会经历需求、开发、部署、测试、上线这几个步骤。而这个流程一般是不断迭代（Iterative）的，需要不断更新和发布。

以爬虫为例，您上线了一个爬虫，这个爬虫会定期抓取网站数据。但突然有一天您发现数据抓不到了，您快速定位原因，发现原来是网站改版了，您需要更改爬虫抓取规则来应对网站的改版。总之，您需要发布一个代码更新。最快的做法是直接在线上更改代码。但这样做非常危险：第一，您无法测试您更新后的代码，只能通过不断调整线上代码来测试是否抓取成功；第二，您无法记录这次更改，后期如果出了问题您很可能会忽略掉这次更改，从而导致 bug。您需要做的，无非是将您的爬虫代码用版本管理工具管理起来。我们有很多版本管理工具，最常用的就是 git、subversion，版本管理平台包括 Gitlab、Bitbucket、自搭 Git 仓库等。

当我们更新了代码，我们需要将更新后的代码发布到线上服务器。这时您需要用自己写部署脚本，或者更方便的，用 Jenkins 作为持续集成（Continuous Integration）管理平台。Jenkins 是一个持续集成平台，可以通过获取版本库来更新部署代码，是非常实用的工具，在很多企业中都有用到。下图是如何将 Crawlab 爬虫应用到持续集成工作流程中的例子。

要在 Crawlab 中创建或更新爬虫有两种方式：

1.上传打包成后的 zip 文件；

2.通过更改主节点中目录CRAWLAB_SPIDER_PATH中的爬虫文件。

我们做持续集成，就是针对第二种方式。步骤如下：

1.用 Gitlab 或其他平台搭建好代码仓库；

2.在 Jenkins 中创建一个项目，在项目中将代码源指向之前创建的仓库；

3.在 Jenkins 项目中编写工作流，将发布地址指向 Crawlab 的CRAWLAB_SPIDER_PATH，如果是 Docker 注意将该地址挂载到宿主机文件系统；

4.Jenkins 项目的工作可以直接编写，也可以用 Jenkinsfile，具体可以查相关资料；

5.这样，每一次代码更新提交到代码仓库后，Jenkins 就会将更新后的代码发布到 Crawlab 里，Crawlab 主节点会将爬虫代码同步到工作节点，以待抓取。

总结

本篇文章主要介绍了爬虫管理平台的定义、如何选择爬虫管理平台，着重介绍了如何搭建开源爬虫管理平台 Crawlab，另外还讲到了如何集成 scrapy 爬虫以及如何打造持续集成工作流。本篇文章没有涉及到的内容还有很多，包括如何 Crawlab 的原理和架构详情、如何使用 Crawlab、如何编写大规模爬虫、如何使用 Jenkins 等等。这些内容可能会在其他文章中发布，请感兴趣的读者多多关注。另外，Crawlab 还有一些需要提升的地方，例如异常监控（零值、空值）、可配置爬虫、可视化抓取、日志集中收集等等。这些功能都将在以后陆续开发和发布，请大家也多多关注。

以上就是快速搭建python爬虫管理平台的详细内容，更多关于搭建python爬虫平台的资料请关注脚本之家其它相关文章！

Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
ERP企业资源规划系统点滴~ 教育电商
ERP企业资源规划系统ERP（EnterpriseResourcePlanning）企业资源规划系统是一种综合性的管理信息系统，旨在通过信息技术手段实现对企业内部资源的全面规划、管理和控制。以下是对ERP企业资源规划系统的详细解析：一、定义与核心思想ERP系统建立在信息技术基础上，以系统化的管理思想，为企业决策层及员工提供决策运行手段的管理平台。它不仅仅是一个软件，更重要的是一个管理思想，实现了企
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
【Python爬虫】百度百科词条内容 PokiFighting 数据处理 python 爬虫开发语言
词条内容我这里随便选取了一个链接，用的是FBI的词条importurllib.requestimporturllib.parsefromlxmlimportetreedefquery(url):headers={'user-agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/80.
Axure科技感大屏系统设计：智慧农场管理平台招风的黑耳 Axure axure 科技感可视化智慧农业智慧农场
在数字化转型的浪潮中，数据可视化作为连接现实世界与数字世界的桥梁，正以前所未有的速度改变着各行各业的面貌。智慧农业作为现代农业的重要发展方向，其管理平台的数据大屏设计尤为重要，它不仅是农场运营状况的直接展示窗口，更是决策支持与分析的强有力工具。AxureRP，作为一款强大的原型设计工具，凭借其高度的自定义能力和丰富的交互设计功能，成为了设计科技感十足的智慧农场管理平台大屏的理想选择。Axure在科
Python爬虫代理池极客李华 python授课 python 爬虫开发语言
Python爬虫代理池网络爬虫在数据采集和信息抓取方面起到了关键作用。然而，为了应对网站的反爬虫机制和保护爬虫的真实身份，使用代理池变得至关重要。1.代理池的基本概念：代理池是一组包含多个代理IP地址的集合。通过在爬虫中使用代理池，我们能够隐藏爬虫的真实IP地址，实现一定程度的匿名性。这有助于防止被目标网站封锁或限制访问频率。2.为何使用代理池：匿名性：代理池允许爬虫在请求目标网站时使用不同的IP
详解 Flink 的常见部署方式文刀小桂 Flink flink 大数据
一、常见部署模式分类1.按是否依赖外部资源调度1.1Standalone模式独立模式(Standalone)是独立运行的，不依赖任何外部的资源管理平台，只需要运行所有Flink组件服务1.2Yarn模式Yarn模式是指客户端把Flink应用提交给Yarn的ResourceManager,Yarn的ResourceManager会在Yarn的NodeManager上创建容器。在这些容器上，Flink
10个高效的Python爬虫框架，你用过几个？进击的C语言 python
小型爬虫需求，requests库+bs4库就能解决；大型爬虫数据，尤其涉及异步抓取、内容管理及后续扩展等功能时，就需要用到爬虫框架了。下面介绍了10个爬虫框架，大家可以学习使用！1.Scrapyscrapy官网：https://scrapy.org/scrapy中文文档：https://www.osgeo.cn/scrapy/intro/oScrapy是一个为了爬取网站数据，提取结构性数据而编写的
python爬虫(5)之CSDN It is a deal️ 小项目 python json 爬虫
CSDN的爬虫相对于doubatop250更加简单，一般只需要title和url即可下面是相关的代码：#爬虫之csdn#分析urlhttps://www.csdn.net/api/articles?type=more&category=python&shown_offset=0（firstpage）#https://www.csdn.net/api/articles?type=more&categ
数字化（电子化）招标采购平台系统核心功能详细介绍 xinyuan_123456 oracle
数智化招标采购平台覆盖全业务类型、全采购流程、全采购方式，是郑州信源公司运用“互联网+”、大数据、人工智能、区块链、物联网等新兴技术，结合供应链管理理念，以招标采购为核心，提供交易、管理、数据、服务、监管为一体的高标准采购管理平台，赋能政企用户实现采购业务全流程的电子化、数字化、智慧化。根据产品功能及应用领域，产品包括：企业数智化招采供应链平台、金融数智化招采平台、政府数智化采购平台、公共资源数智
Spring Cloud Alibaba的Java CRM客户关系管理系统源码微服务技术分享 java CRM客户关系管理系统源码
ERP（EnterpriseResourcePlanning，企业资源计划）软件是一种集成的管理平台，它将企业的所有业务流程，包括采购、销售、库存、财务等，整合到一个统一的系统中。这种整合不仅提高了工作效率，还增强了数据的准确性和实时性。在当今快速发展的商业环境中，ERP软件已经成为企业不可或缺的工具。本文将详细介绍ERP软件的主要模块及其功能，帮助读者更好地理解ERP软件如何助力企业实现信息化管
Python——爬虫星和月 python
当编写一个Python爬虫时，你可以使用BeautifulSoup库来解析网页内容，使用requests库来获取网页的HTML代码。下面是一个简单的示例，演示了如何获取并解析网页内容：importrequestsfrombs4importBeautifulSoup#发送HTTP请求获取网页内容url='https://www.example.com'#要爬取的网页的URLresponse=requ
OSG 三维城市数据信息化管理平台演示视频者山海 OSG 架构 OSG QT C++
1.实现功能（1）实现软件主体界面：如各种信息展示栏、状态栏、树状图、三维展示界面等。（2）实现软件相关功能：如添加度带、经纬网、影像图层、地形高程等基础图层信息，加载并处理整个新城区的城市模型（OSGB）、SHP图层、OSG模型、基础图元等各类数据文件，实现距离、高度差、立面面积、地形剖面等各种量测，完成井盖、社区、街道、人户关联、绿化等各种城市信息各类查询展示及管理，添加巡航、天气、大气等模拟
基于Python爬虫四川成都二手房数据可视化系统设计与实现(Django框架) 研究背景与意义、国内外研究现状_django商品房数据分析论文(1) 莫莫Android开发信息可视化 python 爬虫
3.国外研究现状在国外，二手房数据可视化也是一个热门的研究领域。以美国为例，有很多公司和网站提供了专门的二手房数据可视化工具，如Zillow、Redfin等。这些工具通常提供房价趋势图、房价分布图、房源信息等功能，帮助用户更好地了解房市动态。综上所述，虽然国内外在二手房数据可视化方面已经有了一些研究成果，但对于四川成都地区的二手房市场还没有相关的研究和可视化系统。因此，本研究旨在设计并实现一个基于
二进制方式部署K8s高可用集群麻辣头马头 kubernetes 容器云原生运维服务器 docker 网络
1二进制方式部署K8s高可用集群1.1kubeadm和二进制安装k8s适用场景分析kubeadm是官方提供的开源工具，是一个开源项目，用于快速搭建kubernetes集群，目前是比较方便和推荐使用的。kubeadminit以及kubeadmjoin这两个命令可以快速创建kubernetes集群。Kubeadm初始化k8s，所有的组件都是以pod形式运行的，具备故障自恢复能力。kubeadm是工具，
CentOS 安装 Openstack --按 rdo 方式 weixin_44251398 centos openstack
安装方式：OpenStack是一个开源的云计算管理平台项目，能支持几乎所有类型的云环境。OpenStack提供了基础设施即服务（IaaS）的解决方案，每个服务都可提供API以进行集成。OpenStack覆盖了网络、虚拟化、操作系统、服务器等各个方面。openstack安装方法有很多种，主流有四种方式，包括（1）手动一步一步安装，（2）fuel安装，（3）devstack安装和（4）rdo安装，RD
python requests下载网页_python爬虫 requests-html的使用 weixin_39600319 python requests下载网页
一介绍Python上有一个非常著名的HTTP库——requests，相信大家都听说过，用过的人都说非常爽！现在requests库的作者又发布了一个新库，叫做requests-html，看名字也能猜出来，这是一个解析HTML的库，具备requests的功能以外，还新增了一些更加强大的功能，用起来比requests更爽！接下来我们来介绍一下它吧。#官网解释'''Thislibraryintendsto
智能农业设备软件工程师如何集成和管理农业设备的远程更新系统 openwin_top 智能农业设备软件工程师深度学习大数据物联网人工智能网络智能农业
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位集成和管理农业设备的远程更新系统涉及多个技术层面，包括设备固件的安全更新、版本控制、网络通信，以及设备管理平台的开发。下面我们详细分析这些步骤，并提供一个基本的示例代码来展示如何实现这个系统。1.系
解决“Python中 pip不是内部或外部命令，也不是可运行的程序或批处理文件”的方法。 གཡུ ། Python 常规问题 python pip 机器学习自然语言处理
解决‘Python中pip不是内部或外部命令，也不是可运行的程序或批处理文件。’的方法1、pip是什么？pip是一个以Python计算机程序语言写成的软件包管理系统，他可以安装和管理软件包，另外不少的软件包也可以在“Python软件包索引”中找到。它可以通过cmd（命令提示符）非常方便地下载和管理Python第三方库，比如，Python爬虫中常见的requests库等。但是我们在使用cmd运行pi
python爬虫的urlib知识梳理卑微小鹿爬虫
1:urlib.request.urlopen发送请求getpost网络超时timeout=0.1网络请求模拟一个浏览器所发送的网络请求创建requestrequest头信息➕host/IP➕验证➕请求方式cookice客户返回响应数据所留下来的标记代理ipUrlib.request.proxyhander字典类型异常处理codereasonhearders拆分URLurlpaseurlsplit
828华为云征文 | 使用Flexus云服务器X实例部署Kubernetes图形化管理平台降世神童华为云服务器 kubernetes
828华为云征文|使用Flexus云服务器X实例部署Kubernetes图形化管理平台1.基础部署环境说明2.部署Kubernetes环境3.部署KubernetesDashboard4.创建登录账号token5.访问KubernetesDashboard1.基础部署环境说明 Kubernetes作为当今最流行的容器编排平台，随着云计算、微服务架构和DevOps文化的普及，Kubernetes在
Python爬虫入门实战：抓取CSDN博客文章 A Bug's Code Journey 爬虫 python
一、前言在大数据时代，网络上充斥着海量的信息，而爬虫技术就是解锁这些信息宝库的钥匙。Python，以其简洁易读的语法和强大的库支持，成为编写爬虫的首选语言。本篇博客将从零开始，带你一步步构建一个简单的Python爬虫，抓取CSDN博客的文章标题和链接。二、环境准备在开始之前，确保你的环境中安装了Python和以下必要的库：1.requests：用于发送HTTP请求2.BeautifulSoup：用
避坑指南：ECS 与 RDS 选购的那些“坑”，你踩了几个？吃面不喝汤66 后端开发服务器运维
在阿里云上部署项目时，ECS和RDS是我们常用的云计算资源。然而，许多人在选购和配置这两者时容易踩坑，比如在VPC、可用区等关键配置上的选择。这篇文章将结合我踩过的坑，分享选购ECS和RDS的最佳实践，帮助大家避免那些隐藏的“地雷”。️场景回顾：当我以为很简单的时候...在项目初期，我根据需求购买了一台ECS实例和一个RDS数据库实例，想着这样能快速搭建出项目环境。结果购买完后才发现，ECS和RD
基于java+SpringBoot+Vue的小徐影城管理系统设计与实现 paterWang Java精品毕设实战计算机毕业设计 Java java spring boot vue.js
开发语言:Java数据库:MySQL技术:SpringBoot+MyBatis工具:IDEA/Ecilpse、Navicat、Maven系统简介小徐影城管理系统是一款基于Java、SpringBoot和Vue.js技术开发的影院管理系统，旨在为用户提供一个便捷、高效的在线购票和影院管理平台。系统通过B/S架构，实现了管理员和用户两端的功能操作，使得影院管理更加系统化、规范化。整体功能包含：电影信息
Nacos的应用 chen_xiayu java
Nacos是一个开源的分布式服务发现和配置管理平台，可以帮助开发人员和运维人员更好地管理微服务和云原生应用。本文将详细介绍Nacos的应用，包括其主要功能、使用场景和具体步骤。一、主要功能1.服务发现和注册Nacos能够实现服务注册和发现，使得各个服务的调用方可以方便地找到并调用服务提供方。当服务提供方上线时，Nacos会自动地将其注册到服务注册中心。当服务调用方需要调用服务提供方时，只需向Nac
Python爬虫——Selenium方法爬取LOL页面张小生180 python 爬虫 selenium
文章目录Selenium介绍用Selenium方法爬取LOL每个英雄的图片及名字Selenium介绍Selenium是一个用于自动化Web应用程序测试的工具，但它同样可以被用来进行网页数据的抓取（爬虫）。Selenium通过模拟用户在浏览器中的操作（如点击、输入、滚动等）来与网页交互，并可以捕获网页的渲染结果，这对于需要JavaScript渲染的网页特别有用。安装Selenium首先，你需要安装S
Python爬虫如何搞定动态Cookie？小白也能学会！图灵学者 python精华 python 爬虫 github
目录1、动态Cookie基础1.1Cookie与Session的区别1.2动态Cookie生成原理2、requests.Session方法2.1Session对象保持2.2处理登录与Cookie刷新2.3长连接与状态保持策略3、Selenium结合ChromeDriver实战3.1安装配置Selenium3.2动态抓取&处理Cookie4、requests-Session结合Selenium技巧4
Python爬虫基础知识板栗妖怪 python 爬虫开发语言
(未完成)爬虫概念爬虫用于爬取数据，又称之为数据采集程序爬取数据来源于网络，网络中数据可以是有web服务器、数据库服务器、索引库、大数据等等提供爬取数据是公开的、非盈利。python爬虫使用python编写的爬虫脚本可以完成定时、定量、指定目标的数据爬取。主要使用多（单）线程/进程、网络请求库、数据解析、数据储存、任务调度等相关技术。爬虫和web后端服务关系爬虫使用网络请求库，相当于客户端请求，w
NineData云原生智能数据管理平台新功能发布｜2024年8月版 NineData 数据备份与恢复数据库DevOps 数据复制数据库 NineData DevOps 数据迁移数据复制
本月发布10项更新，其中重点发布5项、其他发布5项。重点发布数据库DevOps-敏感数据保护功能大幅升级敏感数据保护全新升级，新增支持敏感数据等级，方便进行分类分级管控，加入数据类型概念，用于智能识别数据源中的敏感字段并支持自动添加。同时加入敏感数据大盘，让系统管理员可轻松了解当前组织下敏感数据的整体状态。另外还新增了多种脱敏算法和识别规则，现已可覆盖大部分用户场景。数据库DevOps-数据库De
python爬虫处理滑块验证_python selenium爬虫滑块验证用户6731453637 python爬虫处理滑块验证
importrandomimporttimefromPILimportImagefromioimportBytesIOimportrequestsasrqfrombs4importBeautifulSoupasbsfromseleniumimportwebdriverfromselenium.webdriverimportActionChainsfromselenium.webdriverimpo
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他