~朴：shu

Puppeteer 使用教程-实战篇（爬取图片、视频、音频，页面数据）

前言

一、获取实体店铺信息

二、获取全国各省市县地图json数据

三、 cookies

四、获取网络图片、视频资源

五、自动化测试

总结

前言

续上篇，我们简单讲述一下puppeteer常见的应用场景，包括静态页面数据获取，网络请求获取截取、图片、视频资源下载、自动化测试等。

一、获取实体店铺信息

这个案例是我在网上看到的真实案例，需求是需要爬取店铺信息，用于广告投放，需要有店铺面积、联系方式、租金、位置等信息，出价800￥，还是非常诱人的。大家学会了puppeteer后，也可以接这种单子做。

下面我们来实现这个案例：

先爬取基础信息吧，这个代码是 puppeteer最基础的代码了。

// 初始化puppeteer
async function initPuppeteer() {
  const browser = await puppeteer.launch({ headless: false });

  const page = await browser.newPage();

  page.goto(baseURL);
}

信息都在这个div里面，我们使用 page.$eval()选择这个div，向里取数。

我们想要的信息在这，使用 document.querySelectorAll()选中所有的 class='list-item',每一项单独获取信息即可：

 await page.$eval('div[class="list-left"]', (listLeft) => {
 // 这里不用document,而是在 已经选中的基础上进行下一步操作
    const items = listLeft.querySelectorAll('div[class="list-item"]');
    items.forEach(async (item) => {
      // 这里获取的是每一项数据，可以直接拿到信息
      const item_a_link = item.querySelector("a");

      //   获取图片链接
      const item_img_src = item_a_link
        .querySelector('div[class="item-img"]')
        .querySelector("img")
        .getAttribute("src");

      // 获取标题
      const item_title = item_a_link
        .querySelector('div[class="item-info"]')
        .querySelector('div[class="item-title"]')
        .querySelector("span").innerText;

      // 获取 联系人 名称
      const item_user = item_a_link
        .querySelector('div[class="item-info"]')
        .querySelectorAll("p")[2]
        .querySelector("span").innerText;
    });
});

现在处理联系方式：

页面设计为需要打开新tab页，点击电话联系TA 按钮，才能显示电话，因为需要等待 60 的浏览器响应数据，因此，设计为异步处理。异步处理则是在一个页面中跳转路由，而不是打开多个浏览器，节省内存，不然会导致内存溢出，程序中断。

for (const item of data) {
    if (!item.phoneUrl) return;
    // 请求phone
    await page.goto(item.phoneUrl);

    // 处理 元素不存在，需要点击校验的问题(存在机器校验问题，需要等待元素)

    if (!(await page.waitForSelector('div[class="tel-wrap"]')))
      await page.click('input[class="btn_tj"]');

    await page.waitForSelector('div[class="tel-wrap"]');
    //   点击 电话联系ta 显示号码
    await page.click('div[class="tel-wrap"]');

    //   等待元素
    await page.waitForSelector('div[class="tel-phone-number"]');

    //   获取号码
    const phone = await page.evaluate(() => {
      return document.querySelector('div[class="tel-phone-number"]').innerText;
    });

    item.phone = phone;

    // 这里不要 page.close() 不然没有操作页面，
    // 其二 close 后，一定要 newPage(),两种方案
  }

请求次数过多，会有这个提示，这个时候，需要判断元素是否存在，不存在，需要进行点击处理：

 //   首页也会有机器校验问题
  if (!document.querySelector('div[class="list-left"]'))
    await page.click('input[class="btn_tj"]');

效果如下：

当然，有些用户的号码是虚拟的，10分有限，那每隔10分钟爬取一次，更新变量就行了，将数据转存为json文件：

测试没问题了，就可以关闭 headless 模式了。还可以通过参数控制数据获取范围，参数型数据获取，我们到下面再说哈。

二、获取全国各省市县地图json数据

DataV.GeoAtlas地理小工具系列

这个就是我地图篇的数据爬取了，下面说说思路：

页面网络请求中，有一个 all.json 的请求，是全国各省市县的adcode、name属性，我们先拿到这个数据，然后根据adcode进行分别请求即可。

全国JSON数据：https://geo.datav.aliyun.com/areas_v3/bound/100000_full.json

广西JSON数据：https://geo.datav.aliyun.com/areas_v3/bound/450000_full.json

柳州市JSON数据：https://geo.datav.aliyun.com/areas_v3/bound/450200_full.json

柳城县JSON数据：https://geo.datav.aliyun.com/areas_v3/bound/450222.json

可以看出，前缀是一样的，无非就是更换了请求的adcode，县级地图没有 _full ，因此，我们最重要的三个数据项：adcode、name、level，【但是我们仔细看all.json,他只有四个层级，country、province、city、district。】就可以爬取全国各省市县的JSON数据，下面我们开始吧。

puppeteer 页面刚加载时，并没有请求 all.json，因此需要实现刷新页面 page.reload(),监听请求没有响应体，转为监听响应了，两者都是相似的

  page.on("response", async (res) => {
    if (
      res.request().url() ===
      "https://geo.datav.aliyun.com/areas_v3/bound/all.json"
    )
       const data = await res.text();
      saveFile(data);
  });

拿到这个数据后，直接发送get请求，就可以得到响应体实现文件转存了：

// 请求各省市县json数据
async function queryJson(list) {
  if (!list.length) return;
  for (const item of JSON.parse(list)) {
    //  一共3000多个，我就模拟前几个就行了 到 adcode = 110115 退出
    if (item.adcode === 110115) break;
    // 发送请求
    console.log(`## 正在请求 ${item.name} json数据，命名为${item.adcode}.json`);
    const url =
      item.level === "district"
        ? `https://geo.datav.aliyun.com/areas_v3/bound/${item.adcode}.json`
        : `https://geo.datav.aliyun.com/areas_v3/bound/${item.adcode}_full.json`;

    try {
      const { data } = await axios.get(url);
      saveJson(data, item.adcode);
    } catch (error) {
      console.log("请求出错", error);
    }
  }
}

通过这两个案例，你也能清晰看出，每个页面的数据获取并不全是一样的。一定要先关注你想爬取的数据，是怎么来的，页面静态数据、接口数据还是啥，下面的案例，我们说一下怎么通过监听接口响应来获取数据。

三、 cookies

上面两个案例，接触了静态页面数据获取、接口数据获取，既然puppeteer也能进行输入操作，为什么不直接输入账号密码登录，而是要进行cookies设置？有些是需要手机验证码的，在puppeteer上等待验证码不太好,因此，登录一次后，进行cookies设置是最合适的。目前没找到合适的案例进行说明，以后遇到了再补充。

四、获取网络图片、视频资源

https://www.upupoo.com/bd01?n=20210426043&bd_vid=11724880147497932614

难点在于请求的资源进行保存，使用 fs 模块完成即可。

// 在这里处理一下 参数 的真正实现的思路吧（先获取映射）
  const paramsIndex = await page.evaluate(() => {
    let map = [];
    const lis = document
      .querySelector('ul[class="wallpaper-tag-list"]')
      .querySelectorAll("li");
    lis.forEach((i) => map.push(i.innerText));
    return map;
  });
// 判断参数
  if (type) {
    const btns = await page.$$('ul[class="wallpaper-tag-list"] li');
    btns[paramsIndex.findIndex((i) => i === type)].click();
  }

先使用page的方法，点击了页面后，才可以进行页面数据获取，这才是参数型获取数据正确的做法。

  await page.exposeFunction("downloadImg", downloadImg);
 // 处理数据(又要等待，不然没结果)
  await page.waitForSelector('li[class="wallpaper-item"] div img');

  await page.evaluate(() => {
    const images = document.querySelectorAll(
      'li[class="wallpaper-item"] div img'
    );
    images.forEach((img) => {
      // 获取li的img属性
      downloadImg(img.getAttribute("src"));
    });
  });

async function downloadImg(url) {
  // 解析类型
  const [name, type] = url.split("theme")[1].split(".");
  const { data } = await axios.get(url, {
    responseType: "arraybuffer", // 务必设置响应类型
  });
  const filename = name.split("/");

  fs.writeFile(
    `./demo/img/${filename[1]}_${filename[2]}.${type}`,
    data,
    "binary",
    function (err) {
      if (err) return console.log("文件保存失败", err);
      console.log("保存图片成功");
    }
  );
}

视频的获取也是类似的，都是拿到url，进行请求，然后进行文件保存：

async function initVideo() {
  const browser = await puppeteer.launch({ headless: true });
  const page = await browser.newPage();
  page.goto("https://www.douyin.com/");

  const closebtn = await page.waitForSelector('div[class="dy-account-close"]');
  // 如果有提示登录，则关闭按钮
  if (closebtn) await page.click('div[class="dy-account-close"]');

  await page.exposeFunction("downloadVideo", downloadVideo);
  for (const i of new Array(5).fill(0)) {
    await page.evaluate(async () => {
      await downloadVideo(
        document.querySelector("video source").getAttribute("src")
      );
    });
    // 点击下一个视频
    await page.click('div[class="xgplayer-playswitch-next"]');
  }
}

爬取音频：

任何网络资源请求，在操作前，都一定要观察一下它的资源是怎么出现的。无非常见的两种形式：页面url、网络请求。我已经很多次都强调了这个点，每个页面都是不一样的，先观察，再考虑采取什么方式爬取，不然你无从下手。

Vite + Vue + TS 这个音乐播放器就不是常见的页面url，找了元素好久页没有发现音频的路径，而是每点击一次页面请求拿到音频直接播放。因此我们获取响应的请求，判断类型，拿到音频

res.request().resourceType()：请求资源类型资源类型为以下值中的一个：document，stylesheet，image，media，font，script，texttrack，xhr，fetch，eventsource，websocket，manifest，other。

根据请求拿url：

哇，这个页面爬取的跟pc的还不完全一样！只能按照按钮先展示播放进度了，然后再依次点击下一首，进行请求拦截。先看一下它请求的时候传了什么参数：

请求的id与返回歌曲列表的hash值一致，这样就可以对应唯一的请求，实现歌曲名称歌手对应了。

先将歌曲的列表信息存起来，请求的时候，分解hash，找到对应的歌曲信息

// 绑定外部方法，专门处理 url hash
function getUrlHash(url) {
  if (!url) return;

  let hash = url.split("?")[1]?.split("=")[1].replace("&quality", ""); // url 的请求 hash

  if (!hash) return; // hash 值不存在，则表示不是歌曲列表中的请求

  // 找歌曲信息
  // {
  //   "id": "0YXav",
  //   "name": "一生有你",  // 歌名
  //   "artist": [{ "id": "x54Y", "name": "水木年华" }],   歌手
  //   "hash": "b3f634HzOLrfMF9SfoFxvaAaYFEZSwZSByWMoKP4GiqF3T270"  请求
  // },
  const songsList = require("./mp3/info.json");
  const item = songsList.find((i) => i.hash === hash);
  if (item) {
    musicList.push({
      musicUrl: url,
      name: item.name,
      user: item.artist,
    });

    console.log("歌曲转存", musicList);
  }
}

需要等待时长，剩下的就是点击下一首进行其他歌曲的捕获：

这个爬取音频是几个案例中最难的，哇，搞了我一天。没想到这个网页做的这么好，夸一下！

五、自动化测试

这个就不多说了，无非是进行按钮的操作、输入框输入，可以配合一些mock库，实现数据模拟，找到好的案例再给大家补充。

总结

这几个案例大家都自己手敲的话，相信大家对puppeteer的掌握程度一定有质的提升。还是对几个案例做一下总结吧：

puppeteer内部使用 page.$eval、page.evaluate会更多，在node环境中，使用page.$、page.$$更多。
内部环境就像是 console 控制台，可以随意使用 document.querySelector,但是在node中，你也想获取元素，就要使用 page.$ 获取元素了，进行 page.$().click()的操作。
在想爬取一个网页数据之前，一定先弄清楚数据来源，是静态页面还是接口数据，还是需要我们自己发请求。
一定合理利用 page 的wait方法，可以避免一些错误，特别是元素选择问题。
合理使用 async await，不然你都不知道错误怎么来的hhh
当然，我们设计页面时，也可以考虑一下反爬虫，如果大家感兴趣，可以单独出一篇文章。
合理利用puppeteer提供的便利，勿做其他非法之事！
合理利用puppeteer提供的便利，勿做其他非法之事！
合理利用puppeteer提供的便利，勿做其他非法之事！

Python机器学习实战：使用Flask构建机器学习API AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：使用Flask构建机器学习API作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在数据科学和机器学习领域，模型训练和部署一直是重要的挑战。传统的机器学习项目往往采用独立的脚本或复杂的流程，难以实现模型的自动化、可视化和复现。为了解决这一问题，将机器学习模型封装成可访问的API变得越来越流行。Fla
Html5学习教程，从入门到精通， HTML5超链接应用的详细语法知识点和案例代码（18）知识分享小能手网页开发前端开发编程语言如门 html5 学习前端 html java 后端 css3
HTML5超链接应用的详细语法知识点和案例代码超链接（Hyperlink），也称为跃点链接，是互联网和文档编辑中的一种重要概念。超链接的定义超链接是指从一个网页指向一个目标的连接关系，这个目标可以是另一个网页，也可以是相同网页上的不同位置，还可以是一个图片、动画、程序、电子邮件地址、文件，甚至是一个音视频文件。如果点击了这个链接，当前页面的位置就会跳转到被链接的目标位置。在文档编辑中，超链接可以链
一张表多少记录，会成为大表？如何计算 18你磊哥 mysql 数据库 mysql
首先，“大表”的定义并不是绝对的。不同的数据库系统、不同的硬件配置、不同的查询模式，对“大”的定义可能都不一样。比如，对于MySQL来说，百万级别的记录可能已经算大表，而对于一些分布式数据库，可能处理十亿级别的数据才算挑战。接下来，用户可能想知道如何判断自己的表是否过大，以及如何计算这个阈值。这时候，我需要考虑几个方面：数据量、性能指标、存储引擎的特性、索引情况、查询复杂度等。数据量方面，表的记录
Django 初始化导入数据详解 jay丿 django sqlite 数据库
Django初始化导入数据详解在Django项目中，初始化数据导入是一个常见的需求，特别是在开发阶段或者部署新环境时，通常需要一些预置的数据来确保应用能够正常运行。Django提供了一种高效的方法来加载初始化数据，即通过fixtures机制。本文将详细介绍如何使用Django的fixtures功能来导入初始化数据。1.Fixtures机制概述Django默认会在应用的目录下查找名为fixtures
Spring Boot 集成 Kettle m0_74824112 面试学习路线阿里巴巴 spring boot 后端 java
Kettle简介Kettle最初由MattCasters开发，是Pentaho数据集成平台的一部分。它提供了一个用户友好的界面和丰富的功能集，使用户能够轻松地设计、执行和监控ETL任务。Kettle通过其强大的功能和灵活性，帮助企业高效地处理大规模数据集成任务。主要组成部分Spoon：用途：Spoon是Kettle的图形化设计工具。用户可以使用Spoon设计和调试ETL转换和作业。功能：拖放式界面
大模型全军覆没，中科院自动化所推出多图数学推理新基准 | CVPR 2025 量子位
关注前沿科技量子位挑战多图数学推理新基准，大模型直接全军覆没？！事情是这样的。近日，中国科学院自动化研究所推出多图数学推理全新基准MV-MATH（该工作已被CVPR2025录用），这是一个精心策划的多图数学推理数据集，旨在全面评估MLLM（多模态大语言模型）在多视觉场景中的数学推理能力。结果评估下来发现，GPT-4o仅得分32.1，类o1模型QvQ得分29.3，所有模型均不及格。具体咋回事，下面接
JavaEE 项目常见错误解决方案一弦一柱 JavaEE 常见错误中文乱码 JSP 404
JavaEE项目常见错误解决方案数据库连接JavaBean获取不到数据库字段值或出现意料之外的值业务中出现null或""404NOTFOUNDGET请求中文乱码form表单提交中文乱码最近的实训中，练了一个比较基础的项目，JSP+Servlet+JavaBean，完成两张表的CRUD操作，前端使用Bootstrap和JQuery，交互使用AJAX，IDE选用Eclipse,在时间比较仓促的情况下完
实现openAI流式打印效果 (包含markdown代码高亮及复制功能) Todo_MrWu javascript vue.js 前端
准备工作//插件npminstallmarkdown-ithighlight.js//引入文件importMarkdownItfrom'markdown-it'importhljsfrom'highlight.js'import'highlight.js/styles/atom-one-dark.css'初始化数据data(){return{vHtml:'',//最终填充展示的htmlstring
定期备份数据库：基于 Shell 脚本的自动化方案 mysql服务器脚本
数据库备份这件事，说实话，我一直没怎么上心。平时服务器跑得好好的，谁会想着备份呢？直到某天真出问题了，才意识到自己平时有多“懒”。我相信很多人跟我一样，觉得这东西看起来麻烦，等到数据库挂了、数据丢失了，才感叹自己怎么就没提前准备好呢？有一次数据库问题搞得我手忙脚乱，最后还好有个朋友给了我个备份文件，才算是有惊无险。经历了这次以后，我决定不能再拖了，必须把备份这事儿自动化起来。所以，我写了一个简单的
一文详解，什么是外贸订单管理系统？有什么功能和特点？
随着全球贸易的快速发展，外贸企业面临订单处理效率低、流程复杂、数据管理混乱等挑战。如何通过数字化工具实现订单全生命周期管理？外贸订单管理系统应运而生。本文将以ZohoBooks为例，解析其核心功能与价值。一、什么是外贸订单管理系统？1、什么是外贸订单管理系统？外贸订单管理系统是一种专门用于管理国际贸易订单的软件工具。它帮助企业跟踪和管理从客户下单到订单完成的整个流程，包括订单录入、订单审核、订单分
【排序算法】选择排序啥也不会干的小码排序算法排序算法算法 c语言
一、定义：选择排序（Selectionsort）是一种简单直观的排序算法。第一次从待排序的数据（元素）中选出最小（或最大）的一个元素，存放在数组的起始位置，然后再从剩余的没有排序的元素中寻找到最小（大）元素，然后放到已排序的数组的末尾。以此类推，直到全部待排序的数据元素的个数为零。对于数据量大的排序就没啥用了，排的比较慢。二、原理：1、对于待排序的数组，我们从首元素开始，将首元素的下标用min记住
10 大中文医学数据集汇总：涵盖神农中医药、中医药古籍、医学推理、医学问答……
医疗人工智能的快速发展离不开高质量数据集的支持。从疾病诊断到药物研发，再到个性化医疗，数据集在推动机器视觉、大模型等应用于医学领域中发挥着不可或缺的作用。医学数据集的形式多样，涵盖了不同维度和领域的数据资源。例如，在疾病诊断领域，像RJUA-QA这样的问答数据集推动了复杂医学知识的自动化应用；而在中医药领域，神农中医药数据集整合了传统中医药文献、临床案例和药方数据。针对于此，本文整理了医学领域的1
中文对联/十二生肖/城市景点/旅游计划……年味超浓的数据集汇总
正月初三，年味正浓。新春的喜庆氛围不仅弥漫在大街小巷，也在人工智能领域引发了诸多创新应用。从AI生成春联，到春运交通标志的智能识别，再到生肖文化的深度挖掘，AI工具正赋能传统民俗，让年味更浓！在这阖家团圆，喜庆祥和的日子里，HyperAI超神经为大家整理了8个春节相关的数据集，涵盖对联、十二生肖、民族文化等热门主题，助力开发者在AI赋能春节的道路上大展拳脚！快来领取你的「新春大礼包」吧~点击查看更
归并排序（二叉树的后续遍历思想和数组的双指针技巧）冰火同学力扣算法排序算法数据结构
这次归并排序就只讲思路了，代码实现放到下次刷题再做首先确认一下归并排序的时间复杂度是NlogN的时间复杂度。实现归并排序的算法，我认为有几个困难需要克服掉1、首先就是要明确归并排序的算法思想，就是二叉数据的后序遍历，就是先从中间分割成两个子数组，然后继续分，直到只剩下一个元素，那么此时就是有序的，这个和构造二叉树时的分解思想十分相似，把子问题全部解决，那问题也就都解决了，至于我们只关注其中一个节点
讲一下Spark的shuffle过程冰火同学 Spark spark 大数据分布式
首先Spark的shuffle是Spark分布式集群计算的核心。Spark的shuffle可以从shuffle的阶段划分，shuffle数据存储，shuffle的数据拉取三个方面进行讲解。首先shuffle的阶段分为shuffle的shufflewrite阶段和shuffleread阶段。shufflewrite的触发条件就是上游的Stage任务shuffleMapTask完成计算后，会哪找下游S
第 146 题「LRU缓存机制」（手撸LRU算法）冰火同学力扣缓存数据结构算法
首选用比较通俗的语言来讲一讲LRU算法，那手机内存来举例子，就是当内存超出了手机设置的内存后，就要删除了内存，那删除那部分内存呢，LRU算法就是提供一个策略来选择那些需要缓存需要被删除掉，就是谁隔得最远就删除掉谁。LRU算法的描述怎么描述呢，其实上述描述的就是LRU算法要实现的逻辑只不多是人能理解的活，那么如何从写代码的角度来说一下实现LRU算法的逻辑呢，这个时候就要通过基础的数据结构结合来讲LR
selectdataset 发布2024最热门Top100数据集数据集
遇见数据集索引了国内外的大部分网站。首页有最新的数据集推荐：GitHub、HuggingFace、arXiv这些热门站点，都属于日级别的更新。这个站点是从搜索引擎方面去监控最新的数据集，大家如果有关注某个一个特点领域或话题的更新，可以关注这个站点：遇见数据集-让每个数据集都被发现，让每一次遇见都有价值。遇见数据集，领先的千万级数据集搜索引擎，实时追踪全球数据集，助力把握数据要素市场。https:/
Spark数据倾斜的问题冰火同学 Spark spark 大数据分布式
Spark数据倾斜业务背景Spark数据倾斜表现Spark的数据倾斜，包括SparkStreaming和SparkSQL，表现主要有下面几种：1、Excutorlost，OOM，Shuffle过程出错2、DriverOOM3、单个Excutor执行器一直在运行，整体任务卡在某个阶段不能结束4、正常运行的任务突然失败数据倾斜产生的原因以Spark使用场景为例，我们再做数据计算的时候会涉及类似coun
空间智能数据集（不定期更新）数据集
在人工智能领域的顶级会议NeurIPS上，斯坦福大学的杰出教授李飞飞发表了题为《FromSeeingtoDoing:AscendingtheLadderofVisualIntelligence》的主题演讲。在这次演讲中，李飞飞教授探讨了机器视觉的未来以及人工智能如何塑造我们的现实世界。她强调了空间智能的重要性，并将其视为全面智能的基石。李飞飞教授指出，解决空间智能问题是迈向全面智能的基础性、关键性
在 UniApp 中实现stream流式输出 AI 聊天功能，AI输出内容用Markdown格式展示 Echo-潔 uniapp uni-app 前端 AI stream 流式输出
在UniApp中实现流式AI聊天功能介绍在现代Web开发中，流式API响应能够显著提升用户体验，尤其是在与AI聊天接口进行交互时。本文将介绍如何在UniApp中使用FetchAPI实现一个流式响应的AI聊天功能，包括实时更新聊天内容和滚动到底部的功能。实现用Markdown格式展示AI输出的内容//用Markdown格式展示//使用showdown插件importshowdownfrom'show
Webpack 打包详细教程 oliver.chau 前端开发 webpack 前端 node.js
Webpack是一个现代JavaScript应用的静态模块打包工具，它可以处理JavaScript、CSS、图片等资源，并优化它们以提高性能。以下是Webpack从基础到进阶的详细教程。1.Webpack基础概念Webpack的核心概念包括：Entry（入口）：Webpack开始打包的起点。Output（输出）：打包后的文件存放路径。Loaders（加载器）：转换非JavaScript资源（如CS
在线监控+日志分析方案徐福记c 运维运维
1.在线监控系统设计技术选型：Prometheus+Grafana+各ExporterPrometheus：负责定时拉取各服务指标数据并存储。Grafana：可视化仪表盘，支持多数据源（Prometheus、Loki等）。Exporter：SpringBoot应用：通过Micrometer暴露/actuator/prometheus端点。MySQL：部署mysqld_exporter采集数据库性能
工作流编排利器：Prefect 全流程解析船长@Quant Python 金融科技 prefect polars 工作流编排数据处理
工作流编排利器：Prefect全流程解析本文系统讲解了Prefect工作流编排工具，从基础入门到高级应用，涵盖任务与流程管理、数据处理、执行器配置、监控调试、性能优化及与其他工具集成等内容，文末项目实战示例，帮助读者全面回顾Prefect知识点。Prefect官方文档https://docs.prefect.io/v3/get-started/index一、Prefect基础入门（一）关于Pref
技术分享 | MySQL8.0 内部临时表占用磁盘空间问题排查数据库mysql
本文为墨天轮数据库管理服务团队第43期技术分享，内容原创，如需转载请联系小墨（VX：modb666）并注明来源。概念描述到了mysql8.0版本，SQL运行过程中产生的内部临时表已经有了变化，存放位置由innodb\_temp\_tablespaces\_dir参数控制，默认放在$DATADIR/#innodb\_temp/目录下，由多个.ibt文件构成。并且当数据库连接断开时，.ibt文件的大小
golang中使用mysql事务彩色代码 Golang编程语言 MySQL数据库 mysql golang 数据库
在Go语言中，可以使用第三方库来处理MySQL事务。在示例中，我们将使用database/sql包与github.com/go-sql-driver/mysql驱动程序来连接和执行MySQL数据库操作。首先，确保你已经安装了相应的依赖库。你可以使用以下命令来安装它们：goget-udatabase/sqlgoget-ugithub.com/go-sql-driver/mysql接下来，我们将演示一
微信小程序云开发的sql语法 where `$and` 运算符怎么用？踩坑总结！代码简单说 2025开发必备微信小程序 sql 小程序 where 微信小程序and
微信小程序云开发$and组合查询时间戳转换**最近在小程序云开发里用$and组合查询，结果直接翻车，明明条件写对了，却总是查不出数据，要么就是报错，真是要被折腾疯了，官方文档也没给完整示例，最终折腾了半天，终于找到正确用法，现在分享出来，避免大家踩坑1.$and查询失败的真正原因在云开发数据库查询时，如果你的$and组合条件查不出数据，大概率是因为数据类型不匹配，特别是在时间筛选时，很多人会写成这
PySpark实现导出两个包含多个Parquet数据文件的S3目录里的对应值的差异值分析 weixin_30777913 python spark 数据分析云计算
编写PySpark代码实现从一个包含多个Parquet数据文件的AmazonS3目录的dataframe数据里取两个维度字段，一个度量字段的数据，根据这两个维度字段的数据分组统计，计算度量字段的数据的分组总计值，得到一个包含两个维度字段和度量字段的分组总计值字段的dataframe，再从另一个包含多个Parquet数据文件的S3目录的dataframe数据里取两个维度字段，一个度量字段的数据组成一
我的投资组合网站：打造个性化的在线投资展示平台 Tranyn.X
本文还有配套的精品资源，点击获取简介：本文介绍如何创建和设计一个在线平台，用于展示个人或专业投资者的投资策略、历史表现和投资理念。网站的构建涉及网页布局、响应式设计、CSS样式控制、内容管理、数据分析、SEO优化、安全性、用户体验、个性化和社交媒体整合等多个方面，确保网站既具有吸引力又能够有效地传达投资者的专业形象和投资成就。1.投资组合网站构建与网页布局设计网站构建的初步规划在当今数字化时代，构
Golang实现一个事务型内存数据库 qingwave Code 数据库 golang redis
内存数据库经我们经常用到，例如Redis，那么如何从零实现一个内存数据库呢，本文旨在介绍如何使用Golang编写一个KV内存数据库MossDB。特性MossDB是一个纯Golang编写、可嵌入的、键值型内存数据库，包含以下特性可持久化，类似RedisAOF(AppendonlyLog)支持事务支持近实时的TTL(TimetoLive),可以实现毫秒级的过期删除前缀搜索Watch接口，可以监听某个键
2023银行高管变动名单 _依旧_ 行业资讯业界资讯
数据源自：2023年国家金融监督管理总局银行类任职资格批复时间银行名称高层职位姓名简介2023-12-12工商银行高级业务总监田枫林1967年10月出生，华中农业大学经济学硕士、芝加哥大学工商管理硕士，高级经济师。现任工行总行公司金融业务部总经理兼投资银行部总经理。1992年7月，加入工行；2007年5月，任新加坡分行副总经理；2010年4月，任工银马来西亚执行董事、总经理；2013年10月，任工
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj

Puppeteer 使用教程-实战篇（爬取图片、视频、音频，页面数据）

前言

一、 获取实体店铺信息

二、 获取全国各省市县地图json数据

三、 cookies

四、 获取网络图片、视频资源

五、 自动化测试

总结

你可能感兴趣的:(Puppeteer,puppeteer,网络爬虫,node.js,自动化,爬取图片,爬取接口数据,反爬虫)

一、获取实体店铺信息

二、获取全国各省市县地图json数据

四、获取网络图片、视频资源

五、自动化测试