VIP_CQCRE

《Python3网络爬虫开发实战（第二版）》内容介绍

这是「进击的Coder」的第 505 篇分享

作者：崔庆才

大家好，本节首先来预告下即将出版的《Python3网络爬虫开发实战（第二版）》的主要内容。

由于我已经把书的总体的内容介绍写在了书的前言部分，所以这篇文章我就把前言部分的内容直接摘录一下啦，包括第二版相比第一版的改动内容，以及全书内容的介绍。

以下内容来自于《Python3网络爬虫开发实战（第二版）》前言。

前言

您好，我是崔庆才。

首先，非常高兴我们能够因此书与您初次或再次相会。为什么会提到再次相会呢？因为这本书已经是第二版了。如果您曾经阅读过本书第一版的内容，那么请允许我再次对您的支持表示诚挚的感谢。

我是在 2015 年开始接触网络爬虫的，当时爬虫其实并没有这么火，我当时觉得能够把想要的数据抓取下来就是一件非常有成就感的事情，而且也可以顺便熟悉 Python，一举两得。在学习期间，我将学到的内容做好总结，发表到我的博客（https://cuiqingcai.com）上。随着我发表的内容越来越多，博客的浏览量也越来越多，很多读者对我的博文给予了肯定的评价，这也给我的爬虫学习之路增添了很多动力。后来有一天，图灵的王编辑联系了我，问我有没有意向写一本爬虫方面的书，我听到之后充满了欣喜和期待，这样既能把自己学过的知识点做一个系统整理，又可以跟广大爬虫爱好者分享自己的学习经验，还可以出版自己的作品，于是我很快就答应约稿了。一开始觉得写书并不是一件那么难的事，后来真正写了才发现其中包含的艰辛。书相比博客来说，用词的严谨性要高很多，而且逻辑需要更加缜密，很多细节必须考虑得非常周全。前前后后写了近一年的时间，审稿和修改又花费了将近半年的时间，一路走来甚是不易，不过最后看到书稿成型，觉得这一切都是值得的。

第一版书是在 2018 年出版的，出版后本书受到了不少读者的支持和喜爱，真的非常感谢各位读者的支持。有的读者还特地告诉我，他看了我的书之后找到了一份不错的爬虫工作，听到之后我真的感到非常开心，因为我的一些知识和经验帮助到了他人。

但技术总是在不断发展和进步的，爬虫技术也是一样，它在爬虫和反爬虫不断斗争的过程中也在不断演进。比如现在越来越多的网页采取了各种防护措施，比如前端代码的压缩和混淆、API 的参数加密、WebDriver 的检测，要做到高效的数据爬取，我们就需要懂得一些 JavaScript 逆向分析相关技术。App 也是一样，App 的抓包防护、加壳保护、Native 化、风控检测使得越来越多的 App 数据难以爬取，所以我们也不得不了解一些逆向相关技术，如 Xposed、Frida、IDA Pro 等工具的使用。除此之外，近几年深度学习和人工智能发展得也是如火如荼，所以爬虫也可以和人工智能结合起来，比如基于深度学习的验证码识别、网页内容的智能化解析和提取等技术我们也可以进行学习和了解。另外，一些大规模爬虫的管理和运维技术也在不断发展，当前 Kubernetes、Docker、Prometheus 等云原生技术也非常火爆，基于 Kubernetes 等云原生技术的爬虫管理和运维解决方案也已经很受青睐。然而，之前第一版书对以上提到的这些新兴技术几乎没有提及。

除此之外，第一版书在讲解数据爬取的过程中引用了很多案例和服务，比如猫眼电影网站、淘宝网站、代理服务网站，然而几年过去了，有些案例网站和服务早已经改版或者停止维护，这就导致第一版书中的很多案例已经不能正常运行了。这其实是一个很大的问题，因为程序运行不通会大大降低学习的积极性和成就感，而且会浪费不少时间。另外，即使案例对应的爬虫代码及时更新了，那我们也不知道这些案例网站和服务什么时候会再次改版，因为这都是不可控的。所以，为了彻底解决这个问题，我花费了近半年的时间构建了一个爬虫案例平台（https://scrape.center），平台包含了几十个爬虫案例，包括服务端渲染（SSR）网站、单页面应用（SPA）网站、各类反爬网站、验证码网站、模拟登录网站、各类 App 等，覆盖了现在爬虫和反爬虫相关的大多数技术，整个平台都是我来维护的，书中几乎所有案例都是从案例平台来的，从而解决了页面改版的问题。

所以，本书相比第一版来说，更新的内容主要如下：

绝大多数都迁移到了自建的案例平台，以后再也不用担心案例有过期或改版问题。
移除了原本第一章环境安装的章节，将环境配置的部分全部汇总并迁移到案例平台（https://setup.scrape.center）并在书中以外链的形式附上，以确保环境的配置和安装说明能够被及时更新。
增加了一些新的请求库、解析库、存储库等的介绍，如 httpx、parsel、Elasticsearch 等库的介绍。
增加了异步爬虫的介绍，如协程的基本原理、aiohttp 的使用和爬取实战介绍。
增加了一些新兴自动化工具的介绍，如 Pyppeteer、Playwright 的介绍。
增加了深度学习相关内容，如图形验证码、滑动验证码的识别方案。
丰富了模拟登录章节的内容，如增加了 JWT 模拟登录的介绍和实战、大规模账号池的优化。
增加了 JavaScript 逆向的章节，包括网站加密和混淆技术、JavaScript 逆向调试技巧、JavaScript 的各种模拟执行方式、AST 还原混淆代码、WebAssembly 等相关技术的介绍。
丰富了 App 自动化爬取技术的章节，如新兴框架 Airtest 的介绍、手机群控和云手机技术的介绍。
增加了 Android 逆向章节，如反编译、反汇编、Hook、脱壳、so 文件分析和模拟执行等技术的介绍。
增加了网页智能化解析章节，包括列表页、详情页内容提取算法和分类算法。
丰富了 Scrapy 相关章节的介绍，如 Pyppeteer 的对接、RabbitMQ 的对接、Prometheus 的对接等。
增加了基于 Kubernetes、Docker、Prometheus、Grafana 等云原生技术爬虫管理和运维解决方案的介绍。

由于我本人工作、生活等各方面的原因，我的时间并不像写第一版书时间那么宽裕，所以第二版的爬虫书的撰写进度比较慢，这本书的内容几乎都是我利用下班和周末的时间完成的，耗时将近两年的时间。如今，第二版书终于跟读者见面了！在撰写期间我也收到过很多读者的询问和鼓励，非常感谢各位读者的支持和耐心等待。

希望本书能够为您学习爬虫提供帮助。

本书内容

本书一共分为 17 章，归纳如下。

第 1 章介绍了学习爬虫之前需要了解的基础知识，如 HTTP、爬虫、代理、网页结构、多进程多线程等内容，对爬虫没有任何了解的读者建议好好了解这一章的知识。
第 2 章介绍了最基本的爬虫操作，一般学习爬虫都是从这一步学起的。这一章介绍了最基本的请求库（urllib、requests、httpx）和正则表达式的基本用法。学会了这一章，就可以掌握最基本的爬虫技术了。
第 3 章介绍了页解析库的基本用法，包括 Beautiful Soup、XPath、pyquery、parsel 的基本使用方法，它们可以使得信息的提取更加方便、快捷，是爬虫必备利器。
第 4 章介绍了数据存储的常见形式及存储操作，包括 TXT、JSON、CSV 各种文件的存储，以及关系型数据库 MySQL 和非关系型数据库 MongoDB、Redis 的基本存取操作，另外还介绍了 Elasticsearch 搜索引擎存储、消息队列 RabbitMQ 的用法。学会了这些内容，我们可以灵活方便地保存爬取下来的数据。
第 5 章介绍了 Ajax 数据爬取的过程，一些网页的数据可能是通过 Ajax 请求 API 接口的方式加载的，用常规方法无法爬取，本章介绍了 Ajax 分析和爬取实战案例。
第 6 章介绍了异步爬虫的相关知识，如支持更高并发的协程的基本原理、aiohttp 的使用和实战案例，学会了异步，爬虫的爬取效率将会被大大提高。
第 7 章介绍了动态渲染页面的爬取，现在越来越多的网站内容是经过 JavaScript 渲染得到的，而原始 HTML 文本可能不包含任何有效内容，而且渲染过程可能涉及某些 JavaScript 加密算法，可以使用 Selenium、Splash、Pyppeteer、Playwright 等工具来实现模拟浏览器进行数据爬取的方法。
第 8 章介绍了验证码的相关处理方法。验证码是网站反爬虫的重要措施，我们可以通过本章了解到各类验证码的应对方案，包括图形验证码、滑动验证码、点选验证码、手机验证码的处理方案，其中不乏有 OCR、OpenCV、深度学习、打码平台的介绍。
第 9 章介绍了代理的使用方法，限制 IP 的访问也是网站反爬虫的重要措施。另外，我们也可以使用代理来伪装爬虫的真实 IP，使用代理可以有效解决这个问题。通过本章，我们了解到代理的使用方法，还学习了代理池的维护方法，以及 ADSL 拨号代理的使用方法。
第 10 章介绍了模拟登录爬取的方法，某些网站需要登录才可以看到需要的内容，这时就需要用爬虫模拟登录网站再进行爬取了。本章介绍了最基本的模拟登录方法，包括基于 Session + Cookie 的模拟登录和基于 JWT 的模拟登录。
第 11 章介绍了 JavaScript 逆向相关知识，包括网站的混淆技术、JavaScript 逆向常用的调试和 Hook 技术、JavaScript 模拟执行的各个方案，接着介绍了 AST 技术来进行 JavaScript 混淆代码的还原，另外也对 WebAssembly 技术进行了基本介绍。
第 12 章介绍了 App 的爬取方法，包括基本的 Charles、mitmproxy 抓包软件的使用。此外，还介绍了 mitmdump 对接 Python 脚本进行实时抓取的方法以及使用 Appium、Airtest 完全模拟手机 App 的操作进行爬取的方法。
第 13 章介绍了 Android 逆向的相关知识，包括反编译工具 jadx、JEB 和常用的 Hook 框架 Xposed、Frida 等工具的使用，另外还介绍了 SSL Pining、脱壳、反汇编、so 文件模拟执行等技术。
第 14 章介绍了页面智能化解析相关的技术，比如新闻详情页面中标题、正文、作者等信息以及新闻列表页面中标题、链接等信息的智能化提取，另外还介绍了如何智能化分辨详情页和列表页。有了智能解析技术，很多内容的提取过程就可以免去一些写规则的困扰。
第 15 章介绍了 Scrapy 爬虫框架及用法。Scrapy 是目前使用最广泛的爬虫框架，本章介绍了它的基本架构、原理及各个组件的使用方法，另外还介绍了 Scrapy 对接 Selenium、Pyppeteer 等方法。
第 16 章介绍了分布式爬虫的基本原理及实现方法。为了提高爬取效率，分布式爬虫是必不可少的，本章介绍了使用 Scrapy 和 Redis、RabbimtMQ 实现分布式爬虫的方法。
第 17 章介绍了分布式爬虫的部署及管理方法。方便快速地完成爬虫的分布式部署，可以节省开发者大量的时间。本章介绍了两种管理方案，一种是基于 Scrapy、Scrapyd、Gerapy 的方案，另一种是基于 Kubernetes、Docker、Prometheus、Grafana 的方案。

好了，前言部分介绍完了。

目前进度

最后就是大家关心的书的进度问题了，我今天又问了编辑，正如上周说的，现在正在印前检查阶段，印前检查一般是 7-10 个工作日，最快是 7 个工作日，上周已经过了 5 个工作日了，所以还剩 2 个工作日。印前检查通过之后就做预算然后上架了。如果要京东、天猫预售的话，是必须要做预算的，但因为现在还没做预算，所以现在还上架不了。整体来看，预计要赶双十一预售有一定难度，不过就在这么几天了。

下面是我和编辑的对话截图：

总之，这所有的能加急的都加急了，编辑会一直盯着，感谢大家支持，很快，这书就要与大家见面啦！届时我会第一时间在本公号公布消息的。

End

「进击的Coder」专属学习群已正式成立，搜索「CQCcqc4」添加崔庆才的个人微信或者扫描下方二维码拉您入群交流学习。

看完记得关注@进击的Coder

及时收看更多好文

↓↓↓

崔庆才的「进击的Coder」知识星球已正式成立，感兴趣的可以查看《我创办了一个知识星球》了解更多内容，欢迎您的加入：

好文和朋友一起看~

leetcode——搜索二维矩阵II（java） gentle_ice leetcode 矩阵算法 java
编写一个高效的算法来搜索*m*x*n*矩阵matrix中的一个目标值target。该矩阵具有以下特性：每行的元素从左到右升序排列。每列的元素从上到下升序排列。示例1：输入：matrix=[[1,4,7,11,15],[2,5,8,12,19],[3,6,9,16,22],[10,13,14,17,24],[18,21,23,26,30]],target=5输出：true示例2：输入：matrix=
HBase伪分布式安装配置流程 TheMountainGhost hbase 数据库大数据
要配置HBase的伪分布式模式，以下是详细的操作步骤，确保每一步都执行准确。1.准备工作确保已经安装并配置好了Hadoop（伪分布式），因为HBase依赖HDFS。Hadoop已经配置并能够正常运行。Java已经安装并配置好了环境变量。SSH配置免密登录（通常在Hadoop环境中已配置）。2.下载并解压HBase下载HBase安装包并解压到你想要的目录：tar-zxvfhbase-2.4.18-b
华为OD机试E卷 --字符串化繁为简 --24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c语言 python
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c++算法源码题目描述给定一个输入字符串，字符串只可能由英文字母(az、AZ)和左右小括号(、)组成当字符里存在小括号时，小括号是成对的，可以有一个或多个小括号对，小括号对不会嵌套，小括号对内可以包含1个或多个英文字母也可以不包含英文字母。当小括号对内包含多个英文字母时，这些字母之间是相互等效的关系，而且等
Python数据分析之共享单车及建模探索(CLV建模、可视化) weixin_46205203 笔记 python 数据分析数据建模
Python数据分析之共享单车及建模探索(CLV建模、可视化)开发环境4.3【开发平台及环境】Windons10教育版Python3.7IntelliJIDEA2018.2.1/PyCharmGoogeChrome数据清洗分析模块pandas，numpy可视化模块matplotlib上期原创：Python数据分析之智联招聘职位分析完整项目（数据爬取,数据分析,数据可视化）链接:https://bl
FISCO BCOS（二十三）———maven和gradle引入FISCO BCOS Javasdk 林中有神君 #FISCO BCOS 2.8.0 maven java mybatis
build.gradle引入依赖dependencies{compile('org.fisco-bcos.java-sdk:fisco-bcos-java-sdk:2.7.2')
Scala简介醉游江湖 scala
hadoop生态圈—>javaspark生态圈—>scala1.scala是面向对象的、面向函数的基于静态类型的编程语言。静态语言（强类型语言）静态语言是在编译时变量的数据类型即可确定的语言，多数静态类型语言要求在使用变量之前必须声明数据类型。例如：C++、Java、Delphi、C#,Scala等。scala编译后是字节码文件可以调用java源有的库动态语言（弱类型语言）动态语言是在运行时确定数
python中!ls -r_光学现象的Python实现 weixin_39838798 python中!ls -r
“Youwillseelightinthedarkness。Youwillmakesomesenseofthis.”“你终将于黑暗中触摸白昼，它将如影般随行。”如果说20世纪是电子的世界，那么21世纪就是光学的舞台。光学和光子学无处不在：智能手机和计算设备上的显示方式，互联网中承载信息的光纤，先进的精密制造，大量的生物医学应用终端，全光衍射神经网络等。对光学的深入理解为每一个学习物理和工程的同学带
spark官方配置参数详解我丶怀念的 spark scala d s
以下是整理的Spark中的一些配置参数，官方文档请参考SparkConfiguration。Spark提供三个位置用来配置系统：Spark属性：控制大部分的应用程序参数，可以用SparkConf对象或者Java系统属性设置环境变量：可以通过每个节点的conf/spark-env.sh脚本设置。例如IP地址、端口等信息日志配置：可以通过log4j.properties配置Spark属性Spark属性
Flink访问Kerberos环境下的Hive 我若成风zhb flink flink kerberos hive hadoop
目录测试环境工程搭建示例代码及运行总结本文主要介绍如何使用Flink访问Kerberos环境下的Hive。测试环境1.hive版本为2.1.12.flink版本为1.10.0工程搭建使用IDE工具通过Maven创建一个Java工程，具体创建过程就不详细描述了。1.在工程的pom.xml文件中增加如下依赖org.apache.flinkflink-java${flink.version}provid
Android开发倒计时工具类 893151960 android开发日记 android Android教程 Android案例 Android倒计时 Android开发倒计时
Android开发倒计时工具类倒计时功能很常见，分享个倒计时工具类，用的是RxJava3。直接上代码：/***@paramsecond*@paramnextObserverdesc:倒计时*createbycongon2018/5/2511:46*/publicstaticDisposabledealCountDownS(longsecond,ConsumernextObserver,Consum
xgboost在spark集群使用指南一颗小草333 算法 mapreduce spark 数据挖掘
简介XGBoost是一个优化的分布式梯度增强库，具有高效、灵活和可移植性。在梯度增强框架下实现了机器学习算法。XGBoost提供了一种并行树增强(也称为GBDT、GBM)，可以快速、准确地解决许多数据科学问题。相同的代码在主要的分布式环境(Hadoop、SGE、MPI)上运行，可以解决数十亿个示例的训练问题。xgb相对于gbt所做的改进：1.2.3.XGBoost可以使用R、python、java
6-scala特质 qwy715229258163 scala scala 开发语言后端
特质(Traits)用于在类(Class)之间共享程序接口(Interface)和字段(Fields)。它们类似于Java8的接口。类和对象(Objects)可以扩展特质，但是特质不能被实例化，因此特质没有参数。定义一个特质最简化的特质就是关键字trait+标识符：traitHairColor特征作为泛型类型和抽象方法非常有用。traitIterator[A]{defhasNext:Boolean
JAVA中contains函数的用法(字符) 艾诺_Aynor 学习笔记 JAVA JAVA JAVA基础 contains
booleancontains(CharSequences):判断指定内容中是否包含括号中的内容;一般推荐把常量字符串写在前面,变量写在后面.
【Linux】ubuntu解决github无法拉取代码问题奈何不吃鱼 Linux 问题解决 linux github git
使用git拉取代码时，有时会出现如下的问题fatal:unabletoaccess'https://github.com/FISCO-BCOS/java-sdk-demo/':Couldnotresolvehost:github.com那么如何解决呢？我们可以在/etc/hosts里添加如下内容，对github.com进行解析即可140.82.112.3github.com199.232.69.1
【FISCO BCOS】二十三、部署WeBASE-Node-Manager 奈何不吃鱼 FISCO BCOS 区块链 FISCO BCOS Linux 运维 WeBASE
WeBASE-Node-Manager是WeBASE的子组件之一，可以处理前端页面所有web请求，管理各个节点的状态，管理链上所有智能合约，对区块链的数据进行统计、分析，对异常交易的审计，私钥管理等，今天我们来部署WeBASE-Node-Manager。环境：ubuntu22、已搭建单机四节点（节点已启动）、安装并配置java环境、安装并配置mysql环境、已部署节点前置服务（服务已启动）关于以上
python实战项目27：boss直聘招聘数据可视化分析 wp_tao Python副业接单实战项目信息可视化 python 数据分析
boss直聘招聘数据可视化分析一、数据预处理二、数据可视化三、完整代码一、数据预处理在上一篇博客中，笔者已经详细介绍了使用selenium爬取南昌市web前端工程师的招聘岗位数据，数据格式如下：这里主要对薪水列进行处理，为方便处理，将日薪和周薪的数据删除，将带有13薪和14薪的数据也删除，计算出最低薪资、最高薪资和平均薪资三列。数据预处理代码如下：importpandasaspddf=pd.rea
Python 3 中使用 SMTP 发送邮件：高级技巧与应用三带俩王 python 网络服务器
在现代的软件开发和自动化流程中，发送电子邮件是一项常见的任务。Python3提供了强大的工具来实现这一功能，特别是通过使用SMTP（SimpleMailTransferProtocol）协议。本文将深入探讨Python3中使用SMTP发送邮件的高级用法，展示其在不同场景下的灵活性和强大功能。一、SMTP简介SMTP是一种用于发送电子邮件的协议。它允许客户端（如Python程序）与邮件服务器进行通信
Python 在股票分析中的高级应用：挖掘金融数据的深度洞察三带俩王 python 金融开发语言
在当今的金融世界中，股票分析是投资者和金融从业者必备的技能。Python作为一种强大且灵活的编程语言，为股票分析提供了丰富的工具和技术。本文将深入探讨使用Python进行股票分析的高级用法，涵盖从数据获取与清洗、高级分析指标计算到机器学习和深度学习在股票分析中的应用等多个方面。一、数据获取与预处理：构建坚实的分析基础1.数据来源与获取直接从证券交易所获取数据：许多证券交易所提供了数据接口，例如，上
Python 中的complex(real[, imag])函数：高级用法与强大功能三带俩王 python 开发语言算法
在Python中，complex(real[,imag])函数是一个用于创建复数的强大工具。复数在数学、物理学、工程学等领域中有着广泛的应用，而Python的complex类型为我们提供了便捷的方式来处理复数。本文将深入探讨complex(real[,imag])函数的高级用法，展示其在不同场景下的强大功能。一、复数的基本概念复数是由实数和虚数组成的数，通常表示为a+bj的形式，其中a和b是实数，
JAVA：访问者模式（Visitor Pattern）的技术指南拾荒的小海螺设计模式 java 访问者模式开发语言
1、简述访问者模式（VisitorPattern）是一种行为型设计模式，允许你将操作分离到不同的对象中，而无需修改对象本身的结构。这种模式特别适合复杂对象结构中对其元素进行操作的场景。本文将介绍访问者模式的核心概念、优缺点，并通过详细代码示例展示如何在实际应用中实现访问者模式。设计模式样例：https://gitee.com/lhdxhl/design-pattern-example.git2、什
python 利用 ddddocr包 ocr识别图片码风_流沙 python工具备忘录 python ocr 开发语言
ddddocr是一个轻量级的OCR（光学字符识别）库，适用于识别图片中的文字，包括验证码等图像文本。要使用ddddocr进行图片验证码的识别，可以按照以下步骤进行：1.安装ddddocr包首先，你需要安装ddddocr包。你可以使用pip安装：pipinstallddddocr2.使用ddddocr进行OCR识别importddddocr#创建OCR对象ocr=ddddocr.DdddOcr()#
java mybatis @Select() 注解中script 执行like 风_流沙 java mybatis tomcat
在MyBatis中执行LIKE查询，可以使用以下方法：XML配置方式：SELECT*FROMyour_tableWHEREnameLIKECONCAT('%',#{keyword},'%')这里的#{keyword}是你的查询关键字参数。注解方式：@Select("SELECT*FROMyour_tableWHEREnameLIKECONCAT('%',#{keyword},'%')")Lists
智能电动汽车 --- 人工智能（AI）入门车载诊断技术思考汽车行业人工智能智能电动汽车的三智和三电开发语言数据结构架构智能电动汽车人工智能（AI）入门
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：简单，单纯，喜欢独处，独来独往，不易合同频过着接地气的生活，除了生存温饱问题之外，没有什么过多的欲望，表面看起来很高冷，内心热情，如果你身边有这样灵性的人，一定要好好珍惜他们眼中有神有光，干净，给人感觉很舒服，有超强的感知能力有形的无形的感知力很强，能感知人的内心变化喜欢独处，好静，
AI大模型书籍推荐丨这本书必看：大语言模型基础与前沿（附PDF） LLM教程人工智能大模型 LLM 程序员自然语言处理 AI大模型编程
哈喽大家好！很久都没有更新大模型这块的书了，今天给大家说一下这本：《大语言模型：基础与前沿》，本书深入阐述了大语言模型的基本概念和算法、研究前沿以及应用，涵盖大语言模型的广泛主题，从基础到前沿，从方法到应用，涉及从方法论到应用场景方方面面的内容。作者简介熊涛，美国明尼苏达大学双城分校电子与计算机工程博士。曾在多家中美知名高科技公司担任高级管理职位和首席科学家，在人工智能的多个领域，包括大语言模型、
计算机毕业设计之基于PythonBOSS直聘招聘数据可视化系统的设计与实现 wx—bishe58 信息可视化数据分析数据挖掘 rnn 人工智能课程设计 python
本文主要介绍了基于PythonBOSS直聘招聘数据可视化系统的设计与实现。随着互联网的普及，BOSS直聘招聘网站成为了企业和求职者的重要交流平台。然而，大量的招聘信息给用户带来了信息过载的问题。为了解决这一问题，本文提出了一种基于PythonBOSS直聘招聘数据可视化系统的设计与实现方法。首先，本文采用爬虫技术收集了拉勾BOSS直聘招聘网站上的大量招聘信息。然后，利用爬虫优化算法对爬取到的数据进行
Java定时任务实现方案(三)——DelayQueue(JUC包) xiao--xin 入门须知定时任务场景题面试八股 JUC java
DelayQueue(JUC包)这篇笔记，我们要来介绍实现Java定时任务的第三个方案，使用DelayQueue，以及该方案的优点和缺点。DelayQueue是Java并发包java.util.concurrent中的一个无界阻塞队列，它只允许插入实现了Delay接口的对象，队列中的元素只有当其延迟时间到达之后才能被取走，我们这里就是基于DelayQueue的阻塞特性、延迟特性和无界性来实现的定时
Java基础——函数（方法） AYANGIJ java 开发语言 intellij-idea
函数的出现在目前为止的开发实现中，我们的代码都在main方法中，从上到下进行编写。在此模式下，程序结构会随着功能复杂度的增加而越来越复杂。在代码中会有不连续的出现重复性代码，无法用循环解决。为了简化代码以及程序的结构，把这些不连续的重复性代码提取出来，封装为一个方法（函数），并且为之取名。在需要用到该方法（函数）代码的位置去调用该方法（函数）。方法（函数）初步出现，函数出现之后，有一些显而易见的好
【FISCO BCOS】二十四、通过Java SDK对FISCO BCOS进行压力测试奈何不吃鱼 FISCO BCOS 区块链 java 飞梭链 FISCO BCOS linux
JavaSDKDemo是基于JavaSDK的基准测试集合，能够对FISCOBCOS节点进行压力测试。JavaSDKDemo提供有合约编译功能，能够将Solidity合约文件转换成Java合约文件，此外还提供了针对转账合约、CRUD合约以及AMOP功能的压力测试示例程序。本篇我们来讲讲使用javaSDK压力测试的操作说明。环境：ubuntu22、已搭建单机四节点（节点已启动）、安装并配置java环境
Python 中的异常处理：try except Exception as e 三带俩王 python
在Python编程中，异常处理是一项至关重要的技能，它可以帮助我们提高程序的稳定性和可靠性。其中，tryexceptExceptionase语句是一种常见的异常处理方式。在这篇博客中，我们将深入探讨这个语句的要点和高级用法。一、异常处理的重要性在编程过程中，错误是不可避免的。这些错误可能是由于用户输入错误、文件不存在、网络连接问题等原因引起的。如果我们不处理这些错误，程序可能会崩溃，导致数据丢失或
java中函数的一些常见操作风_流沙 java工具备忘录 java python 开发语言
在Java中，函数（方法）是定义在类中的一个行为，它指定了对象应该执行的操作。方法可以是实例方法，也可以是静态方法。下面列出了一些Java中函数的常见操作和使用方法。1.定义一个简单的函数在Java中，函数通常由以下几个部分组成：访问修饰符：决定函数的访问权限（例如public、private）。返回类型：函数执行后返回的值的类型（如int、void）。方法名称：标识方法的名字。参数列表：函数接收
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

《Python3网络爬虫开发实战（第二版）》内容介绍

前言

本书内容

目录

目前进度

你可能感兴趣的:(分布式,python,人工智能,java,编程语言)