使用Scrapy抓取图片网站的图片：完整教程与实战案例 Python爬虫项目 2025年爬虫实战项目 scrapy 爬虫 python 音视频开发语言 selenium
引言在互联网时代，图片已经成为我们生活和工作中不可或缺的一部分。随着社交媒体、电子商务、新闻网站等平台的普及，图片的需求量和使用量不断增加。因此，如何高效、便捷地抓取网站上的图片，成为了许多数据工程师、爬虫开发者以及数据科学家需要解决的问题。Scrapy是Python中一个非常强大且广泛使用的爬虫框架。它不仅提供了强大的抓取能力，还能够轻松地处理大规模数据抓取和高效的数据存储。Scrapy适合处理
银河麒麟v10安装 python 3.12.5版本 sageparadise python 银河麒麟
1、官网下载python3.12.52、安装前检查opensslopensslversion#OpenSSL1.1.1f31Mar2020如果提示openssl1.1.1无需安装openssl,否则需要安装，下载openssltar-zxfopenssl-1.1.1s.tar.gzcdopenssl-1.1.1s/./config-fPIC--prefix=/usr/include/openssl
当ABAP遇见普罗米修斯
Python中的class体内定义方法时，如果没有显式地包含self参数，有时候依然可以被调用。这是一个非常有趣的话题，因为它涉及到对Python中类与对象之间关系的更深理解。要理解为什么这种情况下方法依然能够被调用，我们需要逐步拆解Python类的构造方式以及方法绑定的原理。
ai照片放大python源码_AI新时代-大牛教你使用python+Opencv完成人脸解锁（附源码）... weixin_39639505 ai照片放大python源码
好吧，伙计们，我回来了。说我拖更不写文章的可以过来用你的小拳拳狠命地捶我胸口....那么今天我们来讲关于使用python+opencv+face++来实现人脸验证及人脸解锁。代码量同样不多，你可以将这些代码运用在其它一些智能领域，如智能家居，进门的时候判断你是谁，也可以加入机器学习判断来的人是客人还是熟人。在讲之前我们会先适当的拓扑一下关于人脸识别的知识点。OK废话少说下面开始正是话题。解锁原理：
如何用python爬取公众号文章_如何使用 Python 爬取微信公众号文章 weixin_39524574
我比较喜欢看公众号，有时遇到一个感兴趣的公众号时，都会感觉相逢恨晚，想一口气看完所有历史文章。但是微信的阅读体验挺不好的，看历史文章得一页页的往后翻，下一次再看时还得重复操作，很是麻烦。于是便想着能不能把某个公众号所有的文章都保存下来，这样就很方便自己阅读历史文章了。话不多说，下面我就介绍如何使用Python爬取微信公众号所有文章的。主要有以下步骤：1使用Fiddler抓取公众号接口数据2使用Py
做python少儿编程教程-超好玩的Python少儿编程 weixin_37988176
1.作者有14年的计算机培训经验，能抓住青少年的学习心理。2.超过180分钟的视频讲解，可下载也可扫码直接观看。《超好玩的Python少儿编程》是写给青少年读者的编程学习用书，主要通过游戏及作品的实例来讲解Python的编程方法，引导青少年在快乐中学习编程。通过游戏编程实例及有趣的作品，让青少年参与其中，培养他们独立分析问题和解决问题的能力，提高他们的探索精神，为今后进一步深入学习编程打好基础。《
python no module name _lzma,安装/编译pylzma（LZMA Python绑定）蓝精灵国王乄 python no module name _lzma
I'vealreadypostedthisquestionontheauthorswebsite,butIthoughtImightaskhereaswell.I'vebeentryingtoinstallpylzmawiththissetup:Windows7x64Python2.6.6x64theamd64compilercomingfromwindowsserver2003sdkcloned
寻找优质股票数据接口：市面上哪些数据接口值得信赖财云量化 python炒股自动化量化交易程序化交易股票数据接口数据准确性服务稳定性值得信赖股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
对等能源交易（Peer-to-Peer Energy Trading）能源革命技术能源能源
概述对等能源交易（Peer-to-PeerEnergyTrading,P2PET）是一种新兴的能源交易模式，它允许能源消费者和生产者在去中心化的环境中直接进行交易。这种模式通常利用区块链技术来确保交易的安全性和透明度。对等能源交易，它改变了传统上由中央电网或大型能源公司主导的能源分配模式。在P2P能源交易中，个体用户可以既是能源的消费者也是生产者（即“产消者”），他们能够通过分布式能源资源（Dis
用Python的python-pptx库，PPT自动化制作效率提升40%！忆愿 Python编程的脉动之声 python powerpoint 自动化人工智能机器学习数据挖掘深度学习
你好，我是忆愿，全网4w+粉丝，《遂愿盈创》社群主理人。副业启航①|遂愿盈创（对副业感兴趣免费可入，多种赚钱实战项目等你来，一起探寻副业快速变现的途径；以及对接互联网大厂商务合作，一起来搞点小外快，认识更多互联网大咖）目前群里已经带很多小伙伴（大部分大学生）变现几百块啦，程序员搞副业有额外加成~对副业感兴趣可+V:suiyuan2ying拉你进群。文章目录python-pptx是啥？从零开始搞个P
成功编译和运行roslaunch qbo_webi qbo_webi.launch(解决qbo_object_recognition之后的其他问题) 皮熊 ROS框架 opencv qbo robot
折腾一天的问题，SurfFeatureDetectortype-specifier问题解决了。需要在cv.h中添加includenonfree/features2d.hpp。fromposter.encodeimportmultipart_encodeImportError:Nomodulenamedposter.encodesudoapt-getinstallpython-postersudoa
【2023华为OD-C卷-第三题-跳马】100%通过率（JavaScript&Java&Python&C++）塔子哥学算法 java 华为od c语言
本题已有网友报告代码100%通过率OJ&答疑服务购买任意专栏，即可私信博主，获取答疑/辅导服务题目描述马是象棋(包括中国象棋和国际象棋)中的棋子，走法是每步直一格再斜一格，即先横着或直着走一格，然后再斜着走一个对角线，可进可退，可越过河界，俗称马走“日”字。给定mmm行n
/usr/bin/env: “python”: 没有那个文件或目录 @倾尽天下 python 开发语言机器人自动驾驶人工智能
在尝试IMU和激光雷达融合时，运行launch文件时一直报错，具体显示为：process[master]:startedwithpid[5473]ROS_MASTER_URI=http://localhost:11311setting/run_idtob573386e-57d8-11ef-9dc7-6b58bd0346b8process[rosout-1]:startedwithpid[5483]
AI大模型学习路线 liuhenghui5201 AI python AI 大模型
阶段1Python编程基础主要内容掌握的核心能力·Python基础语法·Python数据处理·函数·文件读写·异常处理·模块和包1、掌握Python开发环境基本配置；2、掌握运算符、表达式、流程控制语句、数组等的使用；3、掌握字符串的基本操作；4、初步建立面向对象的编程思维；5、熟悉异常捕获的基本流程及使用方式；6、掌握类和对象的基本使用方式。可解决的现实问题：熟练掌握人工智能Python语言，建
【蓝桥杯】CB组国二攻略（省赛地点：广东）好心的小明蓝桥杯职场和发展
1.赛事介绍（针对深大）蓝桥杯是深大的二类竞赛，在计软国一二三保研分别加6，4，2分，国一国二能申请双创一等奖学金，国三能申请双创二等还是三等有点忘了（其实在申请的时候直接申请一等就行了，学院会根据你奖项的实际能申请的奖项给你调整的）。蓝桥杯有很多个组别，有软件组和硬件组，其中软件组针对不同编程语言分组，其中C/C++组人最多，竞争相对较大。JAVA组和Python组人相对较少，竞争可能稍微小一点
华为OD机试E卷 - 跳马（Java & Python& JS & C++ & C ）算法大师最新华为OD机试 java 华为od python javascript c语言 c++华为OD机试E卷
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述输入m和n两个数，m和n表示一个m*n的棋盘。输入棋盘内的数据。棋盘中存在数字和"."两种字符，如果是数字表示该位置是一匹马，如果是"."表示该位置为空的，棋盘内的数字表示为该马能走的最大步数。例如棋盘内某个位置一个数字为k，表示该马只能移动1~k步的距离。棋盘内的马移动类似于中国象棋中的马移动，先在水平或者垂直方向上
Type-C多口适配器：高效充电与连接解决方案 ZenasLDR 接口 usb
在科技飞速发展的今天，我们的生活已经离不开各种各样的电子设备，如智能手机、平板电脑、智能手表和无线耳机等。这些设备不仅丰富了我们的数字生活，也带来了更多的充电需求。传统的单一充电口已经难以满足现代人对于便捷性和效率的追求，因此，Type-C多口适配器应运而生，以其独特的功能和优势，成为现代生活中不可或缺的一部分。Type-C多口适配器，顾名思义，是指具有多个Type-C充电接口的适配器。它允许用户
Go语言函数参数 legary1 Golang golang 开发语言后端
文章目录Go语言函数参数1.**函数参数的定义**：2.**参数的数量**：3.**参数的数据类型**：4.**参数的命名**：5.**参数的传递**：6.**参数的传递方式**：7.**空白标识符**：Go语言函数参数在Go语言中，函数参数是函数定义中用于接收传递给函数的值的变量。函数参数允许您将数据传递给函数，以便在函数内部执行操作。以下是有关Go语言函数参数的一些重要信息：1.函数参数的定义
C++中的基本IO流 ITSOK_U C++c++
IO流1.基本IO流1.1IO对象无拷贝无赋值1.2IO对象的条件状态1.3IO与缓冲2.文件IO流2.1使用ifstream读取文件内容2.1使用ofstream写文件3.stringIO类在C++中时不直接处理输入输出的，我们使用的是标准IO库来处理IO，这些库支持从文件、控制台窗口等读写数据，当然在C++中还有一些特殊的类型允许内存IO。比如我们就可以通过string进行读写数据。下面我们先
学习python的第一天简讯Alfred 和我一起零基础学 Python python 编程
作为财经院校的大三学生，面临各种考试，在编程方面完全零基础还想学习Python，担心枯燥的内容难以坚持下来，希望通过更博的方式督促自己学习，有空就更新博客。很多大牛通过更新自己的网站或更新博文的方式传播技能知识，我很是倾佩！第一次用这种方式学习一门知识，对于自己来说既是一种全新的体验，也可以作为学习笔记，日后也有足迹。学习资料暂定为《笨办法学Python》。如果有新手看到此文章，还希望只当参考中的
华为OD机试E卷 --跳马--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述马是象棋（包括中国象棋和国际象棋）中的棋子，走法是每步直一格再斜一格，即先横着或者直者走一格，然后再斜着走一个对角线，可进可退，可越过河界，俗称"马走日"字。给定m行n列的棋盘（网格图），棋盘上只有棋子象棋中的棋子“马”，并且每个棋子有等级之分，等级为k的马可以跳1~k步（走
Python最难懂的10大知识点，学会就是大牛！忆愿 Python编程的脉动之声 python android 开发语言人工智能机器学习数据结构算法
你好，我是忆愿，全网4w+粉丝，《遂愿盈创》社群主理人。副业启航①|遂愿盈创（对副业感兴趣免费可入，多种赚钱实战项目等你来，一起探寻副业快速变现的途径；以及对接互联网大厂商务合作，一起来搞点小外快，认识更多互联网大咖）目前群里已经带很多小伙伴（大部分大学生）变现几百块啦，程序员搞副业有额外加成~对副业感兴趣可+V:suiyuan2ying拉你进群。文章目录1.装饰器的套路1.1基础装饰器1.2带参
python 的pip包管理工具 requirements.txt 怎么用 xixiyuguang python pip 开发语言
1、pip安装一些包pipinstallrequests2、生成requirements.txt2.1、说明在Python中，尤其是与pip和包管理相关的上下文中，requirements.txt文件用于列出项目所依赖的外部Python包及其版本。这个文件通常在项目的根目录下创建，以便其他开发者可以轻松地安装所有必要的依赖项，或者用于自动化部署脚本中。下面是一个requirements.txt文件
[使用技巧] Linux创建自定义服务 The Daylight linux 运维服务器
Linux创建自定义服务文章目录Linux创建自定义服务1需求分析2systemctl介绍2.1服务基本操作2.2编写service文件3使用案例-部署python脚本服务1需求分析在实际学习/开发过程中，通常需要让某些服务做到自启，又或是停止服务，开启服务这样的操作，一种常见的作法是编写一个启动脚本，然后将该脚本放入开机自启当中。具体的来说，就是把自动启动脚本写入/etc/rc.local当中。
使用Python抓取网页信息 weixin_34292287 python c#
之前用C#帮朋友写了一个抓取网页信息的程序，搞得好复杂，今天朋友又要让下网页数据，好多啊，又想偷懒，可是不想用C#了，于是想到了Python，大概花了两个小时，用记事本敲的，然后在IDLE(PythonGUI)里面测试。发现Python之类的解释性语言很不错，又不用编译，写个脚本就好了。代码如下：#-*-coding:gb2312-*-importsysimporturllibimportre#从
Python项目依赖管理:生成requirements.txt的6种方法 ivwdcwso 开发 python 开发语言开发
在Python项目开发中,管理依赖是一项重要但常被忽视的任务。一个精确的requirements.txt文件不仅可以确保项目在不同环境中的一致性,还能简化部署和协作过程。本文将介绍6种生成requirements.txt文件的方法,帮助你选择最适合自己项目的依赖管理策略。1.使用pipfreeze这是最基本也是最常用的方法。pipfreeze>requirements.txt优点:简单直接,无需额
使用python解析pdf文件 CV小蜗牛 Python学习 python 开发语言后端
使用python解析pdf文件本文主要介绍怎么使用python解析pdf文件pdf文件格式今天，pdf已经是最常用的数据格式。在1990,Adobe公司定义pdf文档的结构。PDF格式背后的理念是，传输的数据/文档对于参与通信过程的双方（创建者、作者或发送者以及接收者）来说看起来完全相同。PDF是PostScript格式的继承者，并被标准化为ISO32000-2:2017。处理PDF文件对于Lin
Python实用小工具（3）——实现PDF合并和拆分功能（附源码+exe文件） MatpyMaster 实用小工具 pdf 测试工具
在日常工作和学习中，我们常常会遇到需要处理PDF文件的情况，例如合并多个PDF文档，拆分成单页或指定页数的PDF等。为了更方便地处理这些任务，今天我们将利用Python和Tkinter库，创建一个简易的PDF工具。这个工具包括PDF合并和PDF拆分两个功能，操作简单，界面友好。功能介绍①PDF合并工具新增一个PDF：点击该按钮可进行PDF的选择，需要注意的是依次选择的顺序就是进行合并的顺序，选择结
数据类型 char 泥土编程 c语言
char(字符型)字符类型可以表示单个字符,字符类型是char，char是1个字节(可以存字母或者数字)，多个字符称为字符串，在C语言中使用char数组表示，数组不是基本数据类型，而是构造类型。字符类型使用细节\n字符常量是用单引号('')括起来的单个字符。例如：charc1='a';charc3='9';\n\nC中还允许使用转义字符‘\\’来将其后的字符转变为特殊字符型常量。例如：charc3
【一点分享】Python数据分析（1）：Jupyterlab搭建，练习Python和Sql的神器。或许能用上 Python python sql mysql
在之前Mysql专栏分享过程中，一直用的Sequel客户端进行sql编写和说明注解，及时执行的结果不能保存，得写一条sql截图一次，麻烦。而Jupyterlab就可以很好解决这个问题，代码过程与执行结果都会相邻挨着保留，随时可以查看，导出或截图都非常方便。而且，Jupyterlab还天然支持Python环境，学Python甚是方便，单步执行和结果就是亮点。其他的shell等各种语言环境也可以安装插
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多

穆瑾轩

python爬虫详解

1、基本概念

1.1、什么是爬虫

网络爬虫，是一种按照一定规则，自动抓取互联网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。例如：传统的通用搜索引擎AltaVista，Yahoo!和Google等，作为一个辅助人们检索信息的工具也存在着一定的局限性，通用搜索引擎的目标是尽可能大的网络覆盖率，返回的结果包含大量用户不关心的网页，为了解决上述问题，定向抓取相关网页资源的爬虫应运而生。

由于互联网数据的多样性和资源的有限性，根据用户需求定向抓取网页并分析，已成为主流的爬取策略。只要你能通过浏览器访问的数据都可以通过爬虫获取，爬虫的本质是模拟浏览器打开网页，获取网页中我们想要的那部分数据。

1.2、Python为什么适合爬虫

因为python的脚本特性，python易于配置，对字符的处理也非常灵活，加上python有丰富的网络抓取模块，所以两者经常联系在一起。

相比与其他静态编程语言，如java，c#，C++，python抓取网页文档的接口更简洁;相比其他动态脚本语言，如perl，shell，python的urllib2包提供了较为完整的访问网页文档的API。此外，抓取网页有时候需要模拟浏览器的行为，很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模拟user agent的行为构造合适的请求，譬如模拟用户登陆、模拟session/cookie的存储和设置。在python里都有非常优秀的第三方包帮你搞定，如Requests，mechanize。

抓取的网页通常需要处理，比如过滤html标签，提取文本等。python的beautifulsoap提供了简洁的文档处理功能，能用极短的代码完成大部分文档的处理。

1.3、Python爬虫组成部分

Python爬虫架构主要由五个部分组成，分别是调度器、URL管理器、网页下载器、网页解析器、应用程序（爬取的有价值数据）。

调度器：相当于一台电脑的CPU，主要负责调度URL管理器、下载器、解析器之间的协调工作。
URL管理器：包括待爬取的URL地址和已爬取的URL地址，防止重复抓取URL和循环抓取URL，实现URL管理器主要用三种方式，通过内存、数据库、缓存数据库来实现。
网页下载器：通过传入一个URL地址来下载网页，将网页转换成一个字符串，网页下载器有urllib（Python官方内置标准库）包括需要登录、代理、和cookie，requests(第三方包)
网页解析器：将一个网页字符串进行解析，可以按照我们的要求来提取出我们有用的信息，也可以根据DOM树的解析方式来解析。网页解析器有正则表达式（直观，将网页转成字符串通过模糊匹配的方式来提取有价值的信息，当文档比较复杂的时候，该方法提取数据的时候就会非常的困难）、html.parser（Python自带的）、beautifulsoup（第三方插件，可以使用Python自带的html.parser进行解析，也可以使用lxml进行解析，相对于其他几种来说要强大一些）、lxml（第三方插件，可以解析 xml 和 HTML），html.parser 和 beautifulsoup 以及 lxml 都是以 DOM 树的方式进行解析的。
应用程序：就是从网页中提取的有用数据组成的一个应用。

1.4、URI和URL的概念

在了解爬虫前，我们还需要了解一下什么是URL？

1.4.1、网页、网站、网络服务器、搜素引擎

网页：一份网页文档是交给浏览器显示的简单文档。这种文档是由超文本标记语言HTML来编写的，网页文档可以插入各种各样不同类型的资源：

样式信息 — 控制页面的观感
脚本— 为页面添加交互性
多媒体— 图像，音频，和视频

网络上所有可用的网页都可以通过一个独一无二的地址访问到。要访问一个页面，只需在你的浏览器地址栏中键入页面的地址，即URL。

网站：网站是共享唯一域名的相互链接的网页的集合。给定网站的每个网页都提供了明确的链接—一般都是可点击文本的形式—允许用户从一个网页跳转到另一个网页。要访问网站，请在浏览器地址栏中输入域名，浏览器将显示网站的主要网页或主页。

网络服务器：一个网络服务器是一台托管一个或多个网站的计算机。 "托管"意思是所有的网页和它们的支持文件在那台计算机上都可用。网络服务器会根据每位用户的请求，将任意网页从托管的网站中发送到任意用户的浏览器中。别把网站和网络服务器弄混了。例如，当你听到某人说："我的网站没有响应"，这实际上指的是网络服务器没响应，并因此导致网站不可用。

搜索引擎：搜索引擎是一个特定类型的网站，用以帮助用户在其他网站中寻找网页。例如：有Google, Bing, Yandex, DuckDuckGo等等。浏览器是一个接收并显示网页的软件，搜索引擎则是一个帮助用户从其他网站中寻找网页的网站。

1.4.2、什么是URL

早在1989年，网络发明人蒂姆·伯纳斯 - 李（Tim Berners-Lee）就提出了网站的三大支柱：

1）URL ,跟踪Web文档的地址系统

2）HTTP，一个传输协议，以便在给定URL时查找文档

3）HTML, 允许嵌入超链接的文档格式

Web的最初目的是提供一种简单的方式来访问，阅读和浏览文本文档。从那时起，网络已经发展到提供图像，视频和二进制数据的访问，但是这些改进几乎没有改变三大支柱。

在Web之前，很难访问文档并从一个文档跳转到另一个文档。WWW（World Wide Web，万维网）简称为3W，使用统一资源定位符（URL）来标志WWW上的各种文档。

完整的工作流程如下∶

1）Web用户使用浏览器（指定URL）与Web服务器建立连接，并发送浏览请求。

2）Web服务器把URL转换为文件路径，并返回信息给 Web浏览器。

3）通信完成，关闭连接。

HTTP:超文本传送协议（HTTP）是在客户程序（如浏览器）与WWW服务器程序之间进行交互所使用的协议。HTTP使用统一资源标识符（Uniform Resource Identifiers, URI）来传输数据和建立连接，它使用TCP连接进行可靠传输，服务器默认监听在80端口。

URL:代表统一资源定位器。URL 只不过是 Web 上给定的唯一资源的地址。理论上，每个有效的 URL 都指向一个唯一的资源。此类资源可以是 HTML 页面、CSS 文档、图像等。

URL的组成：

1）协议部分(http:):它表示浏览器必须使用的协议来请求资源（协议是在计算机网络中交换或传输数据的一套方法），通常对于网站，协议是 HTTPS 或 HTTP（其不安全版本）。这里使用的是HTTP协议,在"HTTP"后面的“//”为分隔符；

2）域名部分（www.example.com）：一个URL中，也可以直接使用IP地址；

3）端口部分（80）：域名和端口之间使用“:”作为分隔符。端口不是一个URL必须的部分，如果省略端口部分，将采用默认端口(默认端口可以省略)。

4）资源路径：资源路径包含,虚拟目录部分和文件名部分

虚拟目录部分（/path/to/）：从域名后的第一个“/”开始到最后一个“/”为止，是虚拟目录部分。虚拟目录也不是一个URL必须的部分。

文件名部分（myfile.html）：从域名后的最后一个“/”开始到“？”为止，是文件名部分，如果没有“?”,则是从域名后的最后一个“/”开始到“#”为止，是文件部分。

6）参数部分（key1=value1&key2=value2）：从“？”开始到“#”为止之间的部分为参数部分，又称搜索部分、查询部分。

7）锚部分（SomewhereInTheDocument）：从“#”开始到最后，都是锚部分。锚点代表资源内的一种“书签”，为浏览器提供显示位于该“书签”位置的内容的方向。例如，在 HTML 文档中，浏览器将滚动到定义锚点的位置；在视频或音频文档上，浏览器将尝试转到锚点所代表的时间。

URI，是uniform resource identifier，统一资源标识符，用来唯一的标识一个资源。URL是uniform resource locator，统一资源定位器，它是一种具体的URI，即URL可以用来标识一个资源，而且还指明了如何locate这个资源。

1.5、引入模块

在进行爬虫时，我们会用到一些模块，怎么去使用这些模块呢？

模块（module）:就是用来从逻辑上组织Python代码（变量、函数、类），本质就是py文件，提供代码的可维护性，Python使用import来导入模块，如果没有基础的可以先看这篇文章：https://blog.csdn.net/xiaoxianer321/article/details/116723566。

导入模块：

#导入内置模块
import sys
#导入标准库
import os
#导入第三方库（需要安装：pip install bs4）
import bs4
from bs4 import BeautifulSoup

print(os.getcwd()) #打印当前工作目录
#import bs4 导入整个模块
print(bs4.BeautifulSoup.getText)
#from bs4 import BeautifulSoup 导入指定模块的部分属性至当前工作空间
print(BeautifulSoup.getText)

安装方式1：在终端中使用命令

安装方式二：pycharm在设置中安装

我们大概会用到以下这些模块：

import urllib.request,urllib.error #定制URL，获取网页数据
from bs4 import BeautifulSoup #网页解析，获取数据
import re #正则表达式，进行文件匹配
import xlwt #进行excel操作
import sqlite3 #进行SQLite数据库操作

2、urllib库详解

Python3 中将 Python2 中的 urllib 和 urllib2 两个库整合为一个 urllib 库，所以现在一般说的都是 Python3 中的 urllib 库，它是python3内置标准库，不需要额外安装。

urllib的四个模块：

2.1、request模块

request模块提供了最基本的构造 HTTP 请求的方法，利用它可以模拟浏览器的一个请求发起过程，同时它还带有处理authenticaton（授权验证），redirections（重定向)，cookies（浏览器Cookies）以及其它内容。

2.1.1、urllib.request.urlopen() 函数

打开一个url方法，返回一个文件对象HttpResponse。urlopen默认会发送get请求，当传入data参数时，则会发起POST请求。

语法：
urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

参数说明：
url：请求的 url，也可以是request对象
data：请求的 data，如果设置了这个值，那么将变成 post 请求，如果要传递一个字典，则应该用urllib.parse模块的urlencode()函数编码；
timeout：设置网站的访问超时时间句柄对象； 
cafile和capath：用于 HTTPS 请求中，设置 CA 证书及其路径；
cadefault：忽略*cadefault*参数；
context：如果指定了*context*，则它必须是一个ssl.SSLContext实例。


urlopen() 返回对象HTTPResponse提供的方法和属性:

1)read()、readline()、readlines()、fileno()、close()：对 HTTPResponse 类型数据进行操作；
2)info()：返回 HTTPMessage 对象，表示远程服务器 返回的头信息 ；
3)getcode()：返回 HTTP 状态码 geturl()：返回请求的 url；
4)getheaders()：响应的头部信息;
5)status：返回状态码；
6)reason：返回状态的详细信息.

案例一：使用urlopen()函数抓取百度

import urllib.request
url = "http://www.baidu.com/"
res = urllib.request.urlopen(url)  # get方式请求
print(res)  # 返回HTTPResponse对象
# 读取响应体
bys = res.read()  # 调用read()方法得到的是bytes对象。
print(bys)  # \n\n\n

 
      在简单的了解了一下使用urllib.request.urlopen(url)函数，会返回一个HTTPResponse对象，对象中包含了请求后响应的各项信息。 
      请求url最常见的方式莫过于发送get请求或post请求，为了更方便的看到效果，我们可以使用这个网站http://httpbin.org/来测试我们的请求。 
  案例二：get请求 
  我们在http://httpbin.org/网站，发送一个get测试请求： 
   
  然后我们在使用python模拟浏览器发送一个get请求 
  import urllib.request
# 请求的URL
url = "http://httpbin.org/get"
# 模拟浏览器打开网页(get请求)
res = urllib.request.urlopen(url)
print(res.read().decode("utf-8")) 
   请求结果如下： 
   
  我们会发现python模拟浏览器的请求很像。 
   案例三：pos请求 
  import urllib.request
import urllib.parse

url = "http://httpbin.org/post"
# 按POST请求的格式封装数据，请求内容，需要传递data
data = bytes(urllib.parse.urlencode({"hello": "world"}), encoding="utf-8")
res = urllib.request.urlopen(url, data=data)
# 输出响应结果
print(res.read().decode("utf-8")) 
  模拟浏览器发出的请求（提交的数据会以form表单的形式发送出去），响应结果如下： 
  {
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "hello": "world"
  }, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Content-Length": "11", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "Python-urllib/3.8", 
    "X-Amzn-Trace-Id": "Root=1-60e0754e-7ea455cc757714f14db8f2d2"
  }, 
  "json": null, 
  "origin": "183.216.63.84", 
  "url": "http://httpbin.org/post"
}
 
  案例四： 伪装Headers 
      通过上面的案例，不难发现使用urllib发送的请求，比较不同的地方是："User-Agent"，使用urllib发送的会有一个默认的Headers:User-Agent: Python-urllib/3.8。所以遇到一些验证User-Agent的网站时，有可能会直接拒绝爬虫，因此我们需要自定义Headers把自己伪装的像一个浏览器一样。 
      其实我们使用抓包工具也能看到http请求，使用抓包工具，抓取未指定请求头的get请求如下： 
      而我直接使用谷歌浏览器时，使用抓包工具获取到的User-Agent如下： 
   
      当然也可以直接在浏览器中查看： 
   
   例如：我去爬取豆瓣网时： 
  import urllib.request

url = "http://douban.com"
resp = urllib.request.urlopen(url)
print(resp.read().decode('utf-8'))


返回错误：反爬虫
raise HTTPError(req.full_url, code, msg, hdrs, fp)
urllib.error.HTTPError: HTTP Error 418: 

HTTP 418 I'm a teapot客户端错误响应代码表示服务器拒绝煮咖啡，因为它是一个茶壶。这个错误是对1998年愚人节玩笑的超文本咖啡壶控制协议的引用。 
      自定义Headers： 
  import urllib.request

url = "http://douban.com"
# 自定义headers
headers = {
	'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'
}
req = urllib.request.Request(url, headers=headers)
# urlopen(也可以是request对象)
print(urllib.request.urlopen(req).read().decode('utf-8'))  # 获取字符串内容，需要指定解码方式 
      当我再次使用抓包工具，抓取指定请求头的get请求，结果如下： 
   
  案例五：设置请求超时时间 
       我们在爬取网页时，难免会遇到请求超时，或者无法响应的网址，为了提高代码的健壮性，我可以设置请求超时时间。 
  import urllib.request,urllib.error

url = "http://httpbin.org/get"
try:
    resp = urllib.request.urlopen(url, timeout=0.01)
    print(resp.read().decode('utf-8'))
except urllib.error.URLError as e:
    print("time out")

输出：time out
 
  2.1.2、urllib.request.urlretrieve() 函数 
      urlretrieve()函数的作用是直接将远程的数据下载到本地 
  # 语法：

urlretrieve(url, filename=None, reporthook=None, data=None)

# 参数说明

url：传入的网址
filename：指定了保存本地路径（如果参数未指定，urllib会生成一个临时文件保存数据)
reporthook：是一个回调函数，当连接上服务器、以及相应的数据块传输完毕时会触发该回调，我们可以利用这个回调函数来显示当前的下载进度
data：指 post 到服务器的数据，该方法返回一个包含两个元素的(filename, headers)元组，filename 表示保存到本地的路径，header表示服务器的响应头


 
  使用案例： 
  import urllib.request

url = "http://www.hao6v.com/"
filename = "C:\\Users\\Administrator\\Desktop\\python_3.8.5\\电影.html"
def callback(blocknum,blocksize,totalsize):
    """
        @blocknum:目前为此传递的数据块数量
        @blocksize:每个数据块的大小，单位是byte,字节
        @totalsize:远程文件的大小
    """
    if totalsize == 0:
        percent = 0
    else:
        percent = blocknum * blocksize / totalsize
    if percent > 1.0:
        percent = 1.0
    percent = percent * 100
    print("download : %.2f%%" % (percent))

local_filename, headers= urllib.request.urlretrieve(url, filename, callback)

 
  案例效果： 
   
  2.2、error模块 
      urllib.error 模块为 urllib.request 所引发的异常定义了异常类，基础异常类是 URLError。 
  2.2.1、HTTP协议（RFC2616）状态码定义 
      所有HTTP响应的第一行都是状态行，依次是当前HTTP版本号，3位数字组成的状态代码，以及描述状态的短语，彼此由空格分隔。  
      状态代码的第一个数字代表当前响应的类型： 
      1xx消息——请求已被服务器接收，继续处理
     2xx成功——请求已成功被服务器接收、理解、并接受
     3xx重定向——需要后续操作才能完成这一请求
     4xx请求错误——4xx类的状态码用于看起来客户端有错误的情况下，请求含有词法错误或者无法被执行
     5xx服务器错误——由数字“5”打头的响应状态码表示服务器已经明显处于错误的状况下或没有能力执行请求，或在处理某个正确请求时发生错误。 
  部分状态码如下： 
   
    
     
     状态码 
     定义 
     
     
     100 
     继续。客户端应该继续它的请求。该间歇响应用于提醒客户端服务器已经接收和接受请求的开
 始部分。 客户端应该继续发送请求的剩余部分， 或者如果请求已经发送完了， 就乎略该响应。
 服务器在请求完成后必须发送最终响应。 
     
     
     101 
     切换协议。 
     
     
     200 
     OK。请求已经成功。该响应返回的信息取决于请求中使用的方法，例如：
 GET与所请求资源相对应的实体将在响应中发送；
 HEAD 与所请求资源相对应的实体头部将在响应中发送，而没有消息体；
 POST描述或包含行为结果的实体；
 TRACE 包含终点服务器收到的请求消息的实体。 
     
     
     201 
     创建。请求全部成功，且创建了新资源。原始服务器必须在返回 201 状态码之前创建资源。 如果该行为不能立即实施，服务器应该代之以202（Accepted）响应。 
     
     
     202 
     请求已经接受处理，但是处理还没有完成。 
     
     
     203 
     实体头部中返回的元信息不是在原始服务器有效的确定集合， 而是从本地或第三方拷贝
 收集的。现在的集合可能是原始版本的子集或超集。 
     
     
     204 
     服务器已经完成请求，但不需要返回实体，且可能希望返回更新的元信息。响应可能包
 括新的或更新的元信息，通过实体头部的形式。如果存在这些头部，则应该与所请求变量相
 关。 
     
     
     205 
     重置内容。服务器已经完成请求且用户代理应该复位引起请求发送的文档视图。 
     
     
     300 
     多重选项。所请求的资源符合表述集合中的任何一个，每个都有它自己的特殊位置。代理驱动的协
 商信息提供给用户（或用户代理）来选择喜欢的表述，并重定向请求到它的位置。  
     
     
     301 
     所请求的资源已经指定到一个新的永久 URI， 且将来任何对该资源的引用都应该使用所
 返回的 URI 之一。 
     
     
     302 
      所请求的资源临时存在于不同的 URI。 
     
     
     303 
     请求的响应可以在不同的URI中发现，且应该使用GET方法到该资源来获取它。 
     
     
     307 
     临时重定向 
     
     
     400 
      服务器不能理解请求，由于畸形的语法。 
     
     
     403 
     服务器理解请求， 但拒绝完成它。 认证也没用， 请求不该重复。 
     
     
     404 
     未找到。服务器不能发现匹配Request-URI的任何东西。 
     
     
     408 
     请求超时 
     
     
     500 
     服务器错误 
     
     
     503 
      服务不可用
  
     
     
     504 
     网关超时 
     
     
     505 
     HTTP版本不支持 
     
    
   
  2.2.2、 urllib.error.URLError 
  import urllib.request,urllib.error

try:
    url = "http://www.baidus.com"
    resp = urllib.request.urlopen(url)
    print(resp.read().decode('utf-8'))
# except urllib.error.HTTPError as e:
#     print("请检查url是否正确")
# URLError是urllib.request异常的超类
except urllib.error.URLError as e:
    if hasattr(e, "code"):
        print(e.code)
    if hasattr(e, "reason"):
        print(e.reason) 
  案例效果： 
   
       URLError，为urllib.request 所引发的基础异常类，这里打印出来的403，就是urllib.error.HTTPError，另外还有一个ContentTooShortError，此异常会在 urlretrieve() 函数检测到已下载的数据量小于期待的数据量（由 Content-Length 头给定）时被引发。  
  2.3、parse 模块 
      urllib.parse 模块提供了很多解析和组建 URL 的函数。下面只列出了部分
     解析url的函数：urllib.parse.urlparse、urllib.parse.urlsplit、urllib.parse.urldefrag 
      组件url的函数：urllib.parse.urlunparse、urllib.parse.urljoin 
      查询参数的构造与解析：urllib.parse.urlencode、urllib.parse.parse_qs、 
  urllib.parse.parse_qsl 
  2.3.1、urllib.parse.urlparse 
  # 语法
urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True)

scheme:设置默认值
allow_fragments:是否允许fragment 
       将URL解析成 ParseResult 对象。对象中包含了六个元素：也就是我们前面说过的url的组成，只不过urlparse函数，将其解析成6个元素。 
   
    
     
      属性
  
      索引
  
      值
  
      值（如果不存在）
  
     
    
    
     
      scheme
  
      0
  
      URL协议
  
      scheme 参数
  
     
     
      netloc
  
      1
  
      网络位置部分（域名）
  
      空字符串
  
     
     
      path
  
      2
  
      分层路径
  
      空字符串
  
     
     
      params
  
      3
  
      最后路径元素的参数
  
      空字符串
  
     
     
      query
  
      4
  
      查询参数
  
      空字符串
  
     
     
      fragment
  
      5
  
      片段识别
  
      空字符串
  
     
    
   
   使用案例： 
  import urllib.parse

url = "http://www.example.com:80/path/to/myfile.html?key1=value&key2=value2#SomewhereIntheDocument"
parsed_result = urllib.parse.urlparse(url)
print(parsed_result)
print('协议-scheme  :', parsed_result.scheme)
print('域名-netloc  :', parsed_result.netloc)
print('路径-path    :', parsed_result.path)
print('路径参数-params  :', parsed_result.params)
print('查询参数-query   :', parsed_result.query)
print('片段-fragment:', parsed_result.fragment)
print('用户名-username:', parsed_result.username)
print('密码-password:', parsed_result.password)
print('主机名-hostname:', parsed_result.hostname)
print('端口号-port    :', parsed_result.port)

输出结果：
ParseResult(scheme='http', netloc='www.example.com:80', path='/path/to/myfile.html', params='', query='key1=value&key2=value2', fragment='SomewhereIntheDocument')
协议-scheme  : http
域名-netloc  : www.example.com:80
路径-path    : /path/to/myfile.html
路径参数-params  : 
查询参数-query   : key1=value&key2=value2
片段-fragment: SomewhereIntheDocument
用户名-username: None
密码-password: None
主机名-hostname: www.example.com
端口号-port    : 80 
  2.3.2、urllib.parse.urlsplit 
      这类似于urlparse，所不同的是， urlsplit() 并不会把路径参数(params) 从 路径(path) 中分离出来。此函数返回一个名为tuple的5项：（协议、域名、路径、查询、片段标识符） 
  使用案例： 
  import urllib.parse

url = "http://www.example.com:80/path/to/myfile.html?key1=value&key2=value2#SomewhereIntheDocument"
# urlsplit分割，唯一的区别就是不会把params拆分出来
parsed_result = urllib.parse.urlsplit(url)
print(parsed_result)
print('协议-scheme  :', parsed_result.scheme)
print('域名-netloc  :', parsed_result.netloc)
print('路径-path    :', parsed_result.path)
# parsed_result.params 没有这项
print('查询参数-query   :', parsed_result.query)
print('片段-fragment:', parsed_result.fragment)
print('用户名-username:', parsed_result.username)
print('密码-password:', parsed_result.password)
print('主机名-hostname:', parsed_result.hostname)
print('端口号-port    :', parsed_result.port) 
  2.3.3、urllib.parse.urlsplit  
      urllib.parse.urldefrag，如果url包含片段标识符，则返回修改后的url版本（不包含片段标识符），并将片段标识符作为单独的字符串返回。如果url中没有片段标识符，则返回原url和空字符串。 
  使用案例： 
  import urllib.parse

url = "http://www.example.com:80/path/to/myfile.html?key1=value&key2=value2#SomewhereIntheDocument"
parsed_result = urllib.parse.urldefrag(url)
print(parsed_result)
# DefragResult(url='http://www.example.com:80/path/to/myfile.html?key1=value&key2=value2', fragment='SomewhereIntheDocument')
url1 = "http://www.example.com:80/path/to/myfile.html?key1=value&key2=value2"
parsed_result1 = urllib.parse.urldefrag(url1)
print(parsed_result1)

# 输出结果：
# DefragResult(url='http://www.example.com:80/path/to/myfile.html?key1=value&key2=value2', fragment='SomewhereIntheDocument')
# DefragResult(url='http://www.example.com:80/path/to/myfile.html?key1=value&key2=value2', fragment='')
 
  2.3.4、urllib.parse.urlunparse 
      urlunparse()接收一个列表的参数，而且列表的长度是有要求的，是必须六个参数以上，否则抛出异常。 
  import urllib.parse

url_compos = ('http', 'www.example.com:80', '/path/to/myfile.html', 'params2', 'query=key1=value&key2=value2', 'SomewhereIntheDocument')
print(urllib.parse.urlunparse(url_compos))

# 输出结果：
# http://www.example.com:80/path/to/myfile.html;params2?query=key1=value&key2=value2#SomewhereIntheDocument 
  2.3.5、urllib.parse.urljoin 
  import urllib.parse

# 连接两个参数的url, 将第二个参数中缺的部分用第一个参数的补齐,如果第二个有完整的路径，则以第二个为主。
print(urllib.parse.urljoin('https://movie.douban.com/', 'index'))
print(urllib.parse.urljoin('https://movie.douban.com/', 'https://accounts.douban.com/login'))

# 输出结果：
# https://movie.douban.com/index
# https://accounts.douban.com/login
 
  2.3.6、urllib.parse.urlencode 
      可以将一个 dict 转换成合法的查询参数。 
  import urllib.parse

query_args = {
    'name': 'dark sun',
    'country': '中国'
}
query_args = urllib.parse.urlencode(query_args)
print(query_args)

# 输出结果
# name=dark+sun&country=%E4%B8%AD%E5%9B%BD 
  2.3.7、urllib.parse.parse_qs 
      解析作为字符串参数提供的查询字符串，数据作为字典返回。字典键是唯一的查询变量名，值是每个名称的值列表。 
  import urllib.parse

query_args = {
    'name': 'dark sun',
    'country': '中国'
}
query_args = urllib.parse.urlencode(query_args)
print(query_args)  # name=dark+sun&country=%E4%B8%AD%E5%9B%BD

print(urllib.parse.parse_qs(query_args))  # 返回字典
print(urllib.parse.parse_qsl(query_args))  # 返回列表

# 输出结果
# {'name': ['dark sun'], 'country': ['中国']}
# [('name', 'dark sun'), ('country', '中国')] 
  2.4、robotparser模块 
      此模块提供了一个单独的类 RobotFileParser，它可以回答关于某个特定用户代理是否能在 Web 站点获取发布 robots.txt 文件的 URL 的问题。（/robots.txt该文件是一个简单的基于文本的访问控制系统,文件向网络机器人提供有关其网站的说明,什么机器人可以访问，哪些链接不可以访问） 
  3、BeautifulSoup4 
      学了urllib标准库之后，我们已经能爬到些比较正常的网页源码（html文档）了，但这离结果还差一步——就是如何筛选我们想要的数据，这时候BeautifulSoup库就来了，BeautifulSoup目前最新版本为BeautifulSoup4。 
   
   
  3.1、BeautifulSoup4的简介及使用 
  3.1.1、BeautifulSoup4的简介 
      Beautiful Soup 官方定义：是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。（官网文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/） 
      BeautifulSoup本身支持Python标准库中的HTML解析器，但若想使BeautifulSoup使用html5lib/lxml 解析器解析器，可以使用下面方法。(官方推荐：使用lxml作为解析器，因为效率更高。) 
  pip install html5lib
pip install lxml 
  3.1.2、BeautifulSoup4的使用 
       BeautifulSoup(markup, features)接受两个参数： 
       第一个参数（markup）：文件对象或字符串对象 
       第二个参数（features）：解析器，未指定则使用python标准解析器（html.parser），但会产警告 
  from bs4 import BeautifulSoup  # 导入BeautifulSoup4库

# 未指定就使用html.parser这个python标准解析器 BeautifulSoup(markup, "html.parser") 未指定会产生警告 GuessedAtParserWarning: No parser was explicitly specified

# BeautifulSoup 第一个参数接受：一个文件对象或字符串对象
soup1 = BeautifulSoup(open("C:\\Users\\Administrator\\Desktop\\python_3.8.5\\电影.html"))
soup2 = BeautifulSoup("hello python")  # 得到文档的对象
print(type(soup2))  # 
print(soup1)  # hello python
 
  3.2、对象的种类 
       BeautifulSoup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag , NavigableString , BeautifulSoup , Comment 。 
   
  3.2.1、Tag 标签对象 
      Tag有很多方法和属性,在 遍历文档树 和 搜索文档树 中有详细解释.现在介绍一下tag中最重要的属性: name和attribute。 
  3.2.2、NavigableString 对象（可以遍历的字符串） 
     被包含在一个标签对中的字符串内容，可用tag.string来获取其内容（标签内容中含注释或其他标签均无法获取） 
  3.2.3、BeautifulSoup 对象 
      表示的是一个文档（document）的全部内容 
  3.2.4、Comment 对象（注释及特殊字符串） 
      Comment 对象是一个特殊类型的 NavigableString 对象，其实输出的内容仍然不包括注释符号，但是如果不好好处理它，可能会对我们的文本处理造成意想不到的麻烦。 
  使用案例： 
  from bs4 import BeautifulSoup
# 导入BeautifulSoup4库
# python 标准解析器 未指定就使用这个 BeautifulSoup(markup, "html.parser")
soup2 = BeautifulSoup(""
                      "我是p标签hello python"
                      ""
                      "我是独立的p标签"
                      "我是链接"
                      ""
                      "",
                      "html5lib")  # 得到文档的对象
# Tag 标签对象
print(type(soup2.p))  # 输出Tag对象
print(soup2.p.name)  # 输出Tag标签对象的名称
print(soup2.p.attrs)  # 输出第一个p标签的属性信息：{'class': ['boldest']}
soup2.p['class'] = ['boldest', 'boldest1']
print(soup2.p.attrs)  # {'class': ['boldest', 'boldest1']}

# NavigableString 可以遍历的字符串对象
print(type(soup2.b.string))  # 
print(soup2.b.string)  # hello python
print(soup2.a.string)  # None 存在注释或者其他标签内容均无法获取
print(soup2.b.string.replace_with("hello world"))  # replace_with()方法可替换标签中的内容
print(soup2.b.string)  # hello world

# BeautifulSoup 对象
print(type(soup2))  # 
print(soup2)  # 我是p标签hello python
我是独立的p标签
print(soup2.name)  # [document]

# Comment 注释及特殊字符串（是一个特殊类型的 NavigableString 对象）
print(type(soup2.h1.string))  # 
print(soup2.h1.string)  # 这是一个h1标签的注释 (利用 .string 来输出它的内容,注释符被去除了，不是我们想要的)
print(soup2.h1.prettify())  # 会以特殊格式输出：  
 
  3.3、对象属性-遍历文档 
  3.3.1、子节点 
   
    
     
     属性（BeautifulSoup对象） 
     描述 
     
     
     .tag标签名 
     使用标签名获取一个标签及其内容 
     
     
     .contents / .chidren 
     将tag的子节点以列表的方式输出 
     
     
     .descendants 
     可以对所有tag的子孙节点进行递归循环 
     
     
     .string 
     如果tag只有一个 NavigableString 类型子节点,那么这个tag可以使用 .string 得到子节点 
     
     
     .strings/stripped_strings 
     tag中有多个字符串，可以使用.strings来循环获取stripped_strings可以去除多余空白内容 
     
    
   
  使用案例： 
  from bs4 import BeautifulSoup

markup = '''

    
        
        I’m the title
    
    
        HelloWorld
        
            
                
                   我是一个段落...
                      我是第一段
                      我是第二段
                   我是另一个段落
                      我是第一段
                
                我是一个链接
            
            
                picture
                
            
        
    
'''
soup = BeautifulSoup(markup, "html5lib")  # BeautifulSoup 对象
print(soup.head.name)  # soup.head可以获取标签，获取标签名 - 输出：head
print(soup.head.contents)  # 将tag的子节点以列表的方式输出--输出：['\n        ', , '\n        ', I’m the title, '\n    ']
print(soup.head.contents[1])  # 
print(soup.head.children)  # list_iterator object
for child in soup.head.children:
    print(child)  #   I’m the title
# 标签中的内容其实也是一个节点 使用contents和children无法直接获取间接节点中的内容，但是.descendants 属性可以
for child in soup.head.descendants:
    print(child)  #  I’m the title I’m the title
print(soup.head.title.string)  # 输出：I’m the title  注：title中有其他节点或者注释都无法获取

print(soup.body.div.div.p.strings)  # 使用.string-None 使用.strings 获得generator object
for string in soup.body.div.div.p.stripped_strings:    # stripped_strings 可以去除多余空白内容
    print(repr(string))    # '我是一个段落...'
                           # '我是第一段\n                      我是第二段'
                           # '我是另一个段落'
                           # '我是第一段' 
  3.3.2、父节点 
   
    
     
     属性 
     描述 
     
     
     .parent 
     获取某个元素的父节点 
     
     
     .parents 
     可以递归得到元素的所有父辈节点 
     
    
   
  使用案例： 
  from bs4 import BeautifulSoup

markup = '''

    
        
        I’m the title
    
    
        HelloWorld
        
            
                
                   我是一个段落...
                      我是第一段
                      我是第二段
                   我是另一个段落
                      我是第一段
                
                我是一个链接
            
            
                picture
                
            
        
    
'''
soup = BeautifulSoup(markup, "html5lib")  # BeautifulSoup 对象
title = soup.head.title
print(title.parent)  # 输出父节点
#     
#         
#         I’m the title
#     
print(title.parents)  # generator object PageElement.parents
for parent in title.parents:
    print(parent)  # 输出head父节点 和 html父节点 
  3.3.3、兄弟节点 
   
    
     
     属性 
     描述 
     
     
     .next_sibling 
     查询兄弟节点，表示下一个兄弟节点 
     
     
     .previous_sibling 
     查询兄弟节点，表示上一个兄弟节点 
     
     
     .next_siblings 
     对当前节点的兄弟节点迭代输出（下） 
     
     
     .previous_siblings 
     对当前节点的兄弟节点迭代输出（上） 
     
    
   
  使用案例： 
  from bs4 import BeautifulSoup

markup = '''

    
        
        I’m the title
    
    
        
            
               我是第一个段落我是第二个段落我是第三个段落我是第四个段落
            
            我是一个链接
        
    
'''
soup = BeautifulSoup(markup, "html5lib")  # BeautifulSoup 对象
p = soup.body.div.p.b
print(p)  # 我是第一个段落
print(p.next_sibling)  # 我是第二个段落
print(p.next_sibling.previous_sibling)  # 我是第一个段落
print(p.next_siblings)  # generator object PageElement.next_siblings
for nsl in p.next_siblings:
    print(nsl)    # 我是第二个段落
                  # 我是第三个段落
                  # 我是第四个段落 
  3.3.4、回退和前进 
   
    
     
     属性 
     描述 
     
     
     .next_element 
     解析下一个元素对象 
     
     
     .previous_element 
     解析上一个元素对象 
     
     
     .next_elements 
     迭代解析元素对象 
     
     
     .previous_elements 
     迭代解析元素对象 
     
    
   
  使用案例： 
  from bs4 import BeautifulSoup

markup = '''

    
        
        I’m the title
    
    
        
            
                   我是第一个段落我是第二个段落我是第三个段落我是第四个段落
            
            我是一个链接h3
        
    
'''
soup = BeautifulSoup(markup, "html5lib")  # BeautifulSoup 对象
p = soup.body.div.p.b
print(p)  # 我是第一个段落
print(p.next_element)  # 我是第一个段落
print(p.next_element.next_element)  # 我是第二个段落
print(p.next_element.next_element.next_element)  # 我是第二个段落
for element in soup.body.div.a.next_element:  # 对：我是一个链接  字符串的遍历
    print(element) 
   
      注：next_element，会把标签中的内容，也会认为是一个节点。例如：案例中取a节点的next_element，则是一个字符串（我是一个链接） 
  3.4、对象的属性和方法-搜索文档树 
      这里的搜索文档，其实就是按照某种条件去搜索过滤文档，过滤的规则，往往会使用搜索的API，或者我们也可以自定义正则/过滤器，去搜索文档。 
  3.4.1、find_all() 
      最简单的过滤器是字符串.在搜索方法中传入一个字符串参数，Beautiful Soup会查找与字符串完整匹配的内容。 
  语法：find_all( name , attrs , recursive , string , **kwargs )  返回列表list 
  find_all( name , attrs , recursive , string , **kwargs ) 

参数说明：
name：查找所有名字为 name 的tag（name可以是字符串，也可以是列表）
attrs: 对标签属性值的检索字符串，可标注属性检索
recursive: 是否对子孙全部检索，默认True
string: <>…中字符串区域的检索字符串 
  使用案例： 
  from bs4 import BeautifulSoup
import re

markup = '''

    
        
        I’m the title
    
    
        
            
                   我是第一个段落我是第二个段落我是第三个段落我是第四个段落
            
            我是一个链接h3
            str
        
    
'''
# 语法：find_all( name , attrs , recursive , string , **kwargs )
soup = BeautifulSoup(markup, "html5lib")  # BeautifulSoup 对象
# 第一个参数name，可以是一个标签名也可以是列表
print(soup.findAll('b'))   # 返回包含b标签的列表 [我是第一个段落, 我是第二个段落, 我是第三个段落, 我是第四个段落]
print(soup.findAll(['a', 'h3']))  # 按列表匹配多个 [我是一个链接h3, h3]

# 第二个参数attrs，可以指定参数名字，也可以不指定
print(soup.findAll('b', 'bcl1'))  # 匹配class='bcl1'的b标签[我是第一个段落]
print(soup.findAll(id="myTitle"))  # 指定id [I’m the title]
print(soup.find_all("b", attrs={"class": "bcl1"}))  # [我是第一个段落]
print(soup.findAll(id=True))  # 匹配所有有id属性的标签

# 第三个参数recursive 默认True 如果只想搜索tag的直接子节点,可以使用参数 recursive=False
print(soup.html.find_all("title", recursive=False))  # [] recursive=False。找html的直接子节点，是head，所以找不到title

# 第四个参数string
print(soup.findAll('div', string='str'))  # [str]
print(soup.find(string=re.compile("我是第二个")))  # 搜索我是第二个段落

# 其他参数 limit 参数
print(soup.findAll('b', limit=2))  # 当搜索到的结果数量达到 limit 的限制时,就停止搜索返回结果,[我是第一个段落, 我是第二个段落]
 
   3.4.2、find()  
      find()与find_all() 的区别是 find_all() 方法的返回结果是值包含一个元素的列表,而 find() 方法直接返回结果（即找到了就不再找，只返第一个匹配的）,find_all() 方法没有找到目标是返回空列表, find() 方法找不到目标时,返回 None。 
      语法：find( name , attrs , recursive , string , **kwargs ) 
  使用案例： 
  soup = BeautifulSoup(markup, "html5lib")  # BeautifulSoup 对象
# 第一个参数name，可以是一个标签名也可以是列表
print(soup.find('b'))   # 返回我是第一个段落,只要找到一个即返回

# 第二个参数attrs，可以指定参数名字，也可以不指定
print(soup.find('b', 'bcl1'))  # 我是第一个段落
print(soup.find(id="myTitle"))  # I’m the title
print(soup.find("b", attrs={"class": "bcl1"}))  # 我是第一个段落
print(soup.find(id=True))  # 匹配到第一个I’m the title

# 第三个参数recursive 默认True 如果只想搜索tag的直接子节点,可以使用参数 recursive=False
print(soup.html.find("title", recursive=False))  # None recursive=False。找html的直接子节点，是head，所以找不到title

# 第四个参数string
print(soup.find('div', string='str'))  # [str]
print(soup.find(string=re.compile("我是第二个")))  # 我是第二个段落 
  3.4.3、find_parents() 和 find_parent() 
      find_parents() 和 find_parent() 用来搜索当前节点的父辈节点。 
      语法： 
      find_parents( name , attrs , recursive , string , **kwargs ) 
      find_parent( name , attrs , recursive , string , **kwargs ) 
  3.4.4、find_next_siblings() 和 find_next_sibling() 
      find_next_siblings() 方法返回所有符合条件的后面的兄弟节点，find_next_sibling() 只返回符合条件的后面的第一个tag节点； 
      语法： 
      find_next_siblings( name , attrs , recursive , string , **kwargs ) 
      find_next_sibling( name , attrs , recursive , string , **kwargs ) 
  3.4.5、find_previous_siblings() 和 find_previous_sibling() 
      通过 .previous_siblings 属性对当前tag的前面解析。find_previous_siblings() 方法返回所有符合条件的前面的兄弟节点，find_previous_sibling() 方法返回第一个符合条件的前面的兄弟节点； 
      语法： 
      find_previous_siblings( name , attrs , recursive , string , **kwargs ) 
      find_previous_sibling( name , attrs , recursive , string , **kwargs ) 
  3.4.6、find_all_next() 和 find_next() 
      find_all_next() 方法返回所有符合条件的节点，find_next() 方法返回第一个符合条件的节点。 
       语法： 
      find_all_next( name , attrs , recursive , string , **kwargs ) 
      find_next( name , attrs , recursive , string , **kwargs ) 
  3.4.7、find_all_previous() 和 find_previous() 
      find_all_previous() 方法返回所有符合条件的节点元素，find_previous() 方法返回第一个符合条件的节点元素。 
      语法： 
      find_all_previous( name , attrs , recursive , string , **kwargs ) 
      find_previous( name , attrs , recursive , string , **kwargs ) 
      这些其实和前面的属性用法类似，但是比属性又多了像find_all()一样的参数。这里就不再详细介绍了，可以看官网的API。 
  3.4.8、CSS选择器查找 
      Beautiful Soup支持大部分的CSS选择器，在 Tag 或 BeautifulSoup 对象的 .select() 方法中传入字符串参数, 即可使用CSS选择器的语法找到tag。 
  使用案例： 
  from bs4 import BeautifulSoup
import re

markup = '''

    
        
        I’m the title
    
    
        
            
                   我是第一个段落我是第二个段落我是第三个段落我是第四个段落
            
            我是一个链接h3
            str
        
    
'''
soup = BeautifulSoup(markup, "html5lib")  # BeautifulSoup 对象
print(soup.select("html head title"))  # [I’m the title]
print(soup.select("body a"))  # [我是一个链接h3]
print(soup.select("#dv1"))  # [str]
 
  3.5、对象的属性和方法-修改文档树 
  3.5.1、修改tag的名称和属性 
  使用案例： 
  from bs4 import BeautifulSoup

soup = BeautifulSoup('Extremely bold', "html5lib")
tag = soup.b
tag.name = "blockquote"
print(tag)  # Extremely bold
tag['class'] = 'veryBold'
tag['id'] = 1
print(tag)  # Extremely bold

del tag['id']  # 删除属性 
  3.5.2、修改 .string 
      tag的 .string 属性赋值,就相当于用当前的标签中的内容 
  from bs4 import BeautifulSoup

soup = BeautifulSoup('Extremely bold', "html5lib")
tag = soup.b
tag.string = "replace"
print(tag)  # replace 
  3.5.3、append() 
       向tag中添加内容 
  from bs4 import BeautifulSoup

soup = BeautifulSoup('Extremely bold', "html5lib")
tag = soup.b
tag.append(" append")
print(tag)  # Extremely bold append 
  3.5.4、NavigableString() 和 .new_tag() 
  from bs4 import BeautifulSoup, NavigableString, Comment

soup = BeautifulSoup('Extremely bold', "html5lib")
tag = soup.div
new_string = NavigableString('NavigableString')
tag.append(new_string)
print(tag)  # Extremely boldNavigableString

new_comment = soup.new_string("Nice to see you.", Comment)
tag.append(new_comment)
print(tag)  # Extremely boldNavigableString

# 添加标签,推荐使用工厂方法new_tag
new_tag = soup.new_tag("a", href="http://www.example.com")
tag.append(new_tag)
print(tag)  # Extremely boldNavigableString


 
  3.5.5、insert() 
      把元素插入到指定的位置 
  from bs4 import BeautifulSoup

markup = 'I linked to example.com'
soup = BeautifulSoup(markup,"html5lib")
tag = soup.a
tag.insert(1, "but did not endorse ")  # 和append的区别就是.contents属性获取不一致
print(tag)  # I linked to but did not endorse example.com
print(tag.contents)  # ['I linked to ', 'but did not endorse ', example.com] 
  3.5.6、insert_before() 和 insert_after() 
      当前tag或文本节点前/后插入内容 
  from bs4 import BeautifulSoup

markup = 'I linked to'
soup = BeautifulSoup(markup, "html5lib")
tag = soup.new_tag("i")
tag.string = "Don't"
soup.a.string.insert_before(tag)
print(soup.a)  # Don'tI linked to

soup.a.i.insert_after(soup.new_string(" ever "))
print(soup.a)  # Don't ever I linked to
 
  3.5.7、clear() 
      移除当前tag的内容 
  from bs4 import BeautifulSoup

markup = 'I linked to'
soup = BeautifulSoup(markup, "html5lib")
tag = soup.a
tag.clear()
print(tag)  #  
  3.5.8、extract() 
      将当前tag移除文档树,并作为方法结果返回 
  from bs4 import BeautifulSoup

markup = 'I linked to example.com'
soup = BeautifulSoup(markup, "html5lib")
a_tag = soup.a
i_tag = soup.i.extract()

print(a_tag)  # I linked to 
print(i_tag)  # example.com  我们移除的内容 
  3.5.9、decompose() 
      将当前节点移除文档树并完全销毁 
  from bs4 import BeautifulSoup

markup = 'I linked to example.com'
soup = BeautifulSoup(markup, "html5lib")
a_tag = soup.a
soup.i.decompose()
print(a_tag)  # I linked to  
  3.5.10、replace_with() 
      移除文档树中的某段内容,并用新tag或文本节点替代它 
  from bs4 import BeautifulSoup

markup = 'I linked to example.com'
soup = BeautifulSoup(markup, "html5lib")
new_tag = soup.new_tag("b")
new_tag.string = "example.net"
soup.a.i.replace_with(new_tag)
print(soup.a)  # I linked to example.net
 
  3.5.11、wrap()和unwrap() 
      wrap()对指定的tag元素进行包装，unwrap()移除tag内的所有tag标签,该方法常被用来进行标记的解包 
  from bs4 import BeautifulSoup

markup = 'I linked to example.com'
soup = BeautifulSoup(markup, "html5lib")
a_tag = soup.a

a_tag.i.unwrap()
print(a_tag)  # I linked to example.com

soup2 = BeautifulSoup("I wish I was bold.", "html5lib")
soup2.p.string.wrap(soup2.new_tag("b"))
print(soup2.p)  # I wish I was bold. 
  3.6、输出 
  3.6.1、格式化输出 
      prettify() 方法将Beautiful Soup的文档树格式化后以Unicode编码输出,每个XML/HTML标签都独占一行。 
  from bs4 import BeautifulSoup

markup = 'I linked to example.com'
soup = BeautifulSoup(markup, "html5lib")
print(soup)  # I linked to example.com
print(soup.prettify())   #
                         #  
                         #  
                         #  
                         #   
                         #    I linked to
                         #    
                         #     example.com
                         #    
                         #   
                         #  
                         #  
  3.6.2、压缩输出 
      如果只想得到结果字符串,不重视格式,那么可以对一个 BeautifulSoup 对象或 Tag 对象使用Python的str() 方法。 
  3.6.3、get_text()只输出tag中的文本内容 
      如果只想得到tag中包含的文本内容,那么可以调用 get_text() 方法。 
  from bs4 import BeautifulSoup

markup = 'I linked to example.com点我'
soup = BeautifulSoup(markup, "html5lib")
print(soup)  # I linked to example.com
print(str(soup))   # I linked to example.com点我
print(soup.get_text())  # I linked to example.com 
  4、re标准库（模块） 
      BeautifulSoup库，重html文档中筛选我们想要的数据，但这些数据可能还有很多更细致的内容，比如，我们取到的是不是我们想要的链接、是不是我们需要提取的邮箱数据等等，为了更细致精确的提取数据，那么正则来了。 
      正则表达式（英语：Regular Expression，在代码中常简写为regex、regexp或RE），是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在其他语言中，我们也经常会接触到正则表达式。               
   
   使用案例： 
  import re

# 创建正则对象
pat = re.compile('\d{2}')  #出现2次数字的
# search 在任意位置对给定的正则表达式模式搜索第一次出现的匹配情况
s = pat.search("12abc")
print(s.group())  # 12

# match 从字符串起始部分对模式进行匹配
m = pat.match('1224abc')
print(m.group())  # 12

# search 和 match 的区别 匹配的位置不也一样
s1 = re.search('foo', 'bfoo').group()
print(s1)  # foo
try:
  m1 = re.match('foo','bfoo').group()  # AttributeError
except:
    print('匹配失败')   # 匹配失败

# 原生字符串(\B 不是以py字母结尾的)
allList = ["py!", "py.", "python"]
for li in allList:
    # re.match(正则表达式,要匹配的字符串)
    if re.match(r'py\B', li):
        print(li)  # python

# findall()
s = "apple Apple APPLE"
print(re.findall(r'apple', s))  # ['apple']
print(re.findall(r'apple', s, re.I))  # ['apple', 'Apple', 'APPLE']

# sub()查找并替换
print(re.sub('a', 'A', 'abcdacdl'))  # AbcdAcdl

 
  5、实践案例 
      我们以豆瓣https://movie.douban.com/top250网站为例，去爬取电影信息。 
  5.1、第一步使用urllib库获取网页 
      首先，我们分析一下这个网页的结构，是一个还算比较规则的网页，每页25条，一共10页。 
      我们点击第一页：url = https://movie.douban.com/top250?start=0&filter= 
      我们点击第二页：url = https://movie.douban.com/top250?start=25&filter= 
      我们点击第三页：url = https://movie.douban.com/top250?start=50&filter= 
  import urllib.request, urllib.error

# 定义基础url，发现规律，每页最后变动的是start=后面的数字
baseurl = "https://movie.douban.com/top250?start="


# 定义一个函数getHtmlByURL,得到指定url网页的内容
def geturl(url):
    # 自定义headers(伪装，告诉豆瓣服务器，我们是什么类型的机器,以免被反爬虫)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'
    }
    # 利用Request类来构造自定义头的请求
    req = urllib.request.Request(url, headers=headers)
    # 定义一个接收变量，用于接收
    html = ""
    try:
        # urlopen()方法的参数，发送给服务器并接收响应
        resp = urllib.request.urlopen(req)
        # urlopen()获取页面内容，返回的数据格式为bytes类型，需要decode()解码，转换成str类型
        html = resp.read().decode("utf-8")
    except urllib.error.URLError as e:
        if hasattr(e, "code"):
            print(e.code)
        if hasattr(e, "reason"):
            print(e.reason)
    return html


def main():
    print(geturl(baseurl + "0"))


if __name__ == "__main__":
    main() 
      第一步：我们已经成功获取到了指定的网页内容； 
  5.2、第二步使用BeautifulSoup和re库解析数据 
  5.2.1、定位数据块 
      我们发现，我们需要的数据都在
标签中一个叫
中 
   
  import urllib.request, urllib.error
from bs4 import BeautifulSoup
import re
# 定义基础url，发现规律，每页最后变动的是start=后面的数字
baseurl = "https://movie.douban.com/top250?start="


# 定义一个函数getHtmlByURL,得到指定url网页的内容
def geturl(url):
    # 自定义headers(伪装，告诉豆瓣服务器，我们是什么类型的机器,以免被反爬虫)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'
    }
    # 利用Request类来构造自定义头的请求
    req = urllib.request.Request(url, headers=headers)
    # 定义一个接收变量，用于接收
    html = ""
    try:
        # urlopen()方法的参数，发送给服务器并接收响应
        resp = urllib.request.urlopen(req)
        # urlopen()获取页面内容，返回的数据格式为bytes类型，需要decode()解码，转换成str类型
        html = resp.read().decode("utf-8")
    except urllib.error.URLError as e:
        if hasattr(e, "code"):
            print(e.code)
        if hasattr(e, "reason"):
            print(e.reason)
    return html

# 定义一个函数，并解析这个网页
def analysisData(url):
    # 获取指定网页
    html = geturl(url)
    # 指定解析器解析html,得到BeautifulSoup对象
    soup = BeautifulSoup(html, "html5lib")
    # 定位我们的数据块在哪
    for item in soup.findAll('div', class_="item"):
        print(item)
    return ""
def main():
    print(analysisData(baseurl + "0"))


if __name__ == "__main__":
    main() 
  输出的第一个数据块： 
  
                
                    1
                    
                        
                    
                
                
                    
                        
                            肖申克的救赎
                                     / The Shawshank Redemption
                                 / 月黑高飞(港)  /  刺激1995(台)
                        


                            [可播放]
                    
                    
                        
                            导演: 弗兰克·德拉邦特 Frank Darabont   主演: 蒂姆·罗宾斯 Tim Robbins /...

                            1994 / 美国 / 犯罪 剧情
                        

                        
                        
                                
                                9.7
                                
                                2390982人评价
                        

                            
                                希望让人自由。
                            
                    
                
            
 
  5.2.2、使用正则解析数据块 
  import urllib.request, urllib.error
from bs4 import BeautifulSoup
import re

# 定义基础url，发现规律，每页最后变动的是start=后面的数字
baseurl = "https://movie.douban.com/top250?start="


# 定义一个函数getHtmlByURL,得到指定url网页的内容
def geturl(url):
    # 自定义headers(伪装，告诉豆瓣服务器，我们是什么类型的机器,以免被反爬虫)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'
    }
    # 利用Request类来构造自定义头的请求
    req = urllib.request.Request(url, headers=headers)
    # 定义一个接收变量，用于接收
    html = ""
    try:
        # urlopen()方法的参数，发送给服务器并接收响应
        resp = urllib.request.urlopen(req)
        # urlopen()获取页面内容，返回的数据格式为bytes类型，需要decode()解码，转换成str类型
        html = resp.read().decode("utf-8")
    except urllib.error.URLError as e:
        if hasattr(e, "code"):
            print(e.code)
        if hasattr(e, "reason"):
            print(e.reason)
    return html


# 定义正则对象获取指定的内容
# 提取链接（链接的格式都是')
# 提取图片
findImgSrc = re.compile(r'(.*)')
# 提取影片评分
findRating = re.compile(r'(.*)')
# 提取评价人数
findJudge = re.compile(r'(\d*)人评价')
# 提取简介
inq = re.compile(r'(.*)')
# 提取相关内容
findBd = re.compile(r'(.*)
(.*)\n                            1994\xa0/\xa0美国\xa0/\xa0犯罪 剧情\n                        ', '\n\n                        \n                        ')]
        bd[0].replace(u'\xa0', '').replace('
', '')
        bd = re.sub('<\\s*b\\s*r\\s*/\\s*>', "", bd[0])
        bd = re.sub('(\\s+)?', '', bd)
        data.append(bd)
        dataList.append(data)
    return dataList


def main():
    print(analysisData(baseurl + "0"))


if __name__ == "__main__":
    main()
 
  第一页解析结果：后面需要对analysisData稍加改造，将豆瓣Top250的10页进行处理 
  [['https://movie.douban.com/subject/1292052/', 'https://img2.doubanio.com/view/photo/s_ratio_poster/public/p480747492.jpg', '肖申克的救赎/The Shawshank Redemption', '9.7', '2391074', '希望让人自由。', '导演:弗兰克·德拉邦特FrankDarabont主演:蒂姆·罗宾斯TimRobbins/...1994/美国/犯罪剧情'], 
['https://movie.douban.com/subject/1291546/', 'https://img3.doubanio.com/view/photo/s_ratio_poster/public/p2561716440.jpg', '霸王别姬', '9.6', '1780355', '风华绝代。', '导演:陈凯歌KaigeChen主演:张国荣LeslieCheung/张丰毅FengyiZha...1993/中国大陆中国香港/剧情爱情同性'], 
['https://movie.douban.com/subject/1292720/', 'https://img2.doubanio.com/view/photo/s_ratio_poster/public/p2372307693.jpg', '阿甘正传/Forrest Gump', '9.5', '1800723', '一部美国近现代史。', '导演:罗伯特·泽米吉斯RobertZemeckis主演:汤姆·汉克斯TomHanks/...1994/美国/剧情爱情'], 
['https://movie.douban.com/subject/1295644/', 'https://img2.doubanio.com/view/photo/s_ratio_poster/public/p511118051.jpg', '这个杀手不太冷/Léon', '9.4', '1971155', '怪蜀黍和小萝莉不得不说的故事。', '导演:吕克·贝松LucBesson主演:让·雷诺JeanReno/娜塔莉·波特曼...1994/法国美国/剧情动作犯罪'], 
['https://movie.douban.com/subject/1292722/', 'https://img9.doubanio.com/view/photo/s_ratio_poster/public/p457760035.jpg', '泰坦尼克号/Titanic', '9.4', '1762280', '失去的才是永恒的。 ', '导演:詹姆斯·卡梅隆JamesCameron主演:莱昂纳多·迪卡普里奥Leonardo...1997/美国墨西哥澳大利亚加拿大/剧情爱情灾难'], 
['https://movie.douban.com/subject/1292063/', 'https://img2.doubanio.com/view/photo/s_ratio_poster/public/p2578474613.jpg', '美丽人生/La vita è bella', '9.6', '1105760', '最美的谎言。', '导演:罗伯托·贝尼尼RobertoBenigni主演:罗伯托·贝尼尼RobertoBeni...1997/意大利/剧情喜剧爱情战争'], 
['https://movie.douban.com/subject/1291561/', 'https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2557573348.jpg', '千与千寻/千と千尋の神隠し', '9.4', '1877996', '最好的宫崎骏，最好的久石让。 ', '导演:宫崎骏HayaoMiyazaki主演:柊瑠美RumiHîragi/入野自由Miy...2001/日本/剧情动画奇幻'], 
['https://movie.douban.com/subject/1295124/', 'https://img2.doubanio.com/view/photo/s_ratio_poster/public/p492406163.jpg', "辛德勒的名单/Schindler's List", '9.5', '918645', '拯救一个人，就是拯救整个世界。', '导演:史蒂文·斯皮尔伯格StevenSpielberg主演:连姆·尼森LiamNeeson...1993/美国/剧情历史战争'], 
['https://movie.douban.com/subject/3541415/', 'https://img2.doubanio.com/view/photo/s_ratio_poster/public/p2616355133.jpg', '盗梦空间/Inception', '9.3', '1734973', '诺兰给了我们一场无法盗取的梦。', '导演:克里斯托弗·诺兰ChristopherNolan主演:莱昂纳多·迪卡普里奥Le...2010/美国英国/剧情科幻悬疑冒险'], 
['https://movie.douban.com/subject/3011091/', 'https://img1.doubanio.com/view/photo/s_ratio_poster/public/p524964039.jpg', "忠犬八公的故事/Hachi: A Dog's Tale", '9.4', '1192778', '永远都不能忘记你所爱的人。', '导演:莱塞·霍尔斯道姆LasseHallström主演:理查·基尔RichardGer...2009/美国英国/剧情'], 
['https://movie.douban.com/subject/1889243/', 'https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2614988097.jpg', '星际穿越/Interstellar', '9.3', '1408128', '爱是一种力量，让我们超越时空感知它的存在。', '导演:克里斯托弗·诺兰ChristopherNolan主演:马修·麦康纳MatthewMc...2014/美国英国加拿大/剧情科幻冒险'], 
['https://movie.douban.com/subject/1292064/', 'https://img2.doubanio.com/view/photo/s_ratio_poster/public/p479682972.jpg', '楚门的世界/The Truman Show', '9.3', '1325913', '如果再也不能见到你，祝你早安，午安，晚安。', '导演:彼得·威尔PeterWeir主演:金·凯瑞JimCarrey/劳拉·琳妮Lau...1998/美国/剧情科幻'], 
['https://movie.douban.com/subject/1292001/', 'https://img9.doubanio.com/view/photo/s_ratio_poster/public/p2574551676.jpg', "海上钢琴师/La leggenda del pianista sull'oceano", '9.3', '1409712', '每个人都要走一条自己坚定了的路，就算是粉身碎骨。 ', '导演:朱塞佩·托纳多雷GiuseppeTornatore主演:蒂姆·罗斯TimRoth/...1998/意大利/剧情音乐'],
['https://movie.douban.com/subject/3793023/', 'https://img2.doubanio.com/view/photo/s_ratio_poster/public/p579729551.jpg', '三傻大闹宝莱坞/3 Idiots', '9.2', '1583056', '英俊版憨豆，高情商版谢耳朵。', '导演:拉库马·希拉尼RajkumarHirani主演:阿米尔·汗AamirKhan/卡...2009/印度/剧情喜剧爱情歌舞'], 
['https://movie.douban.com/subject/2131459/', 'https://img2.doubanio.com/view/photo/s_ratio_poster/public/p1461851991.jpg', '机器人总动员/WALL·E', '9.3', '1113357', '小瓦力，大人生。', '导演:安德鲁·斯坦顿AndrewStanton主演:本·贝尔特BenBurtt/艾丽...2008/美国/科幻动画冒险'], 
['https://movie.douban.com/subject/1291549/', 'https://img2.doubanio.com/view/photo/s_ratio_poster/public/p1910824951.jpg', '放牛班的春天/Les choristes', '9.3', '1098339', '天籁一般的童声，是最接近上帝的存在。 ', '导演:克里斯托夫·巴拉蒂ChristopheBarratier主演:热拉尔·朱尼奥Gé...2004/法国瑞士德国/剧情喜剧音乐'], 
['https://movie.douban.com/subject/1307914/', 'https://img2.doubanio.com/view/photo/s_ratio_poster/public/p2564556863.jpg', '无间道/無間道', '9.3', '1074152', '香港电影史上永不过时的杰作。', '导演:刘伟强/麦兆辉主演:刘德华/梁朝伟/黄秋生2002/中国香港/剧情犯罪惊悚'],
['https://movie.douban.com/subject/25662329/', 'https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2614500649.jpg', '疯狂动物城/Zootopia', '9.2', '1555912', '迪士尼给我们营造的乌托邦就是这样，永远善良勇敢，永远出乎意料。', '导演:拜伦·霍华德ByronHoward/瑞奇·摩尔RichMoore主演:金妮弗·...2016/美国/喜剧动画冒险'], 
['https://movie.douban.com/subject/1292213/', 'https://img9.doubanio.com/view/photo/s_ratio_poster/public/p2455050536.jpg', '大话西游之大圣娶亲/西遊記大結局之仙履奇緣', '9.2', '1283551', '一生所爱。', '导演:刘镇伟JeffreyLau主演:周星驰StephenChow/吴孟达ManTatNg...1995/中国香港中国大陆/喜剧爱情奇幻古装'], 
['https://movie.douban.com/subject/5912992/', 'https://img9.doubanio.com/view/photo/s_ratio_poster/public/p1363250216.jpg', '熔炉/도가니', '9.3', '778782', '我们一路奋战不是为了改变世界，而是为了不让世界改变我们。', '导演:黄东赫Dong-hyukHwang主演:孔侑YooGong/郑有美Yu-miJung/...2011/韩国/剧情'], 
['https://movie.douban.com/subject/1291841/', 'https://img9.doubanio.com/view/photo/s_ratio_poster/public/p616779645.jpg', '教父/The Godfather', '9.3', '781422', '千万不要记恨你的对手，这样会让你失去理智。', '导演:弗朗西斯·福特·科波拉FrancisFordCoppola主演:马龙·白兰度M...1972/美国/剧情犯罪'], 
['https://movie.douban.com/subject/1849031/', 'https://img9.doubanio.com/view/photo/s_ratio_poster/public/p2614359276.jpg', '当幸福来敲门/The Pursuit of Happyness', '9.1', '1273152', '平民励志片。 ', '导演:加布里尔·穆奇诺GabrieleMuccino主演:威尔·史密斯WillSmith...2006/美国/剧情传记家庭'], 
['https://movie.douban.com/subject/1291560/', 'https://img9.doubanio.com/view/photo/s_ratio_poster/public/p2540924496.jpg', '龙猫/となりのトトロ', '9.2', '1062785', '人人心中都有个龙猫，童年就永远不会消失。', '导演:宫崎骏HayaoMiyazaki主演:日高法子NorikoHidaka/坂本千夏Ch...1988/日本/动画奇幻冒险'], 
['https://movie.douban.com/subject/3319755/', 'https://img1.doubanio.com/view/photo/s_ratio_poster/public/p501177648.jpg', '怦然心动/Flipped', '9.1', '1511459', '真正的幸福是来自内心深处。', '导演:罗伯·莱纳RobReiner主演:玛德琳·卡罗尔MadelineCarroll/卡...2010/美国/剧情喜剧爱情'], 
['https://movie.douban.com/subject/1296141/', 'https://img1.doubanio.com/view/photo/s_ratio_poster/public/p1505392928.jpg', '控方证人/Witness for the Prosecution', '9.6', '378892', '比利·怀德满分作品。', '导演:比利·怀尔德BillyWilder主演:泰隆·鲍华TyronePower/玛琳·...1957/美国/剧情犯罪悬疑']]
 
  5.3、将数据导出excel 
  import urllib.request, urllib.error
from bs4 import BeautifulSoup
import re
import xlwt

# 定义基础url，发现规律，每页最后变动的是start=后面的数字
baseurl = "https://movie.douban.com/top250?start="


# 定义一个函数getHtmlByURL,得到指定url网页的内容
def geturl(url):
    # 自定义headers(伪装，告诉豆瓣服务器，我们是什么类型的机器,以免被反爬虫)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'
    }
    # 利用Request类来构造自定义头的请求
    req = urllib.request.Request(url, headers=headers)
    # 定义一个接收变量，用于接收
    html = ""
    try:
        # urlopen()方法的参数，发送给服务器并接收响应
        resp = urllib.request.urlopen(req)
        # urlopen()获取页面内容，返回的数据格式为bytes类型，需要decode()解码，转换成str类型
        html = resp.read().decode("utf-8")
    except urllib.error.URLError as e:
        if hasattr(e, "code"):
            print(e.code)
        if hasattr(e, "reason"):
            print(e.reason)
    return html


# 定义正则对象获取指定的内容
# 提取链接（链接的格式都是')
# 提取图片
findImgSrc = re.compile(r'(.*)')
# 提取影片评分
findRating = re.compile(r'(.*)')
# 提取评价人数
findJudge = re.compile(r'(\d*)人评价')
# 提取简介
inq = re.compile(r'(.*)')
# 提取相关内容
findBd = re.compile(r'(.*)
(.*)\n                            1994\xa0/\xa0美国\xa0/\xa0犯罪 剧情\n                        ', '\n\n                        \n                        ')]
            bd[0].replace(u'\xa0', '').replace('
', '')
            bd = re.sub('<\\s*b\\s*r\\s*/\\s*>', "", bd[0])
            bd = re.sub('(\\s+)?', '', bd)
            data.append(bd)
            dataList.append(data)
    return dataList


def main():
    analysisData(baseurl)
    savepath = "C:\\Users\\Administrator\\Desktop\\python_3.8.5\\豆瓣250.xls"
    book = xlwt.Workbook(encoding="utf-8", style_compression=0)  # 创建Workbook对象
    sheet = book.add_sheet("豆瓣电影Top250", cell_overwrite_ok=True)  # 创建工作表
    col = ("电影详情链接", "图片链接", "电影中/外文名", "评分", "评论人数", "概况", "相关信息")
    print(len(dataList))
    for i in range(0, 7):
        sheet.write(0, i, col[i])
    for i in range(0, 250):
        print('正在保存第'+str((i+1))+'条')
        data = dataList[i]
        for j in range(len(data)):
            sheet.write(i + 1, j, data[j])
    book.save(savepath)


if __name__ == "__main__":
    main()
 
  最终效果：

状态码	定义
100	继续。客户端应该继续它的请求。该间歇响应用于提醒客户端服务器已经接收和接受请求的开始部分。客户端应该继续发送请求的剩余部分，或者如果请求已经发送完了，就乎略该响应。服务器在请求完成后必须发送最终响应。
101	切换协议。
200	OK。请求已经成功。该响应返回的信息取决于请求中使用的方法，例如： GET与所请求资源相对应的实体将在响应中发送； HEAD 与所请求资源相对应的实体头部将在响应中发送，而没有消息体； POST描述或包含行为结果的实体； TRACE 包含终点服务器收到的请求消息的实体。
201	创建。请求全部成功，且创建了新资源。原始服务器必须在返回 201 状态码之前创建资源。如果该行为不能立即实施，服务器应该代之以202（Accepted）响应。
202	请求已经接受处理，但是处理还没有完成。
203	实体头部中返回的元信息不是在原始服务器有效的确定集合，而是从本地或第三方拷贝收集的。现在的集合可能是原始版本的子集或超集。
204	服务器已经完成请求，但不需要返回实体，且可能希望返回更新的元信息。响应可能包括新的或更新的元信息，通过实体头部的形式。如果存在这些头部，则应该与所请求变量相关。
205	重置内容。服务器已经完成请求且用户代理应该复位引起请求发送的文档视图。
300	多重选项。所请求的资源符合表述集合中的任何一个，每个都有它自己的特殊位置。代理驱动的协商信息提供给用户（或用户代理）来选择喜欢的表述，并重定向请求到它的位置。
301	所请求的资源已经指定到一个新的永久 URI，且将来任何对该资源的引用都应该使用所返回的 URI 之一。
302	所请求的资源临时存在于不同的 URI。
303	请求的响应可以在不同的URI中发现，且应该使用GET方法到该资源来获取它。
307	临时重定向
400	服务器不能理解请求，由于畸形的语法。
403	服务器理解请求，但拒绝完成它。认证也没用，请求不该重复。
404	未找到。服务器不能发现匹配Request-URI的任何东西。
408	请求超时
500	服务器错误
503	服务不可用
504	网关超时
505	HTTP版本不支持

属性	索引	值	值（如果不存在）
`scheme`	0	URL协议	scheme 参数
`netloc`	1	网络位置部分（域名）	空字符串
`path`	2	分层路径	空字符串
`params`	3	最后路径元素的参数	空字符串
`query`	4	查询参数	空字符串
`fragment`	5	片段识别	空字符串

属性（BeautifulSoup对象）	描述
.tag标签名	使用标签名获取一个标签及其内容
.contents / .chidren	将tag的子节点以列表的方式输出
.descendants	可以对所有tag的子孙节点进行递归循环
.string	如果tag只有一个 NavigableString 类型子节点,那么这个tag可以使用 .string 得到子节点
.strings/stripped_strings	tag中有多个字符串，可以使用`.strings`来循环获取stripped_strings可以去除多余空白内容

属性	描述
.parent	获取某个元素的父节点
.parents	可以递归得到元素的所有父辈节点

属性	描述
.next_sibling	查询兄弟节点，表示下一个兄弟节点
.previous_sibling	查询兄弟节点，表示上一个兄弟节点
.next_siblings	对当前节点的兄弟节点迭代输出（下）
.previous_siblings	对当前节点的兄弟节点迭代输出（上）

属性	描述
.next_element	解析下一个元素对象
.previous_element	解析上一个元素对象
.next_elements	迭代解析元素对象
.previous_elements	迭代解析元素对象