RUANYANG++

Python爬虫知识点总结（详解）

一.什么是Python爬虫

二.HTML文件格式

2.1 HTML格式的基本结构

2.2 HTML标签

2.2.1 HTML基本标签

2.2.1.1 HTML标签

2.2.1.2 head标签

2.2.2 段落与文字

2.2.2.1 段落与文字标签

2.2.2.2 文字格式化标签

2.2.3 列表

2.2.4 链接

2.2.5 图片

2.2.6 表格

2.2.6.1 表格基本标签

2.2.6.2 表格结构标签

2.2.6.3 表格基本结构

2.2.6.4 表格的完整结构

三.requests库

3.1 request使用

3.1.1 request安装

3.1.2 request响应

3.1.3 request请求

3.1.3.1 get方法

3.1.3.1.1 get方法使用

3.1.3.1.2 get方法中常用参数

3.1.3.2 post方法

3.1.3.2.1 post方法使用

3.1.3.2.2 post方法中常用参数

3.1.3.3 request方法

3.1.3.4 headers方法

四.Re正则表达式

4.1 正则表达式的结构

4.1.1 普通字符

4.1.2 元字符

4.1.3 反义字符

4.1.4 量词

4.1.5 转义字符

4.1.6 字符分枝

4.1.7 字符分组

4.1.8 贪婪匹配和懒惰匹配

4.2 Python使用正则表达式

4.2.1 导入正则表达式模块

4.2.2 常用re模块函数

五.Beautifulsoup

5.1 Beautiful Soup安装

5.1.1 软件包管理安装

5.1.2 pip或easy_install命令安装

5.1.3 安装包安装

5.2 解析器安装

5.2.1 lxml解析器安装

5.2.2 html5lib8解析器安装

5.2.3 主要解析器分析

5.3 Beautiful Soup使用

5.3.1 创建Beautiful Soup对象

5.3.2 对象的种类

5.3.2.1 tag

5.3.2.2 NavigableString

5.3.2.3 BeautifulSoup

5.3.2.4 Comment

5.3.3 搜索文档树

5.3.3.1 find_all()

5.3.3.2 find

5.3.3.3 find_parents() 和 find_parent()

5.3.3.4 find_next_siblings() 和 find_next_sibling()

5.3.3.5 find_previous_siblings() 和 find_previous_sibling()

5.3.3.6 find_all_next() 和 find_next()

5.3.3.7 find_all_previous() 和 find_previous()

六.Xpath

6.1 XPath解析原理

6.2 实例化etree的对象

6.3 节点

6.3.1 父节点

6.3.2 子节点

6.3.3 兄弟节点

6.4 XPath的规则

6.4.1 选取节点

6.4.2 谓语

6.4.3 选取未知节点

6.4.4 选取若干路径

七.异步爬虫

7.1 多线程

7.2 多进程

7.3 协程

7.3.1 aiohttp多任务异步协程

八.selenium

8.1 搭建环境

8.1.1 selenium安装

8.1.2 浏览器驱动安装

8.2 selenium 使用

8.2.1 元素定位

8.2.2 元素操作

8.2.3 浏览器操作方法

8.2.4 获取元素信息操作

8.2.5 鼠标操作

8.2.5.1 鼠标右键及双击

8.2.5.2 鼠标拖拽

8.2.5.3 鼠标悬停

8.2.6 键盘操作

8.2.7 窗口切换

8.2.8 截图操作

8.3 超级鹰搞定验证码

8.3.1 简介

8.3.2 使用

九.scrapy

9.1 Scrapy基本模块

9.1.1 调度器(Scheduler)

9.1.2 下载器(Downloader)

9.1.3 爬虫（Spider）

9.1.4 实体管道(Item Pipeline)

9.1.5 Scrapy引擎(Scrapy Engine)

9.1.6 中间件

9.2 Scrapy工作流程

9.3 Scrapy框架安装

9.4 Scrapy的使用

9.4.1 基本步骤

9.4.2 程序运行

9.4.3 Scrapy文件

一.什么是Python爬虫

Python爬虫是使用Python编程语言编写的程序，用于自动化地获取互联网上的数据。它通过模拟浏览器的行为，发送HTTP请求并获取网页的HTML内容，然后从HTML中提取所需信息，并进行数据处理和存储。

二.HTML文件格式

Python爬虫可以获取网页的HTML格式内容，并对其进行解析和处理。HTML（Hypertext Markup Language）是一种用于创建网页结构和内容的标记语言。接下来为大家简单的讲解一下HTML文件。

以下是一个简单的HTML文档示例：




    我的第一个网页


    欢迎来到我的网页
    这是一个示例段落。
    
    点击这里访问示例网站

在上面的例子中：

：这是文档类型声明，指定了HTML版本。
：这是HTML文档的根元素，它包含整个HTML内容。
：这个部分包含有关文档的元信息，例如标题、字符集设置和链接到外部资源等。
</code>：</strong>这个标签定义了文档的标题，显示在浏览器的标题栏或标签页上。</li> <li><strong><code><body></code>：</strong>这个部分包含了网页的可见内容，例如文本、图像、链接等。</li> <li><strong><code><h1></code>：</strong>这是一个标题标签，用于表示一级标题。</li> <li><strong><code><p></code>：</strong>这是一个段落标签，用于表示文本段落。</li> <li><strong><code><img></code>：</strong>这是一个图像标签，用于插入图像到网页中。</li> <li><strong><code><a></code>：</strong>这是一个链接标签，用于创建超链接到其他网页或资源。</li> </ul> <p>        HTML是构建网页的基础，并且通常与CSS（层叠样式表）和JavaScript一起使用，用于实现更复杂和交互性的网页设计和功能。网页浏览器能够解析HTML并将其呈现给用户，使其成为互联网中最常见的内容呈现格式。</p> <h3 id="%E4%BA%8C.HTML%E6%A0%BC%E5%BC%8F%E7%9A%84%E5%9F%BA%E6%9C%AC%E7%BB%93%E6%9E%84">2.1 HTML格式的基本结构</h3> <p>        HTML的基本结构由文档类型声明（DOCTYPE）、HTML根元素（<html>）、头部部分（<head>）和主体部分（<body>）组成。下面我将详细解释HTML的基本结构。</p> <p><strong>1. 文档类型声明（DOCTYPE）：</strong><br>         在HTML文档的开头，应该始终包含文档类型声明，用于指定文档使用的HTML版本。它告诉浏览器使用何种规范来解析文档。</p> <pre><code class="language-html"><!DOCTYPE html></code></pre> <p><strong>2. HTML根元素（<html>）：</strong><br>         HTML文档的根元素是`<html>`标签，它包含了整个HTML内容。</p> <pre><code class="language-html"><html>  </html></code></pre> <p><strong> 3.头部部分（<head>）：</strong><br><strong>        <head></strong>标签包含关于文档的元信息和引用的外部资源，例如标题、字符集设置、样式表、脚本等。</p> <pre><code class="language-html"><head>  </head> </code></pre> <p><strong>4.主体部分（<body>）：</strong><br><strong>        <body></strong>标签包含了网页的可见内容，如文本、图像、链接、表格等。用户将在浏览器中看到主体部分的内容。</p> <pre><code class="language-html"><body>  </body> </code></pre> <p>        综合起来，一个完整的HTML文档如下所示</p> <p>HTML结构示意图：</p> <p class="img-center"><a href="http://img.e-com-net.com/image/info8/7eaabc76e8b340e98a5124d127e86b46.jpg" target="_blank"><img alt="Python爬虫知识点总结（详解）_第2张图片" height="459" src="http://img.e-com-net.com/image/info8/7eaabc76e8b340e98a5124d127e86b46.jpg" width="650" style="border:1px solid black;"></a></p> <h3 id="%C2%A0%E4%B8%89.HTML%E6%A0%87%E7%AD%BE">2.2 HTML标签</h3> <h4 id="3.1HTML%E5%9F%BA%E6%9C%AC%E6%A0%87%E7%AD%BE">2.2.1 HTML基本标签</h4> <h5 id="(1)%3CHTML%3E">2.2.1.1 HTML标签</h5> <p>        整个网页是从<html>这里开始的，然后到</html>结束。</p> <h5 id="(2)%3Chead%3E">2.2.1.2 head标签</h5> <p>        head标签代表页面的“头”，定义一些特殊内容，这些内容往往都是“不可见内容”（在浏览器不可见）。</p> <table border="1"> <tbody> <tr> <td><strong><head>内部标签</strong></td> <td><strong>说明</strong></td> </tr> <tr> <td><title></td> <td>定义网页的标题</td> </tr> <tr> <td><meta> </td> <td>定义网页的基本信息（供搜索引擎）</td> </tr> <tr> <td><style></td> <td>定义CSS样式</td> </tr> <tr> <td><link>  </td> <td>链接外部CSS文件或脚本文件</td> </tr> <tr> <td><script></td> <td> 定义脚本语言</td> </tr> <tr> <td><base></td> <td> 定义页面所有链接的基础定位（用得很少）</td> </tr> </tbody> </table> <p>        body标签代表页面的“身”，定义网页展示内容，这些内容往往都是“可见内容”（在浏览器可见）。</p> <h4 id="3.2%E6%AE%B5%E8%90%BD%E4%B8%8E%E6%96%87%E5%AD%97">2.2.2 段落与文字</h4> <h5 id="3.2.1%E6%AE%B5%E8%90%BD%E4%B8%8E%E6%96%87%E5%AD%97%E6%A0%87%E7%AD%BE%C2%A0">2.2.2.1 段落与文字标签 </h5> <table border="1"> <tbody> <tr> <td><strong>标签</strong></td> <td><strong>语义</strong></td> <td><strong>标签</strong></td> </tr> <tr> <td><h1>~<h6></td> <td>header</td> <td>标题</td> </tr> <tr> <td><p></td> <td>paragraph</td> <td>段落</td> </tr> <tr> <td><br></td> <td>break</td> <td>换行</td> </tr> <tr> <td><hr></td> <td>horizontal rule</td> <td>水平线</td> </tr> <tr> <td><div></td> <td>division</td> <td>分割（块元素）</td> </tr> <tr> <td><span></td> <td>span</td> <td>区域（行内元素）</td> </tr> </tbody> </table> <p><strong>(1)标题</strong></p> <p>        HTML 标题（Heading）是通过<h1> - <h6> 标签来定义的.</p> <p><strong>(2)段落</strong></p> <p>        HTML 段落是通过标签 <p> 来定义的</p> <h5 id="%E2%80%8B2.3.2.2%E6%96%87%E5%AD%97%E6%A0%BC%E5%BC%8F%E5%8C%96%E6%A0%87%E7%AD%BE">2.2.2.2 文字格式化标签</h5> <table border="1"> <tbody> <tr> <td><strong>标签</strong></td> <td><strong>语义</strong></td> <td><strong>说明</strong></td> </tr> <tr> <td><strong></td> <td>strong（加强）</td> <td>加粗</td> </tr> <tr> <td><em></td> <td>emphasized（强调）</td> <td>斜体</td> </tr> <tr> <td><cite></td> <td>cite（引用）</td> <td>斜体</td> </tr> <tr> <td><sup></td> <td>superscripted（上标）</td> <td>上标</td> </tr> <tr> <td><sub></td> <td>subscripted（下标）</td> <td>下标</td> </tr> </tbody> </table> <h4 id="3.3%E5%88%97%E8%A1%A8">2.2.3 列表</h4> <table border="1"> <tbody> <tr> <td><strong>标签</strong></td> <td><strong>语义</strong></td> <td><strong>说明</strong></td> </tr> <tr> <td>ol</td> <td>ordered list</td> <td>有序列表</td> </tr> <tr> <td>ul</td> <td>unordered list</td> <td>无序列表</td> </tr> <tr> <td>dl</td> <td>definition list</td> <td>定义列表</td> </tr> </tbody> </table> <p><strong>HTML3种列表</strong><br>         列表有3种：有序列表、无序列表和定义列表。</p> <p>        有序列表和无序列表都比较常用，而定义列表比较少用。在实际应用中，最常用的是无序列表，请大家重点掌握。</p> <p>        目录列表和菜单列表已经被废除，大家可以直接忽略这两种列表。</p> <p><strong>(1)有序列表</strong></p> <p><strong>语法：</strong></p> <blockquote> <p><strong><ol><br>     <li>有序列表项</li><br>     <li>有序列表项</li><br>     <li>有序列表项</li><br> </ol></strong></p> </blockquote> <table border="1"> <tbody> <tr> <td>type属性值</td> <td> 列表项的序号类型</td> </tr> <tr> <td>1</td> <td>数字1、2、3……</td> </tr> <tr> <td>a</td> <td>小写英文字母a、b、c……</td> </tr> <tr> <td>A</td> <td>大写英文字母A、B、C……</td> </tr> <tr> <td>i</td> <td>小写罗马数字i、ii、iii……</td> </tr> <tr> <td>I</td> <td>大写罗马数字I、II、III……</td> </tr> </tbody> </table> <p><strong>(2)无序列表</strong></p> <p>        无序列表是三个列表中最为重要的列表。</p> <p><strong>语法：</strong></p> <blockquote> <p><strong><ul type="列表项符号"><br>     <li>无序列表项</li><br>     <li>无序列表项</li><br>     <li>无序列表项</li><br> </ul></strong></p> </blockquote> <table border="1"> <tbody> <tr> <td>type属性值 </td> <td>列表项的序号类型</td> </tr> <tr> <td>disc</td> <td> 默认值，实心圆“●”</td> </tr> <tr> <td>circle</td> <td> 空心圆“○”</td> </tr> <tr> <td>square  </td> <td> 实心正方形“■”</td> </tr> </tbody> </table> <p><strong>(3)定义列表</strong></p> <p><strong>语法：</strong></p> <blockquote> <p><strong><dl><br>     <dt>定义名词</dt><br>     <dd>定义描述</dd><br> ……<br> </dl></strong></p> </blockquote> <p><strong>说明：</strong><br>           <dl>即“definition list（定义列表）”，<dt>即“definition term（定义名词）”，而<dd>即“definition description（定义描述）”。</p> <p>        在该语法中，<dl>标记和</dl>标记分别定义了定义列表的开始和结束，<dt>后面添加要解释的名词，而在<dd>后面则添加该名词的具体解释。</p> <h4 id="3.4%E9%93%BE%E6%8E%A5">2.2.4 链接</h4> <p>        HTML 链接是通过标签 <a> 来定义的</p> <p><strong>语法：</strong></p> <blockquote> <p><strong><a href="链接地址" target="目标窗口的打开方式"></strong></p> </blockquote> <table border="1"> <tbody> <tr> <td><strong>target属性值</strong></td> <td><strong>说明</strong></td> </tr> <tr> <td>_self</td> <td>默认方式，即在当前窗口打开链接</td> </tr> <tr> <td>_blank</td> <td>在一个全新的空白窗口中打开链接</td> </tr> <tr> <td>_top</td> <td>在顶层框架中打开链接</td> </tr> <tr> <td>_parent</td> <td>在当前框架的上一层里打开链</td> </tr> </tbody> </table> <h4 id="3.5%E5%9B%BE%E7%89%87">2.2.5 图片</h4> <p>        HTML 图像是通过标签 <img> 来定义的</p> <p><strong>语法：</strong></p> <blockquote> <p><strong><img src="图片地址" alt="图片描述（给搜索引擎看）" title="图片描述（给用户看）"></strong></p> </blockquote> <table border="1"> <tbody> <tr> <td>属性</td> <td>说明</td> </tr> <tr> <td>src</td> <td>图像的文件地址</td> </tr> <tr> <td>alt</td> <td>图片显示不出来时的提示文字</td> </tr> <tr> <td>title</td> <td>鼠标移到图片上的提示文字</td> </tr> </tbody> </table> <h4 id="3.6%E8%A1%A8%E6%A0%BC">2.2.6 表格</h4> <h5 id="3.6.1%E8%A1%A8%E6%A0%BC%E5%9F%BA%E6%9C%AC%E6%A0%87%E7%AD%BE">2.2.6.1 表格基本标签</h5> <table border="1"> <tbody> <tr> <td><strong>标签</strong></td> <td><strong>语义</strong></td> <td><strong>说明</strong></td> </tr> <tr> <td>table</td> <td>table（表格）</td> <td>表格</td> </tr> <tr> <td>tr</td> <td>table row（表格行）</td> <td>行</td> </tr> <tr> <td>td</td> <td>table data cell（表格单元格）</td> <td>单元格</td> </tr> </tbody> </table> <h5 id="3.6.2%E8%A1%A8%E6%A0%BC%E7%BB%93%E6%9E%84%E6%A0%87%E7%AD%BE">2.2.6.2 表格结构标签</h5> <table border="1"> <tbody> <tr> <td><strong>标签</strong></td> <td><strong>语义</strong></td> <td><strong>说明</strong></td> </tr> <tr> <td>thead</td> <td>table head</td> <td>表头</td> </tr> <tr> <td>tbody</td> <td>table body</td> <td>表身</td> </tr> <tr> <td>tfoot</td> <td>table foot</td> <td>表脚</td> </tr> <tr> <td>th</td> <td>table header</td> <td>表头单元格</td> </tr> </tbody> </table> <h5 id="3.6.3%E8%A1%A8%E6%A0%BC%E5%9F%BA%E6%9C%AC%E7%BB%93%E6%9E%84">2.2.6.3 表格基本结构</h5> <p>          <table>、<tr>和<td>是HTML表格最基本的3个标签，其他标题标签<caption>、表头单元格<th>可以没有，但是这3者必须要有。</p> <p><strong>语法：</strong></p> <blockquote> <p><strong><table><br>     <tr><br>         <td>单元格1</td><br>         <td>单元格2</td><br>     </tr><br>     <tr><br>         <td>单元格1</td><br>         <td>单元格2</td><br>     </tr><br> </table></strong></p> </blockquote> <p><strong>说明：</strong><br>          <table>和</table>标记着表格的开始和结束，<tr>和</tr>标记着行的开始和结束，在表格中包含几组<tr></tr>就表示该表格为几行。<td>和</td>标记着单元格的开始和结束。</p> <h5 id="3.6.4%E8%A1%A8%E6%A0%BC%E7%9A%84%E5%AE%8C%E6%95%B4%E7%BB%93%E6%9E%84">2.2.6.4 表格的完整结构</h5> <p>        表格完整结构应该包括表格标题（caption）、表头（thead）、表身（tbody）和表脚（tfoot）4部分。</p> <p><strong>语法：</strong></p> <pre><code class="language-html"><table> <caption>表格标题</caption>  <thead> <tr> <th>表头单元格1</th> <th>表头单元格2</th> </tr> </thead>  <tbody> <tr> <td>标准单元格1</td> <td>标准单元格2</td> </tr> <tr> <td>标准单元格1</td> <td>标准单元格2</td> </tr> </tbody>  <tfoot> <tr> <td>标准单元格1</td> <td>标准单元格2</td> </tr> </tfoot> </table></code></pre> <p><strong>说明：</strong></p> <p>        <thead>、<tbody>和<tfoot>这三个标签分别表示表头、表身、表脚。th表示表头单元格，th表示表身单元格。每一对“<tr></tr>”表示一行。</p> <p></p> <h2 id="%E2%80%8B%E4%B8%89.requests%E5%BA%93">三.requests库</h2> <p>        在Python中，requests库是一个常用的第三方库，用于发送HTTP请求和处理响应。它提供了简洁而直观的API，使得进行网络请求和数据获取变得非常容易。</p> <h3 id="%E4%BA%8C.request%E4%BD%BF%E7%94%A8">3.1 request使用</h3> <h4 id="2.1request%E5%AE%89%E8%A3%85">3.1.1 requests安装</h4> <p> 安装requests库可以按照以下步骤进行：</p> <ol> <li> <p>首先确保已经安装了Python。"requests"库兼容Python 2.7和Python 3.x版本。</p> </li> <li> <p>使用pip命令进行安装。pip是Python的包管理工具，通常在安装Python时自动安装。</p> <p>在命令行中输入以下命令来安装"requests"库：</p> <pre><code class="language-python">pip install requests</code></pre> <p>如果使用的是Python 3，并且同时安装了Python 2.x，请确保使用<code>pip3</code>命令来安装：</p> <pre><code class="language-python">pip3 install requests</code></pre> </li> <li> <p>等待安装完成。pip会自动下载并安装"requests"库及其依赖项。</p> </li> <li> <p>安装完成后，你就可以在Python代码中导入并使用"requests"库了。</p> </li> </ol> <h4 id="2.2%20request%E5%93%8D%E5%BA%94">3.1.2 requests响应</h4> <p>        在下载好request库后，我们要使用它，首先要进行引用，在代码中导入：</p> <pre><code class="language-python">import request</code></pre> <p>        导入后就可以发送 HTTP 请求，使用 requests 提供的方法向指定 URL 发送 HTTP 请求，例如：</p> <pre><code class="language-python"># 导入 requests 包 import requests # 发送请求 x = requests.get('https://www.runoob.com/') # 返回网页内容 print(x.text)</code></pre> <p>        每次调用 requests 请求之后，会返回一个 <strong>response 对象</strong>，该对象包含了具体的响应信息，如状态码、响应头、响应内容等：</p> <pre><code class="language-python">print(response.status_code) # 获取响应状态码 print(response.headers) # 获取响应头 print(response.content) # 获取响应内容</code></pre> <table border="1"> <caption> 相应信息列表 </caption> <tbody> <tr> <td>属性/方法</td> <td>说明</td> </tr> <tr> <td>apparent_encoding</td> <td>编码方式</td> </tr> <tr> <td>close()</td> <td>关闭与服务器的连接</td> </tr> <tr> <td>content</td> <td>返回响应的内容，以字节为单位</td> </tr> <tr> <td>cookies</td> <td>返回一个 CookieJar 对象，包含了从服务器发回的 cookie</td> </tr> <tr> <td>elapsed</td> <td>返回一个 timedelta 对象，包含了从发送请求到响应到达之间经过的时间量，可以用于测试响应速度。比如 r.elapsed.microseconds 表示响应到达需要多少微秒。</td> </tr> <tr> <td>encoding</td> <td>解码 r.text 的编码方式</td> </tr> <tr> <td>headers</td> <td>返回响应头，字典格式</td> </tr> <tr> <td>history</td> <td>返回包含请求历史的响应对象列表（url）</td> </tr> <tr> <td>is_permanent_redirect</td> <td>如果响应是永久重定向的 url，则返回 True，否则返回 False</td> </tr> <tr> <td>is_redirect</td> <td>如果响应被重定向，则返回 True，否则返回 False</td> </tr> <tr> <td>iter_content()</td> <td>迭代响应</td> </tr> <tr> <td>iter_lines()</td> <td>迭代响应的行</td> </tr> <tr> <td>json()</td> <td>返回结果的 JSON 对象 (结果需要以 JSON 格式编写的，否则会引发错误)</td> </tr> <tr> <td>links</td> <td>返回响应的解析头链接</td> </tr> <tr> <td>next</td> <td>返回重定向链中下一个请求的 PreparedRequest 对象</td> </tr> <tr> <td>ok</td> <td>检查 "status_code" 的值，如果小于400，则返回 True，如果不小于 400，则返回 False</td> </tr> <tr> <td>raise_for_status()</td> <td>如果发生错误，方法返回一个 HTTPError 对象</td> </tr> <tr> <td>reason</td> <td>响应状态的描述，比如 "Not Found" 或 "OK"</td> </tr> <tr> <td>request</td> <td>返回请求此响应的请求对象</td> </tr> <tr> <td>status_code</td> <td>返回 http 的状态码，比如 404 和 200（200 是 OK，404 是 Not Found）</td> </tr> <tr> <td>text</td> <td>返回响应的内容，unicode 类型数据</td> </tr> <tr> <td>url</td> <td>返回响应的 URL</td> </tr> </tbody> </table> <h4 id="2.3%20request%E8%AF%B7%E6%B1%82">3.1.3 requests请求</h4> <p><strong>requests库中的方法：</strong></p> <table border="1"> <tbody> <tr> <td>方法</td> <td>说明</td> </tr> <tr> <td>delete(<em>url</em>, <em>args</em>)</td> <td>发送 DELETE 请求到指定 url</td> </tr> <tr> <td>get(<em>url</em>, <em>params, args</em>)</td> <td>发送 GET 请求到指定 url</td> </tr> <tr> <td>head(<em>url</em>, <em>args</em>)</td> <td>发送 HEAD 请求到指定 url</td> </tr> <tr> <td>patch(<em>url</em>, <em>data, args</em>)</td> <td>发送 PATCH 请求到指定 url</td> </tr> <tr> <td>post(<em>url</em>, <em>data, json, args</em>)</td> <td>发送 POST 请求到指定 url</td> </tr> <tr> <td>put(<em>url</em>, <em>data, args</em>)</td> <td>发送 PUT 请求到指定 url</td> </tr> <tr> <td>request(<em>method</em>, <em>url</em>, <em>args</em>)</td> <td>向指定的 url 发送指定的请求方法</td> </tr> </tbody> </table> <h5 id="2.3.1%C2%A0get%E6%96%B9%E6%B3%95">3.1.3.1 get方法</h5> <h6 id="2.3.1.1%20get%E6%96%B9%E6%B3%95%E4%BD%BF%E7%94%A8">3.1.3.1.1 get方法使用</h6> <p>        在"requests"库中，可以使用<code>get()</code>方法来发送GET请求。该方法接受一个URL作为参数，并返回一个<code>Response</code>对象，其中包含服务器的响应。</p> <p>以下是使用<code>get()</code>方法发送GET请求的基本语法：</p> <pre><code class="language-python">import requests response = requests.get(url, params=None, **kwargs)</code></pre> <p>参数说明：</p> <blockquote> <ul> <li><code>url</code>（必需）：请求的URL地址。</li> <li><code>params</code>（可选）：一个字典或字节序列，用于设置查询字符串参数。例如，<code>params={'key1': 'value1', 'key2': 'value2'}</code>。</li> <li><code>**kwargs</code>：可选的关键字参数，用于设置请求头、超时时间、代理等其他配置。常用的关键字参数有<code>headers</code>、<code>timeout</code>、<code>proxies</code>等。</li> </ul> </blockquote> <h6 id="2.3.1.2%C2%A0get%E6%96%B9%E6%B3%95%E4%B8%AD%E5%B8%B8%E7%94%A8%E5%8F%82%E6%95%B0">3.1.3.1.2<strong> get方法中常用参数</strong></h6> <table border="1"> <tbody> <tr> <td>参数</td> <td>类型</td> <td>作用</td> </tr> <tr> <td>params</td> <td>字典</td> <td>url为基准的url地址，不包含查询参数；该方法会自动对params字典编码,然后和url拼接</td> </tr> <tr> <td>url</td> <td>字符串</td> <td>requests 发起请求的地址</td> </tr> <tr> <td>headers</td> <td>字典</td> <td>请求头，发送请求的过程中请求的附加内容携带着一些必要的参数</td> </tr> <tr> <td>cookies</td> <td>字典</td> <td>携带登录状态</td> </tr> <tr> <td>proxies</td> <td>字典</td> <td>用来设置代理 ip 服务器</td> </tr> <tr> <td>timeout</td> <td>整型</td> <td>用于设定超时时间，单位为秒</td> </tr> </tbody> </table> <h5 id="2.3.2%C2%A0post%E6%96%B9%E6%B3%95">3.1.3.2 post方法</h5> <h6 id="2.3.2.1%20post%E6%96%B9%E6%B3%95%E4%BD%BF%E7%94%A8">3.1.3.2.1 post方法使用</h6> <p>        在"requests"库中，可以使用`post()`方法来发送POST请求。该方法接受一个URL作为参数，并返回一个`Response`对象，其中包含服务器的响应。</p> <p>以下是使用`post()`方法发送POST请求的基本语法：</p> <pre><code class="language-python">import requests response = requests.post(url, data=None, json=None, **kwargs)</code></pre> <blockquote> <p>参数说明：</p> <ul> <li>url（必需）：请求的URL地址。</li> <li>data（可选）：一个字典、字节序列或文件对象，用于设置请求体中的数据。</li> <li>json（可选）：一个Python对象，会被自动编码为JSON格式并设置为请求体中的数据。</li> <li>**kwargs：可选的关键字参数，用于设置请求头、超时时间、代理等其他配置。常用的关键字参数有`headers`、`timeout`、`proxies`等。</li> </ul> </blockquote> <h6 id="2.3.2.1%20post%E6%96%B9%E6%B3%95%E4%B8%AD%E5%B8%B8%E7%94%A8%E5%8F%82%E6%95%B0">3.1.3.2.2<strong> post方法中常用参数</strong></h6> <table border="1"> <tbody> <tr> <td>参数</td> <td>类型</td> <td>作用</td> </tr> <tr> <td>data</td> <td>字典</td> <td>作为向服务器提供或提交资源时提交，主要用于 post 请求</td> </tr> <tr> <td>json</td> <td>字典</td> <td>json格式的数据， json合适在相关的html</td> </tr> </tbody> </table> <h5 id="2.3.3%20request%E6%96%B9%E6%B3%95">3.1.3.3 request方法</h5> <p>        在"requests"库中，可以使用requests<code>()</code>方法发送任意类型的HTTP请求。该方法接受一个HTTP请求方法（如GET、POST、PUT等）作为参数，并返回一个<code>Response</code>对象，其中包含服务器的响应。</p> <p>        使用requests<code>()</code>方法发送请求的基本语法：</p> <pre><code class="language-python">import requests response = requests.request(method, url, **kwargs)</code></pre> <p>参数说明：</p> <blockquote> <ul> <li><code>method</code>（必需）：请求的HTTP方法，可以是GET、POST、PUT、DELETE等。</li> <li><code>url</code>（必需）：请求的URL地址。</li> <li><code>**kwargs</code>：可选的关键字参数，用于设置请求头、超时时间、代理等其他配置。常用的关键字参数有<code>data</code>、<code>json</code>、<code>headers</code>、<code>timeout</code>、<code>proxies</code>等，具体取决于请求的需要。</li> </ul> </blockquote> <p>        例如，下面是一个简单的例子，演示了如何使用requests<code>()</code>方法发送GET请求并处理响应：</p> <pre><code class="language-python">import requests url = 'https://api.example.com/songs' response = requests.request('GET', url) if response.status_code == 200: # 请求成功 data = response.json() # 解析响应的JSON数据 print(data) else: # 请求失败 print('Request failed with status code:', response.status_code)</code></pre> <p>        在这个例子中，我们使用requests<code>()</code>方法发送一个GET请求到'https://api.example.com/songs'，并检查响应的状态码。如果状态码为200，表示请求成功，我们可以通过<code>.json()</code>方法解析响应内容并打印出来；否则，我们打印出请求失败的状态码。</p> <p>        需要注意的是，requests<code>()</code>方法可以发送任意类型的HTTP请求，只需要将对应的HTTP方法作为第一个参数传递给它即可。例如，要发送POST请求，可以使用requests<code>.</code>request<code>('POST', url, data=data)</code>；要发送PUT请求，可以使用requests<code>.</code>request<code>('PUT', url, data=data)</code>，依此类推。其他配置参数也可以通过<code>**kwargs</code>传递，根据具体需求设置。</p> <h5 id="2.3.4%20headers%E6%96%B9%E6%B3%95">3.1.3.4 headers方法</h5> <p>        在"requests"库中，可以使用<code>head()</code>方法发送一个HEAD请求，并返回服务器响应的头部信息。HEAD请求类似于GET请求，但是服务器只会返回头部信息，而不会返回实际的响应内容。</p> <p>使用<code>head()</code>方法发送HEAD请求的基本语法：</p> <div> <pre><code class="language-python">import requests response = requests.head(url, **kwargs)</code></pre> </div> <p>参数说明：</p> <blockquote> <ul> <li><code>url</code>（必需）：请求的URL地址。</li> <li><code>**kwargs</code>：可选的关键字参数，用于设置请求头、超时时间、代理等其他配置，与<code>request()</code>方法的参数一样。</li> </ul> </blockquote> <p>        下面是一个简单的例子，演示了如何使用<code>head()</code>方法发送HEAD请求并处理响应：</p> <div> <pre><code class="language-python">import requests url = 'https://www.example.com/' response = requests.head(url) if response.status_code == 200: # 请求成功 headers = response.headers # 获取响应头信息 print(headers) else: # 请求失败 print('Request failed with status code:', response.status_code)</code></pre> </div> <p>        在这个例子中，我们使用<code>head()</code>方法发送一个HEAD请求到'Example Domain'，然后通过<code>response.headers</code>属性获取服务器返回的响应头信息，并进行处理或打印。</p> <p>        需要注意的是，<code>head()</code>方法只返回服务器响应的头部信息，而不会返回实际的响应内容。这对于只关注头部信息而不需要实际内容的场景非常有用。</p> <h2 id="%E5%9B%9B.Re%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F">四.Re正则表达式</h2> <p>        正则表达式（Regular Expression，简称 Regex 或 Regexp）是一种用于匹配和操作文本模式的工具。它可以被用于各种编程语言和文本处理工具中，用于在字符串中查找、匹配和操作特定的文本模式。正则表达式提供了一种强大的方式来描述字符串的模式，使用户能够更精确地进行文本处理和操作。 </p> <h3 id="%E4%BA%8C.%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F%E7%9A%84%E7%BB%93%E6%9E%84"><strong>4.1 正则表达式的结构</strong></h3> <p>        正则表达式（Regular Expression）的结构由一系列字符和特殊字符组成，用于定义一个搜索模式。这个模式可以被用来检查字符串是否符合特定的格式要求，或者从文本中提取出特定的信息。</p> <h4 id="2.1%E6%99%AE%E9%80%9A%E5%AD%97%E7%AC%A6">4.1.1 普通字符</h4> <p>       正则表达式中的普通字符是指不具有特殊含义的普通文本字符。这些字符会直接按照字面意义进行匹配，而不会被解释为特殊的规则。在正则表达式中，普通字符包括所有字母、数字、标点符号和其他键盘上可见的字符，例如 `a`、`b`、`1`、`2`、`!`、`@` 等。</p> <p>        当需要匹配一个特定的字符时，可以直接将其写入正则表达式中，不需要对其进行转义或使用其他特殊符号。例如，正则表达式 `apple` 会匹配字符串中的 "apple"，但不会匹配 "appl" 或 "aple"。</p> <p>        需要注意的是，普通字符在某些上下文中可能会成为特殊字符。例如，如果在正则表达式中使用 `.`（点）字符，它会被解释为通用字符，匹配任意字符（除了换行符）。如果要匹配字面意义上的点字符，需要使用转义符号 `\`，即 `\.`。</p> <h4 id="2.2%C2%A0%E5%85%83%E5%AD%97%E7%AC%A6">4.1.2 元字符</h4> <p>        正则表达式中的元字符是指具有特殊含义的特殊字符，用于表示匹配规则的组成部分。这些元字符在正则表达式中具有特殊用途，可以用于构建复杂的模式来进行字符串匹配、查找、替换和提取操作。以下是一些常见的正则表达式元字符：</p> <table border="1"> <tbody> <tr> <td>代码</td> <td>说明</td> </tr> <tr> <td>.</td> <td>匹配除换行符以外的任意字符</td> </tr> <tr> <td>\w</td> <td>匹配字母或数字或下划线或汉字</td> </tr> <tr> <td>\s</td> <td>匹配任意的空白符</td> </tr> <tr> <td>\d</td> <td>匹配数字</td> </tr> <tr> <td>\b</td> <td>匹配单词的开始或结束</td> </tr> <tr> <td>^</td> <td>匹配字符串的开始（在集合字符里[^a]表示非（不匹配）的意思</td> </tr> <tr> <td>$</td> <td>匹配字符串的结束</td> </tr> </tbody> </table> <h4 id="2.3%E5%8F%8D%E4%B9%89%E5%AD%97%E7%AC%A6">4.1.3 反义字符</h4> <p>        在正则表达式中，反义元字符用于匹配与某些元字符相反的内容。它们与普通元字符的匹配规则相反，表示不匹配某些特定字符或字符类。以下是一些常见的正则表达式反义元字符：</p> <table border="1"> <tbody> <tr> <td>代码</td> <td>说明</td> </tr> <tr> <td>\W</td> <td>匹配任意不是字母，数字，下划线，汉字的字符</td> </tr> <tr> <td>\S</td> <td>匹配任意不是空白符的字符</td> </tr> <tr> <td>\D</td> <td>匹配任意非数字的字符</td> </tr> <tr> <td>\B</td> <td>匹配不是单词开头或结束的位置</td> </tr> <tr> <td>[^x]</td> <td>匹配除了x以外的任意字符</td> </tr> <tr> <td>[^aeiou]</td> <td>匹配除了aeiou这几个字母以外的任意字符</td> </tr> </tbody> </table> <h4 id="2.4%E9%87%8F%E8%AF%8D">4.1.4 量词</h4> <p>        正则表达式的量词用于指定前面的元素出现的次数。它们控制了匹配模式中的重复次数，可以让你更灵活地定义匹配的字符串模式。以下是常见的正则表达式量词：</p> <table border="1"> <tbody> <tr> <td>代码</td> <td>说明</td> </tr> <tr> <td>*</td> <td>重复零次或更多次</td> </tr> <tr> <td>+</td> <td>重复一次或更多次</td> </tr> <tr> <td>?</td> <td>重复零次或一次</td> </tr> <tr> <td>{n}</td> <td>重复n次</td> </tr> <tr> <td>{n,}</td> <td>重复n次或更多次</td> </tr> <tr> <td>{n,m}</td> <td>重复n到m次</td> </tr> </tbody> </table> <h4 id="2.5%E8%BD%AC%E4%B9%89%E5%AD%97%E7%AC%A6">4.1.5 转义字符</h4> <p>        正则表达式的量词没有直接的转义字符，它们通常是由普通字符和特殊字符组合而成。前面提到的量词如 <code>*</code>、<code>+</code>、<code>?</code>、<code>{n}</code>、<code>{n,}</code>、<code>{n,m}</code> 都是直接使用的，不需要转义。当然，在一些编程语言或工具中，正则表达式的字符串可能需要进行转义处理，以确保正则表达式被正确解释和匹配。</p> <p>        例如，如果你想匹配一个文本中的连续星号（<code>*</code>），你可以使用 <code>\*</code> 来转义它，以避免被当作量词的一部分。类似地，其他特殊字符也可能需要转义，具体情况取决于你使用正则表达式的环境。</p> <p>        总之，正则表达式的量词本身并不需要转义，但在特定情况下，你可能需要转义包含在正则表达式中的特殊字符，以确保它们被正确处理。</p> <h4 id="2.6%E5%AD%97%E7%AC%A6%E5%88%86%E6%9E%9D">4.1.6 字符分枝</h4> <p>        当谈到正则表达式中的字符分支时，我们实际上是在讨论如何匹配多个可能的字符之一。字符分支可以通过使用垂直线 <code>|</code> 来实现，它表示“或”关系。这使得我们可以在一个正则表达式中指定多个备选字符，只要其中之一匹配，整个表达式就会匹配。</p> <p>        例如，如果你想匹配单词 "color" 或 "colour"，你可以使用正则表达式 <code>colou(r|ur)</code>。在这个表达式中，<code>(r|ur)</code> 表示一个字符分支，它会匹配一个字符是 "r" 或 "ur" 的情况。</p> <p>        另一个示例是，如果你想匹配 "gray" 或 "grey"，你可以使用正则表达式 <code>gr(e|a)y</code>。</p> <p>        字符分支在正则表达式中非常有用，因为它允许你灵活地匹配多个可能的模式，而不必编写多个不同的正则表达式。请注意，字符分支可以嵌套，以构建更复杂的匹配模式。</p> <h4 id="2.7%20%E5%AD%97%E7%AC%A6%E5%88%86%E7%BB%84">4.1.7 字符分组</h4> <p>        正则表达式的字符数组（Character Classes）是一种用于匹配特定字符集合的机制。字符数组允许你指定一个字符范围或多个备选字符，以便在匹配文本时更加灵活和精确。在正则表达式中，字符数组使用方括号 <code>[ ]</code> 来表示。</p> <p>以下是一些字符数组的示例和解释：</p> <table border="1"> <tbody> <tr> <td>示例</td> <td>解释</td> </tr> <tr> <td><code>[aeiou]</code></td> <td>这个字符数组匹配任何一个元音字母（a、e、i、o 或 u）</td> </tr> <tr> <td><code>[0-9]</code></td> <td>这个字符数组匹配任何一个数字字符</td> </tr> <tr> <td><code>[A-Za-z]</code></td> <td>这个字符数组匹配任何一个大写或小写字母</td> </tr> <tr> <td><code>[a-zA-Z0-9]</code></td> <td>这个字符数组匹配任何一个大写或小写字母，或数字字符</td> </tr> <tr> <td><code>[abc]</code></td> <td>这个字符数组匹配字符 "a"、"b" 或 "c" 中的任何一个</td> </tr> <tr> <td><code>[^0-9]</code></td> <td>在字符数组的开头加上 <code>^</code> 符号，表示否定匹配，这个示例将匹配任何一个非数字字符</td> </tr> </tbody> </table> <p>        在字符数组内部，你可以使用连字符 <code>-</code> 来表示一个范围。例如，<code>[a-z]</code> 表示从小写字母 "a" 到 "z" 的范围，包括这两个字母在内的所有小写字母。</p> <p>        需要注意的是，在字符数组中，大多数正则表达式的特殊字符失去了它们的特殊含义。例如，点号 <code>.</code> 在字符数组内只表示普通的点号，不再表示匹配任意字符的通配符。</p> <p>示例用法：</p> <ul> <li>正则表达式 <code>gr[ae]y</code> 可以匹配 "gray" 或 "grey"。</li> <li>正则表达式 <code>[0-9]+</code> 可以匹配一个或多个连续的数字字符。</li> </ul> <h4 id="2.8%20%E6%87%92%E6%83%B0%E5%8C%B9%E9%85%8D%E5%92%8C%E8%B4%AA%E5%A9%AA%E5%8C%B9%E9%85%8D">4.1.8 贪婪匹配和懒惰匹配</h4> <p><strong>        贪婪匹配</strong>指的是正则表达式会尽可能多地匹配输入文本。例如，如果使用表达式 <code>a+</code> 来匹配输入 "aaa"，贪婪匹配将匹配整个 "aaa"，因为它会尽可能多地匹配连续的 "a"。</p> <p><strong>        懒惰匹配</strong>（也称为非贪婪匹配）则是指正则表达式会尽可能少地匹配输入文本。例如，如果使用表达式 <code>a+?</code> 来匹配输入 "aaa"，懒惰匹配将只匹配一个 "a"，因为它会寻求最短的匹配。</p> <p>        在正则表达式中，懒惰匹配通常使用 <code>?</code> 来实现。例如，<code>*?</code> 表示懒惰匹配的零次或多次重复，<code>+?</code> 表示懒惰匹配的一次或多次重复，<code>??</code> 表示懒惰匹配的零次或一次重复，等等。</p> <p>示例用法：</p> <ul> <li>贪婪匹配：表达式 <code>a+</code> 会匹配 "aaa" 中的所有 "a"。</li> <li>懒惰匹配：表达式 <code>a+?</code> 只会匹配 "aaa" 中的第一个 "a"。</li> </ul> <table border="1"> <tbody> <tr> <td>代码</td> <td>说明</td> </tr> <tr> <td>.*</td> <td>贪婪匹配</td> </tr> <tr> <td>.*?</td> <td>惰性匹配</td> </tr> </tbody> </table> <h3 id="%E4%B8%89.Python%E4%BD%BF%E7%94%A8%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F">4.2 Python使用正则表达式</h3> <p>        在Python中，<code>re</code>（正则表达式）模块是用于处理正则表达式的官方模块。它提供了一组功能，使得在Python中使用正则表达式变得简单和灵活。</p> <h4 id="3.1%E5%AF%BC%E5%85%A5%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F%E6%A8%A1%E5%9D%97">4.2.1 导入正则表达式模块</h4> <pre><code class="language-python">import re</code></pre> <h4 id="3.2%E5%B8%B8%E7%94%A8re%E6%A8%A1%E5%9D%97%E5%87%BD%E6%95%B0">4.2.2 常用re模块函数</h4> <p>        导入re模块后，就可以使用其内部函数了，常用的函数如下：</p> <p><strong><code>  1.re.search(pattern, string)</code>: </strong>在整个字符串中搜索匹配正则表达式<code>pattern</code>的第一个位置，并返回一个<code>match</code>对象。如果找不到匹配，则返回<code>None</code>。</p> <pre><code class="language-python">import re # # search, 找到一个结果就返回, 返回的结果是match对象. 拿数据需要.group() s = re.search(r"\d+", "我的电话号是:10086, 我女朋友的电话是:10010") print(s.group()) #输出10086 </code></pre> <p><strong><code> 2.re.match(pattern, string)</code>:</strong> 从字符串的开头开始匹配正则表达式<code>pattern</code>，如果从开头就没有匹配，则返回<code>None</code>。</p> <pre><code class="language-python">import re # # match是从头开始匹配 s = re.match(r"\d+", "10086, 我女朋友的电话是:10010") print(s.group()) #输出10086 </code></pre> <p><strong><code> 3.re.findall(pattern, string)</code>: </strong>在字符串中找到所有匹配正则表达式<code>pattern</code>的非重叠出现，并返回一个列表。</p> <pre><code class="language-python">import re # # findall: 匹配字符串中所有的符合正则的内容 lst = re.findall(r"\d+", "我的电话号是:10086, 我女朋友的电话是:10010") print(lst) #输出['10086', '10010']</code></pre> <p><strong><code> 4.re.finditer(pattern, string)</code>: </strong>返回一个迭代器，该迭代器生成所有匹配正则表达式<code>pattern</code>的<code>match</code>对象。</p> <pre><code class="language-python">import re # # finditer: 匹配字符串中所有的内容[返回的是迭代器], 从迭代器中拿到内容需要.group() it = re.finditer(r"\d+", "我的电话号是:10086, 我女朋友的电话是:10010") for i in it: print(i.group())#输出10086 # 10010</code></pre> <p><strong><code> 5.re.compile(pattern)</code>: </strong>将正则表达式<code>pattern</code>编译为一个正则表达式对象，以便在后续操作中重复使用。</p> <pre><code class="language-python">import re # # 预加载正则表达式 obj = re.compile(r"\d+") ret = obj.finditer("我的电话号是:10086, 我女朋友的电话是:10010") for it in ret: print(it.group()) #输出10086 # 10010 </code></pre> <p><strong><code>(?P<分组名字>正则) 可以单独从正则匹配的内容中进一步提取内容 </code></strong></p> <pre><code class="language-python">import re s = """ <div class='jay'><span id='1'>郭麒麟</span></div> <div class='jj'><span id='2'>宋铁</span></div> <div class='jolin'><span id='3'>大聪明</span></div> <div class='sylar'><span id='4'>范思哲</span></div> <div class='tory'><span id='5'>胡说八道</span></div> """ # (?P<分组名字>正则) 可以单独从正则匹配的内容中进一步提取内容 obj = re.compile(r"<div class='.*?'><span id='(?P<id>\d+)'>(?P<wahaha>.*?)</span></div>", re.S) # re.S: 让.能匹配换行符 result = obj.finditer(s) for it in result: print(it.group("wahaha")) print(it.group("id")) #输出： #郭麒麟 #1 #宋铁 #2 #大聪明 #3 #范思哲 #4 #胡说八道 #5 </code></pre> <p><strong><code> 6.re.sub(pattern, repl, string)</code>: </strong>将字符串中所有匹配正则表达式<code>pattern</code>的部分替换为<code>repl</code>。</p> <p><strong><code> 7.re.split(pattern, string)</code>: </strong>使用正则表达式<code>pattern</code>将字符串分割，并返回分割后的列表。</p> <h2 id="%E4%BA%94.Beautifulsoup">五.Beautifulsoup</h2> <p> Beautifulsoup同样可以解析HTML或XML格式的文档。这些文档由标签、属性和内容组成，它们描述了网页的结构和信息。</p> <p>        Beautiful Soup库可以帮助我们解析和处理这些文档。它将HTML或XML文档转换为一个树形结构，也就是一个层次化的对象结构。这个树形结构使得我们可以通过各种方法和属性来遍历、搜索和修改文档。</p> <h3 id="%E4%BA%8C.Beautiful%20Soup%E5%AE%89%E8%A3%85">5.1 Beautiful Soup安装</h3> <h4 id="2.1%E8%BD%AF%E4%BB%B6%E5%8C%85%E7%AE%A1%E7%90%86%E5%AE%89%E8%A3%85">5.1.1 软件包管理安装</h4> <p>        如果你用的是新版的Debain或ubuntu,那么可以通过系统的软件包管理来安装。</p> <blockquote> <p>$ apt-get install Python-bs4</p> </blockquote> <h4 id="2.2pip%E6%88%96easy_install%E5%91%BD%E4%BB%A4%E5%AE%89%E8%A3%85">5.1.2 pip或easy_install命令安装</h4> <p>        Beautiful Soup 4 通过PyPi发布,可以通过 easy_install 或 pip命令进行安装。包的名称是beautifulsoup4 。</p> <blockquote> <p>$ easy_install beautifulsoup4</p> <p>$ pip install beautifulsoup4</p> </blockquote> <p> 注意：(在PyPi中还有一个名字是 BeautifulSoup 的包,那是 Beautiful Soup3 的发布版本,因为很多项目还在使用BS3, 所以 BeautifulSoup 包依然有效，如果现在开发新的项目，还是下载beautifulsoup4 的包 )</p> <h4 id="2.3%20%E5%AE%89%E8%A3%85%E5%8C%85%E5%AE%89%E8%A3%85">5.1.3 安装包安装</h4> <p> 可以通过下载BS4的源码 ,然后通过setup.py来安装.</p> <blockquote> <p>$ Python setup.py install</p> </blockquote> <h3 id="%E4%B8%89.%E8%A7%A3%E6%9E%90%E5%99%A8%E5%AE%89%E8%A3%85">5.2 解析器安装</h3> <p>        Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml ，另一个是html5lib。</p> <h4 id="3.1%20lxml%E8%A7%A3%E6%9E%90%E5%99%A8%E5%AE%89%E8%A3%85">5.2.1 lxml解析器安装</h4> <p>     根据操作系统不同,可以选择下列方法来安装lxml。</p> <blockquote> <p>$ apt-get install Python-lxml</p> <p>$ easy_install lxml</p> <p>$ pip install lxml</p> </blockquote> <h4 id="3.2%20html5lib8%E8%A7%A3%E6%9E%90%E5%99%A8%E5%AE%89%E8%A3%85">5.2.2 html5lib8解析器安装</h4> <p>       html5lib的解析方式与浏览器相同,可以选择下列方法来安装html5lib。</p> <blockquote> <p>$ apt-get install Python-html5lib</p> <p>$ easy_install html5lib</p> <p>$ pip install html5lib</p> </blockquote> <h4 id="3.3%20%E4%B8%BB%E8%A6%81%E8%A7%A3%E6%9E%90%E5%99%A8">5.2.3 主要解析器分析</h4> <table border="1"> <tbody> <tr> <td>解析器</td> <td>使用方法</td> <td>优势</td> <td>劣势</td> </tr> <tr> <td> <p>Python标准库</p> </td> <td> <p>BeautifulSoup(markup, “html.parser”)</p> </td> <td> <p>Python的内置标准库</p> <p>执行速度适中</p> <p>文档容错能力强</p> </td> <td> <p>Python 2.7.3 or 3.2.2)前的版本中文档容错能力差</p> </td> </tr> <tr> <td> <p>lxml HTML 解析器</p> </td> <td> <p>BeautifulSoup(markup, “lxml”)</p> </td> <td> <p>速度快</p> <p>文档容错能力强</p> </td> <td> <p>需要安装C语言库</p> </td> </tr> <tr> <td> <p>lxml XML 解析器</p> </td> <td> <p>BeautifulSoup(markup, [“lxml”, “xml”])</p> <p>BeautifulSoup(markup, “xml”)</p> </td> <td> <p>速度快</p> <p>唯一支持XML的解析器</p> </td> <td> <p>需要安装C语言库</p> </td> </tr> <tr> <td> <p>html5lib</p> </td> <td> <p>BeautifulSoup(markup, “html5lib”)</p> </td> <td> <p>最好的容错性</p> <p>以浏览器的方式解析文档</p> <p>生成HTML5格式的文档</p> </td> <td> <p>速度慢</p> <p>不依</p> </td> </tr> </tbody> </table> <h3 id="%E5%9B%9B.Beautiful%20Soup%E4%BD%BF%E7%94%A8">5.3 Beautiful Soup使用</h3> <h4 id="4.1%20%E5%88%9B%E5%BB%BABeautiful%20Soup%E5%AF%B9%E8%B1%A1">5.3.1 创建Beautiful Soup对象</h4> <p>首先导入bs4、lxml、request包</p> <pre><code class="language-python">#encoding:UTF-8 from bs4 import BeautifulSoup import lxml import requests</code></pre> <p>HTML文档示例：</p> <pre><code class="language-html">html_doc = """ <html> <head> <title>Beautiful Soup示例欢迎使用Beautiful Soup! 这是一个示例页面。列表项1 列表项2 列表项3 """
创建beautiful soup对象

方式一：在程序中有html格式的字符串，可在程序中进行创建对象。

soup = BeautifulSoup(html_doc,'lxml') #创建 beautifulsoup 对象

方式二：可用本地文件创建对象。

soup = BeautifulSoup(open('index.html')) #用本地 HTML 文件来创建对象

方法三：利用python内置模块进行创建对象。

soup = BeautifulSoup(html_doc, 'html.parser')

5.3.2 对象的种类

        Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag , NavigableString , BeautifulSoup , Comment 。

5.3.2.1 tag

        Tag 对象与XML或HTML原生文档中的tag相同:

soup = BeautifulSoup('Extremely bold') tag = soup.b type(tag) #

        Tag有很多方法和属性,在遍历文档树和搜索文档树中有详细解释.现在介绍一下tag中最重要的属性: name和attributes

name属性：

        每个tag都有自己的名字,通过 .name 来获取:

tag.name # u'b'

        如果改变了tag的name,那将影响所有通过当前Beautiful Soup对象生成的HTML文档:

tag.name = "blockquote" tag # Extremely bold

attributes属性：

        一个tag可能有很多个属性. tag  有一个 “class” 的属性,值为 “boldest” . tag的属性的操作方法与字典相同:

tag['class'] # u'boldest'

        也可以直接”点”取属性, 比如: .attrs :

tag.attrs # {u'class': u'boldest'}

        tag的属性可以被添加,删除或修改. 再说一次, tag的属性操作方法与字典一样

tag['class'] = 'verybold' tag['id'] = 1 tag # Extremely bold del tag['class'] del tag['id'] tag # Extremely bold tag['class'] # KeyError: 'class' print(tag.get('class')) # None

5.3.2.2 NavigableString

获得了标签可用xx.string方法来获取标签内的字符串，得到的类型是NavigableString类型。

tag.string # u'Extremely bold' type(tag.string) #

        一个 NavigableString 字符串与Python中的Unicode字符串相同,并且还支持包含在遍历文档树和搜索文档树中的一些特性. 通过 unicode() 方法可以直接将 NavigableString 对象转换成Unicode字符串:

unicode_string = unicode(tag.string) unicode_string # u'Extremely bold' type(unicode_string) #

        tag中包含的字符串不能编辑,但是可以被替换成其它的字符串,用 replace_with() 方法:

tag.string.replace_with("No longer bold") tag # No longer bold

        NavigableString 对象支持遍历文档树和搜索文档树中定义的大部分属性, 并非全部.尤其是,一个字符串不能包含其它内容(tag能够包含字符串或是其它tag),字符串不支持 .contents 或 .string 属性或 find() 方法.

        如果想在Beautiful Soup之外使用 NavigableString 对象,需要调用 unicode() 方法,将该对象转换成普通的Unicode字符串,否则就算Beautiful Soup已方法已经执行结束,该对象的输出也会带有对象的引用地址.这样会浪费内存.

5.3.2.3 BeautifulSoup

        BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象,它支持遍历文档树和搜索文档树中描述的大部分的方法.

        因为 BeautifulSoup 对象并不是真正的HTML或XML的tag,所以它没有name和attribute属性.但有时查看它的 .name 属性是很方便的,所以 BeautifulSoup 对象包含了一个值为 “[document]” 的特殊属性 .name

soup.name # u'[document]'

5.3.2.4 Comment

        Tag , NavigableString , BeautifulSoup 几乎覆盖了html和xml中的所有内容,但是还有一些特殊对象.容易让人担心的内容是文档的注释部分:

markup = "" soup = BeautifulSoup(markup) comment = soup.b.string type(comment) #

        Comment 对象是一个特殊类型的 NavigableString 对象:

comment # u'Hey, buddy. Want to buy a used parser'

        但是当它出现在HTML文档中时, Comment 对象会使用特殊的格式输出:

print(soup.b.prettify()) # # #

5.3.3 搜索文档树

5.3.3.1 find_all()

find_all( name , attrs , recursive , text , **kwargs )

        find_all() 方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件.这里有几个例子:

soup.find_all("title") # [The Dormouse's story] soup.find_all("p", "title") # [The Dormouse's story] soup.find_all("a") # [Elsie, # Lacie, # Tillie] soup.find_all(id="link2") # [Lacie] import re soup.find(text=re.compile("sisters")) # u'Once upon a time there were three little sisters; and their names were\n'

        有几个方法很相似,还有几个方法是新的,参数中的 text 和 id 是什么含义? 为什么 find_all("p", "title") 返回的是CSS Class为”title”的
标签? 我们来仔细看一下 find_all() 的参数

name参数

        name 参数可以查找所有名字为 name 的tag,字符串对象会被自动忽略掉.

简单的用法如下:

soup.find_all("title") # [The Dormouse's story]

        重申: 搜索 name 参数的值可以使任一类型的过滤器 ,字符窜,正则表达式,列表,方法或是 True .

keyword参数

        如果一个指定名字的参数不是搜索内置的参数名,搜索时会把该参数当作指定名字tag的属性来搜索,如果包含一个名字为 id 的参数,Beautiful Soup会搜索每个tag的”id”属性.

soup.find_all(id='link2') # [Lacie]

        如果传入 href 参数,Beautiful Soup会搜索每个tag的”href”属性:

soup.find_all(href=re.compile("elsie")) # [Elsie]

        搜索指定名字的属性时可以使用的参数值包括字符串 , 正则表达式 , 列表, True .

        下面的例子在文档树中查找所有包含 id 属性的tag,无论 id 的值是什么:

soup.find_all(id=True) # [Elsie, # Lacie, # Tillie]

        使用多个指定名字的参数可以同时过滤tag的多个属性:

soup.find_all(href=re.compile("elsie"), id='link1') # [three]

        有些tag属性在搜索不能使用,比如HTML5中的 data-* 属性:

data_soup = BeautifulSoup('foo!') data_soup.find_all(data-foo="value") # SyntaxError: keyword can't be an expression

        但是可以通过 find_all() 方法的 attrs 参数定义一个字典参数来搜索包含特殊属性的tag:

data_soup.find_all(attrs={"data-foo": "value"}) # [foo! ]

按CSS搜索

        按照CSS类名搜索tag的功能非常实用,但标识CSS类名的关键字 class 在Python中是保留字,使用 class 做参数会导致语法错误.从Beautiful Soup的4.1.1版本开始,可以通过 class_ 参数搜索有指定CSS类名的tag:

soup.find_all("a", class_="sister") # [Elsie, # Lacie, # Tillie]

        class_ 参数同样接受不同类型的过滤器 ,字符串,正则表达式,方法或 True :

soup.find_all(class_=re.compile("itl")) # [The Dormouse's story] def has_six_characters(css_class): return css_class is not None and len(css_class) == 6 soup.find_all(class_=has_six_characters) # [Elsie, # Lacie, # Tillie]

        tag的 class 属性是多值属性 .按照CSS类名搜索tag时,可以分别搜索tag中的每个CSS类名:

css_soup = BeautifulSoup('') css_soup.find_all("p", class_="strikeout") # [] css_soup.find_all("p", class_="body") # [ ]

        搜索 class 属性时也可以通过CSS值完全匹配:

css_soup.find_all("p", class_="body strikeout") # [ ]

        完全匹配 class 的值时,如果CSS类名的顺序与实际不符,将搜索不到结果:

soup.find_all("a", attrs={"class": "sister"}) # [Elsie, # Lacie, # Tillie]

text参数

        通过 text 参数可以搜搜文档中的字符串内容.与 name 参数的可选值一样, text 参数接受字符串 , 正则表达式 , 列表, True . 看例子:

soup.find_all(text="Elsie") # [u'Elsie'] soup.find_all(text=["Tillie", "Elsie", "Lacie"]) # [u'Elsie', u'Lacie', u'Tillie'] soup.find_all(text=re.compile("Dormouse")) [u"The Dormouse's story", u"The Dormouse's story"] def is_the_only_string_within_a_tag(s): ""Return True if this string is the only child of its parent tag."" return (s == s.parent.string) soup.find_all(text=is_the_only_string_within_a_tag) # [u"The Dormouse's story", u"The Dormouse's story", u'Elsie', u'Lacie', u'Tillie', u'...']

        虽然 text 参数用于搜索字符串,还可以与其它参数混合使用来过滤tag.Beautiful Soup会找到 .string 方法与 text 参数值相符的tag.下面代码用来搜索内容里面包含“Elsie”的标签:

soup.find_all("a", text="Elsie") # [Elsie]

limit参数

        find_all() 方法返回全部的搜索结构,如果文档树很大那么搜索会很慢.如果我们不需要全部结果,可以使用 limit 参数限制返回结果的数量.效果与SQL中的limit关键字类似,当搜索到的结果数量达到 limit 的限制时,就停止搜索返回结果.

        文档树中有3个tag符合搜索条件,但结果只返回了2个,因为我们限制了返回数量:

soup.find_all("a", limit=2) # [Elsie, # Lacie]

recursive 参数

        调用tag的 find_all() 方法时,Beautiful Soup会检索当前tag的所有子孙节点,如果只想搜索tag的直接子节点,可以使用参数 recursive=False .

一段简单的文档:

The Dormouse's story ...

        是否使用 recursive 参数的搜索结果:

soup.html.find_all("title") # [The Dormouse's story] soup.html.find_all("title", recursive=False) # []

像调用 find_all() 一样调用tag

        find_all() 几乎是Beautiful Soup中最常用的搜索方法,所以我们定义了它的简写方法. BeautifulSoup 对象和 tag 对象可以被当作一个方法来使用,这个方法的执行结果与调用这个对象的 find_all() 方法相同,下面两行代码是等价的:

soup.find_all("a") soup("a")

        这两行代码也是等价的:

soup.title.find_all(text=True) soup.title(text=True)

5.3.3.2 find

find( name , attrs , recursive , text , **kwargs )

        find_all() 方法将返回文档中符合条件的所有tag,尽管有时候我们只想得到一个结果.比如文档中只有一个标签,那么使用 find_all() 方法来查找标签就不太合适, 使用 find_all 方法并设置 limit=1 参数不如直接使用 find() 方法.下面两行代码是等价的:

soup.find_all('title', limit=1) # [The Dormouse's story] soup.find('title') # The Dormouse's story

        唯一的区别是 find_all() 方法的返回结果是值包含一个元素的列表,而 find() 方法直接返回结果.

find_all() 方法没有找到目标是返回空列表, find() 方法找不到目标时,返回 None .

print(soup.find("nosuchtag")) # None

        soup.head.title 是 tag的名字方法的简写.这个简写的原理就是多次调用当前tag的 find() 方法:

soup.head.title # The Dormouse's story soup.find("head").find("title") # The Dormouse's story

5.3.3.3 find_parents() 和 find_parent()

find_parents( name , attrs , recursive , text , **kwargs )

find_parent( name , attrs , recursive , text , **kwargs )

        我们已经用了很大篇幅来介绍 find_all() 和 find() 方法,Beautiful Soup中还有10个用于搜索的API.它们中的五个用的是与 find_all() 相同的搜索参数,另外5个与 find() 方法的搜索参数类似.区别仅是它们搜索文档的不同部分.

        记住: find_all() 和 find() 只搜索当前节点的所有子节点,子孙节点等. find_parents() 和 find_parent() 用来搜索当前节点的父辈节点,搜索方法与普通tag的搜索方法相同,搜索文档搜索文档包含的内容. 我们从一个文档中的一个叶子节点开始:

a_string = soup.find(text="Lacie") a_string # u'Lacie' a_string.find_parents("a") # [Lacie] a_string.find_parent("p") # Once upon a time there were three little sisters; and their names were # Elsie, # Lacie and # Tillie; # and they lived at the bottom of a well. a_string.find_parents("p", class_="title") # []

        文档中的一个标签是是当前叶子节点的直接父节点,所以可以被找到.还有一个
标签,是目标叶子节点的间接父辈节点,所以也可以被找到.包含class值为”title”的
标签不是不是目标叶子节点的父辈节点,所以通过 find_parents() 方法搜索不到.

        find_parent() 和 find_parents() 方法会让人联想到 .parent 和 .parents 属性.它们之间的联系非常紧密.搜索父辈节点的方法实际上就是对 .parents 属性的迭代搜索.

5.3.3.4 find_next_siblings() 和 find_next_sibling()

find_next_siblings( name , attrs , recursive , text , **kwargs )

find_next_sibling( name , attrs , recursive , text , **kwargs )

        这2个方法通过 .next_siblings 属性对当tag的所有后面解析 [5] 的兄弟tag节点进行迭代, find_next_siblings() 方法返回所有符合条件的后面的兄弟节点, find_next_sibling() 只返回符合条件的后面的第一个tag节点.

first_link = soup.a first_link #Elsie first_link.find_next_siblings("a") # [Lacie, # Tillie] first_story_paragraph = soup.find("p", "story") first_story_paragraph.find_next_sibling("p") # ...

5.3.3.5 find_previous_siblings() 和 find_previous_sibling()

find_previous_siblings( name , attrs , recursive , text , **kwargs )

find_previous_sibling( name , attrs , recursive , text , **kwargs )

        这2个方法通过 .previous_siblings 属性对当前tag的前面解析 [5] 的兄弟tag节点进行迭代, find_previous_siblings() 方法返回所有符合条件的前面的兄弟节点, find_previous_sibling() 方法返回第一个符合条件的前面的兄弟节点:

last_link = soup.find("a", id="link3") last_link # Tillie last_link.find_previous_siblings("a") # [Lacie, # Elsie] first_story_paragraph = soup.find("p", "story") first_story_paragraph.find_previous_sibling("p") # The Dormouse's story

5.3.3.6 find_all_next() 和 find_next()

find_all_next( name , attrs , recursive , text , **kwargs )

find_next( name , attrs , recursive , text , **kwargs )

        这2个方法通过 .next_elements 属性对当前tag的之后的 [5] tag和字符串进行迭代, find_all_next() 方法返回所有符合条件的节点, find_next() 方法返回第一个符合条件的节点:

first_link = soup.a first_link # Elsie first_link.find_all_next(text=True) # [u'Elsie', u',\n', u'Lacie', u' and\n', u'Tillie', # u';\nand they lived at the bottom of a well.', u'\n\n', u'...', u'\n'] first_link.find_next("p") # ...

        第一个例子中,字符串 “Elsie”也被显示出来,尽管它被包含在我们开始查找的标签的里面.第二个例子中,最后一个
标签也被显示出来,尽管它与我们开始查找位置的标签不属于同一部分.例子中,搜索的重点是要匹配过滤器的条件,并且在文档中出现的顺序而不是开始查找的元素的位置.

5.3.3.7 find_all_previous() 和 find_previous()

find_all_previous( name , attrs , recursive , text , **kwargs )

find_previous( name , attrs , recursive , text , **kwargs )

        这2个方法通过 .previous_elements 属性对当前节点前面 [5] 的tag和字符串进行迭代, find_all_previous() 方法返回所有符合条件的节点, find_previous() 方法返回第一个符合条件的节点.

first_link = soup.a first_link #Elsie first_link.find_all_previous("p") # [Once upon a time there were three little sisters; ..., # The Dormouse's story] first_link.find_previous("title") # The Dormouse's story

        find_all_previous("p") 返回了文档中的第一段(class=”title”的那段),但还返回了第二段,
标签包含了我们开始查找的标签.不要惊讶,这段代码的功能是查找所有出现在指定标签之前的
标签,因为这个
标签包含了开始的标签,所以
标签一定是在之前出现的.

六.Xpath

        XPath（XML Path Language）是一种用于在XML文档中定位和选择节点的查询语言。它是一种非常强大的工具，用于在XML文档中进行导航和提取信息。XPath可以用于在XML文档中选择节点、属性和文本，以及根据特定的条件进行过滤和定位。

        XPath使用一种路径表达式来描述节点的位置，类似于文件系统中的路径。路径表达式可以从根节点开始，通过节点名称、属性、层级关系等来定位目标节点。XPath还支持使用逻辑运算符、比较运算符和函数来创建更复杂的查询。

6.1 XPath解析原理

实现标签的定位：实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中。

调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。

6.2 实例化etree的对象

        要在Python中实例化一个etree对象，通常需要使用第三方库，如lxml。lxml是一个功能强大且高性能的XML和HTML处理库，它提供了etree模块来操作和处理XML文档。以下是在Python中实例化一个etree对象的步骤：

安装lxml库：
首先，你需要确保已经安装了lxml库。你可以使用以下命令通过pip安装它：

pip install lxml

导入模块：
在Python代码中，你需要导入etree模块：

from lxml import etree

实例化etree对象

        分为两种方式去实例化etree对象，一种是通过文件路径去找到html文件去实例化，另一种是通过源码数据去实例化。

将本地的html文档中的源码数据加载到etree对象中:

etree. parse(filePath)#你的文件路径

可以将从互联网上获取的源码数据加载到该对象中

etree.HtML('page_ text')#page_ text互联网中响应的数据

6.3 节点

6.3.1 父节点

        在XPath中，父节点（Parent Node）指的是一个元素节点的直接包含它的上层元素节点。换句话说，父节点是包含当前节点的那个元素节点。在XML文档的层级结构中，每个元素节点都可以有一个父节点，除了根节点（顶层节点），它没有父节点。

        使用之前的XML片段作为例子：

Harry Potter J.K. Rowling The Hobbit J.R.R. Tolkien

在这个示例中：

元素节点的父节点是  元素节点。

</code> 和 <code><author></code> 元素节点的父节点是各自的 <code><book></code> 元素节点。</li> <li><code><bookstore></code> 元素节点没有父节点，因为它是根节点。</li> </ul> <p>        在XPath中，如果要选择某个元素节点的父节点，可以使用 <code>parent::</code> 轴，例如 <code>/bookstore/book/title/parent::book</code> 会选择 <code><title></code> 元素节点的父节点 <code><book></code> 元素节点。</p> <p>        XPath中的父节点是指直接包含当前节点的元素节点，而子节点是指直接嵌套在当前节点内部的其他元素节点。</p> <h4 id="1.4.2%E5%AD%90%E8%8A%82%E7%82%B9">6.3.2 子节点</h4> <p>        在XPath中，子节点（Child Nodes）指的是一个元素节点下直接嵌套的其他元素节点。换句话说，子节点是位于父节点内部的那些元素节点。在XML文档的层级结构中，一个元素节点可以包含多个子节点，这些子节点可以是其他元素节点、文本节点、注释节点等。</p> <p>        例如，考虑以下XML片段：</p> <pre><code class="language-html"><bookstore> <book> <title>Harry Potter J.K. Rowling The Hobbit J.R.R. Tolkien
        在这个示例中，元素节点有两个子节点。每个  元素节点又有两个子节点 </code> 和 <code><author></code>。因此，在这个上下文中，<code><book></code> 元素节点就是 <code><bookstore></code> 元素节点的子节点，而 <code><title></code> 和 <code><author></code> 元素节点是 <code><book></code> 元素节点的子节点。</p> <p>        在XPath中，如果要选择某个元素节点的所有子节点，可以使用 <code>child::</code> 轴，例如 <code>/bookstore/child::book</code> 会选择 <code><bookstore></code> 元素节点的所有子节点中的 <code><book></code> 元素节点。</p> <h4 id="1.4.3%E5%85%84%E5%BC%9F%E8%8A%82%E7%82%B9">6.3.3 兄弟节点</h4> <p>        在XPath中，兄弟节点（Sibling Nodes）指的是与当前元素节点处于同一层级的其他元素节点。换句话说，兄弟节点是与当前节点在同一个父节点下的其他元素节点。在XML文档的层级结构中，如果两个元素节点具有相同的父节点，则它们被认为是兄弟节点。</p> <p>        使用之前的XML片段作为例子：</p> <pre><code class="language-html"><bookstore> <book> <title>Harry Potter J.K. Rowling The Hobbit J.R.R. Tolkien
在这个示例中：

元素节点之间互为兄弟节点，因为它们都是  元素节点的子节点。

</code> 元素节点和 <code><author></code> 元素节点也互为兄弟节点，因为它们都是同一个 <code><book></code> 元素节点的子节点。</li> </ul> <p>        在XPath中，如果要选择当前元素节点的兄弟节点，可以使用 <code>following-sibling::</code> 轴或 <code>preceding-sibling::</code> 轴。例如，假设我们想选择第一个 <code><book></code> 元素节点的兄弟节点（第二个 <code><book></code> 元素节点），可以使用 <code>/bookstore/book[1]/following-sibling::book[1]</code>。</p> <p>        在XPath中，兄弟节点是指与当前元素节点在同一父节点下的其他元素节点。</p> <h3 id="%E4%BA%8C.XPath%E8%A7%84%E5%88%99">6.4 XPath的规则</h3> <h4 id="2.1%E9%80%89%E5%8F%96%E8%8A%82%E7%82%B9"><strong>6.4.1 选取节点</strong></h4> <p>        XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的</p> <table border="1"> <tbody> <tr> <td>表达式</td> <td>描述</td> </tr> <tr> <td>nodename</td> <td>选取此节点的所有子节点。</td> </tr> <tr> <td>/</td> <td>从根节点选取。</td> </tr> <tr> <td>//</td> <td>从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。</td> </tr> <tr> <td>.</td> <td>选取当前节点。</td> </tr> <tr> <td>..</td> <td>选取当前节点的父节点。</td> </tr> <tr> <td>@</td> <td>选取属性。</td> </tr> </tbody> </table> <p><strong>示例：</strong></p> <table border="1"> <tbody> <tr> <td>路径表达式</td> <td>结果</td> </tr> <tr> <td>bookstore</td> <td>选取 bookstore 元素的所有子节点。</td> </tr> <tr> <td>/bookstore</td> <td> <p>选取根元素 bookstore。</p> <p>注释：假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路径！</p> </td> </tr> <tr> <td>bookstore/book</td> <td>选取属于 bookstore 的子元素的所有 book 元素。</td> </tr> <tr> <td>//book</td> <td>选取所有 book 子元素，而不管它们在文档中的位置。</td> </tr> <tr> <td>bookstore//book</td> <td>选择属于 bookstore 元素的后代的所有 book 元素，而不管它们位于 bookstore 之下的什么位置。</td> </tr> <tr> <td>//@lang</td> <td>选取名为 lang 的所有属性。</td> </tr> </tbody> </table> <h4 id="2.2%E8%B0%93%E8%AF%AD"><strong>6.4.2 谓语</strong></h4> <p>    谓语用来查找某个特定的节点或者包含某个指定的值的节点。</p> <p>        谓语被嵌在方括号中。</p> <p><strong>示例：</strong></p> <table border="1"> <tbody> <tr> <td>路径表达式</td> <td>解释</td> </tr> <tr> <td>/bookstore/book[1]</td> <td>选取属于 bookstore 子元素的第一个 book 元素。</td> </tr> <tr> <td>/bookstore/book[last()]</td> <td>选取属于 bookstore 子元素的最后一个 book 元素。</td> </tr> <tr> <td>/bookstore/book[last()-1]</td> <td>选取属于 bookstore 子元素的倒数第二个 book 元素。</td> </tr> <tr> <td>/bookstore/book[position()<3]</td> <td>选取最前面的两个属于 bookstore 元素的子元素的 book 元素。</td> </tr> <tr> <td>//title[@lang]</td> <td>选取所有拥有名为 lang 的属性的 title 元素。</td> </tr> <tr> <td>//title[@lang='eng']</td> <td>选取所有 title 元素，且这些元素拥有值为 eng 的 lang 属性。</td> </tr> <tr> <td>/bookstore/book[price>35.00]</td> <td>选取 bookstore 元素的所有 book 元素，且其中的 price 元素的值须大于 35.00。</td> </tr> <tr> <td>/bookstore/book[price>35.00]/title</td> <td>选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值须大于 35.00。</td> </tr> </tbody> </table> <h4 id="2.3%E9%80%89%E5%8F%96%E6%9C%AA%E7%9F%A5%E8%8A%82%E7%82%B9"><strong>6.4.3 选取未知节点</strong></h4> <p>        XPath 通配符可用来选取未知的 XML 元素。</p> <table border="1"> <tbody> <tr> <td>通配符</td> <td>描述</td> </tr> <tr> <td>*</td> <td>匹配任何元素节点。</td> </tr> <tr> <td>@*</td> <td>匹配任何属性节点。</td> </tr> <tr> <td>node()</td> <td>匹配任何类型的节点。</td> </tr> </tbody> </table> <p><strong>示例：</strong></p> <table border="1"> <tbody> <tr> <td>路径表达式</td> <td>结果</td> </tr> <tr> <td>/bookstore/*</td> <td>选取 bookstore 元素的所有子元素。</td> </tr> <tr> <td>//*</td> <td>选取文档中的所有元素。</td> </tr> <tr> <td>//title[@*]</td> <td>选取所有带有属性的 title 元素。</td> </tr> </tbody> </table> <h4 id="2.4%E9%80%89%E5%8F%96%E8%8B%A5%E5%B9%B2%E8%B7%AF%E5%BE%84">6.4.4 选取若干路径</h4> <p>        通过在路径表达式中使用“|”运算符，您可以选取若干个路径。</p> <p><strong>示例：</strong></p> <p>        在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：</p> <table border="1"> <tbody> <tr> <td>路径表达式</td> <td>结果</td> </tr> <tr> <td>//book/title | //book/price</td> <td>选取 book 元素的所有 title 和 price 元素。</td> </tr> <tr> <td>//title | //price</td> <td>选取文档中的所有 title 和 price 元素。</td> </tr> <tr> <td>/bookstore/book/title | //price</td> <td>选取属于 bookstore 元素的 book 元素的所有 title 元素，以及文档中所有的 price 元素。</td> </tr> </tbody> </table> <h2 id="%E4%B8%83.%E5%BC%82%E6%AD%A5%E7%88%AC%E8%99%AB">七.异步爬虫</h2> <div> <span style="color:#0d0016;">        到⽬前为⽌, 我们可以解决爬⾍的基本抓取流程了. 但是抓取效率还是不够⾼. 如何提⾼抓取效率呢? 我们可以选择多线程, 多进程, 协程等操作完成异步爬⾍.何为异步? 这⾥我们不讨论蹩脚的概念性问题. 直接说效果. 打个⽐⽅, 我们⽬前写的爬⾍可以理解为单线程, ⽐喻为单⻋道公路. 如何提⾼效率呢? 很简单, 搞成多⻋道就OK了啊. 异步爬⾍你就可以理解为多⻋道同时进⾏爬取。</span> </div> <div> <p class="img-center"><a href="http://img.e-com-net.com/image/info8/93fcf153383d43aab26e9cd54c89b775.jpg" target="_blank"><img alt="Python爬虫知识点总结（详解）_第4张图片" height="258" src="http://img.e-com-net.com/image/info8/93fcf153383d43aab26e9cd54c89b775.jpg" width="650" style="border:1px solid black;"></a></p> <h3 id="7.1%E5%A4%9A%E7%BA%BF%E7%A8%8B">7.1 多线程</h3> <div> <span style="color:#0d0016;">        python中实现多线程⾮常简单. 我们要借助Thread类来完成。</span> </div> <div> <span style="color:#0d0016;">以一个单线程例子进行举例：</span> </div> <div> <pre><code class="language-python">def func(): for i in range(1000): print("func", i) if __name__ == '__main__': func() for i in range(1000): print("main", i)</code></pre> <p>运行结果：</p> <p><a href="http://img.e-com-net.com/image/info8/fdc892a32c9841aea81b500fd328a489.jpg" target="_blank"><img alt="Python爬虫知识点总结（详解）_第5张图片" height="175" src="http://img.e-com-net.com/image/info8/fdc892a32c9841aea81b500fd328a489.jpg" width="650" style="border:1px solid black;"></a></p> </div> </div> <div> <div> <span style="color:#0d0016;"><strong>        执⾏过程:</strong> 程序启动 --> 加载func() --> 执⾏main --> 调⽤func() --> func执⾏完毕, 继续执⾏main中的内容 </span> </div> <div> <span style="color:#0d0016;">        整个过程是⼀条线跑下来的, 这就是单线程.</span> </div> <div> <span style="color:#0d0016;">多线程：</span> </div> <div> <pre><code class="language-python">from threading import Thread def func(): for i in range(1000): print("func", i) if __name__ == '__main__': t = Thread(target=func) t.start() for i in range(1000): print("main", i)</code></pre> <p>运行结果：</p> <p><a href="http://img.e-com-net.com/image/info8/4443b750773f4d57afcaa5cdb642a9f1.jpg" target="_blank"><img alt="Python爬虫知识点总结（详解）_第6张图片" height="307" src="http://img.e-com-net.com/image/info8/4443b750773f4d57afcaa5cdb642a9f1.jpg" width="614" style="border:1px solid black;"></a></p> </div> </div> <div> <span style="color:#0d0016;">      <strong>  程序效果</strong>: main和func交替执⾏(如果速度够快, 给我们的感觉就是⼀ </span> </div> <div> <span style="color:#0d0016;">起执⾏) </span> </div> <div> <span style="color:#0d0016;">      <strong>  执⾏过程</strong>: 加载func() -> 执⾏main -> 创建⼦线程t -> ⼦线程t启动 -> 执⾏func中的内容 |-> 继续执⾏main</span> </div> <div></div> <h3 id="7.2%E5%A4%9A%E8%BF%9B%E7%A8%8B">7.2 多进程</h3> <div> <p>        多进程爬虫可以提高爬取网页数据的效率，特别是在面对大量链接或需要处理耗时的请求时。在Python中，可以使用多进程库（如`multiprocessing`）结合爬虫框架（如`requests`和`BeautifulSoup`）来实现多进程爬虫。</p> <p>多进程示例：</p> <pre><code class="language-python">from multiprocessing import Process def func(): for i in range(1000): print("func", i) if __name__ == '__main__': p = Process(target=func) p.start() for i in range(1000): print("main", i)</code></pre> <h3 id="7.3%E5%8D%8F%E7%A8%8B">7.3 协程</h3> <div> <span style="color:#0d0016;">        ⽤多线程来完成爬⾍其实已经很6了. 但是, 从某种⻆度讲, 线程的执⾏效率真的就⽆敌了么? 我们真的充分的利⽤CPU资源了么? ⾮也~ ⽐如, 我们来看下⾯这个例⼦。</span> </div> <div> <div> <span style="color:#b8bfc6;">        </span> <span style="color:#0d0016;">我们单独的⽤⼀个线程来完成某⼀个操作. 看看它的效率是否真的能把CPU完全利⽤起来。</span> </div> <div> <pre><code class="language-python">import time def func(): print("我爱黎明") time.sleep(3) print("我真的爱黎明") func()</code></pre> <div> <span style="color:#b8bfc6;">        </span> <span style="color:#0d0016;">在该程序中, 我们的func()实际在执⾏的时候⾄少需要3秒的时间来完成操作. 中间的三秒钟需要让我当前的线程处于阻塞状态. 阻塞状态的线程 CPU是不会来执⾏你的. 那么此时cpu很可能会切换到其他程序上去执⾏. 此时, 对于你来说, CPU其实并没有为你⼯作(在这三秒内), 那么我们能不能通过某种⼿段, 让CPU⼀直为我⽽⼯作. 尽量的不要去管其他⼈。</span> </div> <div></div> <div> <span style="color:#0d0016;">        我们要知道CPU⼀般抛开执⾏周期不谈, 如果⼀个线程遇到了IO操作, CPU就会⾃动的切换到其他线程进⾏执⾏. 那么, 如果我想办法让我的线程遇到了IO操作就挂起, 留下的都是运算操作. 那CPU是不是就会⻓时间的来照顾我~。</span> </div> <div></div> <div> <span style="color:#0d0016;">        以此为⽬的, 伟⼤的程序员就发明了⼀个新的执⾏过程. 当线程中遇到了IO操作的时候, 将线程中的任务进⾏切换, 切换成⾮ IO操作. 等原来的IO执⾏完了. 再恢复回原来的任务中</span> </div> <div> <a href="http://img.e-com-net.com/image/info8/6920f4995b7540d48e02b28ec24ef29e.jpg" target="_blank"><img alt="Python爬虫知识点总结（详解）_第7张图片" height="328" src="http://img.e-com-net.com/image/info8/6920f4995b7540d48e02b28ec24ef29e.jpg" width="650" style="border:1px solid black;"></a> </div> </div> </div> </div> <div> <span style="color:#b8bfc6;">    </span> <span style="color:#0d0016;">    就形成了这样⼀种模型, 在程序遇到了IO操作(费时不费⼒的操作)时, ⾃动切换到其他任务. 该模型被称为协程.</span> </div> <div> <div> <span style="color:#0d0016;">协程的基本写法:</span> </div> <div> <pre><code class="language-python">import time # await: 当该任务被挂起后,CPU会⾃动切换到其他任务中 async def func1(): print("func1, start") await asyncio.sleep(3) print("func1, end") async def func2(): print("func2, start") await asyncio.sleep(4) print("func2, end") async def func3(): print("func3, start") await asyncio.sleep(2) if __name__ == '__main__': start = time.time() tasks = [ # 协程任务列表 func1(), # 创建协程任务 func2(), func3() ] lop = asyncio.get_event_loop() # 我要执⾏这个协程任务列表中的所有任务 lop.run_until_complete(asyncio.wait(tasks)) # 我要执⾏这个协程任务列表中的所有任务 print(time.time() - start) </code></pre> <h4 id="7.3.1aiohttp%E5%A4%9A%E4%BB%BB%E5%8A%A1%E5%BC%82%E6%AD%A5%E5%8D%8F%E7%A8%8B">7.3.1 <span style="color:#0d0016;">aiohttp多任务异步协程</span></h4> <p><span style="color:#b8bfc6;">    </span><span style="color:#0d0016;">    aiohttp是python的⼀个⾮常优秀的第三⽅异步http请求库. 我们可以⽤aiohttp来编写异步爬⾍(协程)。</span></p> <div> <span style="color:#0d0016;">安装: </span> </div> <div> <pre><code class="language-python">1 pip install aiohttp</code></pre> <p><span style="color:#0d0016;">实例代码</span></p> </div> <div> <pre><code class="language-python">import aiohttp import asyncio import time import requests # 异步下载 async def aiodownload(url, session): name = url.split("/")[-1] # 发送请求, 这⾥和requests.get()⼏乎没区别, 除了代理换成了proxy async with session.get(url) as resp: # 读取数据. 如果想要读取源代码. 直接 resp.text()即可. ⽐原来多了个() content = await resp.content.read() # 写⼊⽂件, 有兴趣可以参考aiofiles, 我这⾥根本不需要. with open(name, mode="wb") as f: f.write(content) async def main(): # 创建session对象 -> 相当于requsts对象 async with aiohttp.ClientSession() as session: # 添加下载任务 tasks = [asyncio.create_task(aiodownload(url, session)) for url in urls] # 等待所有任务下载完成 await asyncio.wait(tasks) # 同步⽅式下载图⽚ def download(url):29 name = url.split("/")[-1] resp = requests.get(url) content = resp.content with open(name, mode="wb") as f: f.write(content)</code></pre> </div> <div></div> </div> </div> <h2 id="%E5%85%AB.selenium">八.selenium</h2> <p>        Selenium 是一种自动化测试工具和框架，用于模拟用户在 Web 浏览器中的行为。它提供了一组用于控制浏览器、操作网页元素和执行测试脚本的 API。Selenium 可以与各种编程语言（如Python、Java、C# 等）结合使用，使开发人员能够自动化测试网页应用程序的功能和交互。</p> <p>Selenium 具有以下主要特点：</p> <ol> <li> <p><strong>浏览器兼容性：</strong>Selenium 支持多种浏览器，包括 Chrome、Firefox、Safari、Edge 等，可在不同的浏览器上进行测试，确保应用程序在各种环境中的兼容性。</p> </li> <li> <p><strong>元素定位：</strong>Selenium 提供了丰富的方法来定位和操作网页元素，可以通过 ID、类名、XPath、CSS 选择器等方式快速准确地定位到要操作的元素。</p> </li> <li> <p><strong>模拟用户行为：</strong>Selenium 可以模拟用户在浏览器中的各种操作，如点击、输入文本、提交表单、拖拽等，以及处理 JavaScript 弹窗、切换窗口、处理框架等操作。</p> </li> <li> <p><strong>多平台支持：</strong>Selenium 可以在不同的操作系统上运行，包括 Windows、Mac 和 Linux 等。</p> </li> <li> <p><strong>集成框架：</strong>Selenium 可以与各种测试框架（如JUnit、TestNG）和持续集成工具（如Jenkins）结合使用，实现自动化测试的流程和报告生成。</p> </li> </ol> <p>        Selenium 提供了多种编程语言的客户端库，开发人员可以根据自己的偏好和需求选择最适合的语言进行测试脚本开发。通过使用 Selenium，开发人员可以自动执行各种测试任务，包括功能测试、回归测试、性能测试等，提高测试效率和准确性。</p> <h3 id="%E4%BA%8C.%E6%90%AD%E5%BB%BA%E7%8E%AF%E5%A2%83">8.1 搭建环境</h3> <h4 id="2.1%20selenium%E5%AE%89%E8%A3%85">8.1.1 selenium安装</h4> <p>        打开 cmd，输入下面命令进行安装。</p> <pre><code>pip install -i https://pypi.douban.com/simple selenium </code></pre> <h4 id="2.2%E6%B5%8F%E8%A7%88%E5%99%A8%E9%A9%B1%E5%8A%A8%E5%AE%89%E8%A3%85">8.1.2 浏览器驱动安装</h4> <p>        针对不同的浏览器，需要安装不同的驱动。</p> <ul> <li>Firefox 浏览器驱动：Firefox</li> <li>Chrome 浏览器驱动：Chrome</li> </ul> <p><strong>         注意：</strong>安装的驱动版本应该与本电脑浏览器版本相对应。</p> <p> 这里以chrome浏览器进行举例</p> <p class="img-center"><a href="http://img.e-com-net.com/image/info8/ace0bec9ccab4ab187906a682bf4bca9.jpg" target="_blank"><img alt="Python爬虫知识点总结（详解）_第8张图片" height="317" src="http://img.e-com-net.com/image/info8/ace0bec9ccab4ab187906a682bf4bca9.jpg" width="650" style="border:1px solid black;"></a></p> <p class="img-center"><a href="http://img.e-com-net.com/image/info8/0b1de241dc7e4ff183f49b12eec68bc5.jpg" target="_blank"><img alt="Python爬虫知识点总结（详解）_第9张图片" height="204" src="http://img.e-com-net.com/image/info8/0b1de241dc7e4ff183f49b12eec68bc5.jpg" width="650" style="border:1px solid black;"></a></p> <p>        根据你电脑的不同⾃⾏选择. win64选win32即可.</p> <p>        然后关键的来了. 把你下载的浏览器驱动放在程序所在的⽂件夹。或者放到python解释器所在的⽂件夹.。两种⼆选其⼀。</p> <p class="img-center"><a href="http://img.e-com-net.com/image/info8/340a4cc08db24b0c9982318ad1032596.jpg" target="_blank"><img alt="Python爬虫知识点总结（详解）_第10张图片" height="146" src="http://img.e-com-net.com/image/info8/340a4cc08db24b0c9982318ad1032596.jpg" width="650" style="border:1px solid black;"></a></p> <p>或者</p> <p class="img-center"><a href="http://img.e-com-net.com/image/info8/9ceab360a24b45409e842128c85ac36c.jpg" target="_blank"><img alt="Python爬虫知识点总结（详解）_第11张图片" height="269" src="http://img.e-com-net.com/image/info8/9ceab360a24b45409e842128c85ac36c.jpg" width="650" style="border:1px solid black;"></a></p> <p></p> <h3 id="%E4%B8%89.selenium%20%E4%BD%BF%E7%94%A8">8.2 selenium 使用</h3> <p><strong>基本使用</strong></p> <pre><code class="language-python">from selenium.webdriver import Chrome # 导⼊⾕歌浏览器的类 # 创建浏览器对象 drive= Chrome(executable_path="chromedriver") # 如果你的浏览器驱动放在了项⽬⾥. # drive= Chrome() # 如果你的浏览器驱动放在了解释器⽂件夹 drive.get("http://www.baidu.com") # 输⼊⽹址 print(web.title) # 打印title</code></pre> <h4 id="3.1%E5%85%83%E7%B4%A0%E5%AE%9A%E4%BD%8D">8.2.1 元素定位</h4> <p>        在 Selenium 中，我们可以使用多种方式进行元素定位，以便在自动化测试中找到和操作特定的网页元素。以下是几种常用的元素定位方法：</p> <p>        1.通过 ID 定位元素：</p> <pre><code class="language-python">element = driver.find_element_by_id("element_id")</code></pre> <p>        2.通过 class 名称定位元素：</p> <pre><code class="language-python">element = driver.find_element_by_class_name("class_name")</code></pre> <p>        3.通过标签名称定位元素：</p> <pre><code class="language-python">element = driver.find_element_by_tag_name("tag_name")</code></pre> <p>        4.通过链接文本定位元素（用于定位链接）：</p> <pre><code class="language-python">element = driver.find_element_by_link_text("link_text")</code></pre> <p>        5.通过部分链接文本定位元素（用于定位链接）：</p> <pre><code class="language-python">element = driver.find_element_by_partial_link_text("partial_link_text")</code></pre> <p>        6.通过 CSS 选择器定位元素：</p> <pre><code class="language-python">element = driver.find_element_by_css_selector("css_selector")</code></pre> <p>        7.通过 XPath 定位元素：</p> <pre><code class="language-python">element = driver.find_element_by_xpath("xpath_expression")</code></pre> <p>        以上代码示例中，<code>driver</code> 是 WebDriver 对象，用于控制浏览器。<code>find_element_by_XXX()</code> 方法用于定位单个元素，如果需要定位多个元素，可以使用 <code>find_elements_by_XXX()</code> 方法，并返回一个元素列表。</p> <p>        另外，还有一些辅助方法可以与上述定位方法组合使用，例如：</p> <ul> <li><strong><code>find_element()</code> </strong>和 <strong><code>find_elements()</code></strong>：接受两个参数，第一个参数为定位方法，第二个参数为定位值。</li> <li><strong><code>find_element_by_*()</code> </strong>和 <strong><code>find_elements_by_*()</code>：</strong>一些特殊的定位方式，例如 <strong><code>find_element_by_name()</code></strong>，<strong><code>find_elements_by_xpath()</code> </strong>等。</li> </ul> <p>        根据页面结构和元素属性的不同，选择合适的定位方法进行元素定位。如果出现多个匹配的元素，可以使用索引或其他属性进一步缩小范围，确保找到正确的元素。</p> <h4 id="3.2%E5%85%83%E7%B4%A0%E6%93%8D%E4%BD%9C">8.2.2 元素操作</h4> <pre><code class="language-python">.send_keys() # 输入方法 .click() # 点击方法 .clear() # 清空方法 </code></pre> <h4 id="3.3%E6%B5%8F%E8%A7%88%E5%99%A8%E6%93%8D%E4%BD%9C%E6%96%B9%E6%B3%95">8.2.3 浏览器操作方法</h4> <pre><code class="language-python">driver.maximize_window() # 最大化浏览器 driver.set_window_size(w,h) # 设置浏览器大小单位像素【了解】 driver.set_window_position(x,y) # 设置浏览器位置【了解】 driver.back() # 后退操作 driver.forward() # 前进操作 driver.refrensh() # 刷新操作 driver.close() # 关闭当前主窗口（主窗口：默认启动那个界面，就是主窗口） driver.quit() # 关闭driver对象启动的全部页面 driver.title # 获取当前页面title信息 driver.current_url # 获取当前页面url信息 </code></pre> <h4 id="3.4%E8%8E%B7%E5%8F%96%E5%85%83%E7%B4%A0%E4%BF%A1%E6%81%AF%E6%93%8D%E4%BD%9C">8.2.4 获取元素信息操作</h4> <pre><code class="language-python">text 获取元素的文本；如：driver.text size 获取元素的大小：如：driver.size get_attribute 获取元素属性值；如：driver.get_attribute("id") ,传递的参数是元素的属性名 is_displayed 判断元素是否可见如：element.is_displayed() is_enabled 判断元素是否可用如：element.is_enabled() is_selected 判断元素是否被选中如：element.is_selected() </code></pre> <h4 id="3.5%E9%BC%A0%E6%A0%87%E6%93%8D%E4%BD%9C">8.2.5 鼠标操作</h4> <p><strong>导包：</strong></p> <blockquote> <p>from selenium.webdriver.common.action_chains import ActionChains</p> </blockquote> <p><strong>鼠标的常用事件：</strong></p> <pre><code class="language-python">context_click(element) # 右击 double_click(element) #双击 double_and_drop(source, target) # 拖拽 move_to_element(element) # 悬停【重点】 perform() # 执行以上事件的方法【重点】</code></pre> <h5 id="3.5.1%E9%BC%A0%E6%A0%87%E5%8F%B3%E9%94%AE%E5%8F%8A%E5%8F%8C%E5%87%BB">8.2.5.1 鼠标右键及双击</h5> <pre><code class="language-python">#鼠标操作： context_click() 右键 double_click() 鼠标双击 </code></pre> <h5 id="3.5.2%E9%BC%A0%E6%A0%87%E6%8B%96%E6%8B%BD">8.2.5.2 鼠标拖拽</h5> <pre><code class="language-python"># 鼠标拖拽 action.drag_and_drop(source， target) </code></pre> <h5 id="3.5.3%E9%BC%A0%E6%A0%87%E6%82%AC%E5%81%9C">8.2.5.3 鼠标悬停</h5> <pre><code class="language-python"># 鼠标悬停【重点】 action.move_to_element(element) </code></pre> <h4 id="3.6%E9%94%AE%E7%9B%98%E6%93%8D%E4%BD%9C">8.2.6 键盘操作</h4> <p><strong>导包：</strong></p> <blockquote> <p>from selenium.webdriver.common.keys import Keys</p> </blockquote> <pre><code class="language-python"># 单键 element.send_keys(Keys.XXX) # 组合键 element.send_keys(Keys.XXX, 'a') # 注意这里的组合键都是小写</code></pre> <h4 id="3.7%E7%AA%97%E5%8F%A3%E5%88%87%E6%8D%A2">8.2.7 窗口切换</h4> <pre><code class="language-python">driver.current_window_handle (获取当前的句柄值) driver.window_handles （获取当前由driver启动所有窗口句柄） driver.switch_to.window(handle) —> 切换窗口 </code></pre> <h4 id="3.8%E6%88%AA%E5%9B%BE%E6%93%8D%E4%BD%9C">8.2.8 截图操作</h4> <p>        在 Selenium 中，你可以使用 <code>screenshot()</code> 方法对网页进行截图操作。以下是一些常见的截图操作示例：</p> <p>        1.对整个网页进行截图：</p> <pre><code class="language-python">driver.save_screenshot("screenshot.png")</code></pre> <p>        2.对指定元素进行截图：</p> <pre><code class="language-python">element = driver.find_element_by_id("element_id") element.screenshot("element_screenshot.png")</code></pre> <p>        3.对指定区域进行截图：</p> <pre><code class="language-python">element = driver.find_element_by_id("element_id") location = element.location size = element.size driver.save_screenshot("screenshot.png") left = location['x'] top = location['y'] right = location['x'] + size['width'] bottom = location['y'] + size['height'] image = Image.open("screenshot.png") image = image.crop((left, top, right, bottom)) image.save("element_screenshot.png")</code></pre> <p>        在第三个示例中，我们首先对整个网页进行了截图，然后使用元素的位置和大小信息，通过裁剪整个截图来获取指定元素的截图。</p> <p>        需要注意的是，为了进行截图操作，你需要确保你的环境中安装了 <code>Pillow</code> 或者其他图像处理库，例如 <code>opencv-python</code>。</p> <p>        截图操作可以帮助你在自动化测试过程中进行调试和验证，也可以用于生成测试报告或记录页面的状态。根据实际需求，你可以选择合适的截图操作方式。</p> <h3 id="%E5%9B%9B.%E8%B6%85%E7%BA%A7%E9%B9%B0%E6%90%9E%E5%AE%9A%E9%AA%8C%E8%AF%81%E7%A0%81">8.3 超级鹰搞定验证码</h3> <h4 id="4.1%E7%AE%80%E4%BB%8B">8.3.1 简介</h4> <p>        超级鹰是一个基于人工智能的验证码识别平台。它可以帮助用户自动破解网站上的验证码，以应对需要进行验证码验证的场景。超级鹰主要用于爬虫开发、自动化测试和数据采集等领域。</p> <p>使用超级鹰进行验证码识别的流程通常如下：</p> <ol> <li>用户将需要识别的验证码图片上传到超级鹰服务器。</li> <li>超级鹰的人工智能算法会对验证码图片进行分析和处理。</li> <li>超级鹰返回识别结果给用户，通常是验证码的文本或数字。</li> <li>用户可以将返回的识别结果用于后续的自动化操作，例如自动填写验证码表单、进行爬虫访问等。</li> </ol> <p>        超级鹰支持识别多种类型的验证码，包括普通图片验证码、滑动验证码、点击验证码、语音验证码等。</p> <p>        使用超级鹰进行验证码识别时，要确保遵守相关的法律法规和网站的使用规定，不进行违法犯罪活动或侵犯他人隐私。此外，有些网站可能会采取反爬虫措施来阻止使用验证码识别技术的行为，因此在实际使用中需要谨慎并遵守相关规定。</p> <h4 id="4.2%E4%BD%BF%E7%94%A8%C2%A0">8.3.2 使用 </h4> <p>        ⾸先, 登录超级鹰的官⽹. 然后需要注册。注册后, 需要我们进⼊⽤户中⼼。⽣成⼀个新的软件ID就可以⽤了。</p> <p class="img-center"><a href="http://img.e-com-net.com/image/info8/cc190041e44f48858cec0c0bac71b085.jpg" target="_blank"><img alt="Python爬虫知识点总结（详解）_第12张图片" height="407" src="http://img.e-com-net.com/image/info8/cc190041e44f48858cec0c0bac71b085.jpg" width="650" style="border:1px solid black;"></a></p> <p class="img-center"><a href="http://img.e-com-net.com/image/info8/468ccf44bc6549d0b967eeb202fac1ab.jpg" target="_blank"><img alt="Python爬虫知识点总结（详解）_第13张图片" height="285" src="http://img.e-com-net.com/image/info8/468ccf44bc6549d0b967eeb202fac1ab.jpg" width="650" style="border:1px solid black;"></a></p> <p class="img-center"><a href="http://img.e-com-net.com/image/info8/35657e5741b34611b121478e58c2ecfc.jpg" target="_blank"><img alt="Python爬虫知识点总结（详解）_第14张图片" height="222" src="http://img.e-com-net.com/image/info8/35657e5741b34611b121478e58c2ecfc.jpg" width="650" style="border:1px solid black;"></a></p> <p>        注意这个号, 后⾯会⽤到。</p> <p>        然后我们回到超级鹰的官⽹. 找到测试代码. 找到python的测试代码, 下载. 丢到pycharm⾥。</p> <p class="img-center"><a href="http://img.e-com-net.com/image/info8/aea12cad061f475f9ef4ae82cf7badb0.jpg" target="_blank"><img alt="Python爬虫知识点总结（详解）_第15张图片" height="315" src="http://img.e-com-net.com/image/info8/aea12cad061f475f9ef4ae82cf7badb0.jpg" width="650" style="border:1px solid black;"></a></p> <p class="img-center"><a href="http://img.e-com-net.com/image/info8/deaaf842353f4cdd866e6415c8d3bf63.jpg" target="_blank"><img alt="Python爬虫知识点总结（详解）_第16张图片" height="209" src="http://img.e-com-net.com/image/info8/deaaf842353f4cdd866e6415c8d3bf63.jpg" width="650" style="border:1px solid black;"></a></p> <p> 下载好的内容解压. 丢到pycharm中</p> <p class="img-center"><a href="http://img.e-com-net.com/image/info8/9d5539b8d86c4bcc9d2eeb4da6dc612c.jpg" target="_blank"><img alt="Python爬虫知识点总结（详解）_第17张图片" height="203" src="http://img.e-com-net.com/image/info8/9d5539b8d86c4bcc9d2eeb4da6dc612c.jpg" width="650" style="border:1px solid black;"></a></p> <p class="img-center"><a href="http://img.e-com-net.com/image/info8/042ec1e70d774f5d926cd273068c4dc0.jpg" target="_blank"><img alt="Python爬虫知识点总结（详解）_第18张图片" height="102" src="http://img.e-com-net.com/image/info8/042ec1e70d774f5d926cd273068c4dc0.jpg" width="650" style="border:1px solid black;"></a></p> <p> 进行测试</p> <p class="img-center"><a href="http://img.e-com-net.com/image/info8/f6e6a4858b744d96ad81f682883704ad.jpg" target="_blank"><img alt="Python爬虫知识点总结（详解）_第19张图片" height="235" src="http://img.e-com-net.com/image/info8/f6e6a4858b744d96ad81f682883704ad.jpg" width="650" style="border:1px solid black;"></a></p> <p>        如果遇到的验证码⽐较特殊. 可以更换代码中的1902位置的参数值。具体情况可以参考官⽹上给出的参数列表。</p> <p class="img-center"><a href="http://img.e-com-net.com/image/info8/664c2901ba514a2bb56beb4f9eda13aa.jpg" target="_blank"><img alt="Python爬虫知识点总结（详解）_第20张图片" height="288" src="http://img.e-com-net.com/image/info8/664c2901ba514a2bb56beb4f9eda13aa.jpg" width="650" style="border:1px solid black;"></a></p> <h2 id="%E4%B9%9D.scrapy">九.scrapy</h2> <p>        Scrapy 是一个用于爬取网站数据的开源Python框架。它提供了一套简单而强大的工具，使你能够定义爬取规则和处理爬取数据的流程，从而快速高效地实现数据采集任务。</p> <p>Scrapy 的主要特点包括：</p> <ol> <li> <p><strong>基于异步处理：</strong>Scrapy 是基于异步处理的框架，可以同时发送多个请求并处理响应，提高了爬取效率。</p> </li> <li> <p><strong>爬取规则定义：</strong>通过定义爬取规则，你可以指定要爬取的网页链接、提取数据的方式以及处理数据的方法。</p> </li> <li> <p><strong>可扩展性：</strong>Scrapy 提供了一系列的插件和扩展机制，你可以根据自己的需求添加功能或定制化操作。</p> </li> <li> <p><strong>数据流管理：</strong>Scrapy 使用管道（Pipeline）来处理爬取到的数据，可以对数据进行清洗、验证、存储等操作。</p> </li> <li> <p><strong>全面的特性支持：</strong>Scrapy 支持处理 cookies、代理、用户代理头、重试、延迟下载等常见的爬虫需求。</p> </li> </ol> <p>        使用 Scrapy 进行网页爬取时，你需要编写爬虫程序，在程序中定义需要爬取的网页链接、提取数据的方式以及如何处理数据。Scrapy 提供了丰富的命令行工具和 API，使得编写和运行爬虫变得更加便捷。</p> <h3 id="%E4%BA%8C.Scrapy%E5%9F%BA%E6%9C%AC%E6%A8%A1%E5%9D%97">9.1 Scrapy基本模块</h3> <h4 id="2.1%20%E8%B0%83%E5%BA%A6%E5%99%A8(Scheduler)">9.1.1 调度器(Scheduler)</h4> <p>        Scrapy 框架中的调度器（Scheduler）是负责管理待爬取的请求队列的组件。它接收起始请求（start_requests）或从 Spider 组件返回的新的请求，并按照一定的调度策略将这些请求添加到队列中，然后逐个发送给下载器进行处理。</p> <p>调度器的主要功能包括：</p> <ol> <li> <p><strong>接收起始请求：</strong>根据配置文件中的起始请求（start_urls）或 Spider 中定义的 start_requests() 方法，调度器接收并加入请求队列。</p> </li> <li> <p><strong>管理请求队列：</strong>调度器维护一个请求队列，使用合适的数据结构（如队列、栈、优先队列等）来管理请求。可以根据需求选择不同的请求队列数据结构。</p> </li> <li> <p><strong>选择下一个请求：</strong>根据设定的调度策略，调度器从请求队列中选择下一个待处理的请求，并将其发送给下载器。</p> </li> <li> <p><strong>过滤重复请求：</strong>调度器可以使用过滤器（dupefilter）来检测和过滤重复的请求，避免重复爬取相同的页面。</p> </li> <li> <p><strong>处理请求优先级：</strong>根据请求的优先级设置，调度器可以对请求队列进行排序，确保高优先级的请求优先处理。</p> </li> <li> <p><strong>动态调整请求队列：</strong>在运行过程中，Spider 可能会生成新的请求，调度器需要及时处理并添加到请求队列中。</p> </li> </ol> <p>        Scrapy 提供了默认实现的调度器，默认使用优先级队列来管理请求队列，并使用布隆过滤器（Bloom Filter）进行请求去重。同时，Scrapy 也支持用户自定义调度器实现，可以根据需求选择合适的调度策略和数据结构。</p> <p>        通过调度器的灵活管理，Scrapy 框架能够高效地处理爬取流程，保证请求的有序发送和数据的正确处理。</p> <h4 id="2.2%20%E4%B8%8B%E8%BD%BD%E5%99%A8(Downloader)">9.1.2 下载器(Downloader)</h4> <p>      Scrapy 框架的下载器（Downloader）是用来发送网络请求并接收响应的组件。它负责从调度器接收请求，并将请求发送到互联网上的服务器，然后接收服务器返回的响应数据。</p> <p>下载器的主要功能包括：</p> <ol> <li> <p><strong>发送请求：</strong>下载器根据接收到的请求，使用合适的网络库（如Requests、Twisted等）发送HTTP请求到指定的URL地址。</p> </li> <li> <p><strong>处理请求头部：</strong>下载器可以处理请求的头部信息，包括添加自定义的User-Agent、Cookies、Referer等，以便模拟不同的浏览器行为。</p> </li> <li> <p><strong>下载响应内容：</strong>一旦下载器发送请求并接收到服务器的响应，它会将响应内容以原始形式或经过解压、解密等处理后返回给引擎。</p> </li> <li> <p><strong>处理重定向：</strong>如果服务器返回了重定向响应（如HTTP 301、302等状态码），下载器会根据配置的重定向规则进行处理，可以自动跟随重定向或者根据需求自定义处理方式。</p> </li> <li> <p><strong>处理代理：</strong>在某些场景下，需要通过代理服务器发送请求，下载器可以支持配置代理服务器，实现匿名性和IP切换等功能。</p> </li> <li> <p><strong>设置超时和重试：</strong>下载器可以设置超时时间，当请求超过指定时间没有得到响应时，可以进行超时处理。同时，下载器还支持自定义的重试机制，以处理临时的网络错误或连接问题。</p> </li> <li> <p><strong>处理请求中间件：</strong>下载器可以与请求中间件（Downloader Middleware）协同工作，对请求进行预处理、加密、签名等操作，并在响应返回前进行后处理。</p> </li> </ol> <p>        Scrapy 框架的下载器是一个可扩展的组件，用户可以根据需要自定义实现一些功能，并结合中间件进行更高级的请求处理和管理。下载器的灵活性和高效性使得 Scrapy 能够有效地处理大规模的爬取任务。</p> <h4 id="2.3%20%E7%88%AC%E8%99%AB%EF%BC%88Spider%EF%BC%89%C2%A0">9.1.3 爬虫（Spider） </h4> <p>        Scrapy的Spider是一个用于定义和控制爬取行为的核心组件。Spider负责从起始URL开始递归地爬取网页，并根据预定义的规则提取数据、跟踪链接、处理页面等操作。</p> <p>        Scrapy的Spider类是一个基础类，你可以创建自己的Spider类继承它，并在子类中编写具体的爬取逻辑。下面是创建Spider的一般步骤：</p> <p><strong>        1. 创建一个新的Spider类：</strong><br>         在Scrapy项目的spiders目录下创建一个新的Python文件，比如`my_spider.py`。在这个文件中定义一个类，继承自scrapy.Spider类，并给它一个名字。</p> <pre><code class="language-python">import scrapy class MySpider(scrapy.Spider): name = "my_spider"</code></pre> <p><strong>        2. 设置Spider的属性：</strong><br>         在Spider类中，你需要设置一些属性来配置爬取行为。其中最重要的属性是`start_urls`，它是一个包含起始URL的列表，Spider将从这些URL开始爬取。</p> <pre><code class="language-python">class MySpider(scrapy.Spider): name = "my_spider" start_urls = [ 'http://www.example.com/page1', 'http://www.example.com/page2', ]</code></pre> <p><strong>        3. 编写解析方法：</strong><br>         在Spider类中，你需要编写一个或多个解析方法，用于处理每个页面的响应数据。解析方法的名称可以任意指定，但通常使用`parse`作为默认的解析方法。</p> <pre><code class="language-python">class MySpider(scrapy.Spider): name = "my_spider" start_urls = [ 'http://www.example.com/page1', 'http://www.example.com/page2', ] def parse(self, response): # 在这里编写解析响应的逻辑 pass</code></pre> <p><strong>        4. 解析数据和跟踪链接：</strong><br>         在解析方法中，你可以使用XPath或CSS选择器来提取页面中的数据，并通过yield语句生成Item对象或新的请求。</p> <pre><code class="language-python">class MySpider(scrapy.Spider): name = "my_spider" start_urls = [ 'http://www.example.com/page1', 'http://www.example.com/page2', ] def parse(self, response): # 提取数据 title = response.xpath('//h1/text()').get() content = response.css('div.content::text').get() # 生成Item对象 item = { 'title': title, 'content': content } yield item # 跟踪链接并发送新的请求 for url in response.css('a::attr(href)').getall(): yield response.follow(url, self.parse)</code></pre> <p><strong>        5. 运行Spider：</strong><br>         在命令行中进入到Scrapy项目的根目录，然后执行`scrapy crawl spider_name`命令，其中`spider_name`是你之前给Spider起的名字。Scrapy将自动启动Spider，并开始抓取网页和处理数据。</p> <p>        以上是创建和运行Scrapy Spider的基本步骤，你可以根据具体需求编写更复杂的逻辑和规则，使用Scrapy提供的丰富功能来处理数据、控制爬取过程等。详细的Spider类属性和方法可以参考Scrapy官方文档。</p> <h4 id="2.4%20%E5%AE%9E%E4%BD%93%E7%AE%A1%E9%81%93(Item%20Pipeline)%C2%A0%20%C2%A0%20%C2%A0%C2%A0">9.1.4 实体管道(Item Pipeline)   </h4> <p>        在Scrapy中，实体管道（Item Pipeline）用于处理从Spider中获取的Item对象。实体管道负责对Item进行处理、清洗、持久化等操作，以及在需要时将Item发送到下一个管道。</p> <p>下面是使用Scrapy实体管道的一般步骤：</p> <p><strong>        1. 启用实体管道：</strong><br>         打开Scrapy项目的settings.py文件，并找到`ITEM_PIPELINES`配置项。将它设置为一个字典，其中键表示管道的优先级，值是管道的类路径。你可以定义多个管道，并按照优先级顺序执行。</p> <pre><code class="language-python">ITEM_PIPELINES = { 'myproject.pipelines.MyPipeline': 300, 'myproject.pipelines.AnotherPipeline': 400, } </code></pre> <p><strong>        2. 编写管道类：</strong><br>         在Scrapy项目中创建一个pipelines.py文件，并编写一个继承自`scrapy.ItemPipeline`的类。在这个类中，你可以实现处理Item的各种方法，如`process_item()`等。</p> <pre><code class="language-python">class MyPipeline: def process_item(self, item, spider): # 处理Item的逻辑 return item </code></pre> <p><strong>        3. 实现Item处理逻辑：</strong><br>         在`process_item()`方法中，你可以对Item进行各种处理，包括数据清洗、验证、转换等。你还可以将Item保存到数据库、写入文件、发送API请求等操作。</p> <pre><code class="language-python">class MyPipeline: def process_item(self, item, spider): # 数据清洗 item['content'] = item['content'].strip() # 保存到数据库 db.save(item) return item </code></pre> <p><strong>        4. 执行多个管道操作：</strong><br>         如果你在settings.py中定义了多个管道，Scrapy会按照优先级顺序依次调用它们的`process_item()`方法。管道可以对Item进行连续的处理，每个管道可以修改Item并将其传递给下一个管道。</p> <pre><code class="language-python">class MyPipeline1: def process_item(self, item, spider): # 管道1的处理逻辑 return item class MyPipeline2: def process_item(self, item, spider): # 管道2的处理逻辑 return item</code></pre> <p><strong>        5. 配置其他设置：</strong><br>         除了管道优先级，你还可以在settings.py中配置其他参数，如并发数、延迟等。这些设置可以影响Scrapy爬取过程和实体管道的行为。</p> <pre><code class="language-python">CONCURRENT_REQUESTS = 16 DOWNLOAD_DELAY = 0.5 </code></pre> <p>        以上是使用Scrapy实体管道的基本步骤，你可以根据实际需求编写自己的管道类，并在其中实现各种数据处理和持久化操作。请参考Scrapy官方文档以获取更详细的信息和进一步的指导。</p> <h4 id="2.5%20Scrapy%E5%BC%95%E6%93%8E(Scrapy%20Engine)">9.1.5 Scrapy引擎(Scrapy Engine)</h4> <p>     Scrapy的引擎（Engine）是Scrapy框架的核心组件之一，负责控制整个爬取流程的执行。引擎协调各个组件的工作，包括调度器（Scheduler）、下载器（Downloader）和Spider等，以及处理请求和响应数据的流转。</p> <p>引擎的一般工作流程如下：</p> <p>     <strong>   1. Spider生成初始请求：</strong>当引擎启动时，它会接收到一个或多个Spider对象，并从这些Spider对象中获取起始URL。然后，引擎将根据这些起始URL构造初始的请求对象，并将这些请求交给调度器。</p> <p>    <strong>    2. 调度器调度请求：</strong>调度器接收到请求后，会根据调度算法决定当前要执行的请求，并将其发送给下载器。</p> <p>    <strong>    3. 下载器下载页面：</strong>下载器接收到请求后，会根据请求的URL下载对应的页面，并将下载结果封装成响应对象。</p> <p>      <strong>  4. 引擎将响应传给Spider：</strong>引擎接收到响应后，将响应交给Spider进行解析。Spider会根据预定义的规则提取数据、跟踪链接等操作，并生成新的请求或者爬取项(Item)。</p> <p>     <strong>   5. 引擎处理新的请求或爬取项：</strong>如果Spider生成了新的请求，引擎会将这些请求交给调度器继续调度；如果Spider生成了爬取项，引擎会将这些项交给实体管道(Pipelines)进行处理。</p> <p>      <strong>  6. 循环执行以上步骤：</strong>引擎会不断循环执行上述步骤，直到没有新的请求并且Spider也没有新的爬取项生成。</p> <p>        Scrapy引擎通过协调各个组件的工作，实现了高效的异步处理和并发控制，并提供了丰富的中间件(Middleware)扩展点，使用户可以根据自己的需求进行定制和扩展。引擎的工作流程是Scrapy框架能够高效运行的关键所在。</p> <p>        引擎的具体实现是Scrapy框架内部的细节，一般情况下，我们不需要直接与引擎进行交互，而是通过编写Spider、中间件和管道等组件来实现具体的功能。</p> <h4 id="2.6%20%E4%B8%AD%E9%97%B4%E4%BB%B6">9.1.6 中间件</h4> <p>Scrapy框架提供了多个中间件，用于扩展和定制爬虫功能。以下是Scrapy中常用的几种中间件：</p> <p><strong>1. 下载中间件（Downloader Middleware）：</strong></p> <ul> <li>RetryMiddleware：处理请求重试，可配置最大重试次数和重试策略。</li> <li>UserAgentMiddleware：设置请求的User-Agent头，用于伪装爬虫身份。</li> <li>ProxyMiddleware：设置代理服务器，实现IP代理轮换或匿名访问。</li> </ul> <p><strong>2. 爬虫中间件（Spider Middleware）：</strong></p> <ul> <li>DepthMiddleware：控制请求的深度，限制爬取的层级。</li> <li>OffsiteMiddleware：过滤非法域名的请求，保证爬虫只爬取指定域名下的页面。</li> <li>RobotsTxtMiddleware：处理Robots协议，实现爬虫的合规性。</li> </ul> <p><strong>3. 信号中间件（Signal Middleware）：</strong></p> <ul> <li> StatsMiddleware：收集爬取状态数据，并在完成时输出统计信息。</li> <li> SpiderOpenCloseMiddleware：处理爬虫的启动和关闭事件。</li> <li>SpiderMiddleware：处理其他自定义信号事件，比如爬虫创建、请求处理等。</li> </ul> <p><strong>4. 自定义中间件：</strong><br>         开发者可以根据需求编写自定义的中间件来处理请求和响应，以实现更灵活和个性化的功能，例如：</p> <ul> <li> 解析请求和响应前后的预处理和后处理逻辑。</li> <li> 添加自定义的请求头、代理、Cookie等信息。</li> <li>处理异常情况和错误重试。</li> <li>对响应数据进行加工或过滤。</li> </ul> <p><strong>配置中间件：</strong><br>         在Scrapy的settings.py配置文件中，使用`DOWNLOADER_MIDDLEWARES`和`SPIDER_MIDDLEWARES`配置项分别来启用和配置下载中间件和爬虫中间件。例如：</p> <pre><code class="language-python">DOWNLOADER_MIDDLEWARES = { 'myproject.middlewares.MyDownloaderMiddleware': 543, } SPIDER_MIDDLEWARES = { 'myproject.middlewares.MySpiderMiddleware': 543, } </code></pre> <p><strong>注意：</strong>数字`543`是中间件的优先级，数值越小，优先级越高。根据需求和顺序调整中间件的优先级。</p> <p><strong>编写中间件：</strong>为了编写自己的中间件，可以创建一个Python类并实现预定义的方法，如`process_request`、`process_response`等。在方法中编写对应的处理逻辑，可以拦截请求和响应，并在其中进行自定义操作。</p> <h3 id="%E4%B8%89.Scrapy%E5%B7%A5%E4%BD%9C%E6%B5%81%E7%A8%8B">9.2 Scrapy工作流程</h3> <p class="img-center"><a href="http://img.e-com-net.com/image/info8/3d0886a557ea4fd8bb4cfdb2fc2caece.jpg" target="_blank"><img alt="Python爬虫知识点总结（详解）_第21张图片" height="440" src="http://img.e-com-net.com/image/info8/3d0886a557ea4fd8bb4cfdb2fc2caece.jpg" width="650" style="border:1px solid black;"></a></p> <p><strong>Scrapy爬虫工作流程：</strong><br>         1.spider(爬虫)中起始的 URL 构造成 Requests 对象 ⇒ 爬虫中间件 ⇒ engine (引擎) ⇒ scheduler(调度器)；<br>         2.scheduler(调度器)把 Requests ⇒engine (引擎) ⇒ 下载中间件 ⇒ download(下载器)；<br>         3.download(下载器)发送请求，获取 Responses 响应 ⇒ 下载中间件 ⇒ engine (引擎) ⇒ 爬虫中间件 ⇒ spider(爬虫)；<br>         4.spider(爬虫)提取 URL 地址，组装成 Requests 对象 ⇒ 爬虫中间件 ⇒ engine (引擎) ⇒ scheduler(调度器)，重复步骤2；<br>         5.spider(爬虫)提取数据 ⇒ engine (引擎) ⇒ 管道处理和保存数据；</p> <h3 id="%E5%9B%9B.Scrapy%E6%A1%86%E6%9E%B6%E5%AE%89%E8%A3%85">9.3 Scrapy框架安装</h3> <p>第一种：在命令行模式下使用pip命令即可安装：</p> <pre><code>$ pip install scrapy</code></pre> <p>第二种：首先下载，然后再安装：</p> <pre><code class="language-python">$ pip download scrapy -d ./ # 通过指定国内镜像源下载 $pip download  -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy -d ./</code></pre> <pre>进入下载目录后执行下面命令安装： </pre> <pre><code>$ pip install Scrapy-1.5.0-py2.py3-none-any.whl</code> </pre> <h3 id="%E4%BA%94.Scrapy%E7%9A%84%E4%BD%BF%E7%94%A8%C2%A0">9.4 Scrapy的使用 </h3> <h4 id="5.1%E5%9F%BA%E6%9C%AC%E6%AD%A5%E9%AA%A4">9.4.1 基本步骤</h4> <p>     <strong>   1.创建新的Scrapy项目：</strong>在命令行中，使用<code>scrapy startproject</code>命令创建一个新的Scrapy项目</p> <pre><code>scrapy startproject mySpider</code></pre> <p>     <strong>   2.定义Spider：</strong>进入项目文件夹，使用<code>scrapy genspider</code>命令创建一个Spider。        </p> <pre><code>scrapy genspider demo "demo.cn"</code></pre> <p>    <strong>    3.编写Spider代码：</strong>打开生成的Spider文件（位于<code>myproject/myproject/spiders</code>目录下），根据网站的结构和需求，编写爬取和解析页面的代码逻辑。在Spider中，可以定义爬取的起始URL、如何提取数据和生成新的请求等。</p> <p>      <strong> 4.配置Spider：</strong>在Scrapy项目文件夹中的<code>settings.py</code>配置文件中，可以对Spider进行相关配置，例如设置User-Agent、设置下载中间件等。根据需求进行相应的配置。</p> <h4 id="5.2%20%E7%A8%8B%E5%BA%8F%E8%BF%90%E8%A1%8C">9.4.2 程序运行</h4> <p>在命令中运行爬虫</p> <pre><code>scrapy crawl qb     # qb爬虫的名字</code></pre> <h4 id="%C2%A05.3%20Scrapy%E6%96%87%E4%BB%B6">9.4.3 Scrapy文件</h4> <p>        当我们创建了一个scrapy项目后,继续创建了一个spider,scrapy项目后目录结构如下图：</p> <p><a href="http://img.e-com-net.com/image/info8/bde2c75aa8ff42129fb9e54e1681ae09.jpg" target="_blank"><img alt="Python爬虫知识点总结（详解）_第22张图片" height="497" src="http://img.e-com-net.com/image/info8/bde2c75aa8ff42129fb9e54e1681ae09.jpg" width="650" style="border:1px solid black;"></a></p> <p> 在Scrapy项目中，各个文件的作用如下：</p> <p><strong>        1. scrapy.cfg：</strong> `scrapy.cfg` 是 Scrapy 项目的配置文件，它是一个 INI 格式的文件。在该文件中可以配置项目的全局设置，如爬虫模块位置、日志设置等。</p> <p><strong>        2. items.py：</strong> `items.py` 文件定义了数据模型（Item），用于定义要提取的数据结构。开发者可以根据需求定义自己的 Item 类，用于存储从网页中提取的数据。</p> <p><strong>        3. middlewares.py：</strong> `middlewares.py` 文件是 Scrapy 中间件的定义和配置文件。中间件用于拦截和处理 Scrapy 引擎与下载器之间的请求和响应数据。通过编写自定义的中间件，可以对请求和响应进行预处理或后处理，例如添加请求头、处理异常等。</p> <p><strong>        4. pipelines.py：</strong>`pipelines.py` 文件用于定义数据处理管道（Pipeline）。Pipeline 负责处理从 Spider 提取到的 Item，包括数据清洗、验证、存储等操作。开发者可以在该文件中定义多个 Pipeline，并按顺序对 Item 进行处理。</p> <p><strong>        5. settings.py：</strong>`settings.py` 文件是 Scrapy 项目的设置文件。通过配置该文件，可以进行一些全局设置，如指定使用的 Spider、配置爬取延时、设置 User-Agent、启用中间件等。</p> <p><strong>        6. spiders：</strong> `spiders/` 目录是存放 Spider 的目录。在该目录下，可以创建多个 Spider 文件。Spider 是定义网页爬取和数据提取逻辑的核心组件，开发者可以根据需求编写自己的 Spider。</p> <p><strong>        7. scrapy命令行工具：</strong>Scrapy 提供了一系列的命令行工具，用于管理和操作 Scrapy 项目，例如创建项目、生成 Spider、运行 Spider 等。通过命令行工具，可以方便地进行项目的管理和操作。</p> <p></p> <p></p> </div> </div> </div> </div> </div>  <div id="SOHUCS" sid="1713478969107492864"></div> <script type="text/javascript" src="/views/front/js/chanyan.js"></script>  <div class="youdao-fixed-ad" id="detail_ad_bottom"></div> </div> <div class="col-md-3"> <div class="row" id="ad">  <div id="right-1" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_1"> </div> </div>  <div id="right-2" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_2"></div> </div>  <div id="right-3" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_3"></div> </div> </div> </div> </div> </div> </div> <div class="container"> <h4 class="pt20 mb15 mt0 border-top">你可能感兴趣的:(python,开发语言)</h4> <div id="paradigm-article-related"> <div class="recommend-post mb30"> <ul class="widget-links"> <li><a href="/article/1943269778961526784.htm" title="python中vars()的作用" target="_blank">python中vars()的作用</a> <span class="text-muted">m0_45093979</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>在Python中，vars()是一个内置函数，用于返回对象的属性和属性值的字典。它可以用于获取一个对象的命名空间中的所有变量和属性，然后以字典的形式返回这些变量和属性的名称及其对应的值。如果没有提供参数给vars()，它会返回当前作用域（scope）的变量和属性。通常在函数内部调用vars()，它将返回函数的局部命名空间中的所有变量和属性。在模块级别调用vars()，它将返回当前模块的全局命名空间</div> </li> <li><a href="/article/1943269779385151488.htm" title="C++调用python的方法" target="_blank">C++调用python的方法</a> <span class="text-muted"></span> <div>一、C++中调用python接口在线手册：https://docs.python.org/3/c-api/intro.htmlWindows环境下python安装时提供了给C++调用的头文件及库文件。C++中引用头文件include，放在所有标准引用之前。将头文件目录、库文件目录添加到工程属性。调用python提供的API，传入模块名、函数名、函数参数（封装成PyObject的形式）获取返回值并解</div> </li> <li><a href="/article/1943269779808776192.htm" title="在Windows系统中配置Python 3.11环境安装教程" target="_blank">在Windows系统中配置Python 3.11环境安装教程</a> <span class="text-muted">俊星学长</span> <a class="tag" taget="_blank" href="/search/windows/1.htm">windows</a><a class="tag" taget="_blank" href="/search/python3.11/1.htm">python3.11</a> <div>在Windows系统中配置Python3.11环境安装教程是一个相对直接且简单的过程，但为了确保所有步骤都被详细覆盖，我将分步介绍，并提供必要的背景信息和注意事项。以下是详细的安装教程：一、下载Python3.11首先，需要从Python的官方网站下载Python3.11的安装包。请按照以下步骤操作：访问Python官方网站：打开浏览器，访问Python的官方网站。在网站首页，找到并点击“Down</div> </li> <li><a href="/article/1943269526791581696.htm" title="python vars的作用" target="_blank">python vars的作用</a> <span class="text-muted">jjw_zyfx</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E5%90%8E%E7%AB%AF/1.htm">后端</a> <div>classMyDict:name="jjw"age=14result=vars(MyDict)print(result)print("*"*30)print(MyDict.__dict__)#说明vars的一个做用就是其等价于调用类的__dict__属性print(result==MyDict.__dict__)print('-'*30)print(vars())print('#'*30)#函数会</div> </li> <li><a href="/article/1943268771254824960.htm" title="项目篇：加入Python程序之如何在Python中使用C++？" target="_blank">项目篇：加入Python程序之如何在Python中使用C++？</a> <span class="text-muted">guangcheng0312q</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/c%2B%2B/1.htm">c++</a><a class="tag" taget="_blank" href="/search/windows/1.htm">windows</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>项目篇：加速Python程序之如何在Python中使用C++？通常像一些耗时的操作，我们期望在C++中去实现，然后使用Python去调用对应的接口，或者因为底层库的原因，需要支持对外的PythonAPI，那么我们通常需要支持在Python中访问C++，如何实现呢？方法比较多，本节以pybind11为例，引入一个完整的项目工程模版，如果你后续有这种需求，可以基于模版去修改。注：(懒人版)本节的所有代</div> </li> <li><a href="/article/1943267637719003136.htm" title="Python与c++互相调用（pybind11）" target="_blank">Python与c++互相调用（pybind11）</a> <span class="text-muted">欢迎下辈子光临</span> <a class="tag" taget="_blank" href="/search/CPP/1.htm">CPP</a><a class="tag" taget="_blank" href="/search/Python/1.htm">Python</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/c%2B%2B/1.htm">c++</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>1.安装pybind11看网上使用pipinstallpybind11,没有弄明白，因此下载源码编译。1.1下载pybind11gitclonehttps://github.com/pybind/pybind11.git1.2源码编译cd/pybind11mkdirbuildcdbuildcmake..make编译完成2.cpp样例//example.cpp#include#include"Abs</div> </li> <li><a href="/article/1943267008078475264.htm" title="Python vars() 函数：探索对象的内部" target="_blank">Python vars() 函数：探索对象的内部</a> <span class="text-muted">程序员喵哥</span> <a class="tag" taget="_blank" href="/search/Python/1.htm">Python</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>更多Python学习内容：ipengtao.comPython是一门具有强大而灵活的编程语言，可以访问和探索对象的内部属性。vars()函数是Python标准库中的一个强大工具，它可以获取对象的属性和属性值，并以字典的形式返回它们。在本文中，将深入研究vars()函数，探讨它的用途、示例和适用场景。前言在Python中，对象是一切。对象可以是数字、字符串、列表、字典、函数、类实例等等。每个对象都可</div> </li> <li><a href="/article/1943265243866132480.htm" title="python和C++相互调用使用" target="_blank">python和C++相互调用使用</a> <span class="text-muted">妄想出头的工业炼药师</span> <a class="tag" taget="_blank" href="/search/c%2B%2B/1.htm">c++</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>结论：首选PyBind11：综合性能、易用性最佳（GitHub⭐48k+）优先考虑Cython：涉及大量科学计算或已有Cython代码避免Boost.Python（历史包袱重）和SWIG（配置复杂），除非维护旧项目。python调用C++接口C++调用python接口在C++中使用Python库，特别是使用pybind11，是一个非常强大的方法，可以让你在C++项目中轻松地利用Python的强大功</div> </li> <li><a href="/article/1943264865850290176.htm" title="华为OD机试 2025B卷 - 士兵过河 (C++ & Python & JAVA & JS & GO)" target="_blank">华为OD机试 2025B卷 - 士兵过河 (C++ & Python & JAVA & JS & GO)</a> <span class="text-muted">无限码力</span> <a class="tag" taget="_blank" href="/search/%E5%8D%8E%E4%B8%BAOD%E6%9C%BA%E8%AF%95%E7%9C%9F%E9%A2%98%E5%88%B7%E9%A2%98%E7%AC%94%E8%AE%B0/1.htm">华为OD机试真题刷题笔记</a><a class="tag" taget="_blank" href="/search/%E5%8D%8E%E4%B8%BAod/1.htm">华为od</a><a class="tag" taget="_blank" href="/search/%E5%8D%8E%E4%B8%BAOD%E6%9C%BA%E8%80%832025A%E5%8D%B7/1.htm">华为OD机考2025A卷</a><a class="tag" taget="_blank" href="/search/%E5%8D%8E%E4%B8%BAOD2025B%E5%8D%B7/1.htm">华为OD2025B卷</a><a class="tag" taget="_blank" href="/search/%E5%8D%8E%E4%B8%BAOD%E6%9C%BA%E8%AF%952025B%E5%8D%B7/1.htm">华为OD机试2025B卷</a><a class="tag" taget="_blank" href="/search/%E5%8D%8E%E4%B8%BAOD%E6%9C%BA%E8%80%832025B%E5%8D%B7/1.htm">华为OD机考2025B卷</a> <div>士兵过河2025B卷目录点击查看：华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD2025B卷200分题型题目描述一支N个士兵的军队正在趁夜色逃亡，途中遇到一条湍急的大河。敌军在T的时长后到达河面，没到过对岸的士兵都会被消灭。现在军队只找到了1只小船，这船最多能同时坐上2个士兵。当1个士兵划船过河，用时为a[i]；0<=i<N当2个士兵坐船同时划船过河时，用时为max(a[j]</div> </li> <li><a href="/article/1943254153493016576.htm" title="【无标题】Python ---Day2 复合类型之序列类型、映射类型和集合类型的学习！！！" target="_blank">【无标题】Python ---Day2 复合类型之序列类型、映射类型和集合类型的学习！！！</a> <span class="text-muted"></span> <div>系列文章目录文章目录系列文章目录前言一、复合类型初识1.1列表类型1.1.1列表创建1.1.2列表运算1.1.3列表访问1.1.3.1索引1.1.3.2反向索引1.1.3.3切片1.1.4列表操作1.1.4.1添加数据1.1.4.2修改数据1.1.4.3删除数据1.2元组类型1.2.1元组创建1.2.2元组操作1.2.2.2查看元组1.2.2.3解包技能1.2.3元组运算1.2.4元组不可变二、映</div> </li> <li><a href="/article/1943253018807955456.htm" title="Python数据分析案例｜从模拟数据到可视化：零售门店客流量差异分析全流程" target="_blank">Python数据分析案例｜从模拟数据到可视化：零售门店客流量差异分析全流程</a> <span class="text-muted"></span> <div>1.依赖库导入importmatplotlib.pyplotaspltimportnumpyasnpimportpandasaspdfrommatplotlibimportfont_managerfromdatetimeimportdatetimematplotlib.pyplot：用于绘制图表。numpy：numpy：pandas：虽然代码中未font_manager：设置datetime：生成</div> </li> <li><a href="/article/1943249869019869184.htm" title="【机器学习-08】参数调优宝典：网格搜索与贝叶斯搜索等攻略" target="_blank">【机器学习-08】参数调优宝典：网格搜索与贝叶斯搜索等攻略</a> <span class="text-muted">云天徽上</span> <a class="tag" taget="_blank" href="/search/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/1.htm">机器学习</a><a class="tag" taget="_blank" href="/search/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/1.htm">机器学习</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a> <div>博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、</div> </li> <li><a href="/article/1943248354867736576.htm" title="Python中字符串的操作方法" target="_blank">Python中字符串的操作方法</a> <span class="text-muted">幻鸩605</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>字符串拼接使用+运算符将多个字符串连接起来。例如：s1="Hello"s2="World"result=s1+""+s2print(result)#输出：HelloWorld字符串重复使用*运算符重复字符串。例如：s="abc"result=s*3print(result)#输出：abcabcabc字符串长度使用len()函数获取字符串长度。例如：s="Python"length=len(s)pr</div> </li> <li><a href="/article/1943239151625236480.htm" title="【2025B卷专题】华为OD机试2025B卷统一考试题库清单，时间紧张就刷这个（Python/JS/C/C++）" target="_blank">【2025B卷专题】华为OD机试2025B卷统一考试题库清单，时间紧张就刷这个（Python/JS/C/C++）</a> <span class="text-muted">哪吒</span> <a class="tag" taget="_blank" href="/search/%E6%90%AC%E7%A0%96%E5%B7%A5%E9%80%86%E8%A2%ADJava%E6%9E%B6%E6%9E%84%E5%B8%88/1.htm">搬砖工逆袭Java架构师</a><a class="tag" taget="_blank" href="/search/%E5%8D%8E%E4%B8%BAod/1.htm">华为od</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/javascript/1.htm">javascript</a><a class="tag" taget="_blank" href="/search/%E5%8D%8E%E4%B8%BAOD%E6%9C%BA%E8%AF%95/1.htm">华为OD机试</a><a class="tag" taget="_blank" href="/search/2025B%E5%8D%B7/1.htm">2025B卷</a> <div>专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。2025年5月12日，华为官方已经将华为OD机试（A卷）切换为B卷。目前正在考的是B卷，按照华为OD往常的操作，B卷题目是由往</div> </li> <li><a href="/article/1943236881370116096.htm" title="PyTorch 在 Python 自然语言处理中的运用" target="_blank">PyTorch 在 Python 自然语言处理中的运用</a> <span class="text-muted">Python编程之道</span> <a class="tag" taget="_blank" href="/search/Python%E7%BC%96%E7%A8%8B%E4%B9%8B%E9%81%93/1.htm">Python编程之道</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/pytorch/1.htm">pytorch</a><a class="tag" taget="_blank" href="/search/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86/1.htm">自然语言处理</a><a class="tag" taget="_blank" href="/search/ai/1.htm">ai</a> <div>PyTorch在Python自然语言处理中的运用关键词：PyTorch，Python，自然语言处理，深度学习，文本分类，情感分析摘要：本文全面探讨了PyTorch在Python自然语言处理（NLP）领域的运用。首先介绍了相关背景知识，包括目的范围、预期读者等内容。接着详细阐述了核心概念，如词嵌入、循环神经网络等，并给出了相应的原理示意图和流程图。深入讲解了核心算法原理，结合Python代码进行详细</div> </li> <li><a href="/article/1943236882326417408.htm" title="后端领域的自然语言处理技术应用" target="_blank">后端领域的自然语言处理技术应用</a> <span class="text-muted">大厂资深架构师</span> <a class="tag" taget="_blank" href="/search/Spring/1.htm">Spring</a><a class="tag" taget="_blank" href="/search/Boot/1.htm">Boot</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E5%AE%9E%E6%88%98/1.htm">开发实战</a><a class="tag" taget="_blank" href="/search/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86/1.htm">自然语言处理</a><a class="tag" taget="_blank" href="/search/easyui/1.htm">easyui</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a><a class="tag" taget="_blank" href="/search/ai/1.htm">ai</a> <div>后端领域的自然语言处理技术应用关键词：后端领域、自然语言处理、技术应用、算法原理、实际案例摘要：本文聚焦于后端领域中自然语言处理技术的应用。首先介绍了相关背景，包括目的范围、预期读者等。接着阐述核心概念与联系，通过文本示意图和Mermaid流程图展示其原理和架构。详细讲解了核心算法原理并给出Python源代码示例，同时介绍了数学模型和公式。通过项目实战，展示代码实际案例并进行详细解释。分析了自然语</div> </li> <li><a href="/article/1943235119045210112.htm" title="【图像处理基石】如何检测到画面中的ppt并对其进行增强？" target="_blank">【图像处理基石】如何检测到画面中的ppt并对其进行增强？</a> <span class="text-muted"></span> <div>1.入门版ppt检测增强工具我们介绍一个使用Python进行PPT检测并校正画面的实现方案。这个方案主要利用OpenCV进行图像处理，通过边缘检测和透视变换技术来识别并校正PPT画面。importcv2importnumpyasnpfromPILimportImageimportmatplotlib.pyplotaspltclassPPTDetector:def__init__(self):#初始</div> </li> <li><a href="/article/1943229068665221120.htm" title="Python中什么时候需要返回值，什么时候不需要返回值？？？" target="_blank">Python中什么时候需要返回值，什么时候不需要返回值？？？</a> <span class="text-muted">似乎很简单</span> <a class="tag" taget="_blank" href="/search/Python%E5%AD%A6%E4%B9%A0%E6%97%A5%E8%AE%B0/1.htm">Python学习日记</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>在Python中，函数是否需要返回值取决于它的设计目的和功能需求。需要返回值的情况计算结果需要被后续代码使用当函数的主要目的是计算或生成数据，且调用方需要这些结果时：defadd(a,b):returna+b#结果需要被其他代码使用total=add(3,5)#需要返回值需要传递状态或信息如果函数执行后需要告诉调用方是否成功、返回状态码或错误信息：defvalidate_input(input):</div> </li> <li><a href="/article/1943229069235646464.htm" title="Python中的高阶函数---便捷的语法书写！！！！，可以简化一些函数的书写！！！" target="_blank">Python中的高阶函数---便捷的语法书写！！！！，可以简化一些函数的书写！！！</a> <span class="text-muted">似乎很简单</span> <a class="tag" taget="_blank" href="/search/Python%E5%AD%A6%E4%B9%A0%E6%97%A5%E8%AE%B0/1.htm">Python学习日记</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E5%AD%A6%E4%B9%A0/1.htm">学习</a><a class="tag" taget="_blank" href="/search/%E7%AC%94%E8%AE%B0/1.htm">笔记</a> <div>目录1.map()函数示例1：单可迭代对象（平方运算）示例2：多可迭代对象（元素相加）2.mapvs列表推导式什么是列表推导式（ListComprehension）？对比示例列表推导式的优势map的优势5.实际应用场景场景1：批量转换数据类型场景2：多列数据处理场景3：链式操作6.性能与注意事项总结3.sorted()函数1.语法：sorted(iterable,*,key=None,revers</div> </li> <li><a href="/article/1943221760212135936.htm" title="Seaborn高阶玩法全解析：从复杂图表到多图布局的可视化实战指南" target="_blank">Seaborn高阶玩法全解析：从复杂图表到多图布局的可视化实战指南</a> <span class="text-muted"></span> <div>数据可视化就像给数据“画肖像”——初级阶段是勾勒轮廓，高级阶段则是赋予灵魂。在Python可视化生态中，Seaborn凭借“一行代码出美图”的优雅，成为数据分析的“画笔利器”。但你是否遇到过这样的场景：想同时展示数据分布与统计量，却被基础图表限制；想批量绘制分面图，手动拼接效率低下；想让图表更具设计感，却对颜色搭配和注解技巧一知半解？本文将带你解锁Seaborn的高阶玩法，从复杂图表绘制到多图布局</div> </li> <li><a href="/article/1943217472173830144.htm" title="scanpy保存图片的常用方法汇总" target="_blank">scanpy保存图片的常用方法汇总</a> <span class="text-muted">Bio Coder</span> <a class="tag" taget="_blank" href="/search/%E7%A9%BA%E9%97%B4%E8%BD%AC%E5%BD%95%E7%BB%84/1.htm">空间转录组</a><a class="tag" taget="_blank" href="/search/%26amp%3B/1.htm">&</a><a class="tag" taget="_blank" href="/search/%E5%8D%95%E7%BB%86%E8%83%9E/1.htm">单细胞</a><a class="tag" taget="_blank" href="/search/scanpy/1.htm">scanpy</a><a class="tag" taget="_blank" href="/search/%E4%BF%9D%E5%AD%98/1.htm">保存</a><a class="tag" taget="_blank" href="/search/%E5%9B%BE%E7%89%87/1.htm">图片</a><a class="tag" taget="_blank" href="/search/%E6%B1%87%E6%80%BB/1.htm">汇总</a> <div>在使用Scanpy（一个用于单细胞RNA测序数据分析的Python库）时，保存图片（如可视化结果）是常见的操作。Scanpy的绘图功能主要基于Matplotlib和Seaborn，保存图片的方法也与这些库的保存机制一致。以下是Scanpy保存图片的详细方法及注意事项：1.基本保存图片的方法Scanpy的绘图函数（如sc.pl.umap、sc.pl.tsne、sc.pl.pca等）通常会返回Matp</div> </li> <li><a href="/article/1943212047722409984.htm" title="MCP Streamable HTTP 样例（qbit）" target="_blank">MCP Streamable HTTP 样例（qbit）</a> <span class="text-muted"></span> <a class="tag" taget="_blank" href="/search/pythonagent/1.htm">pythonagent</a> <div>前言模型上下文协议（ModelContextProtocol，MCP），是由Anthropic推出的开源协议，旨在实现大语言模型与外部数据源和工具的集成，用来在大模型和数据源之间建立安全双向的连接。本文代码技术栈Python3.11.8FastMCP2.10.3MCP的传输机制StandardInput/Output(stdio)StreamableHTTPServer-SentEvents(SS</div> </li> <li><a href="/article/1943211797548953600.htm" title="掌握变量命名与Python继承机制" target="_blank">掌握变量命名与Python继承机制</a> <span class="text-muted"></span> <div>掌握变量命名与Python继承机制背景简介在编程中，变量命名和继承是基础且重要的概念。良好的命名习惯可以提升代码的可读性，而继承则是一种代码复用的重要机制。本文将结合具体的书籍章节内容，深入解析变量命名规则和Python继承机制。变量命名规则变量命名是编程中最基础的部分，而正确的命名习惯能够帮助其他开发者（或未来的自己）更好地理解代码。根据书籍提供的内容，我们应当遵守以下规则：变量名只包含数字、下</div> </li> <li><a href="/article/1943209780424273920.htm" title="从零开始：构建支持上下文窗口的AI原生应用实战指南" target="_blank">从零开始：构建支持上下文窗口的AI原生应用实战指南</a> <span class="text-muted">AI天才研究院</span> <a class="tag" taget="_blank" href="/search/AI%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E4%B8%8E%E5%A4%A7%E6%95%B0%E6%8D%AE/1.htm">AI人工智能与大数据</a><a class="tag" taget="_blank" href="/search/AI-native/1.htm">AI-native</a><a class="tag" taget="_blank" href="/search/ai/1.htm">ai</a> <div>从零开始：构建支持上下文窗口的AI原生应用实战指南关键词：大语言模型（LLM）、上下文窗口、AI原生应用、token管理、对话状态保持、向量检索、记忆压缩摘要：本文从AI原生应用的核心需求出发，系统讲解支持上下文窗口的应用构建全流程。通过解析上下文窗口的技术本质、关键挑战及解决方案，结合Python代码实战和真实场景案例，帮助开发者掌握从需求分析到落地部署的完整方法。内容涵盖上下文窗口管理策略、t</div> </li> <li><a href="/article/1943198936953057280.htm" title="python进程线程协程区别_Python：线程、进程与协程(1)——概念" target="_blank">python进程线程协程区别_Python：线程、进程与协程(1)——概念</a> <span class="text-muted">weixin_39989159</span> <a class="tag" taget="_blank" href="/search/python%E8%BF%9B%E7%A8%8B%E7%BA%BF%E7%A8%8B%E5%8D%8F%E7%A8%8B%E5%8C%BA%E5%88%AB/1.htm">python进程线程协程区别</a> <div>最近的业余时间主要放在了学习Python线程、进程和协程里，第一次用python的多线程和多进程是在两个月前，当时只是简单的看了几篇博文然后就跟着用，没有仔细去研究，第一次用的感觉它们其实挺简单的，最近这段时间通过看书，看Python中文官方文档等等相关资料，发现并没有想想中的那么简单，很多知识点需要仔细去理解，Python线程、进程和协程应该是Python的高级用法。Python的高级用法有很多</div> </li> <li><a href="/article/1943195659540688896.htm" title="全栈运维的“诅咒”与“荣光”：为什么“万金油”工程师是项目成功的隐藏MVP？" target="_blank">全栈运维的“诅咒”与“荣光”：为什么“万金油”工程师是项目成功的隐藏MVP？</a> <span class="text-muted">云原生水神</span> <a class="tag" taget="_blank" href="/search/%E8%81%8C%E4%B8%9A%E5%8F%91%E5%B1%95/1.htm">职业发展</a><a class="tag" taget="_blank" href="/search/%E7%B3%BB%E7%BB%9F%E8%BF%90%E7%BB%B4/1.htm">系统运维</a><a class="tag" taget="_blank" href="/search/%E8%BF%90%E7%BB%B4/1.htm">运维</a> <div>大家好，今天，我们来聊一个特殊且至关重要的群体：运维工程师。特别是那些在项目制中，以一己之力扛起一个或多个产品生死的“全能战士”。你是否就是其中一员？你的技能树上点亮了：操作系统、网络协议、mysql与Redis中间件、Docker与K8s容器化、Ansible与Terraform自动化、Go/Python工具开发、Prometheus监控体系、opentelemetry可视化，甚至要负责信息安全</div> </li> <li><a href="/article/1943184693046341632.htm" title="Python Selenium 使用指南" target="_blank">Python Selenium 使用指南</a> <span class="text-muted"></span> <div>Selenium是一个用于自动化Web浏览器交互的强大工具，常用于网页测试、数据抓取和自动化任务。以下是Python中Selenium的详细使用说明。安装Selenium首先需要安装Selenium库和浏览器驱动：pipinstallselenium然后下载对应浏览器的驱动：Chrome:ChromeDriverFirefox:GeckoDriverEdge:EdgeDriver将驱动放在系统PA</div> </li> <li><a href="/article/1943175617759473664.htm" title="【Python进阶】Python网络协议与套接字编程：构建客户端和服务器" target="_blank">【Python进阶】Python网络协议与套接字编程：构建客户端和服务器</a> <span class="text-muted"></span> <div>1、网络通信基础与网络协议1.1网络通信模型概述网络通信是信息时代基石，它如同现实世界中的邮递系统，将数据从一处传递到另一处。其中，OSI七层模型与TCP/IP四层或五层模型是理解和构建网络通信的基础。1.1.1OSI七层模型与TCP/IP四层/五层模型OSI（开放系统互连）参考模型提出了七层结构，从物理层到应用层，每一层都有其特定的功能和职责，例如物理层关注的是信号如何在介质上传输，而应用层则处</div> </li> <li><a href="/article/1943162636753498112.htm" title="Python 网络爬虫的基本流程及 robots 协议详解" target="_blank">Python 网络爬虫的基本流程及 robots 协议详解</a> <span class="text-muted">女码农的重启</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/1.htm">网络爬虫</a><a class="tag" taget="_blank" href="/search/JAVA/1.htm">JAVA</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>数据驱动的时代，网络爬虫作为高效获取互联网信息的工具，其规范化开发离不开对基本流程的掌握和对robots协议的遵守。本文将系统梳理Python网络爬虫的核心流程，并深入解读robots协议的重要性及实践规范。一、Python网络爬虫的基本流程Python网络爬虫的工作过程可分为四个核心阶段，每个阶段环环相扣，共同构成数据采集的完整链路。1.1发起网络请求这是爬虫与目标服务器交互的第一步，通过发送H</div> </li> <li><a href="/article/1943162002683785216.htm" title="python中的pydantic是什么？" target="_blank">python中的pydantic是什么？</a> <span class="text-muted">John Song</span> <a class="tag" taget="_blank" href="/search/Python/1.htm">Python</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%89%8D%E7%AB%AF/1.htm">前端</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/pydantic/1.htm">pydantic</a> <div>Pydantic是Python中一个用于数据验证和设置管理的库，主要通过Python类型注解（TypeHints）来定义数据结构，并自动验证输入数据的合法性。它广泛应用于API开发（如FastAPI）、配置管理、数据序列化等场景。核心功能数据验证自动检查输入数据是否符合类型和约束条件（如字符串长度、数字范围等）。类型转换将原始数据（如JSON、字典）转换为Python类型（如datetime、En</div> </li> <li><a href="/article/20.htm" title="矩阵求逆（JAVA）初等行变换" target="_blank">矩阵求逆（JAVA）初等行变换</a> <span class="text-muted">qiuwanchi</span> <a class="tag" taget="_blank" href="/search/%E7%9F%A9%E9%98%B5%E6%B1%82%E9%80%86%EF%BC%88JAVA%EF%BC%89/1.htm">矩阵求逆（JAVA）</a> <div>package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *</div> </li> <li><a href="/article/147.htm" title="JDK timer" target="_blank">JDK timer</a> <span class="text-muted">antlove</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/jdk/1.htm">jdk</a><a class="tag" taget="_blank" href="/search/schedule/1.htm">schedule</a><a class="tag" taget="_blank" href="/search/code/1.htm">code</a><a class="tag" taget="_blank" href="/search/timer/1.htm">timer</a> <div>1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod</div> </li> <li><a href="/article/274.htm" title="JVM调优总结 -Xms -Xmx -Xmn -Xss" target="_blank">JVM调优总结 -Xms -Xmx -Xmn -Xss</a> <span class="text-muted">coder_xpf</span> <a class="tag" taget="_blank" href="/search/jvm/1.htm">jvm</a><a class="tag" taget="_blank" href="/search/%E5%BA%94%E7%94%A8%E6%9C%8D%E5%8A%A1%E5%99%A8/1.htm">应用服务器</a> <div>堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx</div> </li> <li><a href="/article/401.htm" title="JDBC连接数据库" target="_blank">JDBC连接数据库</a> <span class="text-muted">Array_06</span> <a class="tag" taget="_blank" href="/search/jdbc/1.htm">jdbc</a> <div>package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完</div> </li> <li><a href="/article/528.htm" title="Unsupported major.minor version 51.0（jdk版本错误）" target="_blank">Unsupported major.minor version 51.0（jdk版本错误）</a> <span class="text-muted">oloz</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a> <div>java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL</div> </li> <li><a href="/article/655.htm" title="用多个线程处理1个List集合" target="_blank">用多个线程处理1个List集合</a> <span class="text-muted">362217990</span> <a class="tag" taget="_blank" href="/search/%E5%A4%9A%E7%BA%BF%E7%A8%8B/1.htm">多线程</a><a class="tag" taget="_blank" href="/search/thread/1.htm">thread</a><a class="tag" taget="_blank" href="/search/list/1.htm">list</a><a class="tag" taget="_blank" href="/search/%E9%9B%86%E5%90%88/1.htm">集合</a> <div> 昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c</div> </li> <li><a href="/article/782.htm" title="JSP简单访问数据库" target="_blank">JSP简单访问数据库</a> <span class="text-muted">香水浓</span> <a class="tag" taget="_blank" href="/search/sql/1.htm">sql</a><a class="tag" taget="_blank" href="/search/mysql/1.htm">mysql</a><a class="tag" taget="_blank" href="/search/jsp/1.htm">jsp</a> <div>学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat</div> </li> <li><a href="/article/909.htm" title="Flex4中使用组件添加柱状图、饼状图等图表" target="_blank">Flex4中使用组件添加柱状图、饼状图等图表</a> <span class="text-muted">AdyZhang</span> <a class="tag" taget="_blank" href="/search/Flex/1.htm">Flex</a> <div>1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n</div> </li> <li><a href="/article/1036.htm" title="Android 5.0 - ProgressBar 进度条无法展示到按钮的前面" target="_blank">Android 5.0 - ProgressBar 进度条无法展示到按钮的前面</a> <span class="text-muted">aijuans</span> <a class="tag" taget="_blank" href="/search/android/1.htm">android</a> <div>在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa</div> </li> <li><a href="/article/1163.htm" title="查询汇总的sql" target="_blank">查询汇总的sql</a> <span class="text-muted">baalwolf</span> <a class="tag" taget="_blank" href="/search/sql/1.htm">sql</a> <div>select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(</div> </li> <li><a href="/article/1290.htm" title="Linux du命令和df命令区别" target="_blank">Linux du命令和df命令区别</a> <span class="text-muted">BigBird2012</span> <a class="tag" taget="_blank" href="/search/linux/1.htm">linux</a> <div> 1，两者区别    du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。 </div> </li> <li><a href="/article/1417.htm" title="AngularJS中的$apply，用还是不用？" target="_blank">AngularJS中的$apply，用还是不用？</a> <span class="text-muted">bijian1013</span> <a class="tag" taget="_blank" href="/search/JavaScript/1.htm">JavaScript</a><a class="tag" taget="_blank" href="/search/AngularJS/1.htm">AngularJS</a><a class="tag" taget="_blank" href="/search/%24apply/1.htm">$apply</a> <div> 在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命</div> </li> <li><a href="/article/1544.htm" title="[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化" target="_blank">[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化</a> <span class="text-muted">bit1129</span> <a class="tag" taget="_blank" href="/search/zookeeper/1.htm">zookeeper</a> <div>ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &</div> </li> <li><a href="/article/1671.htm" title="【Java命令一】jmap" target="_blank">【Java命令一】jmap</a> <span class="text-muted">bit1129</span> <a class="tag" taget="_blank" href="/search/Java%E5%91%BD%E4%BB%A4/1.htm">Java命令</a> <div>jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a </div> </li> <li><a href="/article/1798.htm" title="Apache 服务器安全防护及实战" target="_blank">Apache 服务器安全防护及实战</a> <span class="text-muted">ronin47</span> <div>此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到</div> </li> <li><a href="/article/1925.htm" title="unity 3d实例化位置出现布置？" target="_blank">unity 3d实例化位置出现布置？</a> <span class="text-muted">brotherlamp</span> <a class="tag" taget="_blank" href="/search/unity%E6%95%99%E7%A8%8B/1.htm">unity教程</a><a class="tag" taget="_blank" href="/search/unity/1.htm">unity</a><a class="tag" taget="_blank" href="/search/unity%E8%B5%84%E6%96%99/1.htm">unity资料</a><a class="tag" taget="_blank" href="/search/unity%E8%A7%86%E9%A2%91/1.htm">unity视频</a><a class="tag" taget="_blank" href="/search/unity%E8%87%AA%E5%AD%A6/1.htm">unity自学</a> <div>问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(</div> </li> <li><a href="/article/2052.htm" title="《重构，改善现有代码的设计》第八章 Duplicate Observed Data" target="_blank">《重构，改善现有代码的设计》第八章 Duplicate Observed Data</a> <span class="text-muted">bylijinnan</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E9%87%8D%E6%9E%84/1.htm">重构</a> <div> import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE</div> </li> <li><a href="/article/2179.htm" title="struts2更改struts.xml配置目录" target="_blank">struts2更改struts.xml配置目录</a> <span class="text-muted">chiangfai</span> <a class="tag" taget="_blank" href="/search/struts.xml/1.htm">struts.xml</a> <div>struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g</div> </li> <li><a href="/article/2306.htm" title="redis做缓存时的一点优化" target="_blank">redis做缓存时的一点优化</a> <span class="text-muted">chenchao051</span> <a class="tag" taget="_blank" href="/search/redis/1.htm">redis</a><a class="tag" taget="_blank" href="/search/hadoop/1.htm">hadoop</a><a class="tag" taget="_blank" href="/search/pipeline/1.htm">pipeline</a> <div>       最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。       首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi</div> </li> <li><a href="/article/2433.htm" title="mysql导出数据不输出标题行" target="_blank">mysql导出数据不输出标题行</a> <span class="text-muted">daizj</span> <a class="tag" taget="_blank" href="/search/mysql/1.htm">mysql</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%AF%BC%E5%87%BA/1.htm">数据导出</a><a class="tag" taget="_blank" href="/search/%E5%8E%BB%E6%8E%89%E7%AC%AC%E4%B8%80%E8%A1%8C/1.htm">去掉第一行</a><a class="tag" taget="_blank" href="/search/%E5%8E%BB%E6%8E%89%E6%A0%87%E9%A2%98/1.htm">去掉标题</a> <div>当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid</div> </li> <li><a href="/article/2560.htm" title="phpexcel导出excel表简单入门示例" target="_blank">phpexcel导出excel表简单入门示例</a> <span class="text-muted">dcj3sjt126com</span> <a class="tag" taget="_blank" href="/search/PHP/1.htm">PHP</a><a class="tag" taget="_blank" href="/search/Excel/1.htm">Excel</a><a class="tag" taget="_blank" href="/search/phpexcel/1.htm">phpexcel</a> <div>先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('</div> </li> <li><a href="/article/2687.htm" title="爱情格言" target="_blank">爱情格言</a> <span class="text-muted">dcj3sjt126com</span> <a class="tag" taget="_blank" href="/search/%E6%A0%BC%E8%A8%80/1.htm">格言</a> <div> 1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t</div> </li> <li><a href="/article/2814.htm" title="转 Activity 详解——Activity文档翻译" target="_blank">转 Activity 详解——Activity文档翻译</a> <span class="text-muted">e200702084</span> <a class="tag" taget="_blank" href="/search/android/1.htm">android</a><a class="tag" taget="_blank" href="/search/UI/1.htm">UI</a><a class="tag" taget="_blank" href="/search/sqlite/1.htm">sqlite</a><a class="tag" taget="_blank" href="/search/%E9%85%8D%E7%BD%AE%E7%AE%A1%E7%90%86/1.htm">配置管理</a><a class="tag" taget="_blank" href="/search/%E7%BD%91%E7%BB%9C%E5%BA%94%E7%94%A8/1.htm">网络应用</a> <div>activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro</div> </li> <li><a href="/article/2941.htm" title="win7安装MongoDB服务" target="_blank">win7安装MongoDB服务</a> <span class="text-muted">geeksun</span> <a class="tag" taget="_blank" href="/search/mongodb/1.htm">mongodb</a> <div>1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d</div> </li> <li><a href="/article/3068.htm" title="Javascript魔法方法:__defineGetter__,__defineSetter__" target="_blank">Javascript魔法方法:__defineGetter__,__defineSetter__</a> <span class="text-muted">hongtoushizi</span> <a class="tag" taget="_blank" href="/search/js/1.htm">js</a> <div>转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){ </div> </li> <li><a href="/article/3195.htm" title="错误的日期格式可能导致走nginx proxy cache时不能进行304响应" target="_blank">错误的日期格式可能导致走nginx proxy cache时不能进行304响应</a> <span class="text-muted">jinnianshilongnian</span> <a class="tag" taget="_blank" href="/search/cache/1.htm">cache</a> <div>昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05</div> </li> <li><a href="/article/3322.htm" title="数据源架构模式之行数据入口" target="_blank">数据源架构模式之行数据入口</a> <span class="text-muted">home198979</span> <a class="tag" taget="_blank" href="/search/PHP/1.htm">PHP</a><a class="tag" taget="_blank" href="/search/%E6%9E%B6%E6%9E%84/1.htm">架构</a><a class="tag" taget="_blank" href="/search/%E8%A1%8C%E6%95%B0%E6%8D%AE%E5%85%A5%E5%8F%A3/1.htm">行数据入口</a> <div>注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数</div> </li> <li><a href="/article/3449.htm" title="Linux各个目录的作用及内容" target="_blank">Linux各个目录的作用及内容</a> <span class="text-muted">pda158</span> <a class="tag" taget="_blank" href="/search/linux/1.htm">linux</a><a class="tag" taget="_blank" href="/search/%E8%84%9A%E6%9C%AC/1.htm">脚本</a> <div>1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d</div> </li> <li><a href="/article/3576.htm" title="ubuntu12.04上编译openjdk7" target="_blank">ubuntu12.04上编译openjdk7</a> <span class="text-muted">ol_beta</span> <a class="tag" taget="_blank" href="/search/HotSpot/1.htm">HotSpot</a><a class="tag" taget="_blank" href="/search/jvm/1.htm">jvm</a><a class="tag" taget="_blank" href="/search/jdk/1.htm">jdk</a><a class="tag" taget="_blank" href="/search/OpenJDK/1.htm">OpenJDK</a> <div>获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe</div> </li> <li><a href="/article/3703.htm" title="将数据库字段转换成设计文档所需的字段" target="_blank">将数据库字段转换成设计文档所需的字段</a> <span class="text-muted">vipbooks</span> <a class="tag" taget="_blank" href="/search/%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F/1.htm">设计模式</a><a class="tag" taget="_blank" href="/search/%E5%B7%A5%E4%BD%9C/1.htm">工作</a><a class="tag" taget="_blank" href="/search/%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F/1.htm">正则表达式</a> <div>        哈哈，出差这么久终于回来了，回家的感觉真好！         PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。</div> </li> </ul> </div> </div> </div> <div> <div class="container"> <div class="indexes"> <strong>按字母分类：</strong> <a href="/tags/A/1.htm" target="_blank">A</a><a href="/tags/B/1.htm" target="_blank">B</a><a href="/tags/C/1.htm" target="_blank">C</a><a href="/tags/D/1.htm" target="_blank">D</a><a href="/tags/E/1.htm" target="_blank">E</a><a href="/tags/F/1.htm" target="_blank">F</a><a href="/tags/G/1.htm" target="_blank">G</a><a href="/tags/H/1.htm" target="_blank">H</a><a href="/tags/I/1.htm" target="_blank">I</a><a href="/tags/J/1.htm" target="_blank">J</a><a href="/tags/K/1.htm" target="_blank">K</a><a href="/tags/L/1.htm" target="_blank">L</a><a href="/tags/M/1.htm" target="_blank">M</a><a href="/tags/N/1.htm" target="_blank">N</a><a href="/tags/O/1.htm" target="_blank">O</a><a href="/tags/P/1.htm" target="_blank">P</a><a href="/tags/Q/1.htm" target="_blank">Q</a><a href="/tags/R/1.htm" target="_blank">R</a><a href="/tags/S/1.htm" target="_blank">S</a><a href="/tags/T/1.htm" target="_blank">T</a><a href="/tags/U/1.htm" target="_blank">U</a><a href="/tags/V/1.htm" target="_blank">V</a><a href="/tags/W/1.htm" target="_blank">W</a><a href="/tags/X/1.htm" target="_blank">X</a><a href="/tags/Y/1.htm" target="_blank">Y</a><a href="/tags/Z/1.htm" target="_blank">Z</a><a href="/tags/0/1.htm" target="_blank">其他</a> </div> </div> </div> <footer id="footer" class="mb30 mt30"> <div class="container"> <div class="footBglm"> <a target="_blank" href="/">首页</a> - <a target="_blank" href="/custom/about.htm">关于我们</a> - <a target="_blank" href="/search/Java/1.htm">站内搜索</a> - <a target="_blank" href="/sitemap.txt">Sitemap</a> - <a target="_blank" href="/custom/delete.htm">侵权投诉</a> </div> <div class="copyright">版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.  </div> </div> </footer>  <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shCore.js"></script> <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shLegacy.js"></script> <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shAutoloader.js"></script> <link type="text/css" rel="stylesheet" href="/static/syntaxhighlighter/styles/shCoreDefault.css"/> <script type="text/javascript" src="/static/syntaxhighlighter/src/my_start_1.js"></script> </body> </html>

Python爬虫知识点总结（详解）

一.什么是Python爬虫

二.HTML文件格式

欢迎来到我的网页

欢迎使用Beautiful Soup!

5.3.2 对象的种类

5.3.2.1 tag

5.3.2.2 NavigableString

5.3.2.3 BeautifulSoup

5.3.2.4 Comment

5.3.3 搜索文档树

5.3.3.1 find_all()

5.3.3.2 find

5.3.3.3 find_parents() 和 find_parent()

5.3.3.4 find_next_siblings() 和 find_next_sibling()

5.3.3.5 find_previous_siblings() 和 find_previous_sibling()

5.3.3.6 find_all_next() 和 find_next()

5.3.3.7 find_all_previous() 和 find_previous()

六.Xpath

6.1 XPath解析原理

6.2 实例化etree的对象

6.3 节点

6.3.1 父节点