Python爬虫知识点总结(详解)

目录

一.什么是Python爬虫

二.HTML文件格式

2.1 HTML格式的基本结构

2.2 HTML标签

2.2.1 HTML基本标签

2.2.1.1 HTML标签

2.2.1.2 head标签

2.2.2 段落与文字

2.2.2.1 段落与文字标签 

​2.2.2.2 文字格式化标签

2.2.3 列表

2.2.4 链接

2.2.5 图片

2.2.6 表格

2.2.6.1 表格基本标签

2.2.6.2 表格结构标签

2.2.6.3 表格基本结构

2.2.6.4 表格的完整结构

​三.requests库

3.1 request使用

3.1.1 request安装

3.1.2 request响应

3.1.3 request请求

3.1.3.1 get方法

3.1.3.1.1 get方法使用

3.1.3.1.2 get方法中常用参数

3.1.3.2 post方法

3.1.3.2.1 post方法使用

3.1.3.2.2 post方法中常用参数

3.1.3.3 request方法

3.1.3.4 headers方法

四.Re正则表达式

4.1 正则表达式的结构

4.1.1 普通字符

4.1.2 元字符

4.1.3 反义字符

4.1.4 量词

4.1.5 转义字符

4.1.6 字符分枝

4.1.7 字符分组

4.1.8 贪婪匹配和懒惰匹配

4.2 Python使用正则表达式

4.2.1 导入正则表达式模块

4.2.2 常用re模块函数

五.Beautifulsoup

5.1 Beautiful Soup安装

5.1.1 软件包管理安装

5.1.2 pip或easy_install命令安装

5.1.3 安装包安装

5.2 解析器安装

5.2.1 lxml解析器安装

5.2.2 html5lib8解析器安装

5.2.3 主要解析器分析

5.3 Beautiful Soup使用

5.3.1 创建Beautiful Soup对象

5.3.2 对象的种类

5.3.2.1 tag

5.3.2.2 NavigableString 

5.3.2.3 BeautifulSoup 

5.3.2.4 Comment

5.3.3 搜索文档树

5.3.3.1 find_all()

5.3.3.2 find

5.3.3.3 find_parents() 和 find_parent()

5.3.3.4 find_next_siblings() 和 find_next_sibling()

5.3.3.5 find_previous_siblings() 和 find_previous_sibling()

5.3.3.6 find_all_next() 和 find_next()

5.3.3.7 find_all_previous() 和 find_previous()

六.Xpath

6.1 XPath解析原理

6.2 实例化etree的对象

6.3 节点

6.3.1 父节点

6.3.2 子节点

6.3.3 兄弟节点

6.4 XPath的规则

6.4.1 选取节点

6.4.2 谓语

6.4.3 选取未知节点

6.4.4 选取若干路径

七.异步爬虫

7.1 多线程

7.2 多进程

7.3 协程

7.3.1 aiohttp多任务异步协程

八.selenium

8.1 搭建环境

8.1.1 selenium安装

8.1.2 浏览器驱动安装

8.2 selenium 使用

8.2.1 元素定位

8.2.2 元素操作

8.2.3 浏览器操作方法

8.2.4 获取元素信息操作

8.2.5 鼠标操作

8.2.5.1 鼠标右键及双击

8.2.5.2 鼠标拖拽

8.2.5.3 鼠标悬停

8.2.6 键盘操作

8.2.7 窗口切换

8.2.8 截图操作

8.3 超级鹰搞定验证码

8.3.1 简介

8.3.2 使用 

九.scrapy

9.1 Scrapy基本模块

9.1.1 调度器(Scheduler)

9.1.2 下载器(Downloader)

9.1.3 爬虫(Spider) 

9.1.4 实体管道(Item Pipeline)      

9.1.5 Scrapy引擎(Scrapy Engine)

9.1.6 中间件

9.2 Scrapy工作流程

9.3 Scrapy框架安装

9.4 Scrapy的使用 

9.4.1 基本步骤

9.4.2 程序运行

9.4.3 Scrapy文件


Python爬虫知识点总结(详解)_第1张图片

一.什么是Python爬虫

        Python爬虫是使用Python编程语言编写的程序,用于自动化地获取互联网上的数据。它通过模拟浏览器的行为,发送HTTP请求并获取网页的HTML内容,然后从HTML中提取所需信息,并进行数据处理和存储。

二.HTML文件格式

        Python爬虫可以获取网页的HTML格式内容,并对其进行解析和处理。HTML(Hypertext Markup Language)是一种用于创建网页结构和内容的标记语言。接下来为大家简单的讲解一下HTML文件。

以下是一个简单的HTML文档示例:




    我的第一个网页


    

欢迎来到我的网页

   

这是一个示例段落。

    示例图片     点击这里访问示例网站

在上面的例子中: