[总章]python 爬虫

[20240111]

爬虫

爬虫基础

作用

爬虫是数据收集技术,用于模拟人的行为去批量抓取指定数据,再进行处理。

守则

  1. 不要爬取公民隐私、国家和企业机密、受权限保护的内容;
  2. 请求数量和频率不可过高
  3. 不要爬取网站robots里不允许爬取的数据

安装环境

requests HTTP请求库
  1. 安装pycharm并创建项目
  2. 在终端输入: pip install requests 或者pip3 install requests --> Successfully installed
bs4 HTML解析库
  1. 在终端输入:pip install bs4 或pip3 install bs4 --> Successfully installed

openpyxl EXCEL操作库

1、在终端输入: pip install openpyxl 或者pip3 install openpyxl --> Successfully installed

请求头获取

为模仿浏览器发送请求,需要增加请求头,在chrome工具下,查找任意Request Headers --> User-Agent:。将后面的而数据复制粘贴到代码中即可

Chrome 网络开发者工具

在浏览器中按F12以打开工具。

Network

作用:网络请求抓包

数据解析

原理

解析的局部文本内容都会在标签之间或者标签对应的属性中进行存储:

  1. 定位指定标签(定位)
  2. 提取标签或标签对应属性中存储的数据值(解析)
  3. 数据处理完毕后存储至指定格式文件中(保存)

实战1

资料来源

https://mp.weixin.qq.com/s?src=11×tamp=1704783447&ver=5007&signature=eH*gHHl5TedvuFLbCaTO1q-*LIYwjSTNT5HFlCmEhLoel2sk0UKIqNJU0EljR9K59Hg1mOuUOZu4D88i*XdCuMMK1q3SpBs86ikTwcig8LpANtgvT3u8bB3W4iWwmJky&new=1

一、了解HTML和网页结构

       在开始编写爬虫之前,了解HTML和网页的结构是非常重要的。HTML是一种标记语言,用来描述网页的结构,它由各种标签(tag)和属性组成。在爬取HTML网页时,我们需要了解网页的结构,明确要爬取的数据所在的标签和属性。

1. DOCTYPE声明:位于网页的顶部,用来指定网页所使用的HTML版本。

2. head部分:位于DOCTYPE声明之后,用来定义网页的元数据和链接外部文件,包括标题(title)、引入CSS样式表、引入JavaScript脚本等。

3. body部分:位于head部分之后,用来定义网页的实际内容。可以包括标题、段落、图片、链接、表格、列表等。

       HTML标签通过尖括号(<>)进行标记,有两种类型的标签:起始标签和结束标签。起始标签用来标记元素的开始,结束标签用来标记元素的结束。例如,`

`是一个段落的起始标签,`

`是一个段落的结束标签。

        标签可以包含属性,用来提供更多的信息。属性以键值对的形式出现在标签的起始标签中,例如`图片`,其中`src`和`alt`就是img标签的属性。

       另外,HTML还有一些常见的元素,如链接元素(``)、图片元素(``)、标题元素(`

`到`
`)、列表元素(`

你可能感兴趣的:(python,python)