python从入门到精通(十):python爬虫的初级使用

python数据分析和可视化基础

  • python爬虫分析
    • python的4种爬虫方法
    • 第一种:基于urllib库的方法
      • (一)任务介绍
      • (二)认识爬虫
        • 2.1 了解爬虫的商业价值
        • 2.2 爬虫的原理
      • (三)基本流程
        • 3.1 准备工作
          • 3.1.1 分析网页
          • 3.1.1 http请求方法
            • 3.1.1.1 请求报文
            • 3.1.1.2 响应报文
            • 3.1.1.3 请求报文常见请求方法
            • 3.1.1.4 常见的请求头字段
            • 3.1.1.5 常见的响应头字段
            • 3.1.1.6 常见的HTTP状态码及其含义
            • 3.1.1.7 了解http的请求过程
          • 3.1.2 编码规范
          • 3.1.2 导入模块
        • 3.2 获取数据
          • 3.2.1 urllib库
            • 3.2.1.1 使用urllib库发起一个get请求
            • 3.2.1.2 使用urllib库发起一个post请求
            • 3.2.1.3 网页超时处理
            • 3.2.1.4 简单反爬虫绕过
            • 3.2.1.4 获取网页响应内容
            • 3.2.1.5 获取网页响应状态
            • 3.2.1.5 获取网页响应头内容
            • 3.2.1.6 为请求传递更多参数
        • 3.3 解析数据
          • 3.3.1 bs4库
            • 3.3.1.1Tag获取整个标签
            • 3.3.1.2 Navigablestring 获取标签里的内容
            • 3.3.1.3 获取标签里的属性和属性值
            • 3.3.1.4 BeautifulSoup获取整个文档
            • 3.3.1.5 Comment输出的内容不包含注释符号
            • 3.3.1.6 BeautifulSoup文档遍历
            • 3.3.1.7 BeautifulSoup文档搜索
          • 3.3.2 re库
            • 3.3.2.1 创建模式对象
            • 3.3.2.2 没有模式对象
          • 3.3.3 数据获取解析
        • 3.4 保存数据
          • 3.4.1 安装xlwt库
          • 3.4.2 创建表格(写入)
          • 3.4.3 写入数据
          • 3.4.4 完整写入代码
          • 3.4.2 获取表格(读取)
          • 3.4.3 安装xlrd
          • 3.4.3 打开工作簿
          • 3.4.3 选择工作表
          • 3.4.3 获取工作表对象
          • 3.4.3 获取行列信息
          • 3.4.3 操作单元格
          • 3.4.1 优化表格的方法
        • 3.4 数据入库
          • 3.4.1 导入sqlite3模块
          • 3.4.1 创建数据库的连接
          • 3.4.1 创建数据表
          • 3.4.1 执行sql语句
          • 3.4.1 表中插入数据
          • 3.4.1 查询数据
          • 3.4.1 提交改动
        • 3.5 完整爬虫代码展示

python爬虫分析

python的4种爬虫方法

1.基于requests库的方法
requests是Python的一个HTTP客户端库,用于发送HTTP请求和处理响应。它提供了简洁的API,使得发送HTTP请求和处理响应变得非常简单。你可以使用requests库获取网页内容,然后配合解析库(如BeautifulSoup、lxml等)进行HTML或XML文档的解析。

2.基于Scrapy框架的方法
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。它可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。Scrapy提供了丰富的API和工具,可以方便地实现网页请求、数据提取、数据存储等操作。

3.基于Selenium库的方法
Selenium是一个用于Web应用程序测试的工具,但它同样可以用于爬取动态生成的网页内容。Selenium可以模拟真实用户操作浏览器,包括点击、输入、滚动等操作,从而获取JavaScript渲染后的网页内容。

4.基于urllib库的方法
urllib是Python内置的HTTP请求库,它可以用来打开和读取URL。虽然urllib的功能比requests库要弱一些,但在一些简单的场景下,使用urllib就足够了。

第一种:基于urllib库的方法

(一)任务介绍

爬取目标网址:

https://movie.douban.com/top250

python从入门到精通(十):python爬虫的初级使用_第1张图片
python从入门到精通(十):python爬虫的初级使用_第2张图片

(二)认识爬虫

什么是爬虫
网络爬虫,是一种按照一定规则自动抓取互联网信息的程序或者脚本。由于互联网数据的多样性和资源的有限性,根据用户需求定向抓取相关网页并分析已成为如今主流的爬取策略。

爬虫可以做什么
你可以爬取妹子的图片,爬取自己想看的视频等等,只要你能通过浏览器访问的数据都可以通过爬虫获取。

爬虫的本质是什么
模拟浏览器打开网页,获取网页中我们想要的那部分数据。

百度指数网站:
用来查看用户搜索量和访问量的网站,查看用户群体比较关注的网站

index.baidu.com/v2/index.html#/

python从入门到精通(十):python爬虫的初级使用_第3张图片

2.1 了解爬虫的商业价值

2.2 爬虫的原理

Python爬虫的原理是:首先,它将网页的URL网址提取出来,然后利用Python的urlliib库下载网页的源代码。其次,利用正则表达式从源代码中提取出有效的网页内容,确定网页的特征,从中收集有价值的数据。最后,将收集到的数据写入文本文件、数据库或其他格式中,以便用户调用。
python从入门到精通(十):python爬虫的初级使用_第4张图片
python从入门到精通(十):python爬虫的初级使用_第5张图片

(三)基本流程

准备工作
通过浏览器查看分析目标网页,学习编程基础规范。

获取数据
通过HTTP库向目标站点发起请求,请求可以包含额外的header等信息,如果服务器能正常响应,会得到一个Response,便是所要获取的页面内容。

解析内容
得到的内容可能是HTML、json等格式,可以用页面解析库、正则表达式等进行解析。

保存数据
保存形式多样,可以存为文本,也可以保存到数据库,或者保存特定格式的文件。

python从入门到精通(十):python爬虫的初级使用_第6张图片

3.1 准备工作

我们需要分析网站,分析哪些是我们需要的,特征是什么,怎么提取?

1.观察网站的url

https://movie.douban.com/top250?start=25&filter=  # 测试删掉发现filter= 没有作用 可以去掉
https://movie.douban.com/top250?start=25   #测试发现start=25 表示从25个开始 一页25个

python从入门到精通(十):python爬虫的初级使用_第7张图片

3.1.1 分析网页

通过开发者工具(F12)来快速帮助我们定位我们想要的数据的位置,特征,标签等一系列我们需要的东西
python从入门到精通(十):python爬虫的初级使用_第8张图片

python从入门到精通(十):python爬虫的初级使用_第9张图片
python从入门到精通(十):python爬虫的初级使用_第10张图片

python从入门到精通(十):python爬虫的初级使用_第11张图片

3.1.1 http请求方法
3.1.1.1 请求报文

python从入门到精通(十):python爬虫的初级使用_第12张图片

3.1.1.2 响应报文

python从入门到精通(十):python爬虫的初级使用_第13张图片

3.1.1.3 请求报文常见请求方法

python从入门到精通(十):python爬虫的初级使用_第14张图片

3.1.1.4 常见的请求头字段

以下是常见的HTTP请求头字段:

Accept:表明客户端所能够接受的响应数据格式
Authorization:携带身份验证信息
Content-Length:请求体的长度
Content-Type:请求体的数据类型
User-Agent:浏览器或其他客户端的标识信息
Referer:从哪个页面发送的请求
Cookie:携带客户端的cookie信息

3.1.1.5 常见的响应头字段

以下是常见的HTTP响应头字段:

Cache-Control:缓存控制策略,例如no-cache、max-age等
Content-Encoding:响应数据的压缩方式,例如gzip、deflate等
Content-Type:响应数据的数据类型
ETag:标识响应资源的唯一版本号
Last-Modified:响应资源的最后修改时间
Server:服务器类型和版本
Set-Cookie:服务端设置cookie信息

3.1.1.6 常见的HTTP状态码及其含义

HTTP协议定义了大量的状态码来表示服务器对客户端请求的响应结果。常见的状态码包括:

200 OK:表示请求成功
201 Created:表示请求已经被处理,并且新资源已经被创建
204 No Content:表示请求已经被成功处理,但是没有返回任何内容
400 Bad Request:表示请求无效或者不完整
401 Unauthorized:表示未经授权的请求
403 Forbidden:表示服务器拒绝执行请求
404 Not Found:表示请求的资源不存在
500 Internal Server Error:表示服务器出错

3.1.1.7 了解http的请求过程
3.1.2 编码规范

python从入门到精通(十):python爬虫的初级使用_第15张图片

def main(a):
    print("hello",a)

main(2)

if __name__ == '__main__':  # 定义程序的入口 ,当前这个程序调用的时候执行,主要是为了集中调用函数没不至于太分散找不到
    #还可以在这里控制多个函数之间的流程和顺序,是代码更简洁,便利
    main(1)
3.1.2 导入模块

这里先导入爬虫所需要的模块 下面还介绍了几种导入模块的方法

import bs4  #网页解析,获取数据
import re  #正则表达式,进行文字匹配
import urllib.request urllib.error #制定URL,获取网页数据
import xlwt # 进行excel操作
import sqlite3 # 进行SQLite数据库操作import

python从入门到精通(十):python爬虫的初级使用_第16张图片
python console pip导入模块
python从入门到精通(十):python爬虫的初级使用_第17张图片
python setting添加模块
python从入门到精通(十):python爬虫的初级使用_第18张图片
点击加号添加模块
python从入门到精通(十):python爬虫的初级使用_第19张图片

3.2 获取数据

python从入门到精通(十):python爬虫的初级使用_第20张图片

3.2.1 urllib库
3.2.1.1 使用urllib库发起一个get请求
import urllib.request    #导入urllib库

response = urllib.request.urlopen('https://www.baidu.com')  # urlopen 作用是下载网页内容
print(response.read().decode('utf-8')) # 使用response.read读取网页内容 对获取到的网页源码进utf-8解码
<html>
<head>
	<script>
		location.replace(location.href.replace("https://","http://"));
	</script>
</head>
<body>
	<noscript><meta http-equiv="refresh" content="0;url=http://www.baidu.com/"></noscript>
</body>
</html>
3.2.1.2 使用urllib库发起一个post请求

http请求与响应测试网站,post请求需要传递参数,因此我们需要使用这个网站来测试我们传递的参数有没有实现

http://httpbin.org

python从入门到精通(十):python爬虫的初级使用_第21张图片
python从入门到精通(十):python爬虫的初级使用_第22张图片
python从入门到精通(十):python爬虫的初级使用_第23张图片

测试我们的post数据能否发出

from bs4 import BeautifulSoup
import re
import urllib.request,urllib.error
import xlwt
import sqlite3

#urllib.parse模块是一个用于解析URL的工具包,支持各种对URL的操作,包括拆分、拼接、编码、解码等。
import urllib.parse  

# bytes 解析成二进制的数据用来传输
data = bytes(urllib.parse.urlencode({"hello":"world"}),encoding="utf-8")

#将二进制的data作为参数传递到方法里
response = urllib.request.urlopen("http://httpbin.org/post",data= data)

print(response.read().decode("utf-8"))

网页内容响应

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "hello": "world"
  }, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Content-Length": "11", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "Python-urllib/3.12", 
    "X-Amzn-Trace-Id": "Root=1-65ae90c6-297103042ee790c474ae25bb"
  }, 
  "json": null, 
  "origin": "123.119.77.156", 
  "url": "http://httpbin.org/post"
}

get方法获取网站响应内容

import urllib.request

response = urllib.request.urlopen('http://httpbin.org/get')
print(response.read().decode('utf-8')) #对获取到的网页源码进utf-8解码
{
  "args": {}, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Host": "httpbin.org", 
    "User-Agent": "Python-urllib/3.12", 
    "X-Amzn-Trace-Id": "Root=1-65ae9140-44be121444ebb21c2fc87877"
  }, 
  "origin": "123.119.77.156", 
  "url": "http://httpbin.org/get"
}
3.2.1.3 网页超时处理

规定时间内没有响应,就会报错,需要做异常处理

try:
    response = urllib.request.urlopen('http://httpbin.org/get', timeout=0.01)  # 超过0.01秒没有响应就报错
    print(response.read().decode('utf-8')) #对获取到的网页源码进utf-8解码
except Exception as e:
    print(e)
<urlopen error timed out>
import urllib.request
try:
    response = urllib.request.urlopen('http://httpbin.org/get', timeout=0.01)
    print(response.read().decode('utf-8')) #对获取到的网页源码进utf-8解码
    except urllib.error.URLError as e:
        if hasattr(e,"code"):   #  打印错误状态码
            print(e.code)
        if hasattr(e,"reason"):  # 打印错误问题原因
            print(e.reason)

3.2.1.4 简单反爬虫绕过
import urllib.request
import urllib.parse

url = 'http://douban.com'
#模拟浏览器头部信息,向豆瓣服务器发送消息

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36" 					 # 用户代理,表示告诉豆瓣服务器,我们是什么类型的机器、浏览器(本质上是告诉测览器,我们可以接收什么水平的文件内容
}

req = urllib.request.Request(url=url,headers=headers)
response = urllib.request.urlopen(req)
print(response.read().decode('utf-8')) #对获取到的网页源码进utf-8解码
print(response.getheaders())  #h获取请求头
3.2.1.4 获取网页响应内容
#获取网页响应内容
response = urllib.request.urlopen("http://httpbin.org/get")
print(response.read().decode("utf-8"))
3.2.1.5 获取网页响应状态
#获取网页响应内容
response = urllib.request.urlopen("http://httpbin.org/get")
print(response.status)
200
3.2.1.5 获取网页响应头内容
#获取网页响应内容
response = urllib.request.urlopen("http://httpbin.org/get")
print(response.getheaders())
[('Date', 'Thu, 01 Feb 2024 04:19:30 GMT'), ('Content-Type', 'application/json'), ('Content-Length', '275'), ('Connection', 'close'), ('Server', 'gunicorn/19.9.0'), ('Access-Control-Allow-Origin', '*'), ('Access-Control-Allow-Credentials', 'true')]

单独获取一个响应头参数的值

#获取网页响应内容
response = urllib.request.urlopen("http://httpbin.org/get")
print(response.getheader('Content-Type'))
application/json
3.2.1.6 为请求传递更多参数
url  = "https://www.baidu.com/"
headers = {
    'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36"
}
# 封装一个request对象,传递初始化的参数的值
req = urllib.request.Request(url, headers=headers,data=data,method='POST')
 

第一部分:获取所有页面数据的代码已经完成

from bs4 import BeautifulSoup
import re
import urllib.request,urllib.error
import xlwt
import sqlite3

def main():
    baseurl = "https://movie.douban.com/top250?start="
    askURL(baseurl)

# 爬取所有250个网页内容
def getData(baseurl):
    datalist =[]
   # 循环爬取所有页面
    for i in range(0,250,25):
       url = baseurl + str(i)
       html= askurl(url)
    
# 爬取单个网页内容
def askURL(url):
    headers ={
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
    }
    req = urllib.request.Request(url,headers=headers)
    try:
        response = urllib.request.urlopen(req)
        html = response.read().decode('utf-8')
        print(html)
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)
    return html



if __name__ == '__main__':
    # 定义程序的入口 ,当前这个程序调用的时候执行,主要是为了集中调用函数没不至于太分散找不到
    # 还可以在这里控制多个函数之间的流程和顺序,是代码更简洁,便利
    main()
3.3 解析数据
3.3.1 bs4库

BeautifulSoup4将复杂的HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可归纳为4种:

  • Tag
  • Navigablestring
  • BeautifulSoup
  • Comment
3.3.1.1Tag获取整个标签
from bs4 import BeautifulSoup
# 逐一解析数据 把html使用html.parser进行解析
bs = BeautifulSoup(html,"html.parser")
print(bs.a)  # 返回找到的第一个a标签,返回时的整个标签 Tag
print(bs.title)
<title>百度一下你就知道<title>
3.3.1.2 Navigablestring 获取标签里的内容
bs = BeautifulSoup(html,"html.parser")
print(bs.title.string)  # 返回找到的第一个title标签的内容 字符串
百度一下你就知道
3.3.1.3 获取标签里的属性和属性值
bs = BeautifulSoup(html,"html.parser")
print(bs.a.attrs)  # 返回找到的第一个title标签的属性和属性值,字典形式
{'href': 'https://accounts.douban.com/passport/login?source=movie', 'class': ['nav-login'], 'rel': ['nofollow']}
3.3.1.4 BeautifulSoup获取整个文档
bs = BeautifulSoup(html,"html.parser")
print(bs)  # 返回整个文档的内容
3.3.1.5 Comment输出的内容不包含注释符号
bs = BeautifulSoup(html,"html.parser")
print(bs.a.string)  # Comment 是一个特殊的NavigableString ,输出的内容不包含注释符号
3.3.1.6 BeautifulSoup文档遍历
bs = BeautifulSoup(html,"html.parser")
print(bs.a.contens)  # 返回title中的所有contens  列表形式 可以用列表遍历
print(bs.a.contens[2])
3.3.1.7 BeautifulSoup文档搜索

1.find_all()
字符串过滤,会查找与字符串完全匹配的内容

bs = BeautifulSoup(html,"html.parser")
a_list = bs.find_all("a")    # 查找所有的a标签

2.search()
正则表达式搜索:使用search()方法来匹配内容

a_list =  bs.find_all(re.compile("a"))

3.自己写方法查询

def name_is_exists(tag):
    return tag.has_attr("name")   # 查询标签中属性的名字为name的
    
t_list = bs.find_all(name_is_exists)
for tag in t_list:
    print(tag)

4.kwargs 参数

t_list = bs.find_all(id="head")   # 查找所有的id=head的标签
t_list = bs.find_all(class=True)
t_list = bs.find_all(herf="http://news.baidu.com")

5.text参数

t_list = bs.find_all(text="hao123")   # 查找所有的id=head的标签
t_list = bs.find_all(text=["hao123","新闻","贴吧"])
for tag in t_list:
    print(tag)
t_list = bs.find_all(text = re.compile("\d")) # 应用正则表达式来查找包含特定文本的内容

6.limit参数

t_list = bs.find_all("a",limit=3)   # 查找前三个a标签

7.css选择器

t_list = bs.select("a")    # 查找所有的a标签
t_list = bs.select(".mnav") #  查找所有的类名为.mnav标签
t_list = bs.select("#u1") #  查找所有的id为#u1的标签
t_list = bs.select("a[class='bri']") #  查找属性为bri的标签
t_list = bs.select("head > title") #  查找head标签下的title标签
t list = bs.select(".mnav ~ .bri")  # 查找.mnav的兄弟标签.bri的text
print(t_list[0].get_text())
3.3.2 re库

具体re库的使用请看我的另一边文章:
python从入门到精通(八): python正则表达式

3.3.2.1 创建模式对象
import re
pat = re.compile("AA")   # 此出的AA,是正则表达式,用来去验证其他的字符串
m = pat.search("CBA")  # search字符串被核验的内容
m = pat.search("ABCAA")
m= pat.search("AABCAADDCCAAA")  # search方法,进行比对查批
print(m)
3.3.2.2 没有模式对象
m= re.search("asd","Aasd") # 前面的字符串是规则(模板),后面的字符串是被校验的对象
print(m)
print(re.findall("a" "ASDaDFGAa")) # 前面字符串是规则(正则表达式),后面字符串是被校验的字符串
print(re.findall("[A-Z]","ASDaDFGAa"))
print(re.findall("[A-Z+]","ASDaDFGAa"))
print(re.findall)
print(re.sub("a" "A" "abcdcasd"))
#找到a用A替换,在第三个字符串中查找"A

#建议在正则表达式中,被比较的字符串前面加上r,不用担心转义字符的问题
a = r"\aabd-\'"
3.3.3 数据获取解析

我们分析网页电影部分,发现首页25个电影都分别放在下面图片中的25个li里面,而且class的名字也都是item,我们的想法是就是其中一个li里面怎么分析提取我们需要的东西,然后循环遍历其他li去提取不就行了吗
python从入门到精通(十):python爬虫的初级使用_第24张图片

首先为了简单且直观的审查代码,我们把代码改成只获取一页内容的25个电影

for i in range(0,1):
    url = baseurl + str(i*25)
    html = askurl(url)
    print(html)

然后使用BeautifulSoup来解析我们获取的一页内容html

soup = BeautifulSoup(html, "html.parser")   # 逐一解析数据 把html使用html.parser解析器进行解析

我们使用BeautifulSoup的方法find_all提取我们需要的标签内容,也就是整个文档中的class的名字叫item的所有div div class=item的标签内容,使用for循环遍历10个页面的所有的符合要求的标签,这段代码可以拿到所有的item标签的内容

for item in soup.find_all("div" class_="item"):
	data = [] # 用来存储所有的内容
	print(item)

我们打印出item来看看我们获取的内容是什么,打印出来的是首页25个li里面的div是item的内容,也就是说这是网页中的单独一个的电影的所有内容,就和下面图片里红框显示的一样我们,每个红框也就是电影的内容是一样的结构,我们分析其中一个item的规律和怎么去匹配就够了
python从入门到精通(十):python爬虫的初级使用_第25张图片

python从入门到精通(十):python爬虫的初级使用_第26张图片

我们只需要分析其中一个电影介绍的代码就可以,使用下面代码只返回一个item标签,也就是只返回肖申克的救赎这一个栏目涉及的代码

for item in soup.find_all("div" class_="item"):
	data = [] # 用来存储所有的内容
	print(item)
	break

接下来我们分析一个栏目的电影html以及我们需要匹配的那些内容和如何使用正则表达式来匹配这些内容,先看一个item标签的代码的内容是:

</div>
<div class="info">
<div class="hd">
<a class="" href="https://movie.douban.com/subject/1292052/">
<span class="title">肖申克的救赎</span>
<span class="title"> / The Shawshank Redemption</span>
<span class="other"> / 月黑高飞()  /  刺激1995()</span>
</a>
<span class="playable">[可播放]</span>
</div>
<div class="bd">
<p class="">
                            导演: 弗兰克·德拉邦特 Frank Darabont   主演: 蒂姆·罗宾斯 Tim Robbins /...<br/>
                            1994 / 美国 / 犯罪 剧情
                        </p>
<div class="star">
<span class="rating5-t"></span>
<span class="rating_num" property="v:average">9.7</span>
<span content="10.0" property="v:best"></span>
<span>2978415人评价</span>
</div>
<p class="quote">
<span class="inq">希望让人自由。</span>
</p>
</div>
</div>
</div>

我们需要匹配电影的链接、电影的图片、电影的名称、电影的评分 、概述 、影片的相关内容
python从入门到精通(十):python爬虫的初级使用_第27张图片

我们开始分析使用正则表达式怎么去匹配这些内容,以下是所有需要匹配的html和正则表达式对应关系

电影链接

#标签
<a href="https://movie.douban.com/subject/1292052/">
#正则  影片详情链接的规则
findLink = re.compile(r'')   # 创建正则表达式对象,表示规则(字符串的模式)

电影图片

#标签
<img alt="肖申克的救赎" class="" src="https://img3.doubanio.com/view/photo/s_ratio_poster/public/p480747492.jpg" width="100"/>
#正则  
findImgSrc = re.compile(r',re.S)  # re.s 让换行符包含在字符中

电影的片名

#标签
<span class="title">肖申克的救赎</span>
<span class="title"> / The Shawshank Redemption</span>
#正则 影片片名
findTitle =re.compile(r'(.*)')  

电影的评分

#标签
<span class="rating_num" property="v:average">9.7</span>
#正则  影片评分
findRating = re.compile(r'(.*)')

电影的评价人数

#标签
<span>2978415人评价</span>
#正则  # 找到评价人数
findJudge =re.compile(r'(\d*)人评价')

电影的概况

#标签
<span class="inq">希望让人自由。</span>
#正则  # 找到概况
findInq =re.compile(r'(.*)')

影片的相关内容

#标签
<p class="">
                            导演: 弗兰克·德拉邦特 Frank Darabont   主演: 蒂姆·罗宾斯 Tim Robbins /...<br/>
                            1994 / 美国 / 犯罪 剧情
                        </p>
#正则  找到影片的相关内容
findBd = re.compile(r'

(.*?)

'
,re.S) #使 . 匹配包括换行符在内的任意字符。

好知道怎么匹配我们需要的东西了,我们就是要使用re库来匹配所有的我们需要的内容,先将item转化成字符串,这样item就可以使用正则表达式了,我们使用find_all来匹配我们符合我们写的正则表达式


        for item in soup.find_all("div", class_="item"):   #查找符合要求的字符串,形成列表
            print(item) #测试:查看电影item全部信息
            break
            data = []  #用于保存所有数据
            item = str(item)
            Link = re.findall(findLink, item)[0]  # re.findall查询所有符合条件的字符串,返回一个列表
            data.append(Link)
            ImgSrc = re.findall(findImgSrc, item)[0]
            data.append(ImgSrc)
            Titles = re.findall(findTitle, item)     #有的片名可能只有一个中文名,没有外国名
            if (len(Titles)) == 2:					
                ctitle = Titles[0]
                data.append(ctitle)             #添加中文名
                otitle = Titles[1].replace("/","")
                data.append(otitle)            #添加外国名
            else:
                data.append(Titles[0])
                data.append(" ")           #外国名字留空
            Rating = re.findall(findRating, item)[0]
            data.append(Rating)
            Judge = re.findall(findJudge, item)[0]
            data.append(Judge)
            Inq = re.findall(findInq, item)
            if (len(Inq) != 0 ):
                Inq = Inq[0].replace("。","")                     # 去掉 。
                data.append(Inq)
            else:
                data.append(" ")
            Bd = re.findall(findBd, item)[0]
            Bd = re.sub(r'(\s+)?',"",Bd)   # 去掉换行符
Bd = re.sub(r'/', "", Bd) # 去掉 / data.append(Bd.strip())

其中这一段代码为什么这么写呢,假如第一个电影有两个名字就会在列表中有两个位置,但是第二个电影只有一个名字返回列表的时候就占一个位置,那第一个列表和第二个列表对比内容就篡位了,第一个列表的名字可能对应的第二个列表中评分了,具体我们来看返回内容

Titles = re.findall(findTitle, item)     #有的片名可能只有一个中文名,没有外国名
            if (len(Titles)) == 2:					
                ctitle = Titles[0]
                data.append(ctitle)             #添加中文名
                otitle = Titles[1].replace("/","")
                data.append(otitle)            #添加外国名
            else:
                data.append(Titles[0])
                data.append(" ")           #外国名字留空

原本返回之这样的,但是你没有判断片名的数量,就会导致内容出现问题,

python从入门到精通(十):python爬虫的初级使用_第28张图片
下面这个只是举例,如果数据上下不对应,我们在写入表格的时候每列对应的内容就不一样,我们只需要把没有片名的留个空位置就行,这样表格就会是空格而不是内容前移了
[‘https://movie.douban.com/subject/1292052/’, ‘https://img3.doubanio.com/view/photo/s_ratio_poster/public/p480747492.jpg’]
[‘https://movie.douban.com/subject/1291546/’, ‘霸王别姬’,]

最后附上完整代码的数据获取代码

def get_data(baseurl):
    datalist = []
    # 循环爬取所有页面
    for i in range(0,1):
        url = baseurl + str(i*25)
        html = askurl(url)
        #print(html)

        # 逐一解析数据 把html使用html.parser进行解析
        soup = BeautifulSoup(html, "html.parser")

        # 引入正则表达式,匹配满足的特征的字符串
        for item in soup.find_all("div", class_="item"):   #查找符合要求的字符串,形成列表
            #print(item) #测试:查看电影item全部信息
            #break
            data = []  #用于保存所有数据
            item = str(item)
            Link = re.findall(findLink, item)[0]  # re.findall查询所有符合条件的字符串,返回一个列表
            data.append(Link)
            ImgSrc = re.findall(findImgSrc, item)[0]
            data.append(ImgSrc)
            Titles = re.findall(findTitle, item)     #片名可能只有一个中文名,没有外国名
            if (len(Titles)) == 2:
                ctitle = Titles[0]
                data.append(ctitle)             #添加中文名
                otitle = Titles[1].replace("/","")
                data.append(otitle)            #添加外国名
            else:
                data.append(Titles[0])
                data.append(" ")           #外国名字留空
            Rating = re.findall(findRating, item)[0]
            data.append(Rating)
            Judge = re.findall(findJudge, item)[0]
            data.append(Judge)
            Inq = re.findall(findInq, item)
            if (len(Inq) != 0 ):
                Inq = Inq[0].replace("。","")                     # 去掉 。
                data.append(Inq)
            else:
                data.append(" ")
            Bd = re.findall(findBd, item)[0]
            Bd = re.sub(r'(\s+)?',"",Bd)   # 去掉换行符
Bd = re.sub(r'/', "", Bd) # 去掉 / data.append(Bd.strip()) datalist.append(data) print(data) return datalist
3.4 保存数据

python从入门到精通(十):python爬虫的初级使用_第29张图片

3.4.1 安装xlwt库
pip install xlwt
3.4.2 创建表格(写入)

xlwt对Excel文件进行写操作的时候,只能对通过xlwt新建的Excel文件进行写操作,无法直接对已经存在的Excel文件进行写操作。如果想要对已经存在的Excel文件进行写操作需要使用后面的xlutils模块。保存数据需要利用python库xlwt将抽取的数据datalist写入Excel表格。

新建工作簿和工作表
cell_overwrite_ok=True 重新写入会自动覆盖之前的内容不会报错

import xlwt

workbook = xlwt.Workbook(encoding='utf-8')     # 创建workbook对象 新建一个工作簿对象
worksheet = workbook.add_sheet('sheet1',cell_overwrite_ok=True)        # 创建工作表 
worksheet.write(0,0,'hello')   #写入数据,第一行参数,第二个参数"列”,第三个参数内容
workbook.save('student.xls')  #文件保存到指定位置

python从入门到精通(十):python爬虫的初级使用_第30张图片
python从入门到精通(十):python爬虫的初级使用_第31张图片
利用代码将九九乘法表输出在表格

import xlwt

i = 1
workbook = xlwt.Workbook(encoding='utf-8')     # 创建workbook对象
worksheet = workbook.add_sheet('sheet1')        # 创建工作表
while i < 10:
    j = 1
    while j <= i:
        worksheet.write(i-1,j-1,'%d * %d = %d' % (j,i,j*i))
        j += 1
    i += 1

# worksheet.write(0,0,'hello')   #写入数据,第一行参数,第二个参数"列”,第三个参数内容
workbook.save('test.xls')
3.4.3 写入数据

电影表头

worksheet.write(0, 0, '电影名称')
worksheet.write(0, 1, '电影评分')
worksheet.write(0, 2, '电影评论')
worksheet.write(0, 3, '电影概述')
worksheet.write(0, 4, '电影内容')
worksheet.write(0, 5, '电影链接')
worksheet.write(0, 6, '电影图片')

# 循环写入
col = ("电影链接","图片链接","电影中文名称","电影外语名称","电影评分","评论人数","电影概述","电影的相关内容")
    for i in range(len(col)):
        sheet.write(0,i,col[i])
3.4.4 完整写入代码
save_path = r"D:\水利部\豆瓣网电影TOP250.xls"
save_data(datalist, save_path)
def save_data(datalist,save_path):
    book = xlwt.Workbook(encoding="utf-8",style_compression=0)
    sheet = book.add_sheet("豆瓣网电影TOP250",cell_overwrite_ok=True)
    col = ("电影链接","图片链接","电影中文名称","电影外语名称","电影评分","评论人数","电影概述","电影的相关内容")
    for i in range(len(col)):
        sheet.write(0,i,col[i])
    for i in range(len(datalist)):
        data = datalist[i]
        for j in range(len(data)):
            sheet.write(i+1, j,data[j])
    book.save(save_path)
3.4.2 获取表格(读取)

xlrd用来读取Excel文件内容非常方便,操作步骤和通过Excel软件操作Excel文件一样方便。

3.4.3 安装xlrd
pip install xlrd
3.4.3 打开工作簿
mport xlrd
wb = xlrd.open_workbook('D:\媒体部\豆瓣网电影TOP250.xls')
3.4.3 选择工作表

一个工作簿中可能包含多个工作表

book_names = wb.sheet_names()  # 获取工作簿中所有工作表的表名
print(s_names)
['sheet1', 'sheet2']
3.4.3 获取工作表对象

工作簿对象.sheets() - 获取工作簿中所有工作表对应的工作表对象
工作簿对象.sheet_by_index(下标) - 获取指定下标对应的工作表对象
工作簿对象.sheet_by_name(表名) - 获取指定表名对应的工作表对象

book_sheets = wb.sheets()
print(book_sheets)
print(book_sheets[0])

sheet1 = df.sheet_by_index(1)
print(sheet1) 

sheet2 = df.sheet_by_name('sheet2')
print(sheet2)
3.4.3 获取行列信息

工作表对象.nrows - 获取工作表中的行数
工作表对象.ncols - 获取工作表中的列数

print(sheet1.nrows)
print(sheet1.ncols)

工作表对象.row_values(行下标) - 获取指定下标对应的行中所有的数据,结果以列表的形式返回
工作表对象.col_values(列下标) - 获取指定下标对应的列中所有的数据,结果以列表的形式返回(下标从0开始)

print(sheet1.row_values(1))
print(sheet1.col_values(0))
根据之前获取行数结合获取整行的方法,可以通过循环一行一行的将整个excel:

for x in range(sheet1.nrows):
    print(sheet1.row_values(x))
3.4.3 操作单元格

工作表对象.row(行下标) - 获取指定下标对应的行中所有的单元格。结果是一个列表,列表中的元素是单元格对象(注意不是单元格内容)
工作表对象.col(列下标) - 获取指定下标对象的列中所有的单元格。
工作表对象.cell(行下标, 列下标) - 获取指定行下标和列下标对应的单元格对象。
单元格对象.value - 获取指定单元格中的值

print(sheet1.row(1))
print(sheet1.col(1))
print(sheet1.cell(3, 0))
print(sheet1.row(1)[0].value)
print(sheet1.col(1)[2].value)
print(sheet1.cell(3, 0).value)
3.4.1 优化表格的方法
ont = xlwt.Font()
font.name = '微软雅黑'
font.bold = True  # 字体加粗
font.underline = True  # 添加下划线
font.italic = True  # 设置字体为斜体
font.colour_index = 2 # 设置字体颜色

alignment = xlwt.Alignment()  # 设置对齐方式
# 设置水平对齐方式,可以是 HORZ_GENERAL, HORZ_LEFT, HORZ_CENTER, HORZ_RIGHT, HORZ_FILLED, HORZ_JUSTIFIED, HORZ_CENTER_ACROSS_SEL, HORZ_DISTRIBUTED
alignment.horz = xlwt.Alignment.HORZ_CENTER 
# 设置垂直对齐方式,可以是 VERT_TOP, VERT_CENTER, VERT_BOTTOM, VERT_JUSTIFIED, VERT_DISTRIBUTED
alignment.vert = xlwt.Alignment.VERT_CENTER

pattern = xlwt.Pattern()  # 设置背景色
# 可是0 = Black, 1 = White, 2 = Red, 3 = Green, 4 = Blue, 5 = Yellow, 6 = Magenta, 7 = Cyan, 16 = Maroon, 17 = Dark Green, 18 = Dark Blue, 19 = Dark Yellow , almost brown), 20 = Dark Magenta, 21 = Teal, 22 = Light Gray, 23 = Dark Gray
pattern.pattern_fore_colour = 5 

style = xlwt.XFStyle()
style.font = font
style.alignment = alignment
style.pattern = pattern
worksheet.write(0, 0, label = 'Hello world!', style)  # 使用格式
3.4 数据入库

SQLite是python自带的数据库,不需要任何配置,使用sqlite3模块就可以驱动它。

3.4.1 导入sqlite3模块
import sqlite3
3.4.1 创建数据库的连接
# 创建与数据库的连接
conn = sqlite3.connect('test.db')

建立与数据库的连接后,需要创建一个游标cursor对象,该对象的.execute()方法可以执行sql语句,我们可以够进行数据操作。

#创建一个游标 cursor
c = conn.cursor()
3.4.1 创建数据表
# 建表的sql语句
sql = '''CREATE TABLE product
           (序号 TEXT,
            品名 TEXT,
            型号 TEXT,
            规格 NUMBER,
            材质 NUMBER,
            单价 NUMBER);'''
3.4.1 执行sql语句
c.execute(sql)
3.4.1 表中插入数据
# 插入单条数据
sql1 = "INSERT INTO product VALUES('001', '黑丝', 'x68', '45X36', '纯棉', 98)"
c.execute(sql1)
执行以下语句插入多条数据:

data = [('001', '黑丝', 'x68', '45X36', '尼龙', 98),
        ('002', '黑丝', 'x48', '34X25', '尼龙', 55),
        ]
c.executemany('INSERT INTO scores VALUES (?,?,?,?,?,?)', data)
# 连接完数据库并不会自动提交,所以需要手动 commit 你的改动conn.commit()
3.4.1 查询数据

我们已经建好表,并且插入数据,现在来查询特定条件下的数据:获取查询结果一般可用.fetchone()方法(获取第一条),或者用.fetchall()方法(获取所有)



# 查询数学成绩大于90分的学生
sql3 = "SELECT * FROM product WHERE 黑丝<80"
c.execute(sql3)
# 获取查询结果
c.fetchall()
3.4.1 提交改动

数据库做改动后(比如建表、插数等),都需要手动提交改动,否则无法将数据保存到数据库。

# 提交数据改动的方法
conn.commit()

使用完数据库之后,需要关闭游标:

# 关闭游标
c.close()

使用完数据库之后,需要关闭数据库连接:

# 关闭连接
conn.close()

新建数据表的完整代码就是

import sqlite3

conn = sqlite3.connect("test.db") # 打开或创建数据库文件
print("成功打开数据库")
c= conn.cursor()  #获取游标
sql1 ='''
    create table company
        (id int primary key not null,
        name text not null,
        age int not null,
        address char(50),
        salary real);
'''
sql2 ='''
    insert into company (id,name,age,address,salary),
        values(1,'张三',32,"成都",8000); 
'''
sql3 ='''
    insert into company (id,name,age,address,salary),
        values(2,'李四',30,"重庆",15000);
'''
sql4 ="select id,name,address,salary from company"
c.execute(sql1)  # 执行sql语句
c.execute(sql2)  # 执行sql语句
c.execute(sql3)  # 执行sql语句

cursor =c.execute(sql4)
#执行sql语句
for row in cursor:
    print("id =",row[0])
    print("name =",row[1])
    print("address =",row[2])
    print("salary =",row[3])

print("成功建表")
print("成功插入数据")
print("成功查询数据")
conn.commit()   # 提交数据库操作
conn.close()    # 关闭数据库连接
3.5 完整爬虫代码展示
from bs4 import BeautifulSoup
import re
import urllib.request, urllib.error
import xlwt
import sqlite3

# urllib.parse模块是一个用于解析URL的工具包,支持各种对URL的操作,包括拆分、拼接、编码、解码等。
import urllib.parse


def main():
    baseurl = "https://movie.douban.com/top250?start="
    print("爬虫开始....")
    datalist = get_data(baseurl)
    save_path = r"D:\水利部\豆瓣网电影TOP250.xls"
    save_data(datalist, save_path)
    dbpath = "test1.db"
    saveData2DB(datalist,dbpath)


# 影片详情链接的规则
findLink = re.compile(r'')   # 创建正则表达式对象,表示规则(字符串的模式)
# 影片图片
findImgSrc = re.compile(r',re.S)  # re.s 让换行符包含在字符中
# 影片片名
findTitle =re.compile(r'(.*)')
# 影片评分
findRating = re.compile(r'(.*)')
# 找到评价人数
findJudge =re.compile(r'(\d*)人评价')
# 找到概况
findInq =re.compile(r'(.*)')
# 找到影片的相关内容
findBd = re.compile(r'

(.*?)

'
,re.S) # 爬取所有网页内容 def get_data(baseurl): datalist = [] # 循环爬取所有页面 for i in range(0,10): url = baseurl + str(i*25) html = askurl(url) #print(html) # 逐一解析数据 把html使用html.parser进行解析 soup = BeautifulSoup(html, "html.parser") # 引入正则表达式,匹配满足的特征的字符串 for item in soup.find_all("div", class_="item"): #查找符合要求的字符串,形成列表 #print(item) #测试:查看电影item全部信息 #break data = [] #用于保存所有数据 item = str(item) Link = re.findall(findLink, item)[0] # re.findall查询所有符合条件的字符串,返回一个列表 data.append(Link) ImgSrc = re.findall(findImgSrc, item)[0] data.append(ImgSrc) Titles = re.findall(findTitle, item) #片名可能只有一个中文名,没有外国名 if (len(Titles)) == 2: ctitle = Titles[0] data.append(ctitle) #添加中文名 otitle = Titles[1].replace("/","") data.append(otitle) #添加外国名 else: data.append(Titles[0]) data.append(" ") #外国名字留空 Rating = re.findall(findRating, item)[0] data.append(Rating) Judge = re.findall(findJudge, item)[0] data.append(Judge) Inq = re.findall(findInq, item) if (len(Inq) != 0 ): Inq = Inq[0].replace("。","") # 去掉 。 data.append(Inq) else: data.append(" ") Bd = re.findall(findBd, item)[0] Bd = re.sub(r'(\s+)?',"",Bd) # 去掉换行符
Bd = re.sub(r'/', "", Bd) # 去掉 / data.append(Bd.strip()) datalist.append(data) # print(len(datalist)) return datalist def save_data(datalist,save_path): book = xlwt.Workbook(encoding="utf-8",style_compression=0) sheet = book.add_sheet("豆瓣网电影TOP250",cell_overwrite_ok=True) col = ("电影链接","图片链接","电影中文名称","电影外语名称","电影评分","评论人数","电影概述","电影的相关内容") for i in range(len(col)): sheet.write(0,i,col[i]) for i in range(len(datalist)): data = datalist[i] #print('爬到到第%d行了' % i) for j in range(len(data)): sheet.write(i+1, j,data[j]) book.save(save_path) def saveData2DB(datalist,dbpath): init_db(dbpath) conn =sqlite3.connect(dbpath) cur =conn.cursor() for data in datalist: for index in range(len(data)): if index == 4 or index ==5: continue data[index]='"'+data[index]+'"' sql1 =''' insert into movie250(info_link,pic_link,cname,ename,score,rated,instroduction,info) values(%s)'''% ",".join(data) print(sql1) cur.execute(sql1) conn.commit() cur.close() conn.close() def init_db(dbpath): sql = ''' create table movie250 ( id integer primary key autoincrement, info_link text, pic_link text, cname varchar, ename varchar, score numeric, rated numeric, instroduction text, info text ) ''' print(sql) conn = sqlite3.connect(dbpath) c = conn.cursor() c.execute(sql) conn.commit() conn.close() # 爬取单个网页内容 def askurl(url): headers = { 'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) " "Chrome/121.0.0.0 Safari/537.36" } req = urllib.request.Request(url, headers=headers) try: response = urllib.request.urlopen(req) html = response.read().decode('utf-8') # print(html) except urllib.error.URLError as e: if hasattr(e, "code"): print(e.code) if hasattr(e, "reason"): print(e.reason) except Exception as e: print(e) return html if __name__ == '__main__': main() print("爬虫结束")

你可能感兴趣的:(python,python,爬虫,开发语言)