python爬虫小案例(爬取豆瓣电影top250的电影信息)

(整个demo都是跟着视频敲的)
一、准备(流程)

  1. 访问指定URL
    需要导包:import urllib.request,urllib.error

  2. 爬取数据
    需要导包:import bs4

  3. 分析并保存数据
    需要导包:import xlwt #存放到Excel,进行Excel操作。或import sqlite3 #存放到数据库,进行SQLite3数据库操作

  4. 主调函数
    调用前面的函数

  5. 运行
    调用主调函数

二、分流程
1、访问指定的url
(1)导包

import urllib.request,urllib.error

(2)调用urllib.request.Request类构造请求信息
使用方法为:urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)
python爬虫小案例(爬取豆瓣电影top250的电影信息)_第1张图片
详细用法:

from urllib import request, parse

url = 'http://httpbin.org/post'
headers = {
	'User-Agent': 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)',
	'Host': 'httpbin.org'
}
dict = {
	'name': 'Germey'
}
data = bytes(parse.urlencode(dict), encoding='utf8')
response = request.Request(url=url, data=data, headers=headers, method='POST')
response = request.urlopen(req)
print(response.read().decode('utf-8'))


但在本项目只指定url和headers
本项目的用法:

head = {        #模拟浏览器头部信息,向豆瓣服务器发送信息
        "User-Agent": "Mozilla/5.0(Windows NT 10.0;Win64;x64) AppleWebKit/537.36(KHTML, likeGecko) Chrome / 83.0.4103.106Safari / 537.36"
    }  #用户代理,表示告诉豆瓣服务器,我们是什么类型的机器、浏览器(本质上市告诉浏览器)
request = urllib.request.Request(url,headers=head)

(3)使用urllib.request.urlopen()方法发起请求,并用把浏览器相应回来的数据以字符串的形式保存,在这里做个异常处理

    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode('utf-8')
        #print(html)
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)

(4)返回值

return html

整个方法的代码如下:

import urllib.request,urllib.error  #指定URL,获取网页数据

#得到一个指定URl的网页内容
def askURL(url):
    head = {        #模拟浏览器头部信息,向豆瓣服务器发送信息
        "User-Agent": "Mozilla/5.0(Windows NT 10.0;Win64;x64) AppleWebKit/537.36(KHTML, likeGecko) Chrome / 83.0.4103.106Safari / 537.36"
    }  #用户代理,表示告诉豆瓣服务器,我们是什么类型的机器、浏览器(本质上市告诉浏览器),这里要根据自己的浏览器信息
    request = urllib.request.Request(url,headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode('utf-8')
        #print(html)
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)
    return html

2. 爬取数据
(1)定义一个列表存放分析好的数据

datalist = []

(2)对url做个简单的处理,因为豆瓣电影top250的URL要指定页面的参数baseURL = “https://movie.douban.com/top250?start=”,我们要指定start=后面的数值

for i in range(0,10): #调用获取页面信息的函数,10次
     url = baseURL + str(i*25)
     html = askURL(url)  #保存获取到网页源码

(3)逐一解析数据,使用bs4.BeautifulSoup

BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.

soup = bs4.BeautifulSoup(html, "html.parser") #解析html对象,并赋值给soup

常见的使用方法:

print(soup.a)  # 拿到soup中的第一个a标签

print(soup.a.name) # 获取a标签的名称
 
print(soup.a.string)# 获取a标签的文本内容

print(soup.a.text)  # 获取a标签的文本内容

print(soup.a["href"])# 获取a标签的href属性的值
  
print(soup.a.get("href"))# 查找第一个a标签的href的属性
  
print(soup.a.attrs) # 获取a标签的所有的属性,返回一个字典
 
print(soup.find("a"))# 查找第一个a标签
  
print(soup.find_all("a"))# 查找所有的a标签
  
print(soup.find_all(id="a1"))# 查找所有的的id为a1的标签
  
print(soup.find_all(class_="sistex"))# 这里需要注意,如果需要通过class去查找,则需要一个下划线
  
print(soup.find_all(["a","p","br"]))# 查找所有的啊标签,p标签和br标签
 
 soup.find("a").attrs["class"] = "2b"# 修改某个标签的属性值
 
 del soup.find(id="a1").attrs["class"]# 删除某个标签的class属性

#查找
soup.find(re.compile("b"))#标签中有b这个字符的标签
    
soup.select("a.syster")#这个可以放标签选择器
  
soup.select(".syster .abcd")#这个可以放标签选择器
  
soup.find("a").decompose()#从当前字符串中删除第一个a标签,是在原位置进行删除

本项目的代码如下:

#2、逐一解析数据
        soup = bs4.BeautifulSoup(html, "html.parser")
        for item in soup.find_all('div',class_="item"): #查找符合要求的字符串,形成列表
            #print(item) #测试:查看电影item全部信息
            data = [] #保存一部电影的全部信息
            item = str(item)
            #影片详情的链接
            link = re.findall(findLink,item)[0]#re库用来通过正则表达式查找指定的字符串
            data.append(link) #添加链接

            imgSrc = re.findall(findImg,item)[0]
            data.append(imgSrc) #添加图片

            titles = re.findall(findTitle,item)[0] #片名可能只有一个中文名,没有外国名
            if (len(titles) == 2):
                ctitle = titles[0]
                data.append(ctitle)#添加中文名
                otitle = titles[1].replace("/","")
                data.append(otitle)#添加外国名
            else:
                data.append(titles[0])
                data.append(' ')#没有外国名的时候,这里的位置留空

            rating = re.findall(findRating,item)[0]
            data.append(rating)#添加评分

            judgeNum = re.findall(findJudge,item)[0]
            data.append(judgeNum) #添加评价人数

            inq = re.findall(findIng,item)
            if len(inq) != 0:
                inq = inq[0].replace("。","")#去掉句号
                data.append(inq)
            else:
                data.append(" ") #没有概括时留空

            bd = re.findall(findBd,item)[0]
            bd = re.sub('(\s+)?'," ",bd) #去掉
bd = re.sub('/'," ",bd) data.append(bd.strip()) #去掉前后的空格 datalist.append(data) #吧处理好的一部电影信息放入datalist

(4)返回一个列表

return datalist

这个方法的完整代码:

import bs4  #网页解析,获取数据
import re   #正则表达式,进行文本匹配

#需要查找信息的正则匹配规则,作为全全局变量
#影片详情链接的规则
findLink = re.compile(r'') #创建正则表达式对象,表示规则(字符串的模式)
#影片图片的规则
findImg = re.compile(r'(.*)')
#影片评分
findRating = re.compile(r'(.*)')
#影片的评价人数
findJudge = re.compile(r'(\d*)人评价')
#找到概况
findIng = re.compile(r'(.*)')
#找到影片的相关的内容
findBd = re.compile(r'

(.*?)

',re.S) #爬取网页 def getData(baseURL): datalist = [] for i in range(0,10): #调用获取页面信息的函数,10次 url = baseURL + str(i*25) html = askURL(url) #保存获取到网页源码 #2、逐一解析数据 soup = bs4.BeautifulSoup(html, "html.parser") for item in soup.find_all('div',class_="item"): #查找符合要求的字符串,形成列表 #print(item) #测试:查看电影item全部信息 data = [] #保存一部电影的全部信息 item = str(item) #影片详情的链接 link = re.findall(findLink,item)[0]#re库用来通过正则表达式查找指定的字符串 data.append(link) #添加链接 imgSrc = re.findall(findImg,item)[0] data.append(imgSrc) #添加图片 titles = re.findall(findTitle,item)[0] #片名可能只有一个中文名,没有外国名 if (len(titles) == 2): ctitle = titles[0] data.append(ctitle)#添加中文名 otitle = titles[1].replace("/","") data.append(otitle)#添加外国名 else: data.append(titles[0]) data.append(' ')#没有外国名的时候,这里的位置留空 rating = re.findall(findRating,item)[0] data.append(rating)#添加评分 judgeNum = re.findall(findJudge,item)[0] data.append(judgeNum) #添加评价人数 inq = re.findall(findIng,item) if len(inq) != 0: inq = inq[0].replace("。","")#去掉句号 data.append(inq) else: data.append(" ") #没有概括时留空 bd = re.findall(findBd,item)[0] bd = re.sub('(\s+)?'," ",bd) #去掉
bd = re.sub('/'," ",bd) data.append(bd.strip()) #去掉前后的空格 datalist.append(data) #吧处理好的一部电影信息放入datalist return datalist

3. 分析并保存数据
在这里将两种情况,一是保存到excel文件,二是保存到数据库
(1)保存到excel

import xlwt #进行Excel操作

#3、保存数据
def savaData(datalist,savapath):
    book = xlwt.Workbook(encoding="utf-8",style_compression=0)  # 创建workbook对象
    sheet = book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)  # 创建工作表
    col = ("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价人数","概括","相关信息")

    # 先把列名写上
    for i in range(0,8):
        sheet.write(0,i,col[i])#列名

    # 写数据
    for i in range(0,250):
        print("第%d条"%(i+1))
        data = datalist[i]
        for j in range(0,8):
            sheet.write(i+1,j,data[j])#数据
            
    book.save(savapath)  # 保存数据表

(2)保存到数据库

import sqlite3 #进行SQLite3数据库操作

def saveDataDB(datalist,dbpath):
    init_db(dbpath)
    conn = sqlite3.connect(dbpath)
    cur = conn.cursor()

    for data in datalist:
        for index in range(len(data)):
            if index == 4 or index == 5: #这里是对影片信息的特殊处理
                continue
            data[index] = '"'+data[index]+'"'
        sql = '''
            insert into movie250(
               info_link,pic_link,cname,ename,score,rated,introduction,info)
                values(%s)'''%",".join(data)
        print(sql)
        cur.execute(sql)
        conn.commit()
    conn.close()

def init_db(dbpath):
    sql = '''
    create table movie250
    (
    id integer primary key autoincrement,
    info_link text,
    pic_link text,
    cname varchar,
    ename varchar,
    score numeric,
    rated numeric,
    introduction text,
    info text
    )    
'''
    conn = sqlite3.connect(dbpath)
    cursor = conn.cursor()
    cursor.execute(sql)
    conn.commit()

4. 主调函数

def main():
    baseURL = "https://movie.douban.com/top250?start="
    #1、爬取网页
    datalist = getData(baseURL)
    savapath = ".\\豆瓣电影Top250.xls" #自己起的文件名称。或 dbpath = "movie250.db"  自己起的数据库名称
    #3、保存数据
    savaData(datalist,savapath) #或saveDataDB(datalist, dbpath)

5. 运行

if __name__ == "__main__":
    main()
    print("函数执行完毕")

你可能感兴趣的:(python)