Python高级应用程序设计任务

Python高级应用程序设计任务要求

用Python实现一个面向主题的网络爬虫程序,并完成以下内容:

(注:每人一题,主题内容自选,所有设计内容与源代码需提交到博客园平台)

一、主题式网络爬虫设计方案(15分)
1.主题式网络爬虫名称

B站的视频信息爬取
2.主题式网络爬虫爬取的内容与数据特征分析

爬取B站搜索视频结果界面的主体视频信息(视频名,视频播放时间、视频播放数,视频弹幕数、视频上传时间)

数据特征,我做了简单的简化,视频时间采用字符串存储,上传时间也是,mysql存储也比较简单,处理起来也比较简单。因为B站最多的搜索页数为50,每页20,所以最多只有1000条记录,

不过因为本程序有一定的扩展性,只要关键字就可以爬取不同主题的信息记录。
3.主题式网络爬虫设计方案概述(包括实现思路与技术难点)

1.设计,一开始其实本来想做个系统的、爬虫,并且爬取视频内容,但开发时遇到了一定的阻碍,计划临时改变

1.1 设计如下:

printShow类实现数据处理可视化输出
dataSave类实现数据的持久化
creeper类实现数据的爬取与清洗
creeperMain模块为运行的组函数

1.2实现思路:
printShow类使用matplotlib模块实现数据可视化。

dataSave类使用pymysql模块实现数据处理。

creeper类使用requests、BeautifulSoup、dataSave模块实现网页请求,处理网页,爬取网页、获取数据、清理数据、数据的持久化

creeperMain模块为主程序入口

1.3技术难点:

首先是对于数据的爬取,要找到网站有用的数据、还要使用BeautifulSoup爬取网站信息,这步需要对于网站的了解,还有要建立在网站不经常改变标识的情况下,找到较为合适的筛选规则。

其次对于数据的处理和传递,数据如何以文本的形式提取出来,数据如何转换,比如10万如何转变为整形的100000

再来数据的持久化处理,怎么存储,怎么使用。

最后是对与整个系统架构的设计,如何完善

二、主题页面的结构特征分析(15分)
1.主题页面的结构特征

主体页面为B站的搜索页面,基本的特征,基本就是网页头、网页中部、网页尾部、其中有用的数据在网页中部的

Python高级应用程序设计任务_第1张图片 Python高级应用程序设计任务_第2张图片

 

 

 

 存有视频信息,结构由于工作比较忙懒得写了,直接上图

2.Htmls页面解析

主体页面为B站的搜索页面,基本的特征,基本就是网页头、网页中部、网页尾部、其中有用的数据在网页中部的有用信息,

简单描述救赎ul标签中有20个li标签,每个li标签中有视频名,视频播放时间、视频播放数,视频弹幕数、视频上传时间爬,就完事了
3.节点(标签)查找方法与遍历方法
(必要时画出节点树结构)

直接上图:

Python高级应用程序设计任务_第3张图片

 画的比较难看,但是工作真的很忙

三、网络爬虫程序设计(60分)
爬虫程序主体要包括以下各部分,要附源代码及较详细注释,并在每部分程序后面提供输出结果的截图。
1.数据爬取与采集

使用模块化开发,模块为creeperBm,代码在如下

代码可实现功能挺多,我就不多写了,写几个典型的例子我觉得就行了。

Python高级应用程序设计任务_第4张图片

 

 Python高级应用程序设计任务_第5张图片

 

 

 

 

 

 

 

Python高级应用程序设计任务_第6张图片

 

 

 Python高级应用程序设计任务_第7张图片

 

 


2.对数据进行清洗和处理

使用模块化开发,模块为creeperBm,代码在如下

由于模块开发,功能合并,功能如上。
3.文本分析(可选):jieba分词、wordcloud可视化

这部分没做
4.数据分析与可视化
(例如:数据柱形图、直方图、散点图、盒图、分布图、数据回归分析等)

使用模块化开发,模块为printShow,代码在如下

Python高级应用程序设计任务_第8张图片

 

 

 Python高级应用程序设计任务_第9张图片

 

Python高级应用程序设计任务_第10张图片

 

 

 

plt自带的放大功能可看

Python高级应用程序设计任务_第11张图片

 

 

 Python高级应用程序设计任务_第12张图片

 

 

 Python高级应用程序设计任务_第13张图片

 

 

 Python高级应用程序设计任务_第14张图片

 

 

 

Python高级应用程序设计任务_第15张图片

 

 

 Python高级应用程序设计任务_第16张图片

 

 

 

用户体验可能差了点,标题忘记改了

但是程序命名上有所体现

这只是一部分功能,具体功能可以查看代码有注释
5.数据持久化

使用模块化开发,模块为dataSave,代码在如下

Python高级应用程序设计任务_第17张图片

Python高级应用程序设计任务_第18张图片

 

Python高级应用程序设计任务_第19张图片

Python高级应用程序设计任务_第20张图片

 

 

 

6.附完整程序代码

creeperBm模块:

#数据爬取加清洗模块,比较懒,放一起简单,主要是爬取B站搜索界面的一些视频信息。信息比较少也是因为懒。但是核心功能是有完成的。
#导入模块,这个不用多说了吧
import requests
from bs4 import  BeautifulSoup
from dataSave import dataSave
import time
import numpy as np
import re
#定义creeper类,实现爬取和清洗功能
class  creeper(object):
    #初始化
    def __init__(self):
        pass
    # def creeperHtmlUrl(self,url):
    #     reader=requests.get(url)
    #     print(reader.text.title())没有用到
    #B站搜索界面爬取获取reader url=路径 kw为关键词默认新宝岛,part为页数默认1 return reader
    def creeperSearchAll(self, url="https://search.bilibili.com/all", *, kw='新宝岛', part=1):
        reader = requests.get(url, params={"keyword": kw, "page": part})
        return reader
    # def creeperVideoHtmlAv(self,url="https://www.bilibili.com/video/",av="av53851218"):
    #     reader = requests.get(url+av)没有用到
    # def creeperVideoOnAv(self,url="https://www.bilibili.com/video/",av="av53851218"):
    #     reader = requests.get(url + av)
    #数据获取VideoName list表
    def creeperVideoName(self,reader):
        bs = BeautifulSoup(reader.text, "html.parser")
        videoli = bs.find_all("li", class_="video-item matrix")
        listVN=[]
        for item in videoli:
            # print(item.a["title"])#获取视频名
            listVN.append(item.a["title"])
        return listVN

    # 数据获取PlayTime list表
    def creeperPlayTime(self,reader):
        bs = BeautifulSoup(reader.text, "html.parser")
        videoli = bs.find_all("li", class_="video-item matrix")
        listPT = []
        for item in videoli:
            videotime = item.find_all("span", class_="so-imgTag_rb")
            for i in videotime :
                # print(i.get_text()) #视频长度
                listPT.append(i.get_text())
        return listPT

    # 数据获取PlayNum list表
    def creeperPlayNum(self,reader):
        bs = BeautifulSoup(reader.text, "html.parser")
        videoli = bs.find_all("li", class_="video-item matrix")
        listPN=[]
        for item in videoli:
            time = item.find_all("span", title="观看")
            for i in time:
                # print(i.get_text())
                if ("万") in i.get_text().strip():
                    listPN.append(int(float(i.get_text().strip()[0:-1])*10000))
                else:
                    listPN.append(int(i.get_text().strip()))
        return listPN

    # 数据获取VideoTime list表
    def creeperVideoTime(self,reader):
        bs = BeautifulSoup(reader.text, "html.parser")
        videoli = bs.find_all("li", class_="video-item matrix")
        listVT=[]
        for item in videoli:
            time = item.find_all("span", title="上传时间")
            for i in time:
                # print(i.get_text())
                listVT.append(i.get_text().strip())
        return  listVT

    # 数据获取DanNum list表
    def creeperDanNum(self,reader):
        bs = BeautifulSoup(reader.text, "html.parser")
        videoli = bs.find_all("li", class_="video-item matrix")
        listDN=[]
        for item in videoli:
            dan=item.find_all("span", title="弹幕")#弹幕数量可迭代
            for i in dan:
                # print(i.get_text())
                if ("万") in i.get_text().strip():
                    listDN.append(int(float(i.get_text().strip()[0:-1])*10000))
                else:
                    listDN.append(int(i.get_text().strip()))
        return listDN
    #多页爬取信息并持久化处理 入参page,kw为关键字,默认新宝岛
    def creeperAllForPage(self,page,kw='新宝岛'):
        mysql = dataSave()
        db = mysql.initMySql()
        cur= db.cursor()
        for part in range(page):
            crer=creeper()
            readerpart=crer.creeperSearchAll( "https://search.bilibili.com/all", kw=kw ,part=part+1)
            if crer.creeperVideoName(readerpart)==[]:
                break
            listVN=crer.creeperVideoName(readerpart)
            listPT=crer.creeperPlayTime(readerpart)
            listDN=crer.creeperDanNum(readerpart)
            listPN=crer.creeperPlayNum(readerpart)
            listVT=crer.creeperVideoTime(readerpart)
            for i in range(len(listVN)):
                # print(range(len(listVN)))有点坑必须赋值之后再添加
                datai={"videoname":listVN[i],"playtime":listPT[i],"dannum":listDN[i],"playnum":listPN[i],"videotime":listVT[i]}
                mysql.addToTable(db=db,cur=cur,kwargs=datai)
        print("页数较多会比较慢,请耐心等待")
        cur.close()
        db.close()

 dataSave模块:

#工作太忙,代码基本写死了,可扩展性较弱,不过还行
#实际使用请自己建立数据库,实现数据的持久化
#127.0.0.1本地连接,你们连接不上运行肯定会出错的
#代码的优化还有可扩展性比较糟糕,不过就这样了,没时间了
#基本实现数据的持久化。creat、updata没做,不过基本不会用到
import  pymysql
#类dataSave
class  dataSave(object):
    #类初始化
    def __init__(self):
        pass
    #初始化mysql连接
    def initMySql(self):
        config = {
            "host": "localhost",
            "user": "root",
            "password": "1qaz@WSX",
            "port": 3308,
            "database": "python_creeper",

        }
        db = pymysql.connect(**config)
        return db
    #创建表,没做,可扩展项目
    def creatTable(self):
        pass
    #添加记录,基本就是简单的sql语句插入记录,写死了。
    def addToTable(self,*,db,cur,kwargs):
        sql ="INSERT INTO b_creeper(" \
             "video_name,play_time,dan_num,play_num,video_time)" \
             "values(%s,%s,%s,%s,%s)"
        # cur.execute(sql,("1","1",3,4,"5"))
        cur.execute(sql,(kwargs["videoname"],kwargs["playtime"],kwargs["dannum"],kwargs["playnum"],kwargs["videotime"]))
        db.commit()
        data = cur.fetchall()
    # 清空记录,基本就是简单的sql语句,写死了。(每次换关键词爬取就要清空一次,比较局限,防止数据冲突)
    def deleteToTableAll(self):
        mysql = dataSave()
        db = mysql.initMySql()
        cur = db.cursor()
        cur.execute("truncate table b_creeper ")
        cur.close()
        db.close()
    #查询记录个数
    def queryNum(self,*,db,id):
        cur = db.cursor()
        cur.execute("select count(1) from a_student ")
        data = cur.fetchall()
        cur.close()
        db.close()
    #查询列video_time和play_num
    def queryTimeToNum(self):
        mysql =dataSave()
        db=mysql.initMySql()
        cur=db.cursor()
        cur.execute("SELECT video_time,play_num from b_creeper   GROUP BY video_time ")
        data = cur.fetchall()
        cur.close()
        db.close()
        return  data
    #查询列video_time,dan_num
    def queryTimeToDNum(self):
        mysql =dataSave()
        db=mysql.initMySql()
        cur=db.cursor()
        cur.execute("SELECT video_time,dan_num from b_creeper   GROUP BY video_time ")
        data = cur.fetchall()
        cur.close()
        db.close()
        return  data
    #查询列video_time和其对应个数count(video_time)
    def queryTimeToCNum(self):
        mysql =dataSave()
        db=mysql.initMySql()
        cur=db.cursor()
        cur.execute("SELECT video_time,count(video_time) from b_creeper   GROUP BY video_time ")
        data = cur.fetchall()
        cur.close()
        db.close()
        return  data
   #查询列dan_num
    def queryDanNumToBox(self):
        mysql =dataSave()
        db=mysql.initMySql()
        cur=db.cursor()
        cur.execute("SELECT dan_num from b_creeper ")
        data = cur.fetchall()
        cur.close()
        db.close()
        return  data
    #查询列play_num
    def queryPlayNumToBox(self):
        mysql =dataSave()
        db=mysql.initMySql()
        cur=db.cursor()
        cur.execute("SELECT play_num from b_creeper ")
        data = cur.fetchall()
        cur.close()
        db.close()
        return  data

 printShow模块:

from creeperBm import creeper
import matplotlib.pyplot  as plt
import numpy as np
import pandas as pd
#printShow数据可视化类,只做了简单的数据的条形统计,折线,还有箱型图,其他的没做
class printShow(object):
    def __init__(self):
        pass
    #以下都是绘制统计图,传入所需参数Bar条形,Plot折线,box箱型
    #大部分都是重复的
    def timeToNumBar(self,*,data):
        listVT = []
        listPN = []
        for item in data:
            listVT.append(item[0])
            listPN.append(item[1])
        plt.figure()
        plt.bar(listVT, listPN)
        plt.show()
    def timeToNumPlot(self,*,data):
        listVT = []
        listPN = []
        for item in data:
            listVT.append(item[0])
            listPN.append(item[1])
        plt.figure()
        plt.plot(listVT, listPN)
        plt.show()
    def timeToDNumBar(self,*,data):
        listVT = []
        listDN = []
        for item in data:
            listVT.append(item[0])
            listDN.append(item[1])
        plt.figure()
        plt.bar(listVT, listDN)
        plt.show()
    def timeToDNumPlot(self,*,data):
        listVT = []
        listDN = []
        for item in data:
            listVT.append(item[0])
            listDN.append(item[1])
        plt.figure()
        plt.plot(listVT, listDN)
        plt.show()
    def timeToCNumBar(self,*,data):
        listVT = []
        listCN = []
        for item in data:
            listVT.append(item[0])
            listCN.append(item[1])
        plt.figure()
        plt.bar(listVT, listCN)
        plt.show()
    def timeToCNumPlot(self,*,data):
        listVT = []
        listCN = []
        for item in data:
            listVT.append(item[0])
            listCN.append(item[1])
        plt.figure()
        plt.plot(listVT, listCN)
        plt.show()
    def danNumBox(self,*,data):
        df = pd.DataFrame(data)
        df.boxplot()
        plt.show()
    def playNumBox(self,*,data):
        df = pd.DataFrame(data)
        df.boxplot()
        plt.show()

  creeperMain:

#本来想做一个较为系统的但是能力不够啊。所以我只做了个大概。
#可扩展性不强,很多地方偷懒数据、方法直接写死了。
#B站现在官方也不开放api了,野生的基本挂了,爬取视频比较麻烦。
#所以现在就只是基本完成功能,数据爬取,清洗,持久化、可视化处理。除了爬取跟清洗我一起做了其他都是一部分一个python模块
#搜索仅仅限于50页,最高的精度了。B站搜索最高1000的记录,更早的搜索不出来。
#本程序可以更换关键词,有可扩展性,以另外一种方式实现了对于数据条数的要求,有多少个关键词就有多少的记录
#模块化开发,有挺多的功能的,所以我就不一一写了
#每个部分去掉*号就可以执行,有关数据库的,要自己安装,更改配置。我用的本地自己的数据库,外网是不可能连接到的。
from creeperBm import creeper
from printShowM import printShow
from dataSave import dataSave
from bs4 import  BeautifulSoup
import requests
import matplotlib.pyplot  as plt
import numpy as np
import pandas as pd

#打印网页html
# c=creeper()
# reader=c.creeperSearchAll("https://search.bilibili.com/all",kw="python",part=1)
# print(reader.text)

#获取listVN
# c=creeper()
# reader=c.creeperSearchAll("https://search.bilibili.com/all",kw="python",part=1)
# listVN=c.creeperVideoName(reader)
# print(listVN)

#删除所有记录
# mysql = dataSave()
# db = mysql.initMySql()
# mysql.deleteToTableAll()

#爬取多页信息存储持久化 20页,可以更多最多50,记得删除记录
# c=creeper()
# c.creeperAllForPage(20,kw="英雄联盟")

#查询列video_time和play_num
# d=dataSave()
# data=d.queryTimeToNum()
# print(data)

#数据可视化模块
# d=dataSave()
# p=printShow()
# data=d.queryTimeToNum()
# p.timeToNumBar(data=data)

#数据可视化模块plot
# d=dataSave()
# p=printShow()
# data=d.queryTimeToNum()
# p.timeToNumPlot(data=data)

#数据可视化模块box
# d=dataSave()
# p=printShow()
# data=d.queryDanNumToBox()
# p.danNumBox(data=data)

  

四、结论(10分)
1.经过对主题数据的分析与可视化,可以得到哪些结论?

1.对弹幕数来说英雄联盟关键词在B站的弹幕数主要集中在2000以下,少数会超过10000,所以所在B站做视频还是挺辛苦的,处于中下游的up主居多。

2.对于视频和播放数柱状图和折线图来说B站的视频播放数一般会在有节日意义的日子变多,比如12.12日、11月11日等

3.对于视频和弹幕数柱状图和折线图来说B站的视频弹幕数一般会在有节日意义的日子变多,比如12.12日、11月11日等

4.从我未列举出来的数据表(视频的上传时间统计表)可以得出B站up一般会选择在有意义的节日上传视频,来提高播放和弹幕数。

5.根据所有数据可以得出结论,B站有关英雄联盟视频弹幕数主要集中在2000以下,但是也有弹幕数十分多的视频最高可对于140000

2.对本次程序设计任务完成的情况做一个简单的小结。

这次的程序,总体来说较为失败,没有较好的完成先前的指标,临时改变了开发方向,对于用户的体验也不是十分的友好,数据可视化也做的较为糟糕,但是基本来说完成了任务,

数据量的要求还是有达到的,数据的可视化虽然做的不够完善,但是仔细查看代码,会发现,代码的框架和架构还是ok的,不过可扩展性较差,但是基本所有的要求都有达到,

望老师,给个及格。工作了,时间比较少,也没办法。有时间的话可能会填下这个坑,不过,最近基本没时间了。(咕咕咕)

你可能感兴趣的:(Python高级应用程序设计任务)