朽木冰天

Python大作业-网络爬虫程序

简介

此程序是本人大三时期的Python大作业，初学Python后所编写的一个程序，是一个网络爬虫程序，可爬取指定网站的信息。

本程序爬取的网站是Bangumi-我看过的动画，Bangumi是一个专注于二次元的收视进度管理网站，在这里可以记录自己看过的动画和书籍、玩过的游戏、听过的音乐等等，本程序爬取的正是作者本人看过的所有动画，读者若想爬取自己看过的动画，可下载程序后，自行修改源代码中的相应网址。

本程序使用Python编写，使用PyCharm进行开发，数据库使用MySQL数据库，程序可将“Bangumi-我看过的动画”中的所有动画信息爬取下来，并保存至数据库和Excel表格中，亦可将爬取的网站html源码保存至本地，作者还编写了一个JavaWeb程序，用网页的形式展示爬取到的所有动画信息。

注：“Bangumi-我看过的动画”网页源码可能会改变，所以请注意该爬虫程序的时效性。

程序源代码及程序设计说明书可点击下方链接进行下载，供各位需要的人学习参考。

下载链接：Python爬虫-Bangumi

程序代码

在此展示Python爬虫的完整代码，代码不多做介绍，详细请看代码注释或程序设计说明书，若读者对JavaWeb展示爬取数据感兴趣，可至文章开头处下载程序，进行了解。

import re
import ssl
import xlwt
import pymysql
import urllib.request
import urllib.error
from bs4 import BeautifulSoup


# 主函数
def main():
    print("开始爬取网站")
    ssl._create_default_https_context = ssl._create_unverified_context  #全局取消证书验证
    baseurl = "https://bangumi.tv/anime/list/430090/collect"  #要爬取的网站-Bangumi我看过的动画
    pagecount = getPageCount(baseurl)  #获取要爬取的页面总数
    datalist = getData(baseurl, pagecount)  #爬取网页，获取网页数据，并解析数据
    saveDataToDatabase(datalist)  #将数据保存至数据库
    saveDataToExcel(datalist)  #将数据保存至excel表格
    print("网站爬取成功，完毕！！！")


# 获取HTML页面内容
def getHTML(url):
    print("正在获取页面 "+url+" ......")
    headers = {  #反反爬虫，模拟浏览器头部信息
        "User-Agent": "Mozilla / 5.0(Windows NT 10.0; Win64; x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 80.0.3987.122  Safari / 537.36"
    }
    request = urllib.request.Request(url, headers=headers)
    response = urllib.request.urlopen(request)
    html = response.read().decode("utf-8")
    print("页面获取成功")
    return html


# 保存HTML页面
def saveHTML(html, page):
    print("正在保存页面"+str(page)+"......")
    fileobj = open("lib/html/page"+str(page)+".html", "w", encoding="utf-8")
    fileobj.write(html)
    fileobj.close()
    print("页面"+str(page)+"保存成功")


# 获取要爬取的页面总数
def getPageCount(baseurl):
    pagecount = 0  #页面总数
    html = getHTML(baseurl)
    print("正在获取页面总页数......")
    soup = BeautifulSoup(html, "html.parser")
    ul = soup.find("ul", id="browserItemList")
    li = ul.find("li")
    if li is None:  #若ul标签里无li标签，则表示页面总数为0，即我看过的动画为0
        pagecount = 0
    else:
        div = soup.find("div", id="multipage")
        span = div.find("span", class_="p_edge")  #页面过多的话，div标签里会有一个span标签，网站会将“当前页数/总页数”放在此span标签中
        if span is not None:  #若有span标签，则可以直接获取页面总数
            result = re.findall(r'[0-9]+', span.string)
            pagecount = int(result[1])
        else:  #若无span标签，则需通过a标签获取页面总数
            alist = div.find_all("a")
            if len(alist) != 0:  #若有a标签，则倒数第二个a标签的内容即为总页数
                pagecount = int(alist[len(alist) - 2].string)
            else:  #若无a标签，则表示页面总数为1
                pagecount = 1
    print("页面总数获取成功，页面总数为{}页".format(pagecount))
    return pagecount


# 将网页中的链接由相对路径改为绝对路径，或修改不符合要求的链接
def changeLink(html):
    print("正在修改相关链接......")
    soup = BeautifulSoup(html, "html.parser")
    # 获取所有a标签，对不符合要求的进行修改
    a_list = soup.find_all("a")
    for i in a_list:  #对链接为相对路径的a标签进行修改
        if 'href' in i.attrs and re.match(r'/[^\s]*', i['href']) is not None:
            i['href'] = "https://bangumi.tv" + i['href']
    # 获取所有link标签，对不符合要求的进行修改
    link_list = soup.find_all("link")
    for i in link_list:  #对链接为相对路径的link标签进行修改
        if 'href' in i.attrs and re.match(r'/[^\s]*', i['href']) is not None:
            i['href'] = "https://bangumi.tv" + i['href']
    # 获取所有script标签，对不符合要求的进行修改
    script_list = soup.find_all("script")
    for i in script_list:  #对链接为相对路径的script标签进行修改
        if 'src' in i.attrs and re.match(r'/[^\s]*', i['src']) is not None:
            i['src'] = "https://bangumi.tv" + i['src']
    # 获取所有form标签，对不符合要求的进行修改
    form_list = soup.find_all("form")
    for i in form_list:  #对链接为相对路径的form标签进行修改
        if 'action' in i.attrs and re.match(r'/[^\s]*', i['action']) is not None:
            i['action'] = "https://bangumi.tv" + i['action']
    # 获取所有img标签，对不符合要求的进行修改
    img_list = soup.find_all("img")
    for i in img_list:  #为img标签的图片链接加上https:前缀
        if 'src' in i.attrs and re.match(r'//[^\s]*', i['src']) is not None:
            i['src'] = "https:" + i['src']
    # 发生未知错误，无法正确爬取获取该动画的img标签的src属性，实属无奈，故手动显式修改
    if soup.find("li", id="item_7157") is not None:
        img = soup.find("li", id="item_7157").find("img")
        img['src'] = "https://lain.bgm.tv/pic/cover/s/6e/01/7157_QV8Rz.jpg"
    # 特殊情况，为我的头像的图片链接加上https:前缀
    span = soup.find("span", class_="avatarNeue")
    span['style'] = re.sub(r'//[^\s]*', "https:" + re.search(r'//[^\s]*', span['style']).group(), span['style'])
    # 特殊情况，修改特定a标签链接
    div = soup.find("div", id="robot_speech")
    a = div.find("a", class_="nav")
    a['href'] = "https://bangumi.tv/" + a['href']
    print("相关链接修改成功")
    return soup.prettify()


# 将网页改为本地，相关依赖使用本地资源，无需联网即可访问............ 暂不考虑实现
def toLocal():
    pass


# 爬取网页，获取网页数据，并解析数据
def getData(baseurl, pagecount):
    datalist = []  #二维列表，用于存放所有我看过的动画
    for i in range(1, pagecount+1):  #遍历所有页面，一个一个爬取
        url = baseurl + "?page=" + str(i)
        html = getHTML(url)  #获取HTML页面内容
        html = changeLink(html)  #修改相关链接
        saveHTML(html, i)  #保存HTML页面
        print("开始爬取解析页面"+str(i))
        soup = BeautifulSoup(html, "html.parser")
        all_animation = soup.find("ul", id="browserItemList")  #该ul标签中存放了目标数据，即我看过的动画
        # 逐一解析数据
        for item in all_animation.find_all("li"):  #遍历一个个li标签，即遍历一部部我看过的动画，并获取数据
            data = []
            # 获取id
            idd = re.search(r'[0-9]+', item['id']).group()
            data.append(idd)
            print("正在解析动画(id:{})数据......".format(idd))
            # 获取中文名
            chinese_name = item.find("a", class_="l").string.strip()
            data.append(chinese_name)
            # 获取原名
            if item.find("small", class_="grey") is None:  #可能无原名
                original_name = ""
            else:
                original_name = item.find("small", class_="grey").string.strip()
            data.append(original_name)
            # 获取话数、放送开始时间、导演等人
            info = item.find("p", class_="info tip").string
            episodes = re.search(r'[0-9]+', info).group()
            if re.search(r'[\d]+年[\d]+月[\d]+日', info) is not None:  #有两种日期格式
                broadcast_time = re.search(r'[\d]+年[\d]+月[\d]+日', info).group()
                broadcast_time = re.sub(r'[^\d]+', "-", broadcast_time).strip("-")  #转换为xxxx-xx-xx的格式
            elif re.search(r'[\d]+-[\d]+-[\d]+', info) is not None:
                broadcast_time = re.search(r'[\d]+-[\d]+-[\d]+', info).group()
            else:
                broadcast_time = ""
            if re.search(r'日.+', info) is None:  #可能无导演等人
                people = ""
            else:
                people = re.search(r'日.+', info).group()
                people = people[4:].strip()
            data.append(episodes)
            data.append(broadcast_time)
            data.append(people)
            # 获取收藏时间
            star_time = item.find("span", class_="tip_j").string.strip()
            data.append(star_time)
            # 获取个人评分
            score = item.find("span", class_="starlight")['class'][1]
            score = re.search(r'[0-9]+', score).group()
            data.append(score)
            # 获取个人标签
            if item.find("span", class_="tip") is None:  #可能无个人标签
                tag = ""
            else:
                tag = item.find("span", class_="tip").string
                tag = tag.strip()[4:]
            data.append(tag)
            # 获取页面网址
            page_url = item.find("a", class_="l")['href']
            data.append(page_url)
            # 获取缩略封面图网址，并下载保存
            print("正在下载缩略封面图{}.jpg".format(idd))
            low_image_url = item.find("img", class_="cover")['src']
            data.append(low_image_url)
            low_image_path = "lib/image/low/" + idd + ".jpg"
            data.append(low_image_path)
            low_image_url = re.sub(r'lain.bgm', "bangumi", low_image_url)  #图片原链接不允许爬取下载，故需转换下链接
            urllib.request.urlretrieve(low_image_url, low_image_path)  #下载缩略封面图
            # 获取高清封面图网址，并下载保存
            print("正在下载高清封面图{}.jpg".format(idd))
            high_image_url = re.sub(r'/s/', "/l/", low_image_url)  #缩略图和高清图的网址仅有一字之差
            data.append(high_image_url)
            high_image_path = "lib/image/high/" + idd + ".jpg"
            data.append(high_image_path)
            #urllib.request.urlretrieve(high_image_url, high_image_path)  #下载高清封面图，文件较大且多，故很花时间
            datalist.append(data)
        print("页面{}爬取解析成功".format(str(i)))
    return datalist


# 将数据保存至数据库
def saveDataToDatabase(datalist):
    print("开始将数据保存至数据库")
    con = pymysql.connect(host="localhost", database="web_crawler", user="root", password="root")
    cur = con.cursor()
    sql = "insert into animation values(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)"
    try:
        for data in datalist:
            print("正在保存动画(id:{})数据至数据库......".format(data[0]))
            cur.execute(sql, tuple(data))
        con.commit()
    except:
        con.rollback()  #发生错误时回滚
        print("数据保存失败")
    else:
        print("数据保存成功")
    cur.close()
    con.close()


# 将数据保存至excel表格
def saveDataToExcel(datalist):
    print("开始将数据保存至excel表")
    book = xlwt.Workbook(encoding="utf-8")  #创建一个workbook，并设置编码
    sheet = book.add_sheet("我看过的动画")
    colname = ("ID", "中文名", "原名", "话数", "放送开始时间", "导演/原作者/等制作人", "收藏时间", "个人评分", "个人标签", "页面网址", "缩略封面图网址", "缩略封面图本地路径", "高清封面图网址", "高清封面图本地路径")
    style = xlwt.easyxf('font: bold on')  #样式，为列名加粗
    for i in range(0, 14):  #添加列名
        sheet.write(0, i, colname[i], style)
    for i in range(0, len(datalist)):  #添加数据
        data = datalist[i]
        print("正在保存动画(id:{})数据至excel表......".format(data[0]))
        for j in range(0, 14):
            sheet.write(i + 1, j, data[j])
    book.save("lib/excel/Bangumi-我看过的动画.xls")  #保存excel表
    print("数据保存成功")


if __name__ == "__main__":
    main()

运行结果

代码编写完成后运行程序，程序运行过程中会在控制台实时输出当前爬取进度

爬取完毕后，可看到成功导出html文件

成功下载封面图片

信息成功保存至数据库

成功保存至Excel表格

最后JavaWeb程序也成功展示爬取的数据

后记

本程序仅供学习和参考，请勿抄袭或另作他用。

感谢观看，有什么问题可在下方评论区进行评论，若觉得本文章写得不错，还请点个赞呢。

关注我，收看更多精彩！( • ̀ω•́ )✧求点赞、评论、收藏、关注

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
CentOS7环境卸载MySQL5.7 Hadoop_Liang mysql 数据库 mysql
备份重要数据切记，卸载之前先备份mysql重要的数据。备份一个数据库例如：备份名为mydatabase的数据库到backup.sql的文件中mysqldump-uroot-ppassword123mydatabase>backup.sql备份所有数据库mysqldump-uroot-ppassword123--all-databases>all_databases_backup.sql注意：-p后
php SPOF 贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.什么是单点故障（SPOF）？单点故障指的是系统中某个组件一旦失效，整个系统或服务就会不可用。常见的单点有：数据库、缓存、Web服务器、负载均衡、网络设备等。2.常见单点故障场景只有一台数据库服务器，宕机后所有业务不可用只有一台Redis缓存，挂掉后缓存全部失效只有一台Web服务器，挂掉后网站无法访问只有一个负载均衡节点，挂掉后流量无法分发只有一条网络链路，断开后所有服务失联3.消除单点故障的主
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
centos7安装 mysql5.7(安装包) heiPony linux mysql mariadb centos mysql
一.卸载centos7自带数据库查看系统自带的Mariadbrpm-qa|grepmariadbmariadb-libs-5.5.44-2.el7.centos.x86_64卸载rpm-e--nodepsmariadb-libs-5.5.44-2.el7.centos.x86_64删除etc目录下的my.cnfrm/etc/my.cnf二.检查mysql是否存在(有就卸载,删除相关文件)rpm-q
Vue3+Vite+TS+Axios整合详细教程老马聊技术 Vue Vite TS vue.js
1.Vite简介Vite是新一代的前端构建工具，在尤雨溪开发Vue3.0的时候诞生。类似于Webpack+Webpack-dev-server。其主要利用浏览器ESM特性导入组织代码，在服务器端按需编译返回，完全跳过了打包这个概念，服务器随起随用。生产中利用Rollup作为打包工具，号称下一代的前端构建工具。vite是一种新型的前端构建工具，能够显著的提升前端开发者的体验。它主要有俩部分组成：一个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
JavaScript 基础09：Web APIs——日期对象、DOM节点梦想当全栈 JavaScript javascript 前端开发语言
JavaScript基础09：WebAPIs——日期对象、DOM节点进一步学习DOM相关知识，实现可交互的网页特效能够插入、删除和替换元素节点。能够依据元素节点关系查找节点。一、日期对象掌握Date日期对象的使用，动态获取当前计算机的时间。ECMAScript中内置了获取系统时间的对象Date，使用Date时与之前学习的内置对象console和Math不同，它需要借助new关键字才能使用。1.实例
《Java前端开发全栈指南：从Servlet到现代框架实战》
前言在当今Web开发领域，Java依然是后端开发的主力语言，而随着前后端分离架构的普及，Java开发者也需要掌握前端技术栈。本文将全面介绍JavaWeb前端开发的核心技术，包括传统Servlet/JSP体系、现代前端框架集成方案，以及全栈开发的最佳实践。通过本文，您将了解如何构建现代化的JavaWeb应用前端界面。一、JavaWeb前端技术演进1.1传统技术栈Servlet：JavaWeb基础，处
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

Python大作业-网络爬虫程序

简介

目录

程序代码

运行结果

后记

你可能感兴趣的:(大作业(课程设计),python,web,爬虫,数据库,课程设计)