程序员二飞

Python爬虫详解

1、任务介绍

需求分析
爬取豆瓣电影Top250的基本信息，包括电影的名称，豆瓣评分，评价数，电影概况，电影链接等。

豆瓣电影 Top 250

2、基本流程

2.1、准备工作

通过浏览器查看分析目标网页，学习编程基础规范与Java的一些区别，Python没有主函数，需要自己去定义并判断

def main():#所有程序从这里开始执行
    print("hello")

if __name__=="__main__": #当 当前程序执行时
#调用函数
    main()

2.1.1引入模块#

作用就是使用模块里封装好的功能

from bs4 import BeautifulSoup#网页解析
import re #正则表达式，进行文字匹配
import urllib.request,urllib.error #指定URL，获取网页数据
import xlwt #进行Excel操作
import sqlite3 # 进行SQLite数据库操作
#若你的Python升级到2.7.9以后，就会引入一个新特性，
#引入了一个新特性，当使用urllib打开https的链接时，会检验一次ssl证书
import ssl
#全局取消证书验证(当项目对安全性问题不太重视时，推荐使用，可以全局取消证书的验证，简易方便)
ssl._create_default_https_context = ssl._create_unverified_context

2.1.2构建流程#

def main():
    baseurl="https://movie.douban.com/top250"#要爬取的网站的路径
    #1.爬取网页
    datalist=getData(baseurl)#将网站爬取的数据存放在datalist中
    savepath="豆瓣电影Top250.xls"#爬取的数据保存的文件名
    #3.保存数据
    saveData(datalist,savepath)#将爬取的数据保存在指定的文件内

#爬取网页
def getData(baseurl):
    datalist=[]

    return datalist

2.2、获取数据#

通过HTTP库向目标站点发起请求，请求可以包含额外的header等信息，如果服务器能正常响应，会得到一个Response,便是所要获取的页面内容。伪装head得到的方法

#爬取网页
def getData(baseurl):
    datalist=[]
    for i in range(0,10):#调用获取页面信息的函数，10次
        url=baseurl+str(i*25)#baseurl就是参数start后面的值,其实就是个0
        html=askURL(url)#保存获取到的网页源码
       



#得到指定一个URL的网页内容
def askURL(url):
    #用户代理表示告诉豆瓣服务我们是什么类型的机器，浏览器(本质上是告诉浏览器，我们可以接受什么水平的文件内容)
    head={ #模拟浏览器头部信息，向豆瓣服务器发送消息
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36" }

    request=urllib.request.Request(url,headers=head)#伪装成是浏览器去发出请求，防止被看出是爬虫
    html=""
    try:
        #将爬取网页的源码存放在response中(获取一个get请求)
        response = urllib.request.urlopen(request)
        html=response.read().decode("utf-8")#将response中读取到的源代码进行解码
        #print(html)
    except urllib.error.URLError as e:#访问可能出现404，或者其它错误
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)

    return html

2.3、解析内容

得到的内容可能是HTML、json等格式，可以用二面解析库，正则表达式等进行解析

#影片详情链接的规则
findLink = re.compile(r'')#创建正则表达式，表示规则(字符窜的模式)

#影片图片
findImgSrc=re.compile(r'(.*)')#re.S让换行符包含在字符中

#影片评分
findRating=re.compile(r'(.*)')#re.S让换行符包含在字符中

#找到评价人数
findJudge=re.compile(r'(\d*)人评价')

#找到概况
findInq=re.compile(r'(.*)')

#找到影片的相关内容
findBd=re.compile(r'(.*?)',re.S)

#逐一解析数据
soup= BeautifulSoup(html,"html.parser")#使用html的解析器
for item in soup.find_all('div',class_="item"): #查找符合要求的字符串，形成列表
    #print(item)
    data=[]
    item=str(item)

    #影片详情链接
    link=re.findall(findLink,item)[0]#re库用来通过正则表达式查找指定的字符串(标签里的字符串)
    data.append(link)
    #图片
    imgSrc=re.findall(findImgSrc,item)[0]
    data.append(imgSrc)
    #影片片名
            titles=re.findall(findTitle,item)#片名可能只有一个中文名，没有外国名
            if(len(titles)==2):#若该电影有两个名字
                ctitle=titles[0]#得到第一个中文名
                data.append(ctitle)
                otitle=titles[1].replace("/","")#去掉无关的符号，在一个电影名称中，若有多个名字，每个名字之间会使用/分割开了
                data.append(otitle)#添加外国名
            else:#若只有一个中文名
                data.append(titles[0])#将爬取到的第一个名字存入
                data.append(' ')#外国名留空
            #评分
            rating=re.findall(findRating,item)[0]
            data.append(rating)
            #评价人数
            judgeNum=re.findall(findJudge,item)[0]
            data.append(judgeNum)#增加评价人数
            #概括
            inq=re.findall(findInq,item)
            if len(inq) !=0:#如果电影有概述
                inq=inq[0].replace("。","")#每个电影概述后面有一个句号
                data.append(inq)#添加概述
            else:
                data.append("")#留空

            #相关内容
            bd=re.findall(findBd,item)[0]
            bd=re.sub('(\s+)?'," ",bd)#去掉

            bd=re.sub('/'," ",bd)#替换/
            data.append(bd.strip())#去掉前后的空格

            datalist.append(data)#把处理好的一部电影信息放入datalist

2.4、保存数据#

保存形式多样，可以村委文本，也可以保存到数据，或者保存特定格式的文件

#保存数据
def saveData(datalist,savepath):
    print("save..")
    book=xlwt.Workbook(encoding="utf-8",style_compression=0)#创建workbook对象
    sheet=book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)#创建工作表
    col=("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")
    for i in range(0,8):
        sheet.write(0,i,col[i])#列名
    for i in range(0,250):
        print("第%d条"%(i+1))
        data=datalist[i]
        for j in range(0,8):
            sheet.write(i+1,j,data[j])#数据

    book.save(savepath)#保存

最后完整代码

from bs4 import BeautifulSoup#网页解析
import re #正则表达式，进行文字匹配
import urllib.request,urllib.error #指定URL，获取网页数据
import xlwt #进行Excel操作
import sqlite3 # 进行SQLite数据库操作
#若你的Python升级到2.7.9以后，就会引入一个新特性，
#引入了一个新特性，当使用urllib打开https的链接时，会检验一次ssl证书
import ssl
#全局取消证书验证(当项目对安全性问题不太重视时，推荐使用，可以全局取消证书的验证，简易方便)
ssl._create_default_https_context = ssl._create_unverified_context

def main():
    baseurl="https://movie.douban.com/top250?start="
    #1.爬取网页
    datalist=getData(baseurl)
    savepath="豆瓣电影Top250.xls"
    #3.保存数据
    saveData(datalist,savepath)
    #askURL("https://movie.douban.com/top250")


#影片详情链接的规则
findLink = re.compile(r'')#创建正则表达式，表示规则(字符窜的模式)
#影片图片
findImgSrc=re.compile(r'(.*)')#re.S让换行符包含在字符中
#影片评分
findRating=re.compile(r'(.*)')#re.S让换行符包含在字符中
#找到评价人数
findJudge=re.compile(r'(\d*)人评价')
#找到概况
findInq=re.compile(r'(.*)')
#找到影片的相关内容
findBd=re.compile(r'(.*?)',re.S)


#爬取网页
def getData(baseurl):
    datalist=[]
    for i in range(0,10):#调用获取页面信息的函数，10次
        url=baseurl+str(i*25)#baseurl就是参数start后面的值,其实就是个0
        html=askURL(url)#保存获取到的网页源码
        #逐一解析数据
        soup= BeautifulSoup(html,"html.parser")#使用html的解析器
        for item in soup.find_all('div',class_="item"): #查找符合要求的字符串，形成列表
            #print(item)
            data=[]
            item=str(item)

            #影片详情链接
            link=re.findall(findLink,item)[0]#re库用来通过正则表达式查找指定的字符串(标签里的字符串)
            data.append(link)
            #图片
            imgSrc=re.findall(findImgSrc,item)[0]
            data.append(imgSrc)
            #影片片名
            titles=re.findall(findTitle,item)#片名可能只有一个中文名，没有外国名
            if(len(titles)==2):#若该电影有两个名字
                ctitle=titles[0]#得到第一个中文名
                data.append(ctitle)
                otitle=titles[1].replace("/","")#去掉无关的符号，在一个电影名称中，若有多个名字，每个名字之间会使用/分割开了
                data.append(otitle)#添加外国名
            else:#若只有一个中文名
                data.append(titles[0])#将爬取到的第一个名字存入
                data.append(' ')#外国名留空
            #评分
            rating=re.findall(findRating,item)[0]
            data.append(rating)
            #评价人数
            judgeNum=re.findall(findJudge,item)[0]
            data.append(judgeNum)#增加评价人数
            #概括
            inq=re.findall(findInq,item)
            if len(inq) !=0:#如果电影有概述
                inq=inq[0].replace("。","")#每个电影概述后面有一个句号
                data.append(inq)#添加概述
            else:
                data.append("")#留空

            #相关内容
            bd=re.findall(findBd,item)[0]
            bd=re.sub('(\s+)?'," ",bd)#去掉

            bd=re.sub('/'," ",bd)#替换/
            data.append(bd.strip())#去掉前后的空格

            datalist.append(data)#把处理好的一部电影信息放入datalist
    #print(datalist)
    return datalist

#得到指定一个URL的网页内容
def askURL(url):
    #用户代理表示告诉豆瓣服务我们是什么类型的机器，浏览器(本质上是告诉浏览器，我们可以接受什么水平的文件内容)
    head={ #模拟浏览器头部信息，向豆瓣服务器发送消息
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36" }

    request=urllib.request.Request(url,headers=head)#伪装成是浏览器去发出请求，防止被看出是爬虫
    html=""
    try:
        #将爬取网页的源码存放在response中(获取一个get请求)
        response = urllib.request.urlopen(request)
        html=response.read().decode("utf-8")#将response中读取到的源代码进行解码
        #print(html)
    except urllib.error.URLError as e:#访问可能出现404，或者其它错误
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)

    return html


#保存数据
def saveData(datalist,savepath):
    print("save..")
    book=xlwt.Workbook(encoding="utf-8",style_compression=0)#创建workbook对象
    sheet=book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)#创建工作表
    col=("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")
    for i in range(0,8):
        sheet.write(0,i,col[i])#列名
    for i in range(0,250):
        print("第%d条"%(i+1))
        data=datalist[i]
        for j in range(0,8):
            sheet.write(i+1,j,data[j])#数据

    book.save(savepath)#保存




if __name__=="__main__": #当程序执行时
    main()

运行结果

最后

如果对Python感兴趣的话，可以试试我的学习方法以及相关的学习资料

Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

二、Python必备开发工具

三、精品Python学习书籍

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。

四、Python视频合集

观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

五、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

六、Python练习题

检查学习结果。

七、面试资料

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

大家拿到脑图后，根据脑图对应的学习路线，做好学习计划制定。根据学习计划的路线来逐步学习，正常情况下2个月以内，再结合文章中资料，就能够很好地掌握Python并实现一些实践功能。

你可能感兴趣的:(学习路线,python,程序员,数据库,python,开发语言,大数据,爬虫)

产品思想实验：AI 长期记忆存储单元（Memory Graph Unit）人工智能
在现有LLM架构中，“记忆”通常是以线性上下文或简单数据库形式存在，缺乏结构化、语义链接和跨模型兼容性。我们要做的，是将“记忆”升级为一个具备智能检索能力、语义感知能力和多模型兼容能力的图谱系统。一、目标定位构建一个开放、结构化、可演化的AI长期记忆存储单元（MemoryGraphUnit）支持动态更新、优先级排序、冲突消解兼具语义理解与逻辑组织跨平台/跨模型通用格式二、整体架构设计记忆图谱的核心
人工智能中的知识图谱与向量数据库：选择与应用指南 AI Agent首席体验官人工智能知识图谱数据库
1.人工智能领域，知识图谱是什么？知识图谱是人工智能和语义网领域的一个重要概念，它是一种结构化的知识表示方法，用于存储实体之间的语义关系。知识图谱基本上是由节点（实体）和边（关系）组成的图结构：节点：代表现实世界中的实体或概念，如人物、地点、组织等边：代表实体间的语义关系，如"出生于"、“工作于”、"创立了"等知识图谱的主要特点和应用包括：语义网络表示：以三元组形式（主体-关系-客体）存储知识，如
Python包管理之Protry的基本使用菜鸟级后端 python linux 开发语言
一，Poetry是什么Poetry是Python生态中一款革命性的依赖管理与项目打包工具，它通过现代化的设计理念解决了传统工具（如pip+virtualenv）在项目管理中的诸多痛点，比pip的功能强大许多。核心功能如下：1，智能依赖管理Poetry采用pyproject.toml文件统一管理项目元数据、依赖声明及构建配置，通过poetryadd命令即可自动解析依赖树并安装精确版本，避免版本冲突（
Python变量的动态创建念致达 Python python
Python变量的动态创建动态地创建变量可以使用globals()和locals()来实现。这两个对象以字典的形式分别保存着系统的静态变量和局部变量。所以只要将要创建的变量加入这两个字典中的任一个，就实现了变量的动态创建。>>>ls=['name','无奇']>>>i=21>>>globals()[ls[0]+str(i)]=ls[1]>>>name21'无奇'动态变量的应用。最典型的就是pyth
C++实现一个基于多态的职工管理系统（附源码） loveCC_orange C/C++c++面试华为后端开发多态
之前为了找实习，学了Python，刷了五六十道算法题，然后就开始投简历面试了，结果就是各个大厂一轮游，要Python开发的岗位又少的可怜。但所幸华为的实习面试通过了~本来以为这样就可以等着拿offer了，结果泡池子失败，今年华为的RAN研究部offer数量缩水，由于没在前四之列，所以就被pass掉了。然后又重新开始海投简历找实习。在无数次碰壁之后，深感自己才疏学浅，学的东西还是太少了。于是继续刷题
Python编程：色温倔强老吕 C++与python交互编程 python 色温
色温（ColorTemperature）是一个用来描述光源颜色特征的物理量，通常用开尔文温度（K）表示。它并不是指灯泡或光源的实际温度，而是以绝对黑体辐射为参照的一种度量方式。当一个理想的黑体被加热到特定温度时，它会发出特定颜色的光，这个颜色与光源的颜色相匹配时，该黑体的温度即为该光源的色温。色温范围及其对应的光色：低于3000K：暖白色，给人以温暖、舒适的感觉，类似于烛光或者白炽灯。3000K至
超详细Python教程——图形用户界面和游戏开发
图形用户界面和游戏开发基于tkinter模块的GUIGUI是图形用户界面的缩写，图形化的用户界面对使用过计算机的人来说应该都不陌生，在此也无需进行赘述。Python默认的GUI开发模块是tkinter（在Python3以前的版本中名为Tkinter），从这个名字就可以看出它是基于Tk的，Tk是一个工具包，最初是为Tcl设计的，后来被移植到很多其他的脚本语言中，它提供了跨平台的GUI控件。当然Tk并
Python编程：ISP中的白平衡（White Balance）倔强老吕 C++与python交互编程 python ISP 白平衡
白平衡（WhiteBalance）是图像信号处理（ISP）中的关键步骤，用于消除光源色温对图像颜色的影响，使白色物体在不同光照条件下都能呈现真实的白色。白平衡的基本原理白平衡通过调整图像中R、G、B三个通道的增益，使得在特定光源下白色物体能够呈现中性色（R=G=B）。主要概念色温：表示光源颜色的物理量，单位是开尔文(K)灰色世界假设：认为自然场景的平均反射率是中性灰色完美反射体假设：认为图像中最亮
Python编程：使用 YOLO 目标检测倔强老吕 python 开发语言
YOLO（YouOnlyLookOnce）是一种基于深度学习的实时目标检测算法，由JosephRedmon等人于2016年首次提出。与传统的两阶段目标检测方法（如R-CNN系列）不同，YOLO将目标检测任务视为一个单一的回归问题，直接在图像上进行一次推理即可预测边界框和类别概率。YOLO的核心思想单次前向传播（SingleShotDetection）：YOLO只需对输入图像进行一次神经网络推理，就
性能测试需求分析详解
点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快1、客户方提出客户方能提出明确的性能需求，说明对方很重视性能测试，这样的企业一般是金融、电信、银行、医疗器械等；他们一般对系统的性能要求非常高，对性能也非常了解。提出需求也比较明确。曾经有一个银行项目，已经到最后的性能测试极端，因为数据库设计不合理，导致性能出现很大的问题，最终不得不把整合项目作废，对于这样的项目，其实从分析设计阶段就应该
不懂的还在争论AI，懂行的已用Python+DeepSeek变现！逆袭机会就在AI应用层渡难繁辰 python开发人工智能拥抱AI 人工智能 python ai
最近总有种错觉：AI时代轰轰烈烈，普通人却只能当看客？大模型训练动辄千万美金，算法高深莫测，似乎离我们太远。别急，AI真正的革命性力量，正从神秘实验室涌向普通人的键盘——它的名字叫“AI应用层”。而拿到这张船票的钥匙，就是你早该学起来的：Python。当质疑者还在争论“AI能否取代人类”，行动派已用DeepSeek+LangChain开发智能应用月入五位数！巨头烧钱搭台，我们轻量唱戏！科技大佬砸重
python 内存空间管理、垃圾回收机制、对象的引用机制、引用计数法贵哥的编程之路(热爱分享为后来者) 开发语言 python
一、对象与内存空间在Python中，一切皆对象。每当你创建一个变量、数据结构、函数、类实例等，Python都会在内存中为它分配空间。对象的内存空间由Python的内存管理器自动分配和回收，开发者无需手动管理。二、垃圾回收（GarbageCollection）垃圾回收指的是：当对象不再被使用时，Python会自动销毁该对象并释放其占用的内存空间。这样可以防止“内存泄漏”，让程序长期运行也不会因为无用
【学习】《算法图解》第七章学习笔记：树自学也学好编程程序人生
前言在前面的章节中，我们学习了数组、链表、散列表等基本数据结构，以及一些基础算法。本章将介绍一种非常重要的数据结构——树(Tree)，特别是二叉搜索树(BinarySearchTree)。树结构在计算机科学中应用广泛，从文件系统到数据库再到人工智能，都能看到树的身影。《算法图解》第七章深入浅出地介绍了树的基本概念、实现和应用，帮助读者理解这一关键数据结构。一、树的基本概念（一）什么是树树是一种分层
告别迷茫！GitHub上这本《系统设计101》，我愿称之为“架构圣经” wylee 架构
各位CSDN的读者朋友们，你们是否也曾被系统设计这道“拦路虎”困扰？在软件开发的世界里，从写出能跑的代码到设计出高性能、高可用、可伸缩、易维护的复杂系统，中间隔着一道巨大的鸿沟。无论是面试中那些让人头大的“设计一个短链接系统”、“设计一个高并发的消息队列”，还是工作中面对系统扩容、性能瓶颈、稳定性挑战时的焦头烂额，无一不在提醒我们：系统设计，是程序员进阶架构师的必经之路，也是真正区分高级工程师与普
面试官是怎么筛选简历的慕慕涵雪月光白算法
在互联网行业工作十几年，管理过团队，做过经理、总监，看过几千份简历，面试过几百位程序员，包括前端、后端、客户端，也面试过其他岗位，比如产品、设计、运营等。这个过程中最耗时的就是筛简历了，现在一个岗位放出去能收到几百份简历，人力资源会筛掉9成，到我这又会筛掉剩下的9成，最终能进入面试环节的可能就3~5个人。这中间最重要的就是简历，它的质量跟你的求职成功率强相关。所以我想从面试官的角度来说一说写简历要
Redis——》双写一致性
思考：项目为什么要用redis?redis配置集群了吗？怎么配的？几台机器？单台redis的压力多少？一、我们为什么引入redis？一定要根据业务场景来，首先分析读写情况，再来考虑要不要引入redis读少写多：不要引用redis读多写多：适当引用redis（可以减少mysql数据库压力，如果不引用，可以使用数据库的主从复制，读写分离）读少写少：不要引用redis（根本没有必要）读多写少：可以引用r
MySQL(106)如何设计分片键？辞暮尔尔-烟火年年 MySQL mysql 数据库
设计分片键（ShardingKey）是数据库分片的核心，它决定了将数据分配到不同分片的方式。一个好的分片键应该能够均衡地分布数据，避免热点问题，提高查询性能。下面将详细介绍如何设计分片键，并结合代码进行说明。1.选择分片键的考虑因素唯一性和可变性：分片键应该具有唯一性或较高的离散度，避免集中在某些分片。查询模式：根据查询模式选择合适的分片键，以优化查询性能。数据增长：考虑数据量的增长，分片键应能支
MySQL(105) 如何进行数据库分片？辞暮尔尔-烟火年年 MySQL 数据库 mysql
数据库分片（Sharding）是一种将数据库表的数据分布到多个物理数据库实例上的技术，以提高数据库的性能和可扩展性。下面将详细介绍如何在Java中实现数据库分片，包括分片策略、分片管理和数据访问。1.环境准备假设我们使用SpringBoot和MySQL，并且需要分片的表是users表。2.分片策略常见的分片策略有哈希分片（HashSharding）、范围分片（RangeSharding）和列表分片
python开发框架django/flask/fastapi对比研创通之逍遥峰 Python python django flask
Python三大Web开发框架对比：DjangovsFlaskvsFastAPIPython生态系统中有三个主流的Web开发框架：Django、Flask和FastAPI。它们在设计哲学、功能特性和适用场景上各有不同。1.框架概览对比特性DjangoFlaskFastAPI类型全功能框架微框架现代异步框架学习曲线较陡峭平缓中等内置功能ORM,Admin,Auth,模板仅基础路由和模板自动文档,数据
Python中Django处理MySQL事务@transaction.atomic(using=‘default‘, savepoint=True) 蓝小白1024 Django 值得拥有-Python 数据库 python django mysql
Python中Django处理MySQL事务@transaction.atomic(using=‘default’,savepoint=True)fromdjango.dbimporttransaction#导入事务模块在Django中开启MySQL事务有两种方式,一种是使用装饰器,还有一种是使用with(相当于上下文管理器)来开启事务装饰器方式在函数视图中#在函数视图添加一个@transacti
Windows如何安装ComfyUI 俊偉 stable diffusion agi comfyui
ComfyUI是一个用于生成和管理文本到图像（Text-to-Image）的开源项目，基于StableDiffusion模型。它提供了图形用户界面（GUI），使得使用AI生成图像变得更加简单和直观。要在Windows上安装ComfyUI，你可以按照以下步骤进行操作。前提条件1.Python3.10+：ComfyUI需要Python3.10或更高版本。你可以从Python官方网站下载并安装最新版本的
Python装饰器深度解析：提升代码可读性与复用性天天进步2015 python python 开发语言
Python装饰器（Decorator）是提升代码可读性与复用性的强大工具。无论是日志记录、权限校验、性能分析还是缓存机制，装饰器都能让你的代码更加优雅、简洁和高效。本文将深入解析Python装饰器的原理、常见用法、进阶技巧与最佳实践，助你写出更具专业水准的Python代码。目录装饰器的基本原理函数装饰器的常见用法带参数的装饰器类装饰器与方法装饰器装饰器的嵌套与组合进阶技巧：保留元信息与类型提示装
Python性能优化指南：让你的代码提速10倍的实用技巧天天进步2015 python python
Python以其简洁易用著称，但在性能方面常被诟病。其实，通过一些实用的优化技巧，你的Python代码性能完全可以提升数倍甚至十倍。本文将结合实际经验，系统介绍Python性能优化的常见思路与方法，并给出具体案例，助你写出高效的Python程序。1.算法与数据结构优化优先选择合适的数据结构：如查找用set/dict，顺序存储用list。避免不必要的嵌套循环，能用集合操作、字典映射解决的，绝不用暴力
缓存和数据库一致性问题 ezreal_pan 后端 Go 缓存数据库
更新数据库后直接更新缓存方案直接更新缓存的核心优势减少缓存穿透风险：直接设置缓存可以避免缓存删除后短期内的缓存穿透问题（即大量请求穿透到数据库）。尤其在高频更新场景下，连续写入时可减少缓存未命中的概率。数据一致性优先：直接获取最新的数据库记录后立即更新缓存，确保缓存数据与数据库强一致，避免传统"删除缓存+后续查询重建"模式可能产生的短暂数据不一致窗口。理论上直接更新缓存是可以带来上述的这些有点。尤
【day51】复习日 daomingwu017 Python打卡训练营内容 python
内容来自@浙大疏锦行python打卡训练营@浙大疏锦行作业：day43的时候我们安排大家对自己找的数据集用简单cnn训练，现在可以尝试下借助这几天的知识来实现精度的进一步提高
技术实录-从 MySQL 启动失败到大小写兼容恢复：一次完整故障排查复盘20250614 Narutolxy 智浪初航技术干货分享 mysql adb android
技术实录|从MySQL启动失败到大小写兼容恢复：一次完整故障排查复盘作者：Narutolxy|日期：2025-06-14|标签：MySQL、权限修复、大小写敏感、数据迁移引言：一次意外引发的MySQL修复实践在一次对客户MySQL数据库进行表迁移和大小写兼容性调整的过程中，我遇到了一个典型但复杂的问题——MySQL配置了lower_case_table_names=1后无法启动，root用户密码遗
腾讯云产品都有哪些苹果企业签名分发腾讯云
之前我已经系统分析过腾讯云的未来方向，现在需要转向产品架构的实用性介绍。要注意避免简单罗列，而是按用户使用场景分层展开——毕竟直接扔出200+产品名称只会让人眼花缭乱。用户没限定细分领域，所以得覆盖主流服务：先从基础计算存储网络讲起，这是上云刚需；再提PaaS层关键服务如数据库和容器，这是技术选型重点；最后补充音视频、AI等腾讯特色产品，呼应之前提到的战略方向。政企客户可能还关心专有云方案，要单独
FastAPI vs Flask vs Django：Python Web框架全面对比天天进步2015 python python fastapi flask
Python作为最受欢迎的编程语言之一，其Web开发生态极为丰富。FastAPI、Flask和Django是当前主流的三大PythonWeb框架，各有千秋。本文将从架构设计、开发效率、性能表现、生态支持、适用场景等方面，全面对比这三大框架，帮助开发者选择最适合自己的技术栈。目录框架简介架构设计与理念开发效率与易用性性能对比生态与扩展性典型应用场景总结与选型建议参考资料框架简介FastAPI定位：新
如何在CentOS7上搭建自己的GitLab仓库详解 ytttr873 gitlab
在CentOS7上搭建自己的GitLab仓库的详细步骤如下：更新系统：在开始之前，确保您的系统已经更新到最新版本。打开终端，并执行以下命令：sudoyumupdate-y安装依赖：在安装GitLab之前，需要安装一些依赖项。执行以下命令来安装所需的软件包：sudoyuminstall-ycurlpolicycoreutils-pythonopenssh-server添加GitLab仓库：执行以下命
基于python快速部署属于你自己的页面智能助手小张Tt python 人工智能腾讯云AI代码助手
文章目录前言一、实现目标二、代码解析2.1目录结构2.2后端：Flask服务器的搭建2.2.1安装Flask2.2.2创建Flask应用2.3实现聊天界面与消息交互2.3.1创建聊天界面三、跨域问题的解决3.1安装flask-cors3.2在Flask中启用CORS五效果展示前言 AI聊天机器人已经成为了许多应用场景中的重要组成部分。通过与用户的对话，聊天机器人不仅能够提升用户体验，还能通过不断
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他