Sarapines Programmer

【python爬虫】爬虫编程技术的解密与实战

个人主页：Sarapines Programmer
系列专栏： 爬虫】网络爬虫探秘
⏰诗赋清音：云生高巅梦远游，星光点缀碧海愁。山川深邃情难晤，剑气凌云志自修。

实验目的

实验要求

️实验代码

1. 爬取并下载当当网某一本书的网页内容

2. 在豆瓣网上爬取某本书的前50条短评内容并计算评分的平均值

3. 从长沙房产网爬取长沙某小区的二手房信息

实验结果

1. 爬取并下载当当网某一本书的网页内容

2. 在豆瓣网上爬取某本书的前50条短评内容并计算评分的平均值

3. 从长沙房产网爬取长沙某小区的二手房信息

实验体会

总结

实验目的

Jupyter Notebook编程工具基本用法：
- 学习掌握Jupyter Notebook编程工具的基本用法。
Python读取CSV文件：
- 理解并熟悉使用Python编程语言读取CSV文件的方法。
学习使用爬虫：
- 通过学习，熟悉爬虫技术的使用，掌握在Python环境下进行网络爬取的基本知识和技能。

实验要求

爬取并下载当当网某一本书的网页内容： 通过编写Python代码，实现对当当网上某一本书的网页内容进行爬取，并将其保存为HTML格式，这涉及到网络爬虫技术的应用。
在豆瓣网上爬取某本书的前50条短评内容并计算评分的平均值： 运用自学的正则表达式技能，爬取豆瓣网上某本书的前50条短评内容，并计算这些评分的平均值，为数据分析提供基础。
从长沙房产网爬取长沙某小区的二手房信息： 以名都花园为例，通过网络爬虫技术从长沙房产网（长沙链家网）上获取该小区的二手房信息，并将这些信息保存到EXCEL文件中，为房产数据的整理和分析提供便利

️实验代码

1. 爬取并下载当当网某一本书的网页内容

import urllib.request    
#做爬虫时要用到的库
   
#定义百度函数  
def dangdang_shuji(url,begin_page,end_page):  
    #三个参数： 链接+开始页数+结束页数  
    for i in range(begin_page, end_page+1):  
        #从开始页数到结束页数，因为range性质所以要想到达end_page得到达end_page+1
        sName = str(i).zfill(5) + '.html'     
        #填充为.html文件名
        #zfill(5)表示数字前自动补0，加上字符转化的整型i一共占五位
        print ('正在下载第' + str(i) + '个网页，并将其存储为' + sName + '......')  
        #显示爬虫细节
        f = open(sName,'wb+')        
        #w+以纯文本方式读写，而wb+是以二进制方式进行读写              
        m = urllib.request.urlopen(url+str(i)) .read()  
        #urllib.request请求模块
        #urlopen实现对目标url的访问
        #可用参数
        #url:  需要打开的网址
        #data：Post提交的数据
        #timeout：设置网站的访问超时时间
        f.write(m)  
        f.close()
        
#调用部分
bdurl = str(input('请输入您在当当网上搜索的关于某本书的网页地址：'))
# 注意输入网址 https://book.dangdang.com/
begin_page = int(input(u'请输入开始的页数：\n')) 
#将输入的字符串类型转化为整型
end_page = int(input(u'请输入终点的页数：\n'))  
#同上
dangdang_shuji(bdurl,begin_page,end_page)    
#调用函数

2. 在豆瓣网上爬取某本书的前50条短评内容并计算评分的平均值

import requests, re, time  
#获取响应时间与超时
count = 0
i = 0
sum, count_s = 0, 0
while(count < 50):
  #访问前50条记录
  if(i==0):
  #首页内容
    try:
      proxies = {'http': '120.236.128.201:8060','https': '120.236.128.201:8060'}
      headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER'}
      url = 'https://book.douban.com/subject/3674537/comments/?limit=20&status=P&sort=score'
      r = requests.get(url=url,headers=headers)
    except Exception as err:
      print(err)
      #打印输出错误信息
      break

  #其他页的内容
  else:
      start = i*20
    #url中start的值
      try:
        proxies = {'http': '120.236.128.201:8060','https': '120.236.128.201:8060'}
        headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER'}
        url='https://book.douban.com/subject/3674537/comments/?start='+str(start)+'&limit=20&status=P&sort=score'
        r = requests.get(url=url,headers=headers)
        # print('第'+str(i)+'页内容')
      except Exception as err:
        print(err)
        break
  soup = BeautifulSoup(r.text, 'lxml')
  # comments = soup.find_all('p', 'comment-content')
  #查找所有tag值为p，class标签为comment-content的内容

  comments = soup.find_all('span', class_='short')

  for item in comments:
    count = count + 1
    # print(count, item.string)
    print(count,item.get_text())
    #打印用户评论
    if count == 50:
      break 
  pattern = re.compile('=50):
                break
        i+=1
        #下一页
        time.sleep(5) 
        # 停顿5秒
    print("评分表  :  ",score_list)
    
    #计算平均分
    length=len(score_list)
    print("一共%d条信息"%length)
    sum_score=0
    #计算总和，然后求平均分
    for i in score_list:
        sum_score+=i
    avg=sum_score/length
    print("豆瓣前50评价 总分为：",sum_score,"平均分：",avg)
#调用函数
douBan()

3. 从长沙房产网爬取长沙某小区的二手房信息

import requests as requ
import requests
#获取响应时间与超时
from bs4 import BeautifulSoup
#html的解析器，主要功能是解析和提取数据
import xlwt
#xlwt将数据和样式信息写入excel表格的库
 
def getHouseList(url):
    "获取房源信息：标题、链接地址、户型、面积、朝向、总价、所属区域、套内面积"
    house =[]
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER'}   
    #解析内容
    res = requests.get(url,headers=headers)
    soup = BeautifulSoup(res.content,'html.parser')
    housename_divs = soup.find_all('div',class_='title')
    #查找该html网页中tag值为div、class值为title的部分
    #指定属性查找标签
    
    for housename_div in housename_divs:
        housename_as=housename_div.find_all('a')
        #参数解释：在原网页中，div标志下有一个叫"a"的超链接。所以次数找tag值为a的元素
        #返回值：对象数组，对象内容为a超链接中的属性)

        for housename_a in housename_as:
            housename=[]
            housename.append(housename_a.get_text())
            #得到超链接中的文字内容,放在housename列表中

            housename.append(housename_a.get('href'))
            house.append(housename)
            #获取超链接中的链接，放在house列表中

    huseinfo_divs = soup.find_all('div',class_='houseInfo')
    #参数解释：获取该网页中tag值为div，class值为houseInfo

    for i in range(len(huseinfo_divs)):
        info = huseinfo_divs[i].get_text()#获取houseInfo中的标题
        infos = info.split('|')
        #原网页以|符号分割的，这里以此做分割

        #小区名称
        house[i].append(infos[0])
        #户型
        house[i].append(infos[1])
        #平米
        house[i].append(infos[2])

    house_prices = soup.find_all('div',class_='totalPrice')
    #函数作用：获取网页中tag值为div，且class值为totalPrice的内容

    for i in range(len(house_prices)):
        price = house_prices[i].get_text()
        #获取文字内容
        house[i].append(price)
    return house
 
#爬取房屋详细信息：所在区域、套内面积
def houseinfo(url):
    #为什么要分为两个函数？因为这个网页中，输入一个url只是得到一些基本信息
    #而详细信息需要到从基本信息中的链接再去提取

    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER'}
    res = requests.get(url,headers=headers)
    soup = BeautifulSoup(res.content,'html.parser')
    #headers、res、soup与getHouseList()函数中一致。基本上可以作为固定不变的部分

    msg =[]
    #获取房源的所在区域
    areainfos = soup.find_all('span',class_='info')
    #获取网页中tag值为span，class为info的内容(以具体网页内容为准)

    for areainfo in areainfos:
        #只需要获取第一个a标签的内容即可
        area = areainfo.find('a')
        #找到tag值为a（超链接）的内容。返回一个对象数组
        #具体内容为：herf、target、text

        if(not area):#如果area为null
            continue#如果没有这部分信息就跳过
        hrefStr = area['href']#提取该房源的链接
        if(hrefStr.startswith('javascript')):
            continue
        msg.append(area.get_text())#获取房源所在的地区名称
        break#由于只需要获取第一个a标签的内容，所以此时就可以跳出循环

    #根据房屋户型计算套内面积
    infolist = soup.find_all('div',id='infoList')
    #获取tag值为div，id为infolist的内容
    #注意网站标注的总面积与实际的套内面积是不一样的，所以需要重新计算

    num = []
    for info in infolist:
        cols = info.find_all('div',class_='col')
        #网站中包含col列的有很多，包括面积、方位、名称等等
        #老师的方法是遍历所有的col，
        #我觉得更好的方法是将包含平米的col单独提取出来，这样就无需使用try

        for i in cols:
            pingmi = i.get_text()#获取标题（面积，即xxx平米）
            try:
                #尝试从string中提取数字
                a = float(pingmi[:-2])#从开头到距离尾部2个字符，即把"平米"汉字去掉了
                num.append(a)
            except ValueError:
                #如果出错就跳出
                continue
    msg.append(sum(num))#计算各户型的总面积
    return msg
 
def writeExcel(excelPath,houses):
    "#将爬取数据写入excel文件"
    #excelPath：excel文件存储的路径,houses：包含房源基本信息的列表
    workbook = xlwt.Workbook()
    #函数作用：新建一个工作簿
    sheet = workbook.add_sheet('git')
    #添加一行

    row0=['标题','链接地址','户型','面积','朝向','总价','所属区域','套内面积']
    for i in range(0,len(row0)):
        sheet.write(0,i,row0[i])
        #作为excel表列索引

    for i in range(0,len(houses)):
        house = houses[i]
        print(house)
        for j in range(0,len(house)):
            sheet.write(i+1,j,house[j])
            #数据写完一行接上一行
    workbook.save(excelPath)
    #将excel工作簿保存到指定位置
 
#主函数
def main():
    data = []
    for i in range(1,5):
        print('-----分隔符',i,'-------')
        #i从1到4
        if i==1:
            url ='https://cs.lianjia.com/ershoufang/c3511059937033rs%E5%90%8D%E9%83%BD%E8%8A%B1%E5%9B%AD/'
            #此时i=1时url指向该地址
        else:
            url='https://cs.lianjia.com/ershoufang/pg'+str(i)+'c3511059937033rs%E5%90%8D%E9%83%BD%E8%8A%B1%E5%9B%AD/'
            #i不等于1时url执行不同位置
        
        houses =getHouseList(url)
        
        for house in houses:
            link = house[1]
            if(not link or not link.startswith('http')):
                #无法连接或连接协议不是http，使用continue跳出循环
                continue
            mianji = houseinfo(link)
            house.extend(mianji)
        data.extend(houses)
        #将数据整合到daya里统一写入excel表
    writeExcel('d:/cs.xls',data)
    
if __name__ == '__main__':
    main()
    #如果模块是被直接运行的，则代码块被运行，
    #如果模块是被导入的，则代码块不被运行

实验结果

1. 爬取并下载当当网某一本书的网页内容

2. 在豆瓣网上爬取某本书的前50条短评内容并计算评分的平均值

3. 从长沙房产网爬取长沙某小区的二手房信息

实验体会

实验学习和爬虫指令使用
- 通过实验首次接触了使用Python进行爬虫，学到了相关爬虫指令，并成功爬取了当当网和长沙二手房的信息。
- 发现在Linux系统下使用cat语法访问.csv文件，而在Windows系统下要使用type，需要注意斜线的差异。
对Python库的认识和意识拓展
- 在此实验中，通过社区查阅了相关资源，附上了详细注释，深化了对爬虫的理解。
- 意识到Python语言的强大之处，不论是机器学习的scikit-learn库还是爬虫的requests库，都涉及到Python，并体会到其调用封装在不同的库中。
爬虫问题解决和环境疑惑
- 遇到在Jupyter Notebook中出现‘int’ object is not callable的问题，通过重新创建文件解决，但对问题原因产生疑惑。
- 怀疑问题可能与装了PyTorch导致与Python两个虚拟环境冲突，但并未做实质修改，问题自行解决，留下疑惑。

总结

Python领域就像一片未被勘探的信息大海，引领你勇敢踏入Python数据科学的神秘领域。这是一场独特的学习冒险，从基本概念到算法实现，逐步揭示更深层次的模式分析、匹配算法和智能模式识别的奥秘。

渴望挑战Python信息领域的技术？不妨点击下方链接，一同探讨更多Python数据科学的奇迹吧。我们推出了引领趋势的 Python数据科学专栏：【爬虫】网络爬虫探秘，旨在深度探索Python模式匹配技术的实际应用和创新。

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
JSON 与 AJAX Auscy json ajax 前端
一、JSON（JavaScriptObjectNotation）1.数据类型与语法细节支持的数据类型：基本类型：字符串（需用双引号）、数字、布尔值（true/false）、null。复杂类型：数组（[]）、对象（{}）。严格语法规范：键名必须用双引号包裹（如"name":"张三"）。数组元素用逗号分隔，最后一个元素后不能有多余逗号。数字不能以0开头（如012会被解析为12），不支持八进制/十六进制
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
docker-compose方式搭建lnmp环境——筑梦之路筑梦之路 linux系统运维国产化 docker android adb
docker-compose.yml文件#生成docker-compose.ymlcat>docker-compose.ymlnginx/conf.d/default.conf">www/index.phpecho"开始启动服务..."docker-composeup-d#获取本机ipip_addr=$(hostname-I|awk'{print$1}')echo"部署完成！"echo"访问测试页
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
ARM嵌入式可编程控制器技术开发拉勾科研工作室 arm开发
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Cesium加载各类数据总结 zhu_zhu_xia cesium JavaScript javascript
接触到的加载数据类型：源地图、shp、Geojson、png、wms、地形底图一.Cesium加载各类底图#此类加载的本质在于newCesium.ImageryProvider()Apidefination：“Providesimagerytobedisplayedonthesurfaceofanellipsoid.Thistypedescribesaninterfaceandisnotinten
【前端】jQuery数组合并去重方法总结
在jQuery中合并多个数组并去重，推荐使用原生JavaScript的Set对象（高效简单）或$.unique()（仅适用于DOM元素，不适用于普通数组）。以下是完整解决方案：方法1：使用ES6Set（推荐）//定义多个数组constarr1=[1,2,3];constarr2=[2,3,4];constarr3=[3,4,5];//合并数组并用Set去重constmergedArray=[...
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
计算机网络技术 CZZDg 计算机网络
目录一.网络概述1.网络的概念2.网络发展是3.网络的四要素4.网络功能5.网络类型6.网络协议与标准7.网络中常见的概念8.网络拓补结构二.网络模型1.分层思想2.OSI七层模型3.TCP/IP五层模型4.数据的封装与解封装过程三.IP地址1.进制转换2.IP地址定义3.IP地址组成成分4.IP地址分类5.地址划分6、相关概念一.网络概述1.网络的概念两个主机通过传输介质和通信协议实现通信和资源
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
日历插件-FullCalendar的详细使用老马聊技术 JavaScript 前端 javascript
一、介绍FullCalendar是一个功能强大、高度可定制的JavaScript日历组件，用于在网页中显示和管理日历事件。它支持多种视图（月、周、日等），可以轻松集成各种框架，并提供丰富的事件处理功能。二、实操案例具体代码如下：FullCalendar日期选择body{font-family:Arial,sans-serif;margin:20px;}#calendar{max-width:900
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少

【python爬虫】爬虫编程技术的解密与实战

实验目的

实验要求

️实验代码

1. 爬取并下载当当网某一本书的网页内容

2. 在豆瓣网上爬取某本书的前50条短评内容并计算评分的平均值

3. 从长沙房产网爬取长沙某小区的二手房信息

实验结果

1. 爬取并下载当当网某一本书的网页内容

2. 在豆瓣网上爬取某本书的前50条短评内容并计算评分的平均值

3. 从长沙房产网爬取长沙某小区的二手房信息

实验体会

总结

你可能感兴趣的:(【爬虫】网络爬虫探秘,爬虫,python,开发语言,ip,编程)