敲代码能吃鸡排饭吗

[Python爬虫实战2]爬取济南安居客网站上所需街区的二手房平均房价数据

文章目录

- 一、项目简介
- 二、安居客网页分析
- - 1、整体分析
  - 2、细节分析
  - - 2.1提取一个页面所有的房源信息
    - 2.2提取每个房源信息中的信息
    - 2.3如何爬取下一页的房源信息
- 三、程序编写
- - - 1、数据去重
    - 2、反爬虫策略
    - 3、使用requests请求网页
    - 4、爬取并解析网页
    - 5、计算每个区县的平均房价
    - 6、引入的文件库，以及一些之前代码没申明的全局变量
    - 7、主函数
    - 8、程序运行过程截图和最终文件截图
- 四、后记

一、项目简介

有20w的济南用户地址信息（所在区县+街道），用济南市安居客网站（https://jinan.anjuke.com/sale/）查找每个用户所在街道的二手房房源信息，并求出该街道下的所有二手房的平均房价，即xxx元/㎡。
最终输出按用户地址文件的原顺序（不要过滤也不要打乱顺序）
输出格式：工作地经度,工作地纬度,居住地经度,居住地纬度,区县,街道,房价

二、安居客网页分析

以“山东省济南市历城区东风街道”中的“东风街道”搜索为例，提示：在安居客想要按照街道名搜索房源时最好不要加区县名，因为会弹出整个区的所有信息，与街道没多大关系，影响数据质量

1、整体分析

观察下面图片，可以看到搜索结果的第一页链接为https://jinan.anjuke.com/sale/rd1/?q=搜索内容

第二页开始就有规律：https://jinan.anjuke.com/sale/p页数/?q=搜索内容

每一个结果页面最多可以存放60个房源信息，可以点击’下一页’查看剩下的搜索结果

2、细节分析

2.1提取一个页面所有的房源信息

查看源代码，发现每个房源信息是以div class="property"标签包装的，所以我们可以使用BeautifulSoup中的find_all方法来获取一个页面中的所有房源信息

bs = BeautifulSoup(response.text, 'html.parser')
houses = bs.find_all('div', class_="property")

2.2提取每个房源信息中的信息

根据需求，我们需要爬取每个房源的平均价格和具体地址，这里爬取地址是为了检查使用街道名搜索出来的房源信息是否是该区县的，因为其他区县也可能有这个街道名。
查看源代码，可以在源代码中使用Ctrl+F搜索关键字快速定位到我们需要的标签位置

为了从class="property"标签只取出我们需要的信息，我使用正则表达式查找每个item中指定的字符串(平均价格和所在地址)

# 平均价格
findAveragePrice = re.compile(r'(\d*)元/㎡')
# 房源所在地址（市，区，详细地址）
findAddress = re.compile(r'(.*?)')
for item in houses:
# 根据正则表达式求出房源的地址
find_Address = re.findall(findAddress, str(item))[0]
# 为避免模糊查询的可能，还判断所查找的街区是否与房源地址一致，若一致，则加入价格
prices = []
if street in find_Address:
    price = re.findall(findAveragePrice, str(item))[0]
    print(find_Address, price)
    prices.append(float(price))
average_price = np.mean(prices)

2.3如何爬取下一页的房源信息

我们可以发现，安居客搜索结果页面不会显示出一共检索出了多少页面或者检索出了多少条信息。这样我们在写url时有难度，不好判断一共需要多少个url链接，是一大难点

那我们就先对比看看有没有下一页的源代码对比

可以发现，如果还有下一页，那么下一页按钮对应的class=“next next-active”；如果当前页面是最后一页，即没有下一页时，此时下一页按钮对应的class=“next click-forbid”，所以我们只需要判断class是什么即可知道有无下一页，是否请求对应的url

# 判断是否还有下一页
next_page = bs.find_all('a', class_='next next-active')
if len(next_page) != 0:  
    # 若还有下一页，递归调用
    getData(page+1,street,i)

三、程序编写

1、数据去重

文件中的数据格式如下截图

因为20w的济南市用户（里面有部分非济南市居民，不做处理）数据量比较大，而安居客的反扒机制比较厉害（比如过几分钟就会出现滑动二维码）；且这20w用户肯定有居住在同一个区县+街道的情况，所以我先对数据进行去重，把去重后的数据存储在一个新的文件中，再根据新文件中的数据爬取每条街道的平均房价(用pandas中的drop_duplicates方法进行去重)

import pandas as pd
info = pd.read_csv('location_info.csv',dtype=str)# 若不加dtype=str，如果文件有数字数据段，有可能会按浮点型处理
df = pd.DataFrame(info)
# 用pd中的drop_duplicates方法进行去重，最好数据都是字符串类型，浮点类型可能会出现小问题
df = df.drop_duplicates(subset=['区县','街道'], keep='first')
df.to_csv('去重后的location.csv', index=False)

2、反爬虫策略

添加随机的user-agent头，还可以设置延迟随机时间

# 35个user-agent
user_agent_list = [ \
'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50', \
'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50', \
'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;', 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)', \
'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)', \
'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1', \
'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1', \
'Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11', \
'Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11', \
'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11', \
'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)', 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)', \
'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)', \
'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)', \
'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)', \
'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)', \
'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Avant Browser)', \
'Mozilla/5.0 (hp-tablet; Linux; hpwOS/3.0.0; U; en-US) AppleWebKit/534.6 (KHTML, like Gecko) wOSBrowser/233.70 Safari/534.6 TouchPad/1.0', \
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1", \
"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11", \
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6", \
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6", \
"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1", \
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5", \
"Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5", \
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \
"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", \
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", \
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \
"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3", \
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24", \
"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/535.24", \
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36"]

3、使用requests请求网页

# 得到指定一个URL的网页内容
def askURL(url,i):
    global Flag
    # 模拟浏览器头部信息，向安居客服务器发送消息
    headers = {
        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
        'accept-language': 'zh-CN,zh;q=0.9',
        'user-agent': user_agent_list[i % 35]}
    try:
        print(url)
        response = requests.get(url, headers=headers, timeout=30)
        return response
    except requests.RequestException:
        print('请求url返回错误异常')
        Flag = 1

4、爬取并解析网页

根据street字段搜素并爬取内容，page表示爬取去第几个页面了，用于url中，i表示第i条数据使用第i%35个user-agent。除此之外，对askURL函数返回的网页进行解析

def getData(page, street, i):
    global Flag, prices
    if page == 1: # 街道的第一页
        url = 'https://jinan.anjuke.com/sale/rd1/?q=' + street
    else:   # 街道查询的后续页面
        url = 'https://jinan.anjuke.com/sale/p' + str(page) + '/?q=' + street
    # 请求网页
    print("第%d页" % page)
    response = askURL(url,i)
    if Flag == 0:
        if response.status_code == 200:
            bs = BeautifulSoup(response.text, 'html.parser')
            # 创建正则表达式对象，表示规则（字符串的模式）
            # 平均价格
            findAveragePrice = re.compile(r'(\d*)元/㎡')
            # 房源所在地址（市，区，详细地址）
            findAddress = re.compile(r'(.*?)')
            # re库用来通过正则表达式查找每个item中指定的字符串(平均价格)
            houses = bs.find_all('div', class_="property")
            print(len(houses))
            if len(houses) > 0:
                for item in houses:
                    # 根据正则表达式求出房源的地址
                    find_Address = re.findall(findAddress, str(item))[0]
                    # price = re.findall(findAveragePrice, str(item))[0]
                    # print(find_Address, price)
                    # prices.append(float(price))
                    # 为避免模糊查询的可能，还判断所查找的街区是否与房源地址一致，若一致，则加入价格
                    if street in find_Address:
                        price = re.findall(findAveragePrice, str(item))[0]
                        print(find_Address, price)
                        prices.append(float(price))
                    else:
                        # 若一个都没有匹配到，说明检索的只是附近的，那么只能显示对应区县
                        Flag = 2
            else:
                # 如果没有检索到关于此街道的信息，则返回该街道对应区县的房价并做标记
                Flag = 2
            # 判断是否还有下一页
            # 有，则class="next next-active";没有，则class="next click-forbid"
            next_page = bs.find_all('a', class_='next next-active')
            if len(next_page) != 0:  # 若还有下一页，递归调用
                getData(page+1,street,i)
        else:
            Flag = 1

5、计算每个区县的平均房价

因为有些街道在安居客网站上搜索不到，所以只能显示该街道所在区县的平均房价，即需要提前计算出济南市每个区县的平均房价，这个平均房价不需要求区县的全部房源，求前120个房源信息（每个区一共只能显示50个页面，一页显示60个，这里只取前两页房源的平均值）的平均值即可存储在字典中。

#每个区的url
district_url = ['https://jinan.anjuke.com/sale/licheng/',
            'https://jinan.anjuke.com/sale/lixia/',
            'https://jinan.anjuke.com/sale/shizhong/',
            'https://jinan.anjuke.com/sale/huaiyin/',
            'https://jinan.anjuke.com/sale/tianqiao/',
            'https://jinan.anjuke.com/sale/gaoxind/',
            'https://jinan.anjuke.com/sale/zhangqjn/',
            'https://jinan.anjuke.com/sale/changqingb/',
            'https://jinan.anjuke.com/sale/jiyang/',
            'https://jinan.anjuke.com/sale/shanghe/',
            'https://jinan.anjuke.com/sale/pingyin/']
district_name =["历城", "历下", "市中", "槐荫", "天桥",
            "高新", "章丘", "长清", "济阳", "商河", "平阴"]
# 使用存储每个市对应的平均房价
district_price = {'钢城': 'None','莱芜': 'None'}
# 求每个区的平均房价（取每个区前60*2个的房源的平均房价）
def districtPrice():
    for i in range(len(district_url)):
        list_price = []
        response1 = askURL(district_url[i])         # 第一页
        response2 = askURL(district_url[i]+'p2/')   # 第二页
        if response1.status_code == 200 and response1.status_code == 200:
            bs1 = BeautifulSoup(response1.text, 'html.parser')
            bs2 = BeautifulSoup(response2.text, 'html.parser')
            # 创建正则表达式对象，表示规则（字符串的模式）
            # 平均价格
            findAveragePrice = re.compile(r'(\d*)元/㎡')
            # re库用来通过正则表达式查找每个item中指定的字符串(平均价格)
            houses1 = bs1.find_all('div', class_="property")
            houses2 = bs2.find_all('div', class_="property")
            for item in houses1:
                price = re.findall(findAveragePrice, str(item))[0]
                print(price)
                list_price.append(float(price))
            for item in houses2:
                price = re.findall(findAveragePrice, str(item))[0]
                print(price)
                list_price.append(float(price))
        mean_price = np.mean(list_price)
        mean_price = round(mean_price, 2)  # 保留两位小数
        district_price[district_name[i]] = mean_price

6、引入的文件库，以及一些之前代码没申明的全局变量

from bs4 import BeautifulSoup
import requests
import numpy as np
import pandas as pd
import time
import random
import re
Flag = 0    # 判断在递归时是否出现各种异常
# 若Flag=0,则数据正常，
# Falg=1,则可能是请求异常或者返回的网页数据异常，最终写入表的房价数据为“数据异常”
#Flag=2,则是说明没有检索到这一街道的信息，使用对应区县的房价信息， 最终写入表的房价数据为“该区县房价为“+具体价格
prices = []

7、主函数

if __name__ == '__main__':
    # 先计算出每个区的平均房价
    districtPrice()
    df = pd.DataFrame(columns=['工作地经度', '工作地纬度', '居住地经度', '居住地纬度', '区县', '街道', '平均房价'])
    # 读取数据到列表
    locations = parse()
    i = 0
    for location in locations:
        # 先把全局变量重新初始化
        Flag, prices
        prices = []
        Flag = 0
        page = 1
        average_price = 0
        street = location[5]
        district = location[4]
        if 'None' in district:  # 区县为None
            average_price = "None"
        elif 'None' in street:  # 区县不为None，但是街道为None
            if '济南市' in district:
                average_price = "该区县房价为" + str(district_price[district[6:8]])
            else:
            average_price = "非济南市"
        elif '济南市' in district: # 区县和街道都不为None，且是济南市的
            if 'None' in street:
                average_price = "None"
            else:
                if '街道' in street:      # 取街道的名字即可，加大搜索范围
                    street = street.split('街道')[0]
                getData(page, street, i)
                if Flag == 0:   # 数据正常
                    average_price = np.mean(prices)
                    average_price = round(average_price, 2)  # 保留两位小数
                elif Flag ==2:  # 查询不到该街区的房源，用所在区的房价代替并标记
                    # district为山东省济南市历下区，则district[6,8]表示 历下
                    #print(district[6: 8])
                    average_price = "该区县房价为"+str(district_price[district[6:8]])
                else:
                    average_price = "数据异常!!!"
        else:
            average_price = "非济南市"
        df.loc[i] = [location[0], location[1], location[2], location[3], location[4], location[5], str(average_price)]
        i = i + 1
        print("第%d条数据已完成" % i)
        print("休息%d秒，防止被封ip" % DOWNLOAD_DELAY)
        time.sleep(DOWNLOAD_DELAY)
    df.to_csv('part_price.csv', index=False)
    print("写入完成")

8、程序运行过程截图和最终文件截图

四、后记

本来要学习使用代理ip的，但是发现用了多个user-agent和设置延迟时间以后，跑数据时没有出现验证码的过程，就把买代理ip的钱买下来了，以后有需求了再尝试吧。

为什么选择Selenium自动化测试？ AIZHINAN selenium 测试工具自动化测试 pytest python 职场和发展
选择Selenium作为自动化测试工具的主要原因包括其开源、跨平台、多语言支持和强大的生态系统等优势。以下是详细分析：软件测试-Selenium自动化测试教程，零基础小白也能快速入门！python+selenium1.开源免费零成本：Selenium是开源工具，无需支付许可费用，适合预算有限的团队。社区支持：活跃的开发者社区提供丰富的学习资源、插件和问题解决方案。2.跨平台&跨浏览器支持多浏览器：
学习 Python 爬虫需要哪些基础知识？广州山泉婚姻 python 爬虫
学习Python爬虫需要掌握一些基础技术和概念。1.Python基础语法这是最根本的前提，需要熟悉：-变量、数据类型（字符串、列表、字典等）-条件判断、循环语句-函数、类与对象-模块和包的使用（如import语句）2.网页基础了解网页的构成和工作原理：-HTML结构：能看懂标签、属性，知道如何定位内容（如div、span、a标签等）-CSS选择器：用于精准定位网页元素（如类选择器.class、ID
python爬虫--爬去300个租房信息页朝畫夕拾
爬去300个租房信息页代码如下#--coding:utf-8--importtime,requestsfrombs4importBeautifulSouppage=0limit_count=300crawl_list=[]headers={'Content-type':'text/html;charset=UTF-8','User-Agent':'Mozilla/5.0(Macintosh;Int
tiktok 弹幕逆向分析 wx a15018601872 python java tiktok tiktok弹幕 tiktok弹幕逆向分析 a-bogus X-Gnarly
声明:本文章中所有内容仅供学习交流使用，不用于其他任何目的，抓包内容、敏感网址、数据接口等均已做脱敏处理，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！逆向分析部分python代码部分python代码is_match=check_payload_type(response_msg.payload_type,["im_enter_room_resp","msg"])ifis_mat
Python+Selenium自动化
1，什么是seleniumselenium是一个开源的自动化测试框架，主要适用WEB测试，可以支持多种语言(Java,C#,Python,php等)，既然支持多语言开发，那跨平台自然就不用多说啦，selenium有几个版本，一个是seleniumIDE(是一个安装在火狐浏览器上的一个插件，可以用来录制脚本，然后导出自动生成对应的开发语言文件)，seleniumGrid(自动化辅助工具，楼主还没深入
Anaconda 、Pytorch下载教程（保姆级）湲绘 pytorch opencv 人工智能 conda python 深度学习
#因为每次都自己去搜教程太麻烦，索性写个博客记录一下#一、Anaconda的下载与安装进入Anaconda官网官网：Anaconda|TheWorld’sMostPopularDataSciencePlatform下载地址：FreeDownload|Anaconda直接点击Download即可版本对应表如下，选择自己想要的python版本下载就好[环境配置]anaconda3的base环境与pyt
CosyVoice安装过程详解菜Queen AIGC python
CosyVoice安装过程详解安装过程参考官方文档前情提要系统环境：Ubuntu22.04.1python环境：miniconda25.3.1git：2.34.1git-lfs:3.0.21.Clone代码$gitclone--recursivehttps://github.com/FunAudioLLM/CosyVoice.git#若是submodule下载失败，要先进入CosyVoice目录再
关于Http直接请求方式调用CosyVoice2-API(非代码) 菜Queen AIGC http
文章目录1.前情提要2.API调用详解1.音频合成接口请求地址参数说明参数示例结果说明结果示例可能会遇到的问题2.获取操作步骤请求地址参数说明参数示例结果说明结果示例3.获取推理种子请求地址参数说明参数示例结果说明结果示例1.前情提要系统版本：Ubuntu22.04.1版本：CosyVoice2-2024/12python环境：miniconda3>python3.10注：CosyVoice2的本
基于AutoCut实现在文档中按照片段剪辑视频 Mr数据杨 Python 音频技术音视频
本项目致力于通过构建一个具备深度学习支持的多功能视频处理环境，为用户提供高效、智能的视频编辑和字幕生成工具。依托Anaconda环境管理工具和PyTorch的GPU加速能力，用户能够迅速搭建一个符合项目需求的Python环境。结合FunClip的源代码以及相关插件的安装和配置，用户可充分利用项目所支持的图像、音频识别功能，并以极少的配置便获得理想的视频裁剪效果。项目的核心在于简化深度学习项目的环境
Python从入门到弃坑学习笔记——第一章 Python入门 youweilong033 Python学习学习笔记 python pycharm
笔主趁着假期闲的蛋疼，打算开始学习一下Python，主要是之前就有很多朋友问我Python问题，甚至还有新闻学专业的，但我Python从没学过，还挺尴尬的。打算从现在开坑写一系列的Python学习笔记（flag立下了，乐。毕竟是从零开始学，在我的系列文章中，你将会看到包括但不限于：根据自己的想法命名东西，各种概念胡言乱语，shi一样的排版，某网课上的内容拿来主义。希望大佬们海涵，批评指正，有问题可
如何在PyCharm中删除虚拟环境小白的程序空间 Python学习 pycharm ide python
1、进入PythonInterpreters具体方法：Settings-->Project:自己命名的项目-->PythonInterpreters-PythonInterpreter下拉栏-->showall，具体步骤见下图。2、选择需要删除的python环境，具体下图所示。选择需要删除的环境-->点击‘-’号-->ok
Python 机器学习：NumPy 实现朴素贝叶斯分类器 Python编程之道 Python编程之道 python 机器学习 numpy ai
Python机器学习：NumPy实现朴素贝叶斯分类器关键词：朴素贝叶斯分类器、NumPy、机器学习、概率模型、条件概率、拉普拉斯平滑、向量化计算摘要：本文系统讲解朴素贝叶斯分类器的核心原理，基于NumPy实现高效的算法框架，涵盖从概率理论到工程实现的完整流程。通过数学公式推导、代码实现和鸢尾花数据集实战，展示如何利用向量化计算优化概率估计，解决特征独立性假设下的分类问题。同时分析算法优缺点及实际应
Python 全局解释器锁 (Global Interpreter Lock - GIL) Learning_By Doing python并发编程 python 开发语言并发编程 GIL
GIL是什么？全局解释器锁(GIL)是CPython解释器（官方、最常用的Python解释器）中的一个互斥锁(mutex)。它的核心作用是：在任意时刻，只允许一个线程执行Python字节码。这意味着，即使你的计算机有多个CPU核心，一个CPython进程中的多个线程也无法真正地并行执行Python代码。它们可以并发执行（即交替执行），但不能在同一瞬间并行运行。GIL为什么存在？GIL的存在主要是为
运维技术干货 — 不仅是 Linux 运维最佳实践 python算法小白 Linux
附Java/C/C++/机器学习/算法与数据结构/前端/安卓/Python/程序员必读书籍书单大全：书单导航页（点击右侧极客侠栈即可打开个人博客）：极客侠栈①【Java】学习之路吐血整理技术书从入门到进阶最全50+本（珍藏版)②【算法数据结构+acm】从入门到进阶吐血整理书单50+本（珍藏版)③【数据库】从入门到进阶必读18本技术书籍网盘吐血整理网盘(珍藏版)④【Web前端】从HTML到JS到AJ
Python Gradio：快速搭建人脸识别应用 Python编程之道 Python人工智能与大数据 Python编程之道 python 开发语言 ai
PythonGradio：快速搭建人脸识别应用关键词：Python,Gradio,人脸识别,深度学习,计算机视觉,交互式应用,模型部署摘要：本文详细介绍了如何使用Python的Gradio库快速搭建一个交互式的人脸识别应用。我们将从基础概念出发，逐步讲解人脸识别的核心算法原理、Gradio的界面设计方法，并通过完整的项目实战演示如何将深度学习模型部署为可交互的Web应用。文章包含详细的代码实现、数
Python基础-day8：迭代器和生成器的区别及其各自实现方式和使用场景
1.迭代器迭代器提供了一种惰性（lazyevaluation）获取数据的方法，使得我们能够逐步访问序列中的元素，而无需一次性加载所有数据。其主要优点包括节省内存、提高性能、支持自定义遍历逻辑等。1.1实现协议__iter__()：返回自身。__next__()：返回下一个元素；如果没有更多元素，则抛出StopIteration异常。注意：可迭代对象（Iterable）与迭代器不同：可迭代对象实现_
【day1】Python基础知识-pycharm版 m0_56051615 pycharm python ide
内容：IDLE介绍使用、建立python源文件、python程序格式（缩进和注释）、海龟绘图、对象的组成、栈内存和堆内存、标识符、变量安装PyCharm和AnacondaAnaconda是可以便捷获取包且对包能够进行管理，同时对环境可以统一管理的发行版本。包含了conda、Python在内的超过180个科学包及其依赖项。其包含的科学包包括：numpy,pandas,ipythonnotebook等
嵌入式学习-PyTorch（3）-day20 LGGGGGQ 学习 pytorch 人工智能
transforms结构及用法transforms.yp是一个工具箱就是将一个特定格式的图片经过这个工具的到想要的变换Tensor数据类型一、transforms的使用（Python）fromPILimportImagefromtorch.utils.tensorboardimportSummaryWriterfromtorchvisionimporttransformswriter=Summar
Python初识-day3：复合类型里的序列类型、映射类型和集合类型梌 python 开发语言
目录1.复合类型初识1.1列表类型（list）1.1.1列表的创建1.1.2列表的运算1.1.3列表的访问1.1.4列表的具体示例1.1.5列表的常见API1.2元组类型（tuple）1.2.1元组的创建1.2.2元组的运算1.2.3元组不可变1.2.4元组的具体示例1.2.5元组的常见API1.3字典类型（dict）1.3.1字典的创建1.3.2字典的运算1.3.3字典的访问1.3.4字典的特性
Django数据库迁移番茄码 django 数据库 django oracle
在Django中进行数据库迁移的命令是`pythonmanage.pymigrate`。下面是一些常用的数据库迁移命令及其用途：1.`pythonmanage.pymakemigrations`：生成数据库迁移文件。当你修改了模型（Model）或创建了新的模型时，需要运行该命令来生成一个包含最新更改的迁移文件。2.`pythonmanage.pymigrate`：应用数据库迁移。运行该命令会将生成
Django基础(一)———创建与启动【本人】 PythonWeb django python 后端
前言从这篇文章开始，我将给大家介绍Python中的一个框架Django我将从基础开始一步一步带领大家深入了解Django框架并完成实战案例一、Django是什么？Django是一个免费、开源、高级的PythonWeb框架。它的核心目标是使开发复杂的、数据库驱动的网站变得快速、简单和安全。Django遵循“Don'tRepeatYourself”的设计哲学，强调代码复用和组件化。它奉行“包含电池”的
套数据分析模板（含 Python 代码和示例数据）女码农的重启开发语言数据清洗 python java 数据分析
一、销售数据分析模板（1-10套）模板1：月度销售趋势分析示例数据（sales_monthly.csv）月份,销售额,销量,客单价2023-01,120000,500,2402023-02,135000,550,245.452023-03,150000,600,250...Python代码importpandasaspdimportmatplotlib.pyplotasplt#设置中文显示plt.
Python面向对象编程：类、对象与实例方法的深度解析女码农的重启 python 开发语言
在软件开发领域，面向对象编程（Object-OrientedProgramming，简称OOP）是一种极为重要的编程范式。它以对象为核心，通过封装、继承和多态等特性，让代码的组织和管理更加高效、灵活。Python作为一门高级编程语言，对面向对象编程提供了强大且简洁的支持。本文将深入探讨Python中面向对象编程的核心概念——类、对象和实例方法，帮助读者理解并掌握这些重要知识。一、类的概念与定义类（
Python 线程与进程在实际项目中的问题及应对策略女码农的重启 python java 线程进程
一、引言在Python编程里，线程（Thread）和进程（Process）是实现并发与并行计算的关键工具，能有效提升程序执行效率与资源利用率。然而，实际项目应用中，因二者特性及Python运行环境（如GIL，全局解释器锁）等因素，会遭遇诸多问题。本文深入剖析这些问题，并给出应对方案。二、Python线程的问题与解决（一）GIL引发的性能瓶颈Python的全局解释器锁，限制了同一进程内多个线程并行执
Django模板——自定义过滤器折月竹酒 Django django 模板过滤器自定义
文章目录Django模板——自定义过滤器1代码布局1.1app特有模板标签1.2可复用标签2定义过滤器2.1模板过滤器的本质3注册过滤器4使用5.期望字符串的模板过滤器Django模板——自定义过滤器1代码布局1.1app特有模板标签app目录下创建名为templatetags的包templatetags目录下创建python模块（通常只需创建.py文件）1.2可复用标签专门创建一个做模板标签的a
Django母婴商城项目实践（二）- 商城项目环境配置 ITB业生 Django django 数据库 python
2、母婴商城项目环境配置环境配置：Python3.12解释器PycharmProfessional2025.1编辑器Django4.2（或Django5.x）MySQL8.0.28数据库1、Django框架介绍Django是一个高级的PythonWeb应用框架，可以快速开发安全和可维护的网站。由经验丰富的开发者构建，Django负责处理网站开发中麻烦的部分，可以专注于编写应用程序，而无需重新开发。
Django母婴商城项目实践（三）- Django框架使用之电商项目配置 ITB业生 Django django python 后端
3Django框架使用1、项目与应用1、创建项目操作创建项目存储目录，并切换至该路径执行创建Django项目的命令创建Django项目命令：python-mdjangostartproject项目名#切换到存储项目路径$C:\Users\blning>cdC:\ProjectManager\PythonWeb#创建Django项目$C:\ProjectManager\PythonWeb>pytho
Python 进程间的通信：原理剖析与项目实战女码农的重启 java 进程通信 python
在Python编程中，当涉及多进程编程时，进程间的通信（Inter-ProcessCommunication，简称IPC）是一个重要的课题。多个进程在运行过程中，常常需要交换数据、传递状态或协同工作，这就离不开进程间通信机制。本文将深入讲解Python进程间通信的原理，并结合实际项目案例，展示其在项目中的具体使用方法。一、Python进程间通信原理操作系统为进程提供了多种通信机制，Python在标
K近邻算法【python】【sklearn】 weixin_44985842 python 近邻算法 sklearn
0定义K近邻算法（K-NearestNeighbors,KNN）是一种基于实例的监督学习算法，主要用于分类和回归任务。其核心思想是：在特征空间中，对于待预测的样本，找到与其距离最近的k个已知样本（“邻居”），根据这k个邻居的类别（分类任务）或属性值（回归任务）来决定该样本的预测结果，，常用欧氏距离公式：对于两个n维样本点xi=(xi1,xi2,...,xin)x_i=(x_{i1},x_{i2},
python学智能算法（二十五）|SVM-拉格朗日乘数法理解
引言前序学习进程中，已经对最佳超平面的求解有了一定认识。刚好在此梳理一下:函数距离首先有函数距离F，也可以称为函数间隔F：F=min⁡i=1...myi(w⋅xi+b)F=\min_{i=1...m}y_{i}(w\cdotx_{i}+b)F=i=1...mminyi(w⋅xi+b)几何距离然后有几何距离δ，也可以称为几何间隔δ：δ=min⁡i=1...myi(w∥w∥⋅xi+b∥w∥)\delt
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

[Python爬虫实战2]爬取济南安居客网站上所需街区的二手房平均房价数据

文章目录

一、项目简介

二、安居客网页分析

1、整体分析

2、细节分析

2.1提取一个页面所有的房源信息

2.2提取每个房源信息中的信息

2.3如何爬取下一页的房源信息

三、程序编写

1、数据去重

2、反爬虫策略

3、使用requests请求网页

4、爬取并解析网页

5、计算每个区县的平均房价

6、引入的文件库，以及一些之前代码没申明的全局变量

7、主函数

8、程序运行过程截图和最终文件截图

四、后记

你可能感兴趣的:(Python爬虫学习,python,爬虫,正则表达式)