Tgirl_qiao

房地产数据-python爬虫+数据可视化

使用python3.7对链家网中广州二手房的交易数据进行爬取，并使用python-highcharts对爬取到的数据进行可视化分析。

首先，配置需要的环境：

打开终端cmd，进入pip所在的目录，安装python-highcharts库：
pip install python-highcharts

对链家网进行数据爬虫，得到json格式的数据：

LianJia_by_json.py

from selenium import webdriver
from bs4 import BeautifulSoup
import re
import xlwt
import urllib
import json
import os
import time
class spider:
    def __init__(self,driver):
        self.driver = driver
        self.chengjiao_info_dict = {}
        self.href_list = []
        self.classification_dict = {}
        # self.data_json_file = 'LianJia_'+time.strftime("%Y_%m_%d_%H_%M_%S", time.localtime())+'.json'
        # print(self.data_json_file)
        # exit(0)
    def spider(self):
        ele_ershoufang = self.driver.find_element_by_link_text('二手房')
        ele_ershoufang.click()
        handles = self.driver.window_handles
        self.driver.switch_to.window(handles[-1])
        self.driver.find_element_by_link_text('成交').click()
        # 获取总共的页数
        soup = BeautifulSoup(self.driver.page_source, 'lxml')
        # page_info_list = soup.find("div",class_="page-box house-lst-page-box").find_all("a")
        page_info = soup.select("div.page-box.house-lst-page-box")[0].get("page-data")  # 获取到一个字符串
        total_page = (page_info.split(':')[1]).split(',')[0]
        # print(total_page)
        self.get_chengjiao_house_href(int(total_page))
        self.get_chengjiao_base_info()
    # 获取一页中所有成交房源的信息
    def get_chengjiao_house_href(self,total_page):
        # 循环获得每一页中成交房源的连接
        for page in range(1,total_page+1):
            url = 'https://gz.lianjia.com/chengjiao/pg'+str(page)
            response = urllib.request.urlopen(url)
            html = response.read().decode("utf-8")
            # print(html)
            soup = BeautifulSoup(html, 'lxml')
            href_info_list = soup.find("ul", class_="listContent").find_all("li")
            # 在多次请求网页信息过程中，有时会出现返回的响应中房源信息为0条的情况，所以需要多次重复请求
            while len(href_info_list)==0:
                response = urllib.request.urlopen(url)
                html = response.read().decode("utf-8")
                # print(html)
                soup = BeautifulSoup(html, 'lxml')
                href_info_list = soup.find("ul", class_="listContent").find_all("li")
                print(len(href_info_list))
            for li in href_info_list:
                # print(li)
                pattern = re.compile('')
                m = pattern.findall(str(li))[0]
                href = m.split('"')[1]
                self.href_list.append(href)
                # break
            print('第',page,'页：链接列表长度',len(self.href_list))
            # sleep(2)
            # break
    def get_chengjiao_base_info(self):
        # 循环操作，直到得到所有房源的信息
        columns = 1
        self.chengjiao_info_dict = {}
        for url in self.href_list:
            info_dict = {}
            # 获取到当前房源的信息
            response = urllib.request.urlopen(url)
            html = response.read().decode("utf-8")
            soup = BeautifulSoup(html,'lxml')
            # 得到小区名
            housing_name_info = (soup.find_all('div',class_='wrapper')[0]).get_text()
            housing_name = housing_name_info.split(' ')[0]
            # print(housing_name)
            info_dict['小区名']=housing_name
            price = (((soup.find_all('div',class_='info fr')[0]).find_all('div',class_='price')[0]).find_all('b')[0]).get_text()
            print(price)
            info_dict['单价：元/平'] = price
            info_dict['总价：万'] = ((soup.find_all('span',class_='dealTotalPrice')[0]).find_all('i')[0]).get_text()
            info_dict['成交日期'] = ((soup.find_all('div',class_='wrapper')[0]).find_all('span')[0]).get_text().split(' ')[0]
            # print(info_dict['成/交日期'])
            agent = (soup.find_all('div',class_="myAgent")[0]).find_all('a')
            info_dict['所属区域'] = (agent[0]).get_text()+(agent[1]).get_text()
            print(info_dict['所属区域'])
            # self.key_list.append('小区名')
            # self.chengjiao_info_dict['房源链接'] = url
            # self.key_list.append('小区名')

            base_info_list = soup.find('div',class_='content').find('ul').find_all('li')
            # base_info_list = soup.fina('div',class_='content')
            for info in base_info_list:
                # print(info)
                patten_title = re.compile('
.*?"label">(.*?).*?', re.S)
                pattern_content = re.compile('.*?(.*?)',re.S)
                # 在sublime中直接传入info没有报错，而在这里却需要转为字符串，否则报错？？？？？
                key = (patten_title.findall(str(info))[0]).strip()
                # self.key_list.append(key)
                value = (pattern_content.findall(str(info))[0]).strip()
                info_dict[key] = value
            # print(info_dict)
            self.chengjiao_info_dict[url] = info_dict
            # print(self.chengjiao_info_dict)

            # 显示当前进度
            print(len(self.href_list),':',columns)
            # sleep(2)
            self.write_house_info()
            # 开始分类统计
            # self.get_classification_dict()
            columns += 1
            # break
        # self.write_classification()
        # for key in self.info_dict.keys():
        #     self.key_list.append(key)
    def write_house_info(self):
        with open("LianJia_data_json_file",'w',encoding='utf-8') as fp:
            json.dump(self.chengjiao_info_dict,fp,ensure_ascii=False)

if __name__ == "__main__":
    url = 'https://gz.lianjia.com/'
    driver = webdriver.Chrome()
    driver.maximize_window()
    driver.get(url)
    sp = spider(driver)
    sp.spider()

得到的json格式的数据LianJia_data_json_file.json的部分截图如下：

将获取到的json格式的数据转换为Excel格式，以便阅读：

LianJia_json_deal.py

import json
import xlwt

# 设置表头
def set_excel_title(LianJia_data_dict,LianJia_data_all):
    LianJia_data_all.write(0,0,'href')
    raw = 1
    for k in (list(LianJia_data_dict.values())[0]).keys():
        LianJia_data_all.write(0, raw, k)
        print (k)
        raw += 1

def set_excel_content(LianJia_data_dict,LianJia_data_all):
    column = 1
    for href in LianJia_data_dict:
        LianJia_data_all.write(column, 0, href)
        raw = 1
        for value in (LianJia_data_dict[href]).values():
            LianJia_data_all.write(column, raw, value)
            raw += 1
        column += 1

def get_data_excel():
    with open('LianJia_data_json_file.json', 'r', encoding='utf-8') as fp:
        LianJia_data_dict = json.load(fp)

    wb = xlwt.Workbook(encoding='ascii')
    LianJia_data_all = wb.add_sheet('LianJia_data_all')

    set_excel_title(LianJia_data_dict,LianJia_data_all)
    set_excel_content(LianJia_data_dict,LianJia_data_all)

    wb.save('LianJia_data.xls')
if __name__ =="__main__":
    get_data_excel()

得到的excel表格LinaJia_data.xls的部分截图如下：

将得到的json数据进行分类统计，为数据可视化做准备：

LianJia_select.py

import json
import time

with open('LianJia_2019_01_08_12_42_25.json', 'r', encoding='utf-8') as fp:
    LianJia_data_dict = json.load(fp)

select_dict={}
# sub_key为每个房源的每一项信息的关键子，如：户型结构、所属区域等
for sub_key in (list(LianJia_data_dict.values()))[0]:
    # print(sub_key)
    select_sub_dict = {}
    for href in LianJia_data_dict:
        # print(LianJia_data_dict[href][sub_key])
        if LianJia_data_dict[href][sub_key] in select_sub_dict:
            select_sub_dict[LianJia_data_dict[href][sub_key]] += 1
        else:
            select_sub_dict[LianJia_data_dict[href][sub_key]] = 1
    select_dict[sub_key] = select_sub_dict
    print(sub_key,':',select_dict[sub_key])
# print(select_dict)

with open('LianJia_select_data_file.json', 'w', encoding='utf-8') as fp:
    json.dump(select_dict,fp,ensure_ascii=False)

获得的分类后的json数据的分布截图取下：

所有的数据准备好后，就开始对数据进行可视化操作。

在python-highcharts库中，不同的可视化图形所需要的数据格式是不完全相同的，这里，针对自己所接触到的情况，总结如下：

饼状图pie:
    data=[
    	{
    		'name':data name,
    		'y':data values,
    		'sliced': True,			需要突出显示的部分
    		'selected': True
    	},{
    		'name':data name,
    		'y':data values
    	},
    	……
    ]
    没有x轴的配置。
		
折线图line/曲线图spline/柱形图column/面积图area：
	data = [1,2,3,4,5,6,7,8,9,0]
	categories = []        # 横坐标中每个数据的名称
	配置X轴坐标：
	options={
		'xAxis': {'type': categories},		#以获取到的categories列表中的元素作为x轴的坐标
	}
		
柱形图下钻column_drilldown：该图可以在每项大的分类中进行更进一步的分类统计
	第一层数据：        # 即大的分类的数据
		data = [{
			'name': "Chrome",
			'y': 24.030000000000005,        # 数据为该项的百分比
			'drilldown': "Chrome"
		}, 
		……,
		{
			'name': "Proprietary or Undetectable",
			'y': 0.2,
			'drilldown': None						#该项目不设置下钻
		}]
	第二层数据：        # 大分类项的分类统计的数据
		data_sub = [
			["v11.0", 24.13],
	    	["v8.0", 17.2],
			["v9.0", 8.11],
			["v10.0", 5.33],
			["v6.0", 1.06],
			["v7.0", 0.5]
		]
		配置X轴坐标：
			options={
				'xAxis': {'type': 'category'},			#这个是固定的
			}

开始进行数据可视化操作：

LianJia_hc.py

import json
from highcharts import Highchart
def get_data_dict(word):
    with open('LianJia_select_data_2019_01_08_15_47_59.json', 'r', encoding='utf-8') as fp:
        LianJia_select_data_dict = json.load(fp)

    data_dict = LianJia_select_data_dict[word]

    return data_dict

def get_chart(word):
    data_dict = get_data_dict(word)
    print(data_dict)
    data = list(data_dict.values())
    categories = list(data_dict.keys())
    print(data)
    print(len(data))
    print(categories)
    text = '链家二手'+word+'统计'
    options = {
        'title':{'text':text},
        'xAxis': {'categories': categories},
        'plotOptions': {
            'series': {
                'dataLabels': {
                    'enabled': True,    #显示出数据点的数值
                    'shadow': True,     #数据标签边框有阴影
                    'backgroundColor': 'rgba(252, 255, 197, 0.7)'      #设置数据点标签的背景色
                    # 'borderRadius': 10,  # 圆角,默认是0,lable是方的,这里10已经比较园了
                    # 'borderWidth': 20,    #这个是啥？？？？
                    # 'padding': 5,          #这个也不晓得是啥
                    # 'style': {'fontWeight': 'bold'},

                }
            }
        }
    }
    H.set_dict_options(options)

    # 绘制面积图
    # H.add_data_set(data,'area')
    # H.save_file(word.split('：')[0] + '_area')
    # 绘制柱形图
    H.add_data_set(data, 'bar')
    H.save_file(word.split('：')[0]+'_bar')

    # 绘制折线图
    # H.add_data_set(data, 'line')
    # H.save_file(word.split('：')[0] + '_line')

    # 绘制曲线图
    # H.add_data_set(data, 'spline')
    # H.save_file(word.split('：')[0] + '_spline')

# def get_heatmap_chart():


if __name__ == "__main__":
    # H = Highchart(width=950, height=600)
    H = Highchart()
    # get_chart('建筑结构')
    get_chart('房屋户型')
    # get_chart('房屋朝向')
    # get_chart('成交日期')
    # get_chart('单价：元/平')
    # get_chart('所属区域')

在该程序总，可以绘制出数据的不同可视化图形，这里对房屋户型的折线图，曲线图，面积图及柱形图进行展示：

对二手房是否配备电梯进行饼状图可视化分析：

LianJia_hc_pie.py

import json
from highcharts import Highchart
def get_data_dict(word):
    with open('LianJia_select_data_2019_01_08_15_47_59.json', 'r', encoding='utf-8') as fp:
        LianJia_select_data_dict = json.load(fp)

    data_dict = LianJia_select_data_dict[word]

    return data_dict

def get_chart(word):
    data_dict = get_data_dict(word)
    # data = list(data_dict.values())
    # categories = list(data_dict.keys())
    data=[]
    for key in data_dict:
        data_list = []
        data_list.append(key)
        data_list.append(data_dict[key])
        data.append(data_list)
    text = '链家二手'+word+'统计'
    options = {
        'title':{'text':text},
        'plotOptions': {
            'series': {
                'allowPointSelect': True,
                'dataLabels': {
                    'enabled': True,    #显示出数据点的数值
                    'shadow': True,     #数据标签边框有阴影
                    'backgroundColor': 'rgba(252, 255, 197, 0.7)'      #设置数据点标签的背景色
                    # 'borderRadius': 10,  # 圆角,默认是0,lable是方的,这里10已经比较园了
                    # 'borderWidth': 20,    #这个是啥？？？？
                    # 'padding': 5,          #这个也不晓得是啥
                    # 'style': {'fontWeight': 'bold'},

                }
            }
        }
    }
    H.set_dict_options(options)
    H.add_data_set(data, 'pie')
    H.save_file(word.split('：')[0]+'_pie')



if __name__ == "__main__":
    # H = Highchart(width=950, height=600)
    H = Highchart()
    get_chart('配备电梯')
    # get_chart('房屋户型')
    # get_chart('成交日期')
    # get_chart('单价：元/平')
    # get_chart('所属区域')

链家二手房所属区域进行下钻分析：

Lianjia_hc_column_dirlldown.py

import json
from highcharts import Highchart

'''
    对链家二手房成交房所属区域进行下钻分析
'''

def get_data_dict():
    with open('LianJia_select_data_2019_01_08_15_47_59.json', 'r', encoding='utf-8') as fp:
        LianJia_select_data_dict = json.load(fp)

    area_sub_dict = LianJia_select_data_dict['所属区域']
    # area_dict为广州各个区的二手房统计情况
    area_dict = {}
    # area_sub_class_dict为各个区下属区域二手房统计情况
    area_sub_class_dict = {}
    for area_sub in area_sub_dict:
        area = area_sub[:2]
        # area_sub_class_dict[area] = []
        area_sub_temp = []
        if area in area_dict:
            area_dict[area] += int(area_sub_dict[area_sub])
            area_sub_temp.append(area_sub)
            area_sub_temp.append(area_sub_dict[area_sub])
            # area_sub_class_dict[area][area_sub] = area_sub_dict[area_sub]
            area_sub_class_dict[area].append(area_sub_temp)
        else:
            area_dict[area] = int(area_sub_dict[area_sub])
            area_sub_class_dict[area] = []
            area_sub_temp.append(area_sub)
            area_sub_temp.append(area_sub_dict[area_sub])
            area_sub_class_dict[area].append(area_sub_temp)
    get_chart(area_dict, area_sub_class_dict)
def get_chart(area_dict,area_sub_class_dict):
    data = []
    sum = 0
    for value in area_dict.values():
        sum += int(value)
    # print(sum)
    for area in area_dict:
        dict = {}
        dict['name'] = area
        dict['y'] = ((int(area_dict[area]))/sum)*100
        dict['drilldown'] = area
        data.append(dict)
    # print(data)

    options = {
        'title':{'text':'广州链家二手房地区型统计'},
        'xAxis': {'type': 'category'},
        'plotOptions': {
            'series': {
                'dataLabels': {
                    'enabled': True,    #显示出数据点的数值
                    'shadow': True,     #数据标签边框有阴影
                    'format': '{point.y:.1f}%',
                    # 'backgroundColor': 'rgba(252, 255, 197, 0.7)'      #设置数据点标签的背景色
                    # 'borderRadius': 10,  # 圆角,默认是0,lable是方的,这里10已经比较园了
                    # 'borderWidth': 20,    #这个是啥？？？？
                    # 'padding': 5,          #这个也不晓得是啥
                    # 'style': {'fontWeight': 'bold'},

                }
            }
        }
    }
    H.set_dict_options(options)
    H.add_data_set(data, 'column', "area", colorByPoint=True)

    for area in area_sub_class_dict:
        data_sub = area_sub_class_dict[area]
        for value in data_sub:
            value[1] = (value[1]/int(area_dict[area]))*100
        # print(data_sub)
        H.add_drilldown_data_set(data_sub, 'column', area, name=area)

    H.save_file('所属区域_column_drilldown')

if __name__ == "__main__":
    # H = Highchart(width=950, height=600)
    H = Highchart()
    get_data_dict()

大分类的数据可视化结果：

大类中进一步分析的可视化结果：

如白云区和天河区

在操作的过程中还存在一些待解决的问题：

1.在开始的时候，遇到一个charts库，也是python中highcharts的一个库，但用起来比较摸不着头脑，还不清楚他们的关系。

2.关于这些可视化图形的细节配置还有待进一步研究，目前只能粗略实现。

3.在代码的编写过程中，对文件的处理还不能达到理想的效果，如：在下一次运行程序生成文件的时候需要手动删除已有的文件。

统信uos20：利用docker部署python+jupyterlab开发环境阆遤 docker python jupyter github actions workflow 统信uos20
很多统信uos20计算机没有联网安装python开发环境的条件，但是工作中需要对数据进行分析处理，因而产生了离线部署python开发环境的想法。我首先下载了python3.11的源代码包，在uos中编译居然正常通过。但后续的麻烦来了：需要安装的库没法安装。尝试了一天，最终放弃。改用Docker方式部署，理由就不多解释了。一、在uos中安装docker。我的系统是uos20linux4.19.0-a
python namedtuple默认值_可选关键字参数的namedtuple和默认值 weixin_39710041 python namedtuple默认值
Python3.7使用默认值参数。>>>fromcollectionsimportnamedtuple>>>fields=('val','left','right')>>>Node=namedtuple('Node',fields,defaults=(None,)*len(fields))>>>Node()Node(val=None,left=None,right=None)或者更好的方法是使用新
Python3 os.path() 模块 kunkliu #python python
参考文章：https://www.runoob.com/python3/python3-os-path.htmlPython3OS文件/目录方法os.path模块主要用于获取文件的属性。以下是os.path模块的几种常用方法：方法说明os.path.abspath(path)返回绝对路径os.path.basename(path)返回文件名os.path.commonprefix(list)返回l
python3中的os.path模块 hgz_dm 编程语言 python3 os.path
os.path模块主要用于获取文件的属性，这里对该模块中一些常用的函数做些记录。os.abspath(path):获取文件的绝对路径。这里path指的是路径，例如我这里输入“data.csv”[In]os.path.abspath('data.csv')[Out]'E:\\kaggle\\Titanic\\data.csv'os.path.basename(path):获取文件名称。该函数默认通过
在Ubuntu系统下部署大语言模型脱泥不tony ubuntu 语言模型 linux 人工智能大数据产品经理 transformer
前言在Ubuntu系统下部署大语言模型，可以使用HuggingFace的Transformers库来加载和使用预训练的模型。以下是一个详细的步骤：1.安装环境依赖确保你已经安装了Python3和pip。可以使用以下命令安装它们：sudoapt-getupdatesudoapt-getinstall-ypython3python3-pip2.创建并激活虚拟环境（可选）为了隔离项目依赖，你可以创建一个
Python3的安装 Ladeng_uncle python python 后端
环境信息操作系统：CentOSLinuxrelease7.6.1810Python：3.6.5现状说明当前CentOS系统自带了python2.7.5，因为yum会用到python2，所以不能删除，此次安装了python3之后就保持两个版本长期共存吧。本次安装采用的是下载python源码再编译的方式；操作步骤以root身份登录CentOS，以下操作都在默认的~目录下：1、yum更新：yumupda
Linux CentOS 终端关闭后 Python程序仍然运行设置方法 Think Spatial 空间思维 IT python 开发语言语法
服务器：CentOS8安装Pythonsudodnfinstallpython3查看Versionpython3--version安装pippipinstall--upgradepip后台运行python程序原本运行命令为pythonmain.py后台运行的命令直接执行nohuppython3main.py将输出放到main.log文件中nohuppython3main.py>main.log查看
【大模型】DeepSeek-R1-Distill-Qwen部署及API调用油泼辣子多加大模型实战算法 gpt langchain 人工智能
DeepSeek-R1-Distill-Qwen是由中国人工智能公司深度求索（DeepSeek）开发的轻量化大语言模型，基于阿里巴巴的Qwen系列模型通过知识蒸馏技术优化而来。当前模型开源后，我们可以将其部署，使用API方式进行本地调用1.部署环境本文中的部署基础环境如下所示：PyTorch2.5.1Python3.12(ubuntu22.04)Cuda12.4GPURTX3090(24GB)*1
python系列【仅供参考】：python3 生成pdf 中文乱码问题处理坦笑&&life #python python pdf 开发语言
python3生成pdf中文乱码问题处理python3生成pdf中文乱码问题处理1.首先上代码：2.乱码原因：3.安装字体库4.找一台安装了中文字体的服务器python3生成pdf中文乱码问题处理1.首先上代码：importpdfkit#urlPath是待导出的链接pdfkit.from_url(urlPath,'test.pdf',options={'encoding':'UTF-8'
PTA里面怎么寻找JAVA题目_PTA基础题目集 weixin_39955829 PTA里面怎么寻找JAVA题目
Java代码在上面，下面空两行是python3A/_5T$|#c-t4`%@,S9I7-1厘米换算英尺英寸(15分)0y;n0J%u7p如果已知英制长度的英尺foot和英寸inch的值，那么对应的米是(foot+inch/12)×0.3048。现在，如果用户输入的是厘米数，那么对应英制长度的英尺和英寸是多少呢？别忘了1英尺等于12英寸。0v:C6Z1W/T输入格式：/`"x^7l5J4x1i#{1
python启动多个进程_Python多进程运行两次进程? 魔法小药丸 python启动多个进程
运行下面的python3脚本,由于某种原因我无法理解startWebview函数执行了两次,结果打开了两个PyWebView窗口。#ImportModulesHereimportosimporttimeimportwebviewimportos.pathimportmultiprocessingfromdotenvimportload_dotenvfromflask_wtfimportFlaskF
python关闭一个子进程_python3关闭子进程的两种方式 weixin_39646695 python关闭一个子进程
用scrapy做爬虫的时候需要开多个爬虫子进程，为了定时开启和关闭爬虫子进程，需要对子进程做控制，而关闭进程有两种方法-----要简单高效，直接看方法2吧-----方法1：通过获取全部windows进程，获取增量进程方式该方法是通过获取所有windows进程，将所有进程名为“python.exe”的获取，最后在杀的时候，除了主进程外，全部杀掉该方法存在的问题在于，如果杀进程的时候刚好有其他人的py
crewai框架出现SSLError Otto_1027 跑项目实况 crewai 智能体协作多智能体协作人工智能
使用crewai框架（0.102.0）的时候，控制台突然会出现很多报错信息，但是并不影响程序的实际输出ERROR:opentelemetry.sdk.trace.export:ExceptionwhileexportingSpanbatch.Traceback(mostrecentcalllast):File"G:\ProgramData\anaconda3\envs\crewai_1002\li
服务器python项目部署菜鸡6666 python 服务器开发语言
角色：root,其他用户应该也可以1.安装python3环境#如果是新机器，尽量执行，避免未知报错yum-yupdatepython-vyuminstallpython3python3-v2.使用virtualenvwrapper创建虚拟环境,并使用workon切换不同的虚拟环境#安装virtualenvwrapperpip3installvirtualenvwrapper-ihttps://mi
conda运行python_python conda操作方法 weixin_39747975 conda运行python
conda虚拟环境安装Listitemcondaenvlist#查看已安装虚拟环境下面以storm_control的安装为例1.查看已安装虚拟环境condaenvlist可以发现已经安装的虚拟环境都是默认在Anaconda3/envs/“my_name”里面2.安装新的虚拟环境：condacreate--namemyenvpython=3.6myenv是我们自己取的名字3.激活虚拟环境：activ
python APScheduler插件部署服务器报错问题道法自然实事求是 python python 服务器 github
今天我在使用python测试定时任务部署到服务器的时候，一直报下面的错误。Job"send_wechat_webhook(trigger:cron[second='*/2'],nextrunat:2025-03-0712:00:12CST)"raisedanexceptionTraceback(mostrecentcalllast):File"/usr/local/lib/python3.12/s
Python3 爬虫 Scrapy 与 Redis 大秦重工爬虫 scrapy redis
Scrapy是一个分布式爬虫的框架，如果把它像普通的爬虫一样单机运行，它的优势将不会被体现出来。因此，要让Scrapy往分布式爬虫方向发展，就需要学习Scrapy与Redis的结合使用。Redis在Scrapy的爬虫中作为一个队列存在。一、Scrapy_redis的安装和使用Scrapy自带的待爬队列是deque，而现在需要使用Redis来作为队列，所以就需要将原来操作deque的方法替换为操作R
Python3 之 PyMongo 的安装与使用大秦重工 python 开发语言 mongodb
PyMongo模块是Python对MongoDB操作的接口包，能够实现对MongoDB的增删改查及排序等操作。一．PyMongo的安装直接使用pip安装直接使用pip安装：pipinstallpymongo注意事项：直接使用pip安装可能会遇到网络问题导致安装失败，因此，对于Windows11系统可以访问http://www.lfd.uci.edu/～gohlke/pythonlibs/。这个网站
Python3 与 VSCode：深度对比分析 lly202406 开发语言
Python3与VSCode：深度对比分析引言Python3和VisualStudioCode（VSCode）在软件开发领域扮演着举足轻重的角色。Python3作为一门强大的编程语言，拥有丰富的库和框架，广泛应用于数据科学、人工智能、网络开发等多个领域。而VSCode作为一款轻量级且功能强大的代码编辑器，以其出色的性能和丰富的插件支持，受到了广大开发者的喜爱。本文将对Python3和VSCode进
“告别 dict.update！Python 3.9+ 字典合并的逆天操作符来了” HerrFu@灵思智行科技你不知道的 Python 那些事儿 python 开发语言学习
一、为什么你需要抛弃dict.update在Python3.9之前，合并字典的“标准操作”通常是这样的：config={"host":"localhost","port":8080}defaults={"port":80,"debug":False}#传统合并方式merged=defaults.copy()#防止污染原字典merged.update(config)print(merged)#{'p
android自动化测试 python3.0+appium+uiautomatorviewer+unittest+csv+HTMLTestRunner 登录测试框架 luoyangcoding app自动化测试 app登录自动化脚本
#coding:utf-8importcsv#导入csv库，可以读取csv文件fromappiumimportwebdriverimportunittest#单元测试fromtimeimportsleep#等待时间importtime#时间方法importos#文件、目录方法importsys#引用系统函数fromHTMLTestRunnerimportHTMLTestRunner#定义路径变量，
Django学习实战篇一（适合略有基础的新手小白学习）（从0开发项目）不染_是非 Django django 学习 python
前言：本系列博客将带大家从0开始做一个简单的博客管理系统。完整代码在github上。本项目将用django4.2版本和python3.11版本带大家实现完整开发过程。在学习django过程中，绝大部分的教学和讲解采用的都是老版本的django（1.x，2.x,3.2）和python（3.6），目前最新django版本为5.1，python版本也到了3.12了。对于django版本而言，1.
python版本更新历史_Python3 是否已经完成了取代 Python2 的历史进程？ wongzo python版本更新历史
最新情况：搞web开发之类的还是用py2的多，但搞数据科学现在基本都py3了，之前不推荐py3是因为它不支持一些3D绘图库，但现在一些机器学习库刚出来的新版有的只支持py3，所以搞数据的还是用py3吧。--------------------------------照目前的情形看，哪怕python3退出历史舞台了python2还会活的好好的！官方倒是想让py2早死早超生，然而天不遂人愿，1：由于p
Python 3.13 的改进 CS创新实验室 Python python 开发语言
Python3.13的改进Python3.13是一个充满新功能和改进的优秀版本，已经有大量文章详细介绍了发布说明。因此，本文不会讨论那些已经耳熟能详的内容，只就几个不鲜为人知的改进给予介绍。让调试变得更好尽管PDB的操作界面简陋，但它毕竟简单。之前，在PDB中会遇到这样的问题：try:1/0exceptZeroDivisionErrorase:breakpoint()那么，当读取e时会发生什么：-
Python 版本变更历史及版本选择指南郝开 Python python 版本选择
Python版本变更历史及版本选择指南Python版本变更历史及版本选择指南1.Python3.13.1（2023年发布）主要特性适用场景2.Python3.12（2022年发布）主要特性3.Python3.11（2022年发布）主要特性4.Python3.10（2021年发布）主要特性5.Python3.9（2020年发布）主要特性6.Python3.8（2019年发布）主要特性7.Python
Qwen1.5-7B-实现RAG应用详细步骤大数据追光猿大模型数据库 AI编程语言模型人工智能深度学习
1.准备工作1.1安装依赖确保你的环境中安装了以下工具和库：Python：建议使用Python3.8或更高版本。PyTorch：用于运行深度学习模型。Transformers：HuggingFace提供的库，支持加载和运行预训练模型。FAISS：用于向量检索的高效库。GPTQ支持库：如auto-gptq或gptqmodel。安装命令运行以下命令安装所需的Python包：pipinstalltorc
二.Jupyter Notebook 无敌小昊昊 AI/Python jupyter python linux
JupyterNotebook1.安装condainstalljupyter2.使用#激活虚拟环境condaactivateeny_Python3.12#启动jupyterlab
计算机毕业设计Python+uniapp今日健康饮食食谱小程序(小程序+源码+LW) Python毕设源码程序高学长 python 课程设计 uni-app
计算机毕业设计Python+uniapp今日健康饮食食谱小程序(小程序+源码+LW)该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程项目运行环境配置：Pychram社区版+python3.7.7+Mysql5.7+uni+HBuilderX+listpip+Navicat11+Django+nodejs。项目技术：django+python+UNI等等组成，B/S模式+pychram
pytorch安装记录 cy010124 pytorch 人工智能 python
在conda中创建环境(condacreate-npytorch1python=3.12)，接着进入pytorch1环境（condaactivatepytorch1）。使用官网命令安装pytorch，第一次安装显示python版本过高，torchaudio和torchvision不支持3.12，python3.10可以同时满足，于是准备换成3.10。删除环境，首先切换到base环境（condaac
电商数据采集的网页抓取数据、淘宝、天猫、京东等平台的电商数据抓取|电商数据API接口网页爬虫、采集网站... IT黑侠-itheixia python 爬虫数据采集 AI爬虫
###电商数据采集技术解析随着电子商务的快速发展，电商数据的采集和分析成为了企业决策的重要依据。无论是淘宝、天猫、京东等大型电商平台，还是其他中小型电商网站，数据采集技术都扮演着至关重要的角色。本文将探讨电商数据采集的常见方法、技术挑战以及解决方案。####电商数据采集的常见方法1.**网页爬虫技术**网页爬虫是电商数据采集的核心技术之一。通过编写爬虫程序，可以自动访问目标网站，抓取商品信息、价格
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h

房地产数据-python爬虫+数据可视化

你可能感兴趣的:(python3,网页爬虫,anaconda3)