NAVI.electroNic

使用 Scrapy 爬取我爱我家二手房网站

使用 Scrapy 爬取 5i5j 网站房产数据并存储到 MongoDB

在数据获取和处理方面，网络爬虫是一种强大的工具。本教程将向您展示如何使用 Python 的 Scrapy 网络爬虫框架从 5i5j 网站上提取房产数据，并将提取的信息存储到 MongoDB 数据库中。

当您开始使用Scrapy爬取数据时，确保您的环境设置正确非常重要。以下是一份更详细的环境设置说明：

一、环境设置

安装 Python

确保您的计算机上安装了 Python。您可以在Python官方网站上下载并安装最新版本的 Python。

安装 pip

在安装 Python 时，通常会一并安装 pip，它是 Python 包管理工具。但如果您的 Python 版本较旧或者没有安装 pip，请根据您的操作系统安装 pip。

安装 Scrapy

使用 pip 安装 Scrapy。在命令行中执行以下命令：

pip install scrapy

这将安装最新版本的 Scrapy 爬虫框架。

安装 pymongo

要将爬取到的数据存储到 MongoDB 中，需要安装 pymongo 这个 Python MongoDB 客户端库。在命令行中执行以下命令：

pip install pymongo

安装 MongoDB

如果您尚未安装 MongoDB 数据库，您可以从MongoDB官方网站下载适用于您操作系统的版本并进行安装。

创建 MongoDB 数据库和集合

确保您已经在本地启动了 MongoDB 服务。然后使用以下命令连接到 MongoDB，并创建一个数据库和集合来存储爬取到的数据：

mongo

use pachong  # 创建名为 pachong 的数据库

db.createCollection("pachong")  # 在 pachong 数据库中创建名为 pachong 的集合

创建Scrapy项目

scrapy startproject pachong2    #创建pachong2项目
cd pachong2                     #移动到该pachong2目录下

这里以创建“pachong3”为例

创建爬虫文件

scrapy genspider woaiwojia bj.5i5j.com   
#woaiwojia为爬虫文件名，后续一直使用该文件名
#bj.5i5j.com为网站domain（域名）

最终得到以下文件目录

spiders下的woaiwojia.py即为主体爬虫文件

现在您已经设置好了 Python、Scrapy、pymongo 和 MongoDB，可以开始编写和运行 Scrapy Spider 来爬取数据并将其存储到 MongoDB 数据库中了。

二、观察要爬取的网站

网站首页：

定位目标链接所在位置：

选择定位方式：

观察一下目标链接

进入目标网站观察链接地址

目标链接=“网站首页前缀”+“href中的内容”

即“https://bj.5i5j.com”+“/ershoufang/503007737.html”

得到规则后，可以开始编写代码。

可选择selector或者xpath进行定位

这里选择的是selector定位，

    def parse(self, response):
        base_url = 'https://bj.5i5j.com'  # 基础URL

        # 定位具有特定类名的元素并提取链接
        for element in response.css('.listTit'):
            relative_link = element.css('a::attr(href)').get()
            if relative_link:
                # 构建完整的链接
                full_link = base_url + relative_link
                yield scrapy.Request(full_link, callback=self.parse_house)

        # 获取下一页链接
        next_page = response.css('a.cPage::attr(href)').get()
        if next_page:
            yield response.follow(next_page, callback=self.parse)

将两个链接进行拼接，得到最终链接。

三、观察目标链接内要爬取的信息

价格：

这里使用xpath定位

经纪人姓名，以及房源信息和名称均使用xpath进行定位，方法同上，如有其他需要爬取的信息，采取的方法类似，不再赘述。

具体实现代码：

    def parse_house(self, response):
        house_name = response.xpath('/html/body/div[6]/div[1]/div[1]/h1/text()').get()
        price = response.xpath('/html/body/div[6]/div[2]/div[2]/div[1]/div[1]/div[1]/span/text()').get()
        agent_name = response.xpath('/html/body/div[6]/div[2]/div[2]/div[3]/ul/li[2]/h3/a/text()').get()

        house_link = response.url  # 获取当前页面的链接

        # 提取基础属性信息和交易属性信息...
        # 提取基础属性信息
        basic_attributes = {
            '房屋户型': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="房屋户型"]/span/text()').get(),
            '所在楼层': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="所在楼层"]/span/text()').get(),
            '建筑面积': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="建筑面积"]/span/text()').get(),
            '户型结构': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="户型结构"]/span/text()').get(),
            '套内面积': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="套内面积"]/span/text()').get(),
            '建筑类型': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="建筑类型"]/span/text()').get(),
            '房屋朝向': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="房屋朝向"]/span/text()').get(),
            '建筑结构': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="建筑结构"]/span/text()').get(),
            '装修情况': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="装修情况"]/span/text()').get(),
            '供暖方式': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="供暖方式"]/span/text()').get(),
            '配备电梯': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="配备电梯"]/span/text()').get()
        }

        # 提取交易属性信息
        transaction_attributes = {
            '发布时间': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="发布时间"]/span/text()').get(),
            '建成年代': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="建成年代"]/span[1]/text()').get(),
            '产权性质': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="产权性质"]/span/text()').get(),
            '规划用途': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="规划用途"]/span/text()').get(),
            '上次交易': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="上次交易"]/span/text()').get(),
            '购房年限': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="购房年限"]/span/text()').get(),
            '共有情况': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="共有情况"]/span/text()').get(),
            '抵押情况': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="抵押情况"]/span/text()').get(),
            '房本备件': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="房本备件"]/span/text()').get()
        }

四、将信息存入json文件以及mongodb数据库

mongodb配置信息

    # 添加MongoDB配置
    mongo_uri = 'mongodb://localhost:27017/'  # MongoDB URI
    mongo_db = 'pachong'  # MongoDB数据库名称
    mongo_collection = 'pachong'  # MongoDB集合名称

写入json与数据库

        # 将数据存储到json文件
        yield {
            '房屋名称': house_name.strip() if house_name else None,
            '价格': price.strip() if price else None,
            '经纪人姓名': agent_name.strip() if agent_name else None,
            '房屋链接': house_link,  # 将房屋链接包含在输出中
            '基础属性信息': basic_attributes,
            '交易属性信息': transaction_attributes
        }
        # 将数据存储到MongoDB
        data_to_insert = {
            '房屋名称': house_name.strip() if house_name else None,
            '价格': price.strip() if price else None,
            '经纪人姓名': agent_name.strip() if agent_name else None,
            '房屋链接': house_link,  # 保留房屋链接在输出中
            '基础属性信息': basic_attributes,
            '交易属性信息': transaction_attributes
            # 根据需要添加其他字段
        }

        # 插入数据到MongoDB集合中
        self.collection.insert_one(data_to_insert)

        yield data_to_insert

五、请求头配置

    custom_settings = {
        'DEFAULT_REQUEST_HEADERS': {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36',
            'Referer': 'https://bj.5i5j.com/'
        },
        'FEEDS': {
            'items.json': {
                'format': 'json',
                'overwrite': True,
                'indent': 4,
                'fields': None,
                'include_links': True,
            }
        }
    }

六、pipelines配置文件，settings配置文件

pipelines.py

import pymongo
from scrapy.exceptions import DropItem

class MongoDBPipeline:
    collection_name = 'pachong'  # 更新为您的MongoDB集合名称

    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db

    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            mongo_uri=crawler.settings.get('MONGO_URI'),
            mongo_db=crawler.settings.get('MONGO_DATABASE')
        )

    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]

    def close_spider(self, spider):
        self.client.close()

    def process_item(self, item, spider):
        # 转换价格字段为实际的数字
        if '价格' in item:
            price = item['价格']
            try:
                # 判断价格是否包含"万"单位
                if '万' in price:
                    # 去除价格中的"万"并转换为实际数字
                    price_value = float(price.replace('万', ''))
                    # 将价格乘以一万，得到实际的价格
                    item['价格'] = int(price_value * 10000)
                else:
                    # 如果价格没有单位"万"，将其转换为整数
                    item['价格'] = int(float(price))
            except ValueError:
                raise DropItem("Invalid price format in %s" % item)

        if item.get('价格') is None:
            raise DropItem("Missing price in %s" % item)

        # 插入数据到 MongoDB
        self.db[self.collection_name].insert_one(dict(item))
        return item

settings.py

BOT_NAME = "pachong2"

SPIDER_MODULES = ["pachong2.spiders"]
NEWSPIDER_MODULE = "pachong2.spiders"

ROBOTSTXT_OBEY = True

REQUEST_FINGERPRINTER_IMPLEMENTATION = "2.7"
TWISTED_REACTOR = "twisted.internet.asyncioreactor.AsyncioSelectorReactor"
FEED_EXPORT_ENCODING = "utf-8"


MONGO_URI = 'mongodb://localhost:27017/'  # 更新为您的MongoDB URI
MONGO_DATABASE = 'pachong'  # 更新为您的MongoDB数据库名称

七、主体文件完整代码

具体代码实现

以下是完整代码，让我们看一下示例代码，它展示了如何创建一个 Scrapy Spider 来爬取 5i5j 网站上的房产数据，并将数据存储到 MongoDB 中。


import scrapy
import pymongo


class Fivei5jSpider(scrapy.Spider):
    name = 'woaiwojia'
    allowed_domains = ['bj.5i5j.com']
    start_urls = ['https://bj.5i5j.com/ershoufang/']

    custom_settings = {
        'DEFAULT_REQUEST_HEADERS': {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36',
            'Referer': 'https://bj.5i5j.com/'
        },
        'FEEDS': {
            'items.json': {
                'format': 'json',
                'overwrite': True,
                'indent': 4,
                'fields': None,
                'include_links': True,
            }
        }
    }
    # 添加MongoDB配置
    mongo_uri = 'mongodb://localhost:27017/'  # MongoDB URI
    mongo_db = 'pachong'  # MongoDB数据库名称
    mongo_collection = 'pachong'  # MongoDB集合名称

    def __init__(self, *args, **kwargs):
        super(Fivei5jSpider, self).__init__(*args, **kwargs)
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]
        self.collection = self.db[self.mongo_collection]

    def close(self, reason):
        self.client.close()
        super(Fivei5jSpider, self).close(self, reason)

    def parse(self, response):
        base_url = 'https://bj.5i5j.com'  # 基础URL

        # 定位具有特定类名的元素并提取链接
        for element in response.css('.listTit'):
            relative_link = element.css('a::attr(href)').get()
            if relative_link:
                # 构建完整的链接
                full_link = base_url + relative_link
                yield scrapy.Request(full_link, callback=self.parse_house)

        # 获取下一页链接
        next_page = response.css('a.cPage::attr(href)').get()
        if next_page:
            yield response.follow(next_page, callback=self.parse)

    def parse_house(self, response):
        house_name = response.xpath('/html/body/div[6]/div[1]/div[1]/h1/text()').get()
        price = response.xpath('/html/body/div[6]/div[2]/div[2]/div[1]/div[1]/div[1]/span/text()').get()
        agent_name = response.xpath('/html/body/div[6]/div[2]/div[2]/div[3]/ul/li[2]/h3/a/text()').get()

        house_link = response.url  # 获取当前页面的链接

        # 提取基础属性信息和交易属性信息...
        # 提取基础属性信息
        basic_attributes = {
            '房屋户型': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="房屋户型"]/span/text()').get(),
            '所在楼层': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="所在楼层"]/span/text()').get(),
            '建筑面积': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="建筑面积"]/span/text()').get(),
            '户型结构': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="户型结构"]/span/text()').get(),
            '套内面积': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="套内面积"]/span/text()').get(),
            '建筑类型': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="建筑类型"]/span/text()').get(),
            '房屋朝向': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="房屋朝向"]/span/text()').get(),
            '建筑结构': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="建筑结构"]/span/text()').get(),
            '装修情况': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="装修情况"]/span/text()').get(),
            '供暖方式': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="供暖方式"]/span/text()').get(),
            '配备电梯': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="配备电梯"]/span/text()').get()
        }

        # 提取交易属性信息
        transaction_attributes = {
            '发布时间': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="发布时间"]/span/text()').get(),
            '建成年代': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="建成年代"]/span[1]/text()').get(),
            '产权性质': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="产权性质"]/span/text()').get(),
            '规划用途': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="规划用途"]/span/text()').get(),
            '上次交易': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="上次交易"]/span/text()').get(),
            '购房年限': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="购房年限"]/span/text()').get(),
            '共有情况': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="共有情况"]/span/text()').get(),
            '抵押情况': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="抵押情况"]/span/text()').get(),
            '房本备件': response.xpath(
                '/html/body/div[6]/div[3]/div[3]//ul/li[label/text()="房本备件"]/span/text()').get()
        }
        yield {
            '房屋名称': house_name.strip() if house_name else None,
            '价格': price.strip() if price else None,
            '经纪人姓名': agent_name.strip() if agent_name else None,
            '房屋链接': house_link,  # 将房屋链接包含在输出中
            '基础属性信息': basic_attributes,
            '交易属性信息': transaction_attributes
        }
        # 将数据存储到MongoDB
        data_to_insert = {
            '房屋名称': house_name.strip() if house_name else None,
            '价格': price.strip() if price else None,
            '经纪人姓名': agent_name.strip() if agent_name else None,
            '房屋链接': house_link,  # 保留房屋链接在输出中
            '基础属性信息': basic_attributes,
            '交易属性信息': transaction_attributes
            # 根据需要添加其他字段
        }

        # 插入数据到MongoDB集合中
        self.collection.insert_one(data_to_insert)

        yield data_to_insert

# 运行Spider
# scrapy crawl woaiwojia -o output.json  # 您也可以将爬取的数据输出到文件中

八、运行 Spider

要运行这个 Spider 并获取房产数据，您可以在命令行中执行以下命令：

scrapy crawl woaiwojia -o output.json

请将 woaiwojia 替换为您所创建的 Spider 的名称，output.json 是存储数据的输出文件名。

请确保mongodb数据库中已创建好数据表

运行成功后会生成一个json文件，里面包含了爬取到的信息

同时会将数据存入mongodb数据库，可以打开mongodb数据库查看，如果安装的是图形化界面，那么不再需要输入额外的命令，直接打开在表下就可以查看到，如果不是图形化界面，则需要使用命令进行查看，mongodb的安装本文不再做说明。

九、在数据库中查看

在mongodb安装文件目录下运行mongo

使用show dbs 命令查看已创建的数据库

show dbs

使用use exam命令切换到目标数据库，这里以“exam”数据库为例

use exam

使用db.exam.find()命令展示数据库中的内容

db.exam.find()

如果你的数据库名称不叫exam，请更改成你的数据库名称。

如果是图形化界面，直接打开就可以看到内容，不再演示。

免责声明与版权声明

免责声明

本教程仅供教育和学习目的使用。作者力求提供准确和实用的信息，但不对信息的准确性、完整性和实时性作任何保证。读者在使用本教程中的任何信息、工具或代码时，须自行承担风险，并对其行为负全部责任。

作者对因使用本教程的信息、工具或代码所导致的任何直接或间接损失不承担责任。本教程中提供的代码示例仅供参考，读者应审慎检查代码并根据自身需求进行修改。

版权声明

本教程中的所有内容，包括但不限于文本、图像、代码示例，版权均归作者所有。未经作者许可，禁止未经授权转载、复制或修改本教程中的任何内容。

读者可将本教程用于个人学习和研究目的，但不得用于商业目的或未经授权的传播。任何未经许可的使用可能构成侵权行为，作者保留采取法律行动的权利。

附加信息

在任何情况下，本教程的信息均不构成任何形式的建议、担保或合同。作者保留随时更改或更新本教程内容的权利，无需提前通知。

python异步编程实例_python 异步编程 weixin_39585070 python异步编程实例
Python3.5协程究竟是个啥Yushneng·Mar10th,2016作者是Python语言的核心开发人员，这篇文章也是我分享的，但是在翻译之前并没有看得太仔细。作者在这篇文章里先是是从Python异步编程的发展历史一直介绍到Python3.5中async/await新特性的提出，又从底层的实现的差异一直延伸到完整的代码实例，来说明旧的生成器作为协程的“权宜之计”与新语法的差别。真正做到了深入
python 协程深入浅出秋裤傻 python 多线程 java linux 多进程
说到并发编程，大家容易想到的就是：进程、线程、协程、异步IO。四者在实现上却有共通之处，不外乎调度二字。进程：操作系统进程系统调度，调度号：pid，基本由操作系统提供调度支持线程：操作系统线程调度，调度号：TCB，虚拟机提供一部分支持协程：程序自己进行调度，调度号：函数名，全部由程序自身完成。异步IO：由消息中间件负责调度，调度号：消息队列。进程、线程、协程它们三个实现的是时间复用，达到逻辑上的同
yolov5 python API（供其他程序调用） m0_67401499 面试学习路线阿里巴巴 python 深度学习计算机视觉机器学习 sklearn
你的yolov5??是否只局限于detect.py？如果其他程序要调用yolov5，就需要制作一个detect.py的pythonAPI。python无处不对象，制作detectAPI实际上就是制作detect类。目录前言一、总体思路二、制作detect类二、调用detect类结语前言yolov5源码版本：截止2022.2.3链接：https://github.com/ultralytics/yo
python中的Pillow 有哪些常用的功能？大懒猫软件 pillow 计算机视觉人工智能 python
Pillow的常用功能Pillow是一个强大的图像处理库，提供了丰富的功能来处理和操作图像。以下是一些常用的功能及其示例代码：1.打开和保存图像Pillow可以轻松地打开和保存各种格式的图像文件。示例代码Python复制fromPILimportImage#打开图像img=Image.open("example.jpg")#显示图像img.show()#保存图像img.save("output.j
python实现将RGB相机与事件相机的照片信息进行融合以进行目标检测 go5463158465 python 算法 python 数码相机目标检测
要将RGB相机与事件相机的照片信息进行融合以进行目标检测，我们可以按以下步骤进行：整体思路数据读取：分别读取RGB图像和事件相机数据。数据预处理：对RGB图像和事件数据进行必要的预处理，如调整尺寸、归一化等。数据融合：将预处理后的RGB图像和事件数据进行融合。目标检测：使用融合后的数据进行目标检测。代码实现importcv2importnumpyasnpimporttorchfromtorchvi
本地部署SenceVoice（超简单） A97139012 语音识别 python
1.下载源代码：gitclonehttps://github.com/FunAudioLLM/SenseVoice.git，或者去https://github.com/FunAudioLLM/SenseVoice这个网址下载zip文件，解压，这两种方式一样，选一种即可；2.为节省时间可以在下载过程中创建虚拟环境：python-mvenvsencevoicevenv3.激活虚拟环境：进入到sence
python环境的yolov11.rknn物体检测子正问题建模 #AI自由行部署 YOLO 机器学习运维
1.首先是我手里生成的一个yolo11的.rknn模型：2.比对一下yolov5的模型：2.1yolov5模型的后期处理：outputs=rknn.inference(inputs=[img2],data_format=['nhwc'])np.save('./onnx_yolov5_0.npy',outputs[0])np.save('./onnx_yolov5_1.npy',outputs[1]
Django框架全面指南 ivwdcwso 开发 django sqlite 数据库
Django是一个高级的PythonWeb框架，它鼓励快速开发和清晰、实用的设计。本指南将全面介绍Django的核心概念和使用方法。1.Django简介Django遵循"batteriesincluded"哲学，提供了Web开发所需的几乎所有功能。它的主要特点包括：ORM（对象关系映射）URL路由模板引擎表单处理认证系统管理界面安全特性2.安装和项目设置安装Djangopipinstalldjan
Python中的GIL锁详解 _Itachi__ python python 开发语言
Python中的GIL锁详解大家好，今天我们来聊聊Python中一个备受争议的话题——GIL锁（GlobalInterpreterLock，全局解释器锁）。GIL锁是Python解释器中的一个重要机制，但它对多线程程序的性能影响很大，尤其是在计算密集型任务（如图像处理）中。本文将从GIL锁的原理、影响以及如何在图像处理中规避GIL锁的角度，带大家彻底搞懂这个问题！1.什么是GIL锁？GIL锁是Py
Python 公共操作：爱情保鲜的秘诀，你 Get 到了吗？测试界的段子手 python 开发语言
各位靓仔靓女们，大家好！今天咱们不聊技术，聊点更刺激的——爱情！等等，别划走啊！我保证，这绝对是一篇披着技术外衣的恋爱宝典！话说，这爱情就像Python里的容器，用好了，就能把甜蜜的回忆、美好的瞬间都好好地保存起来。但如果操作不当，一不小心就可能出现BUG，导致感情破裂。所以，今天我就来给大家分享一下Python容器操作的“爱情保鲜秘诀”，保证让你的爱情像代码一样稳定运行，永不宕机！一、运算符：爱
python如果忘了符号链接指向的是哪个版本，可以这样做 Jasper张环境安装常用工具 python 自动化
如果不确定python3指向哪个版本，可以通过以下命令查看：ls-l/opt/homebrew/bin/python3jasper.zhang@localhost~%ls-l/opt/homebrew/bin/python3lrwxr-xr-x1jasper.zhangadmin4021515:32/opt/homebrew/bin/python3->../Cellar/python@3.13/3
使用brew install python时提示Unversioned symlinks Jasper张常用工具环境安装 python mac
继续安装新环境，在使用brewinstallpython时，在最后安装完成时提示：==>python@3.13Pythonisinstalledas/opt/homebrew/bin/python3Unversionedsymlinks`python`,`python-config`,`pip`etc.pointingto`python3`,`python3-config`,`pip3`etc.,
Python代码规范：编写优雅且高效的Python代码 xl.liu python 代码规范开发语言
Python代码规范：编写优雅且高效的Python代码引言Python以其简洁和易读性而闻名，但即使是最简洁的语言也需要遵循一定的编码规范来确保代码的可读性和可维护性。良好的编码习惯不仅有助于个人项目的开发，更是在团队协作中不可或缺的一部分。本文将深入探讨Python代码规范，包括但不限于PEP8标准、GooglePython风格指南以及其他最佳实践。我们将从代码格式、命名规则、文档字符串、注释等
Winograd 算法原理推导和python程序 weixin_47696437 算法 python 人工智能
一、算法背景Winograd算法是一种用于高效计算卷积的算法，其核心思想是通过减少乘法运算的次数来提高卷积计算的效率。在传统的卷积计算中，乘法运算的开销较大，而Winograd算法通过巧妙的变换，将卷积运算转化为在变换域中的矩阵乘法，从而减少乘法的数量，虽然会引入一些额外的加法和变换操作，但整体上在计算效率上有显著提升。二、一维卷积的Winograd推导2.Winograd优化通过多项式变换减少乘
macOS M2 安装 Jax (jax-metal) 丽英y 实践笔记 macos jax jax-metal mac metal sonama mps
Apple官方教程：AcceleratedJAXonMachttps://developer.apple.com/metal/jax/使用pipinstalljax或pipinstalljax-metal安装Jax后，运行验证代码：python-c'importjax;print(jax.numpy.arange(10))'会提示loc("-":0:0):error:currentmpsdiale
mac自带python升级_如何升级Mac中自带的openssl ？（过程总结）张嫂 mac自带python升级
如何升级Mac中自带的openssl？下面这篇文章就给大家介绍关于Mac中自带的openssl升级过程，有需要的可以参考一下。由于Mac自带的openssl太老了，所以，这里因为安装python扩展包需要升级到高版本，所以，总结下升级过程。一、安装openssl首先，来看看我们的openssl的版本和目录：->~opensslversionOpenSSL0.9.8zh14Jan2016->~whi
python分布式爬虫去重_Python分布式爬虫(三) - 爬虫基础知识 weixin_39997311 python分布式爬虫去重
0相关源码1技术选型爬虫能做什么1.1scrapyVSrequests+beautifulsoup做爬虫的时候，经常都会听到scrapyVSrequests+beautifulsoup的组合在本次分布式爬虫实现中只用scrapy而不用后者的原因是：requests和beautifulsoup都是库，scrapy是一个框架框架中可以应用requests等，可以集合很多第三方库基于twisted(异步
python获取金融数据_使用Python获取金融数据 weixin_39545102 python获取金融数据
俗话说，“巧媳妇难为无米之炊”。做金融数据研究，首先要有可用的数据源。Python下，pandas_datareader模块可以用于获取研究数据。例子如下：>>>frompandas_datareader.dataimportDataReader>>>>>>datas=DataReader(name='AAPL',data_source='yahoo',start='2018-01-01')>>>
Scrapy分布式爬虫系统 ivwdcwso 开发运维 scrapy 分布式爬虫 python 开发
一、概述在这篇博文中,我们将介绍如何使用Docker来部署Scrapy分布式爬虫系统,包括Scrapyd、Logparser和Scrapyweb三个核心组件。这种部署方式适用于Scrapy项目和Scrapy-Redis分布式爬虫项目。需要安装的组件:Scrapyd-服务端,用于运行打包后的爬虫代码,所有爬虫机器都需要安装。Logparser-服务端,用于解析爬虫日志,配合Scrapyweb进行实时
python获取抖音直播间用户/弹幕/评论/礼物信息（6月份sign最新版）阿福不是狗 Python使用总结 python 网络爬虫
python获取抖音直播间用户/弹幕/评论/礼物信息（6月份sign最新版）这是一个用Python编写的抖音直播间信息获取工具。该服务的主要功能是获取抖音直播间的实时信息，包括：直播间进场用户：服务能够实时获取进入直播间的用户信息，包括用户ID、用户名等。弹幕信息：服务能够实时接收并解析直播间内的弹幕信息，让用户能够及时了解观众的实时反馈。礼物信息：服务能够实时获取观众送出的礼物信息，包括礼物名称
Python librosa库：一款强大的音频处理工具程序员喵哥 python 音视频开发语言
更多Python学习内容：ipengtao.com在音频信号处理和音乐分析中，如何高效地加载、分析和转换音频数据是一个核心问题。librosa是一个专为音频分析设计的Python库，提供了丰富的工具来处理音频信号。无论是计算音频特征（如频谱、节拍）还是执行音频变换（如频率变换、时间拉伸），librosa都是一个功能强大且易于使用的选择。安装在开始使用librosa之前，需要先安装它。可以通过以下命
文件包含lfi.php使用三和三千万网络安全安全
使用这个脚本的前提是有文件包含点，也可以访问到phpinfo页面#!/usr/bin/pythonimportsysimportthreadingimportsocketdefsetup(host,port):TAG="SecurityTest"PAYLOAD="""%s\r')?>\r"""%TAGREQ1_DATA="""-----------------------------7dbff1d
使用Python抓取新闻媒体网站的最新头条与相关内容：深入的爬虫开发与数据分析实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫数据分析数据挖掘人工智能开发语言
引言在互联网时代，新闻媒体网站是人们获取信息和了解世界的重要渠道。随着新闻的即时更新，获取最新头条并进行数据分析成为许多行业领域（如媒体、广告、舆情监测等）的重要需求。通过抓取新闻媒体网站的内容，我们不仅能获取各类新闻文章，还能为后续的数据分析、情感分析、舆情监控等提供基础数据。本篇博客将详细讲解如何使用Python编写一个爬虫，抓取新闻媒体网站的最新头条及其相关内容。我们将使用最新的技术栈，包括
使用brew install python，跟 Mac自带的python版本会发生冲突吗？ Jasper张环境安装常用工具 python macos 开发语言
macOS自带的Python版本通常较低。例如，我的新Mac预装的Python版本是3.9，而最新的Python版本已经更新到了3.13.x。为了使用更新的Python版本，我通过brewinstallpython安装了Python。那么，这样做是否会与macOS自带的Python版本产生冲突呢？经过尝试，发现它们并不会互相影响，因为它们是独立安装的，可以通过不同的命令调用。具体来说：macOS自
Python编程基础教程：量化交易入门 AI天才研究院 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍市场数据信息是每天都在更新，人们对市场变化的快速反应、精准把握、及时行动和判断将成为未来金融领域的一项重要任务。而传统的方式仍然是依赖于传统的报表分析和定期股票投资策略。如何用程序实现量化交易，并且实时跟踪和分析市场数据是本文将要讨论的重点。一般来说，以下五种程序语言被认为是最适合进行量化交易的语言：Python：是一个通用的高级编程语言，具有简单、易学习、可读性强等特点。其中有很多成
【深度学习入门：基于python的理论与实现读书笔记】第五章误差反向传播法 Bin二叉深度学习 python 人工智能
目录摘要第五章误差反向传播法简单层的实现乘法层的实现加法层的实现激活函数层的实现ReLU层Sigmoid层Affine层和Softmax层的实现Affine层Softmax-with-Loss层误差反向传播法的实现摘要该文章简要介绍了神经网络的误差反向传播法，省去了大量的推理过程，重点讲述了神经网络误差反向传播法的代码实现。第五章误差反向传播法反向传播就是从后到前局部计算偏导数并将其与从上游传来的
Day02 Python之文件操作（open、read、write、close）小菜鸟也要努力吖 Python python
一、file对象的属性1、file.name返回文件的名称2、file.mode返回文件的访问模式3、file.closed查看文件是否关闭，是TRUE，否FALSE二、访问模式r:只读模式(默认);文件必须存在w:只写模式;不存在则创建，存在则重写a:追加模式;不存在则创建,存在则只追加内容+：表示可以同时读写某个文件r+:可读写文件，文件不存在抛出异常w+:先写再读三、打开文件1、创建文件，内
在Ubuntu24.04上安装Stable-Diffusion1.10.1版本 BBM的开源HUB AI专栏 stable diffusion
之前曾介绍过在Ubuntu22.04上安装Stable-Diffusion：在Ubuntu22.04上部署StableDiffusion_ubuntustabledif-CSDN博客这个安装我们使用condapython虚拟机。这次我们介绍的是在Ubuntu24.04安装Stable-Diffusion的最新版本V1.10.1（截止到今天最新版），并且我们这次安装不再使用conda虚拟环境。一：安
VeighNa：强大的Python开源量化交易平台 @Unity打怪升级 Python python 开发语言开源软件开源人工智能机器学习深度学习
VeighNa（简称VN或vn.py）是一个基于Python的开源量化交易平台，专为量化交易爱好者和专业交易员设计。VeighNa是由国内开发者社区推动的开源项目，旨在提供一个功能丰富、灵活且易于扩展的量化交易解决方案。该框架不仅支持多种资产类别的交易，如股票、期货、期权、加密货币等，还支持多种交易接口和协议，使得用户能够轻松进行多市场、多品种的交易策略开发和部署。VeighNa提供了丰富的量化交
flash_atten库安装失败心平气和不要慌 python 开发语言
在使用tinyllava时，需要安装flash_atten库，直接pipinstallflash_atten安装出现无法安装且安装速度慢的情况，下面是解决方案。1.查询对应版本（cuda，python等），直接下载对应whl文件。地址：https://github.com/Dao-AILab/flash-attention/releases?page=52.安装，这里我选择abiFALSE版本的才
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "13241153187@163.com" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多