巷口那只猫ii

scrapy-使用

该文章涉及方面比较多，后面会将该文章拆开，每个方面都会进行详细的说明和使用，但是该文件的内容不变。

Scrapy 爬虫框架的使用手册

基础介绍

安装

pip install Twisted-18.9.0-cp36-cp36m-win_amd64.whl
pip install Scrapy

错误

ModuleNotFoundError: No module named ‘win32api’

pip install pypiwin32

创建项目

scrapy startproject myscrapy

目录介绍

scrapy.cfg : 项目的配置文件
myscrapy：项目
myscrapy/items.py:项目使用的item文件
myscrapy/pipelines.py: 项目中的pipelines文件.
myscrapy/settings.py: 项目的设置文件.
myscrapy/spiders/: 放置spider代码的目录.

创建一个爬虫的应用

# 创建一个名称叫danke 网址后缀为danke.com的爬虫应用
scrapy genspider danke danke.com
# 此时在myscrapy/spiders目录下面有了一个danke.py的文件 打开

修改items.py

import scrapy
class CrawlsHouseItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    pass
class DanKe(CrawlsHouseItem):
     # 房子名称
    host_name = scrapy.Field()
    # 租金
    price = scrapy.Field()
    # room list
    room_list = scrapy.Field()

修改danke.py

# -*- coding: utf-8 -*-
import scrapy
from crawls_house.items import DanKe


class DankeSpider(scrapy.Spider):
    # 应用的名称
    name = 'danke'
    # 只有是该域名的连接才会被调度
    allowed_domains = ['www.danke.com']
    # 起始页面的url
    start_urls = ['https://www.danke.com/room/bj']

    def parse(self, response):
        # 获取需要继续跟进的url
        for href in response.xpath("//div[@class='r_lbx_cena']//a//@href").extract():
            # 将需要跟进的url交给调度器处理并指定回调方法为parse_item
            yield scrapy.Request(href, self.parse_item)
        # 获取下一页的url 自动会进行去重
        for next_href in response.xpath("//div[@class='page']//a//@href").extract():
            yield scrapy.Request(next_href)

    def parse_item(self, response):
        # 处理详情页面的信息
        danke = DanKe()
        # 房子的名称
        danke['host_name'] = response.xpath('//h1//text()').extract()[0]
        # 租金
        price = response.xpath('//div[@class="room-price-sale"]//text()').extract()[0]
        danke['price'] = price.replace(" ", "").replace("\n", "")
        # room list
        room_list = []
        for room in response.xpath('//div[@class="room-list"]//text()').extract():
            room = room.replace(" ", "").replace("\n", "")
            if len(room) != 0:
                room_list.append(room)
        danke["room_list"] = ",".join(room_list)
        # 返回 Item 交给 pipline 处理
        return danke

修改 settings.py

# 设置 User-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'
# 是否遵循 robots.txt 协议
ROBOTSTXT_OBEY = False
# 是否关闭 cookies (默认启用)
COOKIES_ENABLED = False
# 使用 request headers:
DEFAULT_REQUEST_HEADERS = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'en',
}
#item piplines
ITEM_PIPELINES = {
    'crawls_house.pipelines.CrawlsHousePipeline': 300,
}

修改pipelines.py

class CrawlsHousePipeline(object):
    def __init__(self):
        super().__init__()
        self.file = open("danke.json", "a", encoding="utf-8")

    def __del__(self):
        self.file.close()

    def process_item(self, item, spider):
        print(item, spider)
        self.file.write("{}|{}|{}\n".format(item["host_name"], item["price"], item["room_list"]))
        return item

启动项目

scrapy crawl danke

命令行使用

创建项目

scrapy startproject myproject

创建一个spider

# scrapy genspider [-t template]  
scrapy genspider myspider myspider.com
# 查看可以使用的template
scrapy genspider -l
# 查看template 的内容
scrapy genspider -d basic

运行项目

scrapy crawl myspider

检查spider

scrapy check -l
scrapy check

列出当前可用的spider

scrapy list

查看页面返回结果

scrapy fetch --nolog --headers https://www.danke.com/room/bj

用浏览器打开页面

scrapy view https://www.danke.com/room/bj

命令行执行scrapy

scrapy shell https://www.danke.com/room/bj

对url进行分析

scrapy parse <url> [options]

--spider=SPIDER: 跳过自动检测spider并强制使用特定的spider
--a NAME=VALUE: 设置spider的参数(可能被重复)
--callback or -c: spider中用于解析返回(response)的回调函数
--pipelines: 在pipeline中处理item
--rules or -r: 使用 CrawlSpider 规则来发现用来解析返回(response)的回调函数
--noitems: 不显示爬取到的item
--nolinks: 不显示提取到的链接
--nocolour: 避免使用pygments对输出着色
--depth or -d: 指定跟进链接请求的层次数(默认: 1)
--verbose or -v: 显示每个请求的详细信息

Item Pipline

当Item在Spider中被收集之后，它将会被传递到Item Pipeline，一些组件会按照一定的顺序执行对Item的处理。

每个item pipeline组件(有时称之为“Item Pipeline”)是实现了简单方法的Python类。他们接收到Item并通过它执行一些行为，同时也决定此Item是否继续通过pipeline，或是被丢弃而不再进行处理。

以下是item pipeline的一些典型应用：

清理HTML数据
验证爬取的数据(检查item包含某些字段)
查重(并丢弃)
将爬取结果保存到数据库中

编写自己的item pipline

重写以下方法

import json
class MyItemPipline(object):
    def __init__(self, file_name):
        self.filename = file_name 
    def open_spider(self, spider):
        # spider 开始时被调用
        sefl.file = open(self.filename, "a", encoding="utf-8")
        pass
    def close_spider(self, spider):
        # spider 结束时被调用
        self.file.close()
        pass
    def process_item(self, item, spider)
        # 每个item pipeline组件都需要调用该方法，这个方法必须返回一个 Item (或任何继承类)对象， 或是抛出 DropItem 异常，被丢弃的item将不会被之后的pipeline组件所处理。
        if item['id'] == 1:
            raise DropItem("item is get")
        else:
           self.file.write("%s\n" % json.dumps(dict(item))) 
            return item
   @classmethod
   def from_crawler(cls, crawler):
        # 从crawler的配置文件中获取配置信息 需要设置其为类方法
       return cls(
            file_name = crawler.settings.get("file_name")
       )

在配置文件最后那个添加该组件

分配给每个类的整型值，确定了他们运行的顺序，item按数字从低到高的顺序，通过pipeline，通常将这些数字定义在0-1000范围内。
```
ITEM_PIPELINES = {
    'crawls_house.pipelines.CrawlsHousePipeline': 300,
    'crawls_house.pipelines.CrawlsHousePipeline2': 400,
}
```

Logging

使用日志

from scrapy import log
log.msg("logging warning", level=log.WARNING)

将日志导出到文件
```
scrapy crawl danke --logfile=danke.log
```

Telent

使用telent终端访问scrapy

# 默认监听本地的6023端口
telnet localhost 6023

快捷名称	描述
`crawler()`	Scrapy Crawler (`scrapy.crawler.Crawler` 对象)
`engine()`	Crawler.engine属性
`spider()`	当前激活的爬虫(spider)
`slot()`	the engine slot
`extensions()`	扩展管理器(manager) (Crawler.extensions属性)
`stats()`	状态收集器 (Crawler.stats属性)
`settings()`	Scrapy设置(setting)对象 (Crawler.settings属性)
`est()`	打印引擎状态的报告
`prefs()`	针对内存调试 (参考调试内存溢出)
`p()`	pprint.pprint 函数的简写
`hpy()`	针对内存调试

# 暂停爬虫
telnet localhost 6023
>>> engine.pause()
# 恢复爬虫
>>> engine.unpause()
# 停止爬虫
>>> engine.stop()

Setting 配置

# 设置 telnet 的端口
TELNETCONSOLE_PORT = [6023, 6073]
# 监听的地址
TELNETCONSOLE_HOST = '127.0.0.1'

下载中间件

动态随机User-Agent和使用代理

在settings.py设置

DOWNLOADER_MIDDLEWARES = {
    'crawls_house.middlewares.CrawlsHouseDownloaderMiddleware': 543,
}

在middlewares.py的CrawlsHouseDownloaderMiddleware类中修改

其他的方法不要改变

import random
from crawls_house.settings import USER_AGENTS, PROXIES
class CrawlsHouseDownloaderMiddleware(object):
    def process_response(self, request, response, spider):
        # 设置 user-agent
        request.headers["User-Agent"] = random.choice(USER_AGENTS)
        # 设置 proxy
        request.meta["proxy"] = "http://%s" % random.choice(PROXIES)
        return response

Spider中间件

图片下载

pip install Pillow

在item.py文件的需要进行图片下载的类中添加属性
```
image_urls = scrapy.Field()
image_paths = scrapy.Field()
```

在settings.py文件中添加

ITEM_PIPELINES = {
    'crawls_house.pipelines.XMLExportItem': 300,
    # 这是自定义的
    "crawls_house.pipelines.MyImagesPipeline": 299,
    # 这是基本的 不可和自定义的同时设置
    "scrapy.contrib.pipeline.images.ImagesPipeline", 299
}
# 图片的下载地址
IMAGES_STORE = r'D:\workspace\crawls_house\imgs'
# 图片的有效时间
IMAGES_EXPIRES = 90
# 图片缩略图生成
IMAGES_THUMBS = {
    'small': (50, 50),
    'big': (270, 270),
}

如果使用了自定义则需要在pipeline.py文件中添加

from scrapy.contrib.pipeline.images import ImagesPipeline
from scrapy.exceptions import DropItem
class MyImagesPipeline(ImagesPipeline):
    def item_completed(self, results, item, info):
        image_paths = [x['path'] for ok, x in results if ok]
        if not image_paths:
            raise DropItem("Item contains no images")
        item['image_paths'] = image_paths
        return item

自动限速

# 是否启用限速扩展
AUTOTHROTTLE_ENABLED = True
# 初始限速速度(单位秒)。
AUTOTHROTTLE_START_DELAY = 5.0
# 在高延迟情况下最大的下载延迟(单位秒)。
AUTOTHROTTLE_MAX_DELAY = 60.0
# 起用AutoThrottle调试(debug)模式，展示每个接收到的response。 您可以通过此来查看限速参数是如何实时被调整的。
AUTOTHROTTLE_DEBUG = True

Jobs 暂停和恢复爬虫

在 settings.py文件中指定

# 爬虫的job恢复路径
JOBDIR = "crawl_job/crawls-1"

在命令行指定

scrapy crawl danke -s JOBDIR=crawls_job/danke-1

同一时间启动多个Spider

在crawls_house下创建crawlall.py文件

from scrapy.commands import ScrapyCommand
from scrapy.utils.project import get_project_settings

class Command(ScrapyCommand):
    requires_project = True

    def syntax(self):
        return '[options]'

    def short_desc(self):
        return 'Runs all of the spiders'

    def run(self, args, opts):
        spider_list = self.crawler_process.spiders.list()
        for name in spider_list:
            self.crawler_process.crawl(name, **opts.__dict__)
        self.crawler_process.start()

在 settings.py文件中添加
```
COMMANDS_MODULE = 'crawls_house'
```
启动
```
scrapy crawlall
```

分布式爬虫

安装scrapy-redis
```
pip install scrapy-redis
```

修改settings.py文件

# 启用Redis调度存储请求队列.
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 确保所有的爬虫通过Redis去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# Default requests serializer is pickle, but it can be changed to any module
# with loads and dumps functions. Note that pickle is not compatible between
# python versions.
# Caveat: In python 3.x, the serializer must return strings keys and support
# bytes as values. Because of this reason the json or msgpack module will not
# work by default. In python 2.x there is no such issue and you can use
# 'json' or 'msgpack' as serializers.
# 默认请求序列化使用的是pickle 但是我们可以更改为其他类似的。PS：这玩意儿2.X的可以用。3.X的不能用
# SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"

# 不清除Redis队列、这样可以暂停/恢复 爬取
# SCHEDULER_PERSIST = True

# 使用优先级调度请求队列 （默认使用）
# SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'

# 可选用的其它队列
# SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.FifoQueue'
# SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.LifoQueue'

# 最大空闲时间防止分布式爬虫因为等待而关闭
# 这只有当上面设置的队列类是SpiderQueue或SpiderStack时才有效
# 并且当您的蜘蛛首次启动时，也可能会阻止同一时间启动（由于队列为空）
# SCHEDULER_IDLE_BEFORE_CLOSE = 10

# 将清除的项目在redis进行处理
ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 1,
    'crawls_house.pipelines.XMLExportItem': 300,
    "crawls_house.pipelines.MyImagesPipeline": 299
}

# 序列化项目管道作为redis Key存储
# REDIS_ITEMS_KEY = '%(spider)s:items'

# 默认使用ScrapyJSONEncoder进行项目序列化
# REDIS_ITEMS_SERIALIZER = 'json.dumps'

# 指定连接到redis时使用的端口和地址（可选）
REDIS_HOST = '192.168.1.203'
REDIS_PORT = 60790

# 指定用于连接redis的URL（可选）
# 如果设置此项，则此项优先级高于设置的REDIS_HOST 和 REDIS_PORT
# REDIS_URL = 'redis://user:pass@hostname:9001'

# 自定义的redis参数（连接超时之类的）
# REDIS_PARAMS  = {}
# 自定义redis客户端类
# REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient'

# 如果为True，则使用redis的'spop'进行操作。
# #如果需要避免起始网址列表出现重复，这个选项非常有用。开启此选项urls必须通过sadd添加，否则会出现类型错误。
# REDIS_START_URLS_AS_SET = False

# RedisSpider和RedisCrawlSpider默认 start_usls 键
#REDIS_START_URLS_KEY = '%(name)s:start_urls'

# 设置redis使用utf-8之外的编码
# REDIS_ENCODING = 'latin1'

修改***tongcheng.py***文件
只修改必要部分，其余部分不变

 # 引入 redisSpider类
 from scrapy_redis.spiders import RedisSpider
 # 继承该类
 class TongchengSpider(RedisSpider):
     name = 'tongcheng'
     allowed_domains = ['58.com']
     # redis中是的key
     redis_key = "tongcheng:start_urls"

启动爬虫，此时爬虫并没有开始爬取
```
scrapy runspider spider/tongcheng.py
```

向redis中添加键，爬虫开始运行

lpush tongcheng:start_urls https://bj.58.com/chuzu/?PGTID=0d3090a7-0000-126a-c26e-b315d60fe251&ClickID=1

架构概览

组件

Scrapy Engine

引擎负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事件。详细内容查看下面的数据流(Data Flow)部分。

调度器(Scheduler)

调度器从引擎接受request并将他们入队，以便之后引擎请求他们时提供给引擎。

下载器(Downloader)

下载器负责获取页面数据并提供给引擎，而后提供给spider。

Spiders

Spider是Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。每个spider负责处理一个特定(或一些)网站。更多内容请看 Spiders 。

Item Pipeline

Item Pipeline负责处理被spider提取出来的item。典型的处理有清理、验证及持久化(例如存取到数据库中)。更多内容查看 Item Pipeline 。

下载器中间件(Downloader middlewares)

下载器中间件是在引擎及下载器之间的特定钩子(specific hook)，处理Downloader传递给引擎的response。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。更多内容请看下载器中间件(Downloader Middleware) 。

Spider中间件(Spider middlewares)

Spider中间件是在引擎及Spider之间的特定钩子(specific hook)，处理spider的输入(response)和输出(items及requests)。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。更多内容请看 Spider中间件(Middleware) 。

数据流(Data flow)

Scrapy中的数据流由执行引擎控制，其过程如下:

引擎打开一个网站(open a domain)，找到处理该网站的Spider并向该spider请求第一个要爬取的URL(s)。
引擎从Spider中获取到第一个要爬取的URL并在调度器(Scheduler)以Request调度。
引擎向调度器请求下一个要爬取的URL。
调度器返回下一个要爬取的URL给引擎，引擎将URL通过下载中间件(请求(request)方向)转发给下载器(Downloader)。
一旦页面下载完毕，下载器生成一个该页面的Response，并将其通过下载中间件(返回(response)方向)发送给引擎。
引擎从下载器中接收到Response并通过Spider中间件(输入方向)发送给Spider处理。
Spider处理Response并返回爬取到的Item及(跟进的)新的Request给引擎。
引擎将(Spider返回的)爬取到的Item给Item Pipeline，将(Spider返回的)Request给调度器。
(从第二步)重复直到调度器中没有更多地request，引擎关闭该网站。

事件驱动网络(Event-driven networking)

Scrapy基于事件驱动网络框架 Twisted 编写。因此，Scrapy基于并发性考虑由非阻塞(即异步)的实现。

关于异步编程及Twisted更多的内容请查看下列链接:

Introduction to Deferreds in Twisted
Twisted - hello, asynchronous programming

你可能感兴趣的:(爬虫,python)

潇洒郎： Python获取设备已连接的所有WIFi账号和密码潇洒郎 Python学习 python WiFi账号和密码
Python获取设备已连接的所有WIFi账号和密码如果你忘记了密码，可以使用这个脚本获取，不要使用非法用途哦！#coding=utf8#User:Administrator#Date:2024/11/5#Time:13:02importsubprocessimportjsondefsub_cmd(cmd):res=subprocess.getoutput(cmd)returnresdefget_a
一.组合数据类型：列表 muxue178 python 开发语言
1.下标下标从零开始name_list=['python','php','java']print(name_list)print(name_list[0])print(name_list[2])运行结果['python','php','java']pythonjava2.查找函数index()count()len()1.index()name_list=['zhangsan','lisi','wa
第19篇：python高级编程进阶：使用Flask进行Web开发猿享天开 python从入门到精通 python 开发语言
第19篇：python高级编程进阶：使用Flask进行Web开发内容简介在第18篇文章中，我们介绍了Web开发的基础知识，并使用Flask框架构建了一个简单的Web应用。本篇文章将深入探讨Flask的高级功能，涵盖模板引擎（Jinja2）、表单处理、数据库集成以及用户认证等主题。通过系统的讲解和实战案例，您将掌握构建功能更为丰富和复杂的Web应用所需的技能。目录Flask的深入使用Flask扩展蓝
第18篇：python高级编程进阶：Web开发基础详解猿享天开 python从入门到精通 python 开发语言
第18篇：Web开发基础内容简介本篇文章将为您介绍Web开发基础的核心概念和实用技能。您将了解Web开发的基本概念和流程，掌握HTTP协议的基础知识，学习如何使用Flask框架构建简单的Web应用，并深入理解路由与视图函数的工作原理。通过丰富的代码示例和实战案例，您将能够快速入门Web开发，搭建自己的第一个Web应用。目录Web开发概述什么是Web开发前端与后端开发Web开发的技术栈HTTP协议基
大数据学习（七）Python3操作livy（使用pylivy模块）猪笨是念来过倒大数据大数据 python
Livy是一个用于与Spark交互的开源REST接口。pylivy是Livy的Python客户端，可以在Spark集群上轻松实现远程代码执行。安装$pipinstall-Ulivy请注意，pylivy需要Python3.6或更高版本。用法所述LivySession类的主界面提供由pylivy：from
python multiprocessing iteye_20379 python
importmultiprocessingimportmathdeffactorize_naive(n):"""Anaivefactorizationmethod.Takeinteger'n',returnlistoffactors."""ifn=n:factors.append(n)returnfactorselifp>2:#Advanceinstepsof2overoddnumbersp+=2
Python进阶—高级语法 Echo.py Python基础语法 python 开发语言
目录文章目录目录1、在==和is之间选择2、元组的相对不可变性3、字典中的键映射多个值4、Linux5、python中字典的key要求6、编码7、进制之间的转换8、关系运算符(时间处理)9、时间处理模块❶常用时间处理方法❷转化为13位时间戳10、三元运算符11、成员运算符12、For循环机制13、变量的分类14、闭包(函数的嵌套)15、函数(方法)的执行流程16、匿名函数17、Django和Fla
对本地部署的ChatGLM模型进行API调用 BBluster LLM python 开发语言语言模型
ChatGLM作为一个小参数模型，给予了我们在本地部署LLM的条件，接下来我将展示如何使用python对本地部署的ChatGLM模型进行API调用对于如何部署本地ChatGLM模型我们可以访问本地化部署大语言模型ChatGLM接下来我首先分享api调用的测试代码：importtimeimportrequests#测试GPU运行是否成功deftest_function_1():importtorch
Traceback包【持续更新】 BBluster python python
Traceback包简介traceback是Python标准库中的一个模块，它提供了一组用于提取、格式化和打印程序执行过程中的堆栈跟踪信息的工具。当程序发生异常且未被捕获时，Python会自动生成一个堆栈跟踪，显示出错的位置和调用栈。这有助于开发者理解和调试程序中出现的问题。主要功能当程序发生异常时，traceback模块可以用来捕获和格式化相关的堆栈信息。这有助于开发者快速定位问题所在。格式化的
Python timeit的使用 egzosn python 开发语言
假设您要测量代码段的执行时间。你是做什么？直到现在，我就像大多数人一样会做以下事情：登录后复制#导入时间start_time=time.time()"""某些代码"""end_time=time.time()print(f“执行时间为：{end_time-start_time}”)1.2.3.4.5.现在说我们要比较两个不同函数的执行时间，然后：登录后复制#导入时间deffunction_1(*参
Python多进程 multiprocessing 培之编程语言 python 机器学习开发语言
在大数据时代，Python已经成为最受追捧的语言。在本文中，让我们专注于Python的一个特定方面，它使其成为最强大的编程语言之一——Multi-Processing。在阅读本文之前，我建议您阅读我之前关于Python中的线程的文章，因为它可以为当前文章提供更好的上下文。多进程是什么？假设你是一名小学生，你的作业是让1200对数字相乘，这让你感到麻木。假设您能够在3秒内将一对数字相乘。那么总共需要
Python 并发 multiprocessing-Process lainegates python Python multiprocess
＊multiprocessing支持子进程、通信和共享数据、执行不同形式的同步。＊Process创建进程的类：Process([group[,target[,name[,args[,kwargs]]]]])，target表示调用对象，args表示调用对象的位置参数元组。kwargs表示调用对象的字典。Name为别名。Group实质上不使用。方法有：is_alive()、.join([timeout
python+playwright自动化测试(四)：元素操作(键盘鼠标事件)、文件上传觅远 python 自动化测试爬虫 python 自动化
目录鼠标事件悬停移动按键点击滚轮操作拖拽键盘事件输入文本内容type输入内容fill输入内容按键操作press文件上传下拉选/单选框/复选框滚动条操作鼠标事件悬停page.get_by_text('设置',exact=True).nth(1).hover()移动page.mouse.move(x=33,y=50)按键#点击操作可设置button参数，选择点击键["left","middle","r
Flask --（2）Flask 框架的诞生 feiyy404 flask
Flask诞生于2010年，是Arminronacher（人名）用Python语言基于Werkzeug工具箱编写的轻量级Web开发框架。Flask本身相当于一个内核，其他几乎所有的功能都要用到扩展（邮件扩展Flask-Mail，用户认证Flask-Login），都需要用第三方的扩展来实现。比如可以用Flask-extension加入ORM、窗体验证工具，文件上传、身份验证等。Flask没有默认使用
LangServe：快速部署和运行LangChain的实用指南 AWsggdrg langchain python
LangServe：快速部署和运行LangChain的实用指南在AI应用开发领域，LangServe为开发者提供了便利的方式，将LangChain的运行单元和链路部署为RESTAPI。本文将通过技术解析和实战示例，带您深入了解LangServe的强大功能和应用场景。1.技术背景介绍LangServe是一个基于Python的库，整合了FastAPI和Pydantic技术，用于将LangChain的运
华为OD机试E卷 --矩形相交的面积--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python js c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码题目描述给出3组点坐标(x，y,w,h)，-1000
第17篇：python进阶：详解数据分析与处理猿享天开 python从入门到精通 python 开发语言
第17篇：数据分析与处理内容简介本篇文章将深入探讨数据分析与处理在Python中的应用。您将学习如何使用pandas库进行数据清洗与分析，掌握matplotlib和seaborn库进行数据可视化，以及处理大型数据集的技巧。通过丰富的代码示例和实战案例，您将能够高效地进行数据处理、分析和可视化，为数据驱动的决策提供有力支持。目录数据分析与处理概述什么是数据分析与处理数据分析的流程使用pandas进行
深入解析 Python Flask: 架构、应用与实现实例汪子熙 Python python flask 架构
Flask是Python生态圈中的一个重要Web框架。它之所以被广泛使用，得益于其轻量、模块化和易于扩展的特点。本文将通过逐步解析PythonFlask的定义、架构、典型应用场景、核心功能模块，以及通过具体实例来展示如何使用Flask构建一个完整的Web应用。每个章节都将带领你深入理解Flask的各个方面，从而为你掌握这门强大工具提供坚实的理论和实践基础。什么是Flask？Flask是一个基于Py
Python异步: 什么时候使用异步？后端python
从广义上讲，Asyncio是新的、流行的、讨论广泛的和令人兴奋的。然而，对于何时应该在项目中采用它存在很多困惑。我们什么时候应该在Python中使用asyncio？在Python中使用Asyncio的原因在Python项目中使用asyncio可能有3个原因：使用asyncio以便在您的程序中采用协程。使用asyncio以使用异步编程范例。使用asyncio以使用非阻塞I/O。1.1.使用协程我们可
Python 常用运维模块之OS模块篇阿俊仔（摸鱼版） python学习系列 python 运维开发语言云服务器
Python常用运维模块之OS模块篇OS模块获取当前工作目录更改当前工作目录返回当前目录路径返回上一级目录路径递归生成目录路径删除目录创建目录删除目录列出特定目录下文件和子目录删除某个特定文件重命名某个文件获取某个文件/目录的信息输出目录路径分隔符输出文件行终止符输出用于分隔文件路径的字符串输出当前操作系统的名称获取当前系统的环境变量判断是否有权限执行操作修改文件的权限修改文件的属主和属组创建软连
Python笔记 Lucky_1129 笔记 python 笔记
Python笔记1.Python数组和列表的区别1.创建方式不同列表可以直接创建，数组需要引用numpy包2.存储对象不同列表可以存储任何的对象，包括数字，字符串，数组，字典等等数组只能存储单一的数据类型3.运算方式不同数组可以进行四则运算，列表只能使用加号进行拼接，拼接之后形成一个新的列表4.运算效率不同array数组是为了精确便捷的处理庞大的类似的数据而产生的，他的存储效率要比列表快着很多2.
python list常用方法_Python 列表 list 数组 array 常用操作集锦 weixin_39890289 python list常用方法
Python中的列表(list)类似于C#中的可变数组（ArrayList），用于顺序存储结构。创建列表sample_list=['a',1,('a','b')]Python列表操作sample_list=['a','b',0,1,3]得到列表中的某一个值value_start=sample_list[0]end_value=sample_list[-1]删除列表的第一个值delsample_li
Python数据分析与可视化研究阿尔法星球 python python 数据分析开发语言
Python数据分析与可视化研究摘要随着大数据和人工智能技术的飞速发展，Python数据分析与可视化技术已成为现代科学研究、企业决策等领域不可或缺的工具。本研究全面梳理了Python在数据分析与可视化领域的基本理论框架和关键技术，系统分析了Pandas、NumPy等核心数据分析库以及Matplotlib、Seaborn等可视化库的应用优势与特点。通过实际案例，本研究深入探讨了Python在数据清洗
《CPython Internals》阅读笔记：p336-p352 python
《CPythonInternals》学习第17天，p336-p352总结，总计17页。一、技术总结1.GDBGDB是GNUDbugger的缩写。(1)安装sudoaptinstallgdb(2)创建.gdbinit文件touch~/.gdbinitvim~/.gdbinit(3)配置.gdbinit文件add-auto-load-safe-path/project/cpython注：1./proj
提升Python性能：数据结构与算法优化指南步入烟尘 Python超入门指南全册 python 开发语言
优化Python中的数据结构与算法Python是一种强大而灵活的编程语言，它提供了丰富的数据结构和算法库，但是在处理大规模数据或者需要高效运行的情况下，需要考虑一些优化技巧。本文将介绍一些Python中常用的数据结构与算法优化技巧，并附带代码实例，帮助你更好地理解和运用。1.使用内置数据结构Python提供了许多内置的数据结构，如列表、字典、集合等，它们在大多数情况下都能满足需求，并且具有良好的性
可以与 FastAPI 不分伯仲的 Python 著名的 Web 框架程序员小麦 fastapi python 前端服务器 excel 开发语言
正如你所理解的，任何领域都不可能停止进步，不断使用相同的工具意味着不思进取。这一点在信息技术领域，尤其是网络开发行业非常明显。关于网络框架，不论是Django和Flask等传统框架还是Python的新型高级框架，一直有着新的框架不断出现，它们正在挤掉传统和成熟的技术，它们特征更好、编码更方便、更简单、更快捷。众所周知的Pythonweb框架Django该网络框架是最流行的Python网络框架之一。
python爬虫报错日记雁于飞笔记经验分享其他 python 爬虫网络爬虫
python爬虫报错日记类未定义原因：代码检查没有问题**，位置错了**，测试代码包含在类里……UnicodedecodeError错误原因：字符没有自动转换成utf-8格式KeyError：“href”原因：前面运行正常，有异常路由，加个判断写入文件乱码原因：获取正常，写入时encoding异常，不会自动转换成“utf-8”同上3
Ollama 完整教程：本地 LLM 管理、WebUI 对话、PythonJava 客户端 API 应用 web13765607643 java
随着大语言模型（LLM）的普及和应用场景的广泛扩展，Ollama提供了一个强大的本地LLM管理工具，支持WebUI对话功能，同时还为Python和Java提供了灵活的客户端API。本教程将详细介绍如何使用Ollama工具，涵盖从本地安装、模型管理、WebUI聊天界面到通过Python和Java进行集成的全方位应用。一、Ollama简介Ollama是一款用于本地运行大语言模型的工具，支持对LLM模型
【包邮送书】你好！Python Mindtechnist 粉丝福利 python 网络开发语言机器学习
欢迎关注博主Mindtechnist或加入【智能科技社区】一起学习和分享Linux、C、C++、Python、Matlab，机器人运动控制、多机器人协作，智能优化算法，滤波估计、多传感器信息融合，机器学习，人工智能等相关领域的知识和技术。关注公粽号《机器和智能》回复关键词“python项目实战”即可获取美哆商城视频资源！博主介绍：CSDN博客专家，CSDN优质创作者，CSDN实力新星，CSDN内容
Python开发接水果小游戏 YhPythonJSCPP 【游戏开发】【Python】python 游戏开发 pylash
我研发的Python游戏引擎Pylash已经更新到1.4了。现在我们就来使用它完成一个极其简单的小游戏：接水果。以下是游戏截图：游戏操作说明：点击屏幕左右两边或者使用键盘方向键控制人物移动，使人物与水果接触得分，碰到非水果的物品，如碎玻璃，就会gameover。接下来是详尽的开发过程，篇幅较长，请看官耐心阅读。Pylash项目地址由于本次开发用到了pylash，大家可以先去Github上对引擎进行
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_