信橙则灵

Python 并发编程实战，多线程、多进程加速程序运行

为什么使用并发

场景一：一个网络爬虫，按顺序爬取花了1小时，采用并发下载减少到20分钟

场景二：一个APP应用，优化前每次打开页面需要3秒，采用异步并发提升到每次200毫秒

引入并发，就是为了提升程序运行速度

Python对于并发编程的支持：

多线程：threading，利用CPU和IO可以同时执行的原理，让CPU不会干巴巴的等待IO完成
多进程：multiprocessing，利用多核CPU的能力，实现真正的并行执行任务
异步IO：asyncio，在单线程利用CPU和IO同时执行的原理，实现函数异步执行
使用Lock对共享资源加锁，防止冲突访问。【比如多线程往同一文件中执行写入】
使用Queue实现不同线程/进程之间的数据通信，实现生产者-消费者模式
使用线程池Pool/进程池Pool，简化线程、进程的任务提交、等待结束、获取结果
使用subprocess启动外部程序的进程，并进行输入输出交互

比如：写好的exe程序，通过这个模块可以调起exe并跟他进行输入输出的交互，实现交互式的进程通信。

怎么选择多线程、多进程、多协程

Python并发编程的三种方式：

多线程Thread 、多进程 Process 、多协程 Coroutine*[kəru:'ti:n]*

什么是CPU密集型计算、IO密集型计算

CPU密集型（CPU-bound）

bound：受限制的

CPU密集型也叫计算密集型，是指 I/O 在很短的时间内就可以完成，CPU需要大量的计算和处理，特点是CPU占用率非常高。

例如：压缩解压缩、加密解密、正则表达式搜索等等【需要大量的计算来完成】

I/O密集型（I/O-bound）

IO密集型指的是系统运作大部分的情况是CPU在等 I/O（硬盘/内存/网络等等）的读/写操作，CPU占用率非常低。

例如：文件处理程序【大量读写文件】、网络爬虫程序【网络下载】、读写数据库【网络的读取】程序

多线程、多进程、多协程的对比

多线程 Thread（threading）

优点：相比进程，线程更加轻量级并且占用的资源更少。

比如：每个线程的运行都要包含自己一些变量的存储，存储到内存区域，这就占用一些资源

缺点：

相比进程：多线程只能并发执行，不能同时进行多CPU（GIL）的计算。
相比协程：启动数目有限，有线程切换的开销【协程没有切换的开销】。
- 线程占用内存资源，协程共用线程的资源，所以肯定协程的启动数目大于线程

适用于：I/O密集型计算，同时运行的任务数目要求不多

多进程Process（multiprocessing）

优点：使用多核CPU并行运算

缺点：占用资源最多、可启动数据比线程少

适用于：CPU密集型计算

多协程Coroutine（asyncio）

优点：内存开销最少、启动数量是最多的。

缺点：支持的库有限制（aiohttp VS requests），代码实现复杂

适用于：IO密集型计算、需要超多任务运行，但有现成库支持的场景

关系总结：

一个进程中，可以启动N个线程

一个线程中，可以启动N个协程，甚至几万个协程，这些协程共用线程中的资源。

知识点：

并发：一段时间内执行多个进程

并行：一瞬间执行多个进行

怎样根据任务选择对应技术

全局解释器锁（GIL）

Python速度慢的两大原因

相比C/C++/java，Python确实慢，所以很多公司的基础架构代码依然使用C/C++开发，想阿里/腾讯/快手的推荐引擎、搜索引擎、存储引擎等底层对性能要求高的模块。

原因1

Python是动态类型语言：比如Python对变量类型的自动判断
python边解释边执行：Python写好的代码需自动编译才能执行，而C等语言都是编译好之后才执行。
原因2【主要原因】

GIL锁：无法利用多核CPU并发执行任务。

GIL是什么？

全局解释器锁（Global Interpreter Lock）

GIL使得任何时刻仅有一个线程在执行，即使在多核心处理器上，使用GIL的解释器也只允许同一时间执行一个线程，所以无法发挥多核CPU的优势。

在上图中的流程：

当线程1 在运行的时候，则会启动GIL
当线程1 需要进行IO操作时，GIL则会释放，此时线程1切换到线程2运行，GIL再次启用。
当线程2 运行IO时，GIL再次释放，此时线程2切换到线程3，GIL则再次启用。

以上过程都是在线程间切换，同一时间只有一个线程在运行，当线程运行时，GIL锁将对资源进行锁定，从而简化了Python对共享资源的管理。

为什么有GIL这个东西？

为了解决多线程之间数据的完整性和状态同步问题。

原因详解

Python中对象的管理，是使用的引用计数器进行的，引用数为0则释放对象

好处：

GIL简化了Python对共享资源的管理。

怎么规避GIL带来的限制？

多线程 threading 机制依然是有用的，主要用于I/O密集型计算。

在I/O（read、write、send、recv等等）期间，线程会释放GIL，实现CPU和IO的并行，因此多线程用于IO密集型计算依然可以大幅度提升速度

但是多线程如果用于CPU密集型计算时，只会更加拖慢速度「多线程的切换会消耗CPU，所以将拖慢CPU的运行。」
使用 multiprocessing 的多进程机制实现并行计算、充分利用多核CPU的优势

总结：

多线程适用于IO密集型问题，当线程在处理IO问题时，将释放GIL锁，并切换至下一线程，线程的切换使用的是CPU，线程的处理使用的是IO，这样就实现了CPU和IO的并行。
多进程用于处理CPU密集性问题，适用于充分发挥多核CPU的优势，多进程其实变相的解决了GIL锁的弊端。

Python多线程爬取数据

Python创建多线程的方法

创建线程：

import threading
# 创建线程对象
t = threading.Thread(target=func_name, args=(arg1, arg2))
# 启动线程对象
t.start()
# 等待线程对象结束
t.join()

Python实现消费者生产者爬虫

多组件的Pipeline技术架构

Pipeline：复杂的事情不会一下子做完，而是通过很多中间步骤来一步步的完成。

Processor：处理器

由输入数据到输出数据，中间会经过很多处理模块「处理器」的处理。
生产者的生产结果，通过中间数据，传给消费者进行消费。
生产者以输入数据作为原料，消费者将自己的输出作为输出数据。

生产者消费者爬虫的架构

**优势：**生产者和消费者可以由两波人开发。并且可以配置不同系统的资源，比如线程数。

注意：生产者和消费者均是线程组

问题：
在两个线程组之间，下载好的网页队列是怎么进行交互的呢，这个时候就引入了queue

多线程数据通信 queue.Queue

queue.Queue可以用于多线程之间的、线程安全的数据通信

# 1、导入类库
import queue

# 2、创建Queue
q = queue.Queue()

# 3、添加元素【阻塞】
# 当队列中满了之后，会卡住，直到有了空闲的位置，才会添加。
q.put(item)

# 4、获取元素
# 当队列中没有数据的时候，会卡住，直到队列中填入了新的数据。
item = q.get()

# 5、查询状态
# 查看元素的数量
q.qsize()
# 判断是否为空
q.empty()
# 判断是否已满
q.full()

总结：

线程安全，多个线程并发同时访问数据，不会发生冲突，即不存在共享变量访问冲突问题。

Queue线程安全队列：https://www.cnblogs.com/ChanKaion/p/9708155.html

https://www.cnblogs.com/ananmy/p/15536483.html

TODO：想一下，GIL锁和queue的区别，两者均能避免发生冲突。

线程安全问题以及Lock解决方案

线程安全概念介绍

线程安全：指某个函数、函数库在多线程环境中被调用时，能够正确的处理多个线程之间的共享变量，使程序功能正确完成。

由于线程的执行随时会发生切换，就造成了不可预料的结果，出现线程不安全。

Lock用于解决线程安全问题

do something为对共享空间进行操作，通过加锁的操作，对共享数据进行限制，防止出现线程不安全。

实例代码演示问题以及解决方案

import threading

lock = threading.Lock()


class Account:
    def __init__(self, balance):
        self.balance = balance


def draw(account, amount):
    with lock:
        if account.balance >= amount:
            print(threading.current_thread().name, "取钱成功")
            account.balance -= amount
            print(threading.current_thread().name, "余额为：", account.balance)
        else:
            print(threading.current_thread().name, "余额不足", account.balance)


if __name__ == '__main__':
    account =Account(1000)
    ta = threading.Thread(name='ta', target=draw, args=(account, 800))
    tb = threading.Thread(name='tb', target=draw, args=(account, 800))
    ta.start()
    tb.start()

线程池 ThreadPoolExecutor

线程池的原理

线程的生命周期：

线程新建时，线程为完全不动的状态，【新建线程系统需要分配资源、终止线程系统需要回收资源。】
当执行start方法时，线程进入就绪的状态。
当系统对线程进行调度时，线程运行【获的CPU资源】
在运行时，可能会失去CPU再次进入就绪的状态，也可能因为sleep/io操作，进入阻塞状态，当阻塞状态完毕后，则进入就绪状态
当线程完成或者被终止时，则进入终止状态

线程池的原理：

由于线程的创建和终止会对资源进行分配和回收的操作，但如果能重用线程，则可以减去新建/终止的开销

线程池的流转

由线程池和任务队列共同实现

当一个新任务来的时候，会在任务队列中排队，
线程池中创建好的线程去任务队列中获取任务进行处理。-
当线程池中的某个线程完成了任务后，会去任务队列中再取任务，如果任务队列中没有任务的话，线程也不会销毁，而是等待任务的到来

线程池的好处

1、提升性能：减去了大量新建、终止线程的开销，重用了线程资源

2、使用场景：适合处理突发性大量请求或需要大量线程来完成的任务，同时任务的处理时间要较短。

3、防御功能：能有效避免系统因为创建线程过多，而导致系统负荷过大使相应变慢等问题。

4、代码优势：使用线程池的语法比自己新建线程的运法更加简洁。

ThreadPoolExecutor的使用方法

with concurrent.futures.ThreadPoolExecutor() as pool:
    # 注意map方法，传入的是urls，路由的数组
    results = pool.map(func_name, urls)
    # 通过遍历results，查看入参对应的运行的结果
    for result in results:
        print(result)

map函数：注意map中的参数是一个iter数据。并且map的结果和入参的顺序是对应的。

with concurrent.futures.ThreadPoolExecutor() as pool:
  	# 注意：submit传入的参数是单个的url
    futures = [pool.submit(func_name, url) for url in urls]
    # 遍历方法一：
    for future in futures:
        print(future.result())
    # 遍历方法二：
    for future in concurrent.futures.as_completed(futures):
        print(future.result())

submit方法：

as_completed与直接遍历futures相比，它的顺序是不定的，哪个futures中的future「任务」先完成，就先返回对应的result。

使用线程池改造爬虫程序

import concurrent.futures
import requests
from bs4 import BeautifulSoup

cookies = {
    '__gads': 'ID=01a33c16f7342abf:T=1654248825:S=ALNI_MaoNrGKUrixqn6rBSNxxNgXsVorgQ',
    '.AspNetCore.Antiforgery.b8-pDmTq1XM': 'CfDJ8NfDHj8mnYFAmPyhfXwJojeJJpPjLQQlBtV8bozRp64t8x_KK-2i8q5LmmXtv5iYCRxB0V8KhixTpWgIbUJ9tMtP_xT_5YuEArBNySWRZfHYT2UzQLy1RGgx4Nq3L2F-d6EakliEsk_oaBJK-pQB1yg',
    '_ga': 'GA1.2.2002706462.1666545482',
    'Hm_lvt_866c9be12d4a814454792b1fd0fed295': '1664855714,1665306405,1665930146,1666691225',
    '_gid': 'GA1.2.513431899.1667368433',
    '__gpi': 'UID=00000b6c30fd6c87:T=1666682723:RT=1667368433:S=ALNI_Ma6hg_8pHw6BGE-QqB8Ug7ucEFxtQ',
    '_gat_gtag_UA_476124_1': '1',
    'Hm_lpvt_866c9be12d4a814454792b1fd0fed295': '1667381756',
}

headers = {
    'authority': 'www.cnblogs.com',
    'accept': 'text/plain, */*; q=0.01',
    'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8',
    'content-type': 'application/json; charset=UTF-8',
    'origin': 'https://www.cnblogs.com',
    'referer': 'https://www.cnblogs.com/',
    'sec-ch-ua': '"Chromium";v="104", " Not A;Brand";v="99", "Google Chrome";v="104"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"macOS"',
    'sec-fetch-dest': 'empty',
    'sec-fetch-mode': 'cors',
    'sec-fetch-site': 'same-origin',
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36',
    'x-requested-with': 'XMLHttpRequest',
}


def crawl(index):
    print("index:", index)
    json_data = {
        'CategoryType': 'SiteHome',
        'ParentCategoryId': 0,
        'CategoryId': 808,
        'PageIndex': index,
        'TotalPostCount': 4000,
        'ItemListActionName': 'AggSitePostList',
    }
    response = requests.post('https://www.cnblogs.com/AggSite/AggSitePostList', cookies=cookies, headers=headers,
                             json=json_data)
    return response.text


def parse(html):
    soup = BeautifulSoup(html, 'html.parser')
    links = soup.find_all("a", class_='post-item-title')
    return [(link['href'], link.get_text()) for link in links]


# craw
with concurrent.futures.ThreadPoolExecutor() as pool:
    htmls = pool.map(crawl, range(1, 50))
    # 此处使用map方法，为了将将url和返回的数据关联起来。使用zip方法
    htmls = zip(range(1, 50), htmls)  #
    # for url, html in htmls:
    #     print(url, len(html))

# parse
with concurrent.futures.ThreadPoolExecutor() as pool:
    futures = {}
    for url, html in htmls:
        # submit 一个个的提交，可以通过字典将future和url对应起来
        future = pool.submit(parse, html)
        futures[future] = url

    # for future, url in futures.items():
    #     print(f"url为：{url}", f"结果为{future.result()}")

    for future in concurrent.futures.as_completed(futures):
        url = futures[future]
        print(f"url为：{url}", f"结果为{future.result()}")

在web服务中，使用线程池加速

web服务的架构及特点

使用线程池ThreadPoolExecutor加速

1、由于web服务需要处理几万人的请求，所以肯定不能创建销毁线程，此时需要线程池，实现对线程的重用

线程池的线程数目不会无限创建（导致系统挂掉），具有防御功能

2、方便磁盘文件、数据库、远程API和IO的调用，实现并发执行。

用Flask实现Web服务并实现加速

import json
import time
import flask
from concurrent.futures import thread

app = flask.Flask(__name__)
pool = thread.ThreadPoolExecutor()


def read_file():
    time.sleep(0.1)
    return "read file"


def read_api():
    time.sleep(0.2)
    return "read api"


def read_db():
    time.sleep(0.3)
    return "read db"


@app.route('/')
def index():
    result_file = pool.submit(read_file)
    result_api = pool.submit(read_api)
    result_db = pool.submit(read_db)
    return json.dumps({
        "result_file": result_file.result(),
        "result_api": result_api.result(),
        "result_db": result_db.result(),
    })
    pass


if __name__ == '__main__':
    app.run()

使用多进程，multiprocessing加速程序的运行

有了多线程threading，为什么使用多进程multiprocessing

多进程multiprocessing知识梳理

代码实战：单线程、多线程、多进程对比cpu密集计算速度

由于GIL的存在，多线程比单线程计算的还慢，而多进程可以明显加快执行速度。

# 判断素数，CPU密集型计算。
import math
import time
from concurrent.futures import ThreadPoolExecutor, ProcessPoolExecutor

PRIMES = [112272535095293] * 100


def is_primes(n):
    if n < 2:
        return False
    if n == 2:
        return True
    if n % 2 == 0:
        return False
    sqrt_n = int(math.floor(math.sqrt(n)))
    for i in range(3, sqrt_n + 1, 2):
        if n % i == 0:
            return False
    return True


def single_thread():
    for i in PRIMES:
        is_primes(i)


def multi_thread():
    with ThreadPoolExecutor() as pool:
        pool.map(is_primes, PRIMES)


def multi_process():
    with ProcessPoolExecutor() as pool:
        pool.map(is_primes, PRIMES)


if __name__ == '__main__':
    start = time.time()
    single_thread()
    print(f"single_thread, cost: {time.time() - start}, seconds")

    start = time.time()
    multi_thread()
    print(f"multi_thread, cost: {time.time() - start}, seconds")

    start = time.time()
    multi_process()
    print(f"multi_process, cost: {time.time() - start}, seconds")

queue和lock和GIL，这三个的实际应用场景。

queue：生产者消费者模式

Lock：安全锁，防止冲突

参考文章

【2021最新版】Python 并发编程实战，用多线程、多进程、多协程加速程序运行
Python语法-多进程、多线程、协程(异步IO)

python基础语法9，用os库实现系统操作并用sys库实现文件操作（简单易上手的python语法教学） AI 嗯啦 python 开发语言
一、os库os.system()是Pythonos库中用于执行操作系统命令的重要方法，它允许在Python程序中直接调用系统shell命令（如Linux的bash命令或Windows的cmd命令）。基本语法importosos.system(command)command：要执行的系统命令字符串（与在终端/命令提示符中输入的命令格式一致）返回值：命令执行的退出状态码（0表示成功，非0表示执行出错）
Python教程：你一定要知道的26个Python魔术方法（快记下来）旦莫 Python进阶 python 开发语言
Python中的魔术方法是指以双下划线__开头和结尾的特殊方法，也被称为特殊方法或魔术方法。这些方法在类中具有特殊的用途，它们可以让你自定义类的行为，使得你的对象可以像内置类型一样工作。这些方法由解释器调用，而不是你直接调用它们。例如，当你使用+运算符时，实际上是调用了对象的__add__方法。这些方法允许你重载运算符、改变对象的构造和初始化行为、自定义属性访问等等。使用魔术方法可以使你的代码更具
快捷删除python中pip安装的所有外部库 m0_74366096 python pip 开发语言
windows环境首先，列出所有安装的第三方库并导出到一个文件：pipfreeze>requirements.txt然后，批量卸载这些库：pipuninstall-y-rrequirements.txt最后，用del命令删除requirements.txt文件：delrequirements.txt这样就能在Windows系统上完成卸载并清理文件的操作。
Python与Java互操作性的桌面应用开发 master_chenchengg python python Python python开发 IT
Python与Java互操作性的桌面应用开发跨语言协作的魅力：Python遇上Java为什么选择Python和Java进行桌面应用开发？两种语言的优势互补：Python的简洁与Java的强大实际案例分享：当Python遇见Java，会发生什么奇妙的化学反应？搭建桥梁：Jython与JPype介绍Jython：用Python编写Java程序安装与配置：轻松几步让你上手调用Java类库：如何在Pyth
Python常见的魔术方法和魔术属性景天科技苑 python轻松入门基础语法到高阶实战教学 python 开发语言魔术方法魔术属性
文章目录魔术方法1、`__new__`魔术方法(1)基本使用(2)`__new__`触发时机要快于`__init__`(3)`__new__`的参数要和`__init__`参数一一对应。参数个数一致就行(4)`__new__`和`__init__`之间的注意点2、单态模式:同一个类,无论实例化多少次,都有且只有一个对象3、`__del__`魔术方法(析构方法)(1)基本语法(2)模拟文件操作4、`
Docker 基本操作 dufufd other
https://zhuanlan.zhihu.com/p/23599229Docker是什么？Docker是一个虚拟环境容器，可以将你的开发环境、代码、配置文件等一并打包到这个容器中，并发布和应用到任意平台中。比如，你在本地用Python开发网站后台，开发测试完成后，就可以将Python3及其依赖包、Flask及其各种插件、Mysql、Nginx等打包到一个容器中，然后部署到任意你想部署到的环境。
python调用java的方法月下老葫 python自动化测试 python java
最近自己开发的一套测试平台，因为上游系统经常修改主数据，导致其中一个功能经常失败，要频繁找上游测试帮忙修改数据。基于此种原因，对于这种过于依赖上游系统的接口，决定放弃直接调上游系统的http请求下发数据，改成调本地系统的java接口，直接构造数据。而这有两个难点，一个python怎么调用java方法，一个是我不会java编程。。。经常不懈的努力，终于解决了这2个问题，这里做个简单的记录。这里有同学
北京-4年功能测试2年空窗-报培训班学测开-第四十五天
今天自习，在教室白天都在复习python的面向对象之所以先复习以前的课而不是复习昨天的，一是因为这块还没复习，二是因为，新学的unittest框架，用到封装继承的部分太多了，面向对象学的都忘了，所以昨天很多部分都不理解面向对象三大特征，封装，继承，多态封装是把属性和方法封装到一个类里方便复用，继承是类之间的从属关系，子类可以继承父类的所有属性和方法在类里，类对象用cls表示，实例对象用self表示
在python程序中调用java代码 Meryoufdd java jvm 开发语言
在python程序中调用java代码Python是一门“胶水”语言，非常灵活多变，但是在一些特殊的时候，也需要调用其它语言来协助实现更多的功能；在公司使用python进行接口测试的时候，会遇到有些接口数据是由公司的开发人员进行自定义的加密算法进行加密的，此时，要开发告诉加密代码是不太可能的。跟开发小哥沟通时，很多时候都是由他给一个jar包，然后剩下的就由测试人员来发挥了。那python该如何使用这
学习日志14 python im_AMBER 学习 python 开发语言
1divmod(a,b)divmod(a,b)是Python内置函数,用于返回两个数相除的商和余数,返回值是一个元组(tuple)。divmod(a,b)是Python的内置函数，用于同时计算两个数值的商和余数，返回一个包含这两个结果的元组(商,余数)。该函数在处理需要同时获取整除结果和余数的场景（如时间单位转换、分页计算）时非常高效。基本用法python运行result=divmod(a,b)#
离线部署视觉模型Qwen2.5-VL方案【企业应用级】 LensonYuan 机器视觉自然语言处理 qwenvl 视觉模型大模型部署 qwen2.5 qwen2.5环境 qwen2.5-vl镜像包
离线多卡部署视觉模型Qwen2.5-VL企业级服务方案一、背景公司网络是有严格限制，所有涉及境外服务器的网站都无法访问，包括docker等镜像源。本教程，是在提前下载或构建好资源，通过上传到服务器后，做离线部署。二、参考环境大模型服务发布工具：VLLM=0.7.2。大模型版本：qwen2.5-vl-7b，其他版本也可。python版本：python==3.12。环境可选：docker或直接pyth
小白学Python，压缩和解压文件
目录前言一、判断文件是否为Zip文件二、打开压缩文件三、解压文件四、获取Zip文件中文件的属性信息前言Python标准库中的zipfile库可用于处理压缩文件，.zip是一种常用的压缩文件格式。zipfile库中包含用于查看Zip文件、解压Zip文件、将文件压缩为Zip文件等的方法。需要注意的是，在使用zipfile库前需要使用import导入zipfile库。一、判断文件是否为Zip文件zipf
Python 魔术方法坚定的小辣鸡在努力 Python python 开发语言
Python魔术方法Python中的魔术方法（MagicMethods），又叫“双下方法（dundermethods）”，像__init__、__str__、__eq__这样的名字，是Python面向对象非常强大的特性。阅读原文https://www.xiaozaoshu.top/articles/python/maigc-method常用魔术方法详解最常见也最有用的几个魔术方法：1.__init
《Python Web 框架深度剖析：Django、Flask 与 FastAPI 的选择之道》清水白石008 课程教程学习笔记开发语言 python 前端 django
《PythonWeb框架深度剖析：Django、Flask与FastAPI的选择之道》开篇引入：从“胶水语言”到Web架构核心Python，自1991年由GuidovanRossum发布以来，凭借其简洁优雅的语法和强大的生态系统，逐渐成为全球最受欢迎的编程语言之一。它不仅在数据科学、人工智能、自动化脚本等领域大放异彩，更在Web开发领域构建起一套成熟的技术体系。作为一位长期从事Python开发与教
binwalk 白天的我最菜错题本开发语言
windows使用这个命令时候发现要shift一直按住,右击打开cmd管理员运行才行pythonsetup.pyinstall否则没有作用自己安装python目录的Scripts文件夹里,参考如下https://www.cnblogs.com/0yst3r-2046/p/12218770.html
Python-Zstandard 使用教程
Python-Zstandard使用教程项目介绍Python-Zstandard是一个为Zstandard（zstd）压缩库提供Python绑定的开源项目。Zstandard是一种由Facebook开发的高性能数据压缩算法，旨在提供高压缩比和快速压缩解压速度。Python-Zstandard项目的目标是通过一个Pythonic的接口，提供对底层CAPI的丰富访问，同时不牺牲性能。项目地址：GitH
【自然语言处理】文本规范化 2401_84149564 自然语言处理自然语言处理人工智能文本规范化 python 分词词的规范化分句
目录一、引言二、分词三、词规范化四、分句五、文本规范化的Python代码实战六、总结一、引言在自然语言处理的许多任务中，第一步都离不开文本规范化。文本规范化的作用是将使用字符串表示的文本转化为更易于计算机处理的规范形式。文本规范化一般包括3个步骤：分词、词的规范化、分句。本文将分别介绍这3个步骤及Python代码实战。二、分词词是语言的基本单元，人类学习语言的过程也是从理解词开始的。显而易见，自然
Py-spy：优秀的 Python 程序性能监控、分析器
py-spy是用于Python程序的性能监控、分析器。它使你可以直观地看到Python程序花费的时间，而无需重新启动程序或以任何方式修改代码。py-spy的开销非常低：为了最大化提高速度，它是用Rust编写的，并且与配置的Python程序不在同一进程中运行。这意味着py-spy可以安全地用于生产环境的Python程序。py-spy可在Linux，OSX，Windows和FreeBSD上运行，并支持
python软件代码运行解析器出错是怎么问题_Py-Spy - Python程序的抽样分析器 weixin_39714307
Python部落(python.freelycode.com)组织翻译，禁止转载，欢迎转发。Py-Spy是Python程序的抽样分析器。它允许您可视化Python程序正花费时间在哪部分，而无需重新启动程序或以任何方式修改代码。Py-Spy的开销极低：它使用Rust语言编写，速度快，不会在与配置的Python程序相同的进程中运行，也不会以任何方式中断正在运行的程序。这意味着Py-Spy可以安全地用于
Python 包管理工具pip
pip是Python的包管理工具，用于安装和管理Python包（库或模块）。它是Python生态系统中最重要的工具之一，几乎所有第三方库都可以通过pip安装。以下是关于pip的详细讲解：1.pip是什么？pip是PythonPackageInstaller的缩写。它是一个命令行工具，用于从PythonPackageIndex(PyPI)下载和安装Python包。pip可以管理Python包的安装、
pip和conda 李星星BruceL pip conda
目录1使用Conda？你可能不需要Docker1.1Docker在开发环境中的应用1.2Python和Conda：跨平台逻辑，跨平台依赖1.3Conda作为生产环境中Docker的替代方案1.4避免使用Docker的一些限制2PipvsConda：深入比较Python的两种包管理系统2.1起点：哪种依赖？2.1.1Pip：仅限Python库2.1.2Conda：任何依赖都可以是Conda包（几乎）
探索Python性能优化的新里程：py-spy 施刚爽
探索Python性能优化的新里程：py-spy项目介绍py-spy是一个为Python程序设计的轻量级采样剖析器，它无需重启或修改你的代码就能让你看到程序运行时的时间分配情况。由于其采用Rust编写，因此在不影响目标程序运行的情况下，py-spy能安全地对生产环境中的Python代码进行剖析。该项目支持Linux、macOS、Windows和FreeBSD上的所有现代CPython解释器版本（从2
【python学习】使用魔塔社区的模型
前言魔塔社区有很多模型，但是怎么使用呢？刚开始学习python，简单的摸索一下一、新建项目1、创建虚拟环境condacreate-npaddlepython=3.102、激活虚拟环境condaactivatepaddle3、新建项目PyCharn新建一个项目，选择已创建的虚拟环境paddle项目新增models目录二、下载模型打开PyCharm的Terminal，命令行前面有一个(paddle)，
【基础】Python包及环境管理工具大盘点：pip、pipx、poetry、conda、pipenv、Pixi、uv、venv、virtualenv、pyenv 、Mamba、Hatch、PDM等正经教主程序基础 python python 开发语言包工具环境工具
前言工欲善其事，必先利其器，如今兵器各式各样，咱就盘点一下有哪些兵器，都有啥特点，供各位侠客参考，希望大家都能找到自己喜欢的。正经开始以下是针对Python环境中常用工具的特点、易用性对比及使用建议的详细总结：一、工具分类与核心功能根据功能定位，可将工具分为以下几类：虚拟环境管理：venv、virtualenv包管理与依赖解析：pip、pipx综合项目管理：poetry、pipenv、Hatch、
Python 并发调试工具（py-spy、GDB、pyperf）解析赛博社畜联盟 python 开发语言
```htmlPython并发调试工具（py-spy、GDB、pyperf）解析Python并发调试工具（py-spy、GDB、pyperf）解析在现代软件开发中，Python以其简洁的语法和强大的库支持，成为了许多开发者首选的语言。然而，随着程序复杂度的增加，尤其是涉及并发编程时，调试和性能优化变得尤为重要。本文将介绍三个常用的Python并发调试工具：py-spy、GDB和pyperf，并深入
Python 依赖管理的新动向：pip、Poetry 和 Conda 谁是未来的标准？
```htmlPython依赖管理的新动向：pip、Poetry和Conda谁是未来的标准？Python依赖管理的新动向：pip、Poetry和Conda谁是未来的标准？在Python生态系统中，依赖管理是一个至关重要的环节。无论是小型脚本还是大型企业级项目，依赖管理的好坏直接影响到项目的开发效率和稳定性。近年来，随着Python社区的快速发展，依赖管理工具也经历了显著的变化。本文将探讨三种主流的
Conda常用命令耘田 conda 人工智能
查看Conda的完整帮助文档conda-h显示当前安装的Conda版本号conda-V列出所有已创建的Conda虚拟环境（标记*表示当前激活的环境）。condaenvlist删除所有缓存文件（包括未使用的包、临时文件等），释放磁盘空间condaclean--all新建名为ai-knowledge-mgr的虚拟环境，并安装Python3.8版本condacreate-nai-knowledge-mg
主流编程语言全景图：从Python到Rust的深度解析万能小贤哥 python rust 开发语言
2024年编程语言生态报告显示，全球开发者使用的语言数量已达260+，但真正主导行业的不到20种。本文带你穿透技术迷雾，掌握8大核心语言的本质差异。一、选择编程语言的黄金标准图表代码二、八大主流语言对比解析1.Python-通用胶水语言特性：动态类型+缩进语法丰富的库生态（20万+包）GIL全局锁限制并发适用场景：python#机器学习示例（TensorFlow）importtensorflowa
使用Python实现的Excel像素画
简介：本项目主要使用python语言，将图片转为Excel，图片中的每一个像素转化为Excel中的每一个单元格。主要使用pillow和xlsxwriter这两个模块。项目使用一个python文件即可。一：项目功能和流程介绍项目的主要功能：就是将一张人脸图像，画在Excel表格上，图片的每一个像素点对应Excel的一个格子，俗称像素画。流程：创建Excel表，并设置行高和列宽打开图片遍历图片每一个像
python高并发web框架_Python3中tornado高并发框架 weixin_39788969 python高并发web框架
1.单线程tornado.web：基础web框架模块tornado.ioloop：核心IO循环模块，高效的基础。封装了:1.asyncio协程，异步处理2.epoll模型：水平触发（状态改变就询问，select(),poll()），边缘触发（一直询问，epoll()）3.poll模型：I/O多路复用技术4.BSD（UNIX操作系统中的一个分支的总称）的kqueue（kueue是在UNIX上比较高效
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一