皇家茶壶

关于Python异步编程的一些心得(一)

文章目录

引言
热身

回顾一下与异步编程相关的一些概念
是什么阻塞了程序的执行

小试牛刀

一个同步阻塞的例子
改进，使用多进程

使用多线程

非阻塞方案
非阻塞的改进（其实是I/O多路复用）

为什么性能提升了

继续纠结

升级，协程～
参考

引言

由于在Django项目中使用了基于异步的websocket框架，故而打算对异步的工作原理进行一波深入的了解。

热身

回顾一下与异步编程相关的一些概念

阻塞

程序未得到所需计算资源时被挂起的状态。
程序在等待某个操作完成期间，自身无法继续干别的事情，则称该程序在该操作上是阻塞的。
常见的阻塞形式有：网络I/O阻塞、磁盘I/O阻塞、CPU上下文切换、用户输入阻塞等。

非阻塞

程序在等待某操作过程中，自身不被阻塞，可以继续运行干别的事情，则称该程序在该操作上是非阻塞的。

同步

不同程序单元为了完成某个任务，在执行过程中需靠某种通信方式以协调一致
同步意味着有序

异步

为完成某个任务，不同程序单元之间过程中无需通信协调，也能完成任务的方式。
异步意味着无序。
e.g.爬虫下载网页。调度程序调用下载程序后，即可调度其他任务，而无需与该下载任务保持通信以协调行为。不同网页的下载、保存等操作都是无关的，也无需相互通知协调。这些异步操作的完成时刻并不确定。

在进程通信层面，阻塞/非阻塞，同步/异步基本是同义词，但是需要注意区分讨论的对象是发送方还是接收方。
这是由于进程间的通信是通过 send() 和 receive() 两种基本操作完成的。消息的传递有可能是阻塞的或非阻塞的 —— 也被称为同步或异步的

异步编程
以进程、线程、协程、函数/方法作为执行任务程序的基本单位，结合回调、事件循环、信号量等机制，以提高程序整体执行效率和并发能力的编程方式。

异步编程的难点

无法准确判断代码执行时的行为（不可预测性）
异步任务必须足够小，不能耗时太久，如何拆分是个问题
目前大多数异步编程模型都是经过简化的，及一次只允许处理一个事件，因此有关异步编程的讨论都集中在单线程内

为什么需要异步编程

了解CPU的时间观念

操作	真实延迟	CPU体验
执指	0.38ns	1s
读l1缓存	0.5ns	1.3s
分支纠错	5ns	13s
读l2缓存	7ns	18.2s
加解互斥锁	25ns	1min 5s
内存寻址	100ns	4min 20s
上下文切换/系统调用	1.5us	1h
1Gpbs网络传输2kb数据	20us	14.4h
从RAM读取1M数据块	250us	7.5day
Ping单一IDC主机	500us	15day
从SSD读1M数据	1ms	1month
从硬盘读1M数据	20ms	20month
Ping不同城市主机	150ms	15year
虚拟机重启	4s	300year
服务器重启	5min	25000year

如上表所示，在千兆网上传输2KB的数据，CPU感觉过了大约14个小时。在10M的共网上，效率又会降低100倍，这段时间CPU干不了任何事情。

因此，通过异步编程实现效率的提升是十分值得的一件事情。

是什么阻塞了程序的执行

阻塞，非阻塞描述的是进程的一个操作是否会是的进程转变为“等待状态”，除了我们主动调用 wait() 或 sleep() 等挂起自己的操作，另一种就是它调用 System Call, 而 System Call 因为涉及到了 I/O 操作，不能立即执行，所以内核会将进程挂起，调度其他进程的运行。

其中，网络I/O是最大的的I/O瓶颈

小试牛刀

了解异步编程，我们可以用简单的例子去一步步实现，从而观察到它的工作原理。

一个同步阻塞的例子

说好的是异步，为什么要写同步的呢，万事开头难，由浅入深才能有更好的理解。

import os
import socket
import time
import random
from tech_share.time_deco import TimeLogger
'''
Python中 time.sleep 是阻塞的，都知道使用它要谨慎，但在多线程编程中，time.sleep 并不会阻塞其他线程。
可以通过time sleep 模拟阻塞操作
'''
# 一个简单的同步socket应用
def blocking_way(number):
    sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    # 向baidu主机的443端口发起网络连接请求 --> blocking
    sock.connect(('www.baidu.com', 443))
    time.sleep(random.random() * 3)  # 模拟耗时操作
    request = b'GET / HTTP/1.0\r\n Host: www.baidu.com\r\n\r\n'
    # sock.send()函数并不会阻塞太久，它只负责将请求数据拷贝到TCP/IP协议栈的系统缓冲区中就返回，并不等待服务端返回的应答确认。
    sock.send(request)
    response = b''
    # socket上读取4K字节数据 --> blocking
    chunk = sock.recv(4096)
    while chunk:
        response += chunk
        # blocking
        chunk = sock.recv(4096)
    print('task {} end ({}) time: {}'.format(number, os.getpid(), time.time()))
    return response

# 同步方式(大约耗时13～17s)
@TimeLogger()
def sync_way():
    res = []
    for i in range(10):
        res.append(blocking_way(i))
    return len(res)

其中使用Python的time.sleep模拟了阻塞状态，让我们来运行一下看看

start time: 1565678320.9846358
Parent process 35404.
task 0 end (35404) time: 1565678322.719079
task 1 end (35404) time: 1565678323.2454321
task 2 end (35404) time: 1565678323.853733
task 3 end (35404) time: 1565678325.221901
task 4 end (35404) time: 1565678327.269089
task 5 end (35404) time: 1565678328.531013
task 6 end (35404) time: 1565678329.869162
task 7 end (35404) time: 1565678330.091727
task 8 end (35404) time: 1565678330.9530041
task 9 end (35404) time: 1565678333.785743
use time:  12.80132007598877

可以看到，大约执行了13秒左右，多次执行的时间区间大约在（13～17秒）
其中sock.connect(('www.baidu.com', 443))的作用是向www.baicu.com主机的443端口发起网络连接请求。
sock.recv(4096)的作用是从socket上读取4K字节数据。

创建网络的过程有时候不可能是一帆风顺的，网络状况不佳，服务器性能不够均可能导致网络创建缓慢。

此外，服务端什么时候返回了响应数据并被客户端接收到可供程序读取，也是不可预测的。

所以sock.connect()和sock.recv()这两个调用在默认情况下是阻塞的。

代码中的简单socket应用只运行了10次，而阻塞的过程也就重复的10次，这在网络交互十分频繁的程序和系统中，是无法忍受的。

改进，使用多进程

如果顺序执行过于耗时，我们可以理所当然的这么想，如果开10个进程去处理刚才socket应用，那么速度会不会快很多？
来看看多进程下改写的代码

...
from multiprocessing import Process

# 一个简单的同步socket应用
def blocking_way(number): ...

# 多进程方式(大约耗时3～6s)
def process_way():
    processes = []
    for i in range(10):
        p = Process(target=blocking_way, args=(i,))
        processes.append(p)
    for p in processes:
        p.start()
        # p.join()  # join() 方法可以等待子进程结束后再继续往下运行，通常用于进程间的同步
    return len(processes)

同样，去执行一下

start time: 1565680474.7305129
Parent process 35704.
task 6 end (35711) time: 1565680475.795624
task 9 end (35714) time: 1565680476.0854862
task 0 end (35705) time: 1565680476.407744
task 7 end (35712) time: 1565680476.4183
task 2 end (35707) time: 1565680476.474165
task 3 end (35708) time: 1565680476.8856
task 8 end (35713) time: 1565680476.997073
task 1 end (35706) time: 1565680477.266001
task 5 end (35710) time: 1565680477.470528
task 4 end (35709) time: 1565680477.756924
use time:  3.0275731086730957

可以看到，效果是非常的明显的，但是仍然存在一些问题，照理说，10个进程执行的效率应该是同步情况下的10倍左右，然而从我们运行的实际情况来看，效率只提升了7～8倍，那么损耗的时间到哪里去了，答案是进程间的切换，因为任意一个时刻上，单个CPU核心只能执行一个进程。当进程数量大于核心数量时，进程的切换是不可避免的。

回到上面观察一下CPU的时间观念表格，我们发现，CPU的上下文切换也是需要话费一定的时间的，而在实际运行过程中，这个时间的消耗是要比表格所列的时间要大的多。

下面给出知乎上一个大神给出的关于进程切换的时序图

从上图可以看出

当一个程序正在执行的过程中，如果发生中断或者系统调用的时候，CPU的控制权将会由当前进程转向CPU内核。
内核将当前进程P0的在CPU的上下文（程序计数器，寄存器）保存到PCB0中
然后CPU从PCB1中取出进程P1的上下文的，执行P1的指令

这么一系列的读写操作下来，浪费的时间是可想而知的，在并发不高的情况下还能hold的住，但是面对高并发的场景，进程的切换开销将会变的十分巨大。

此外，每创建一个进程都会消耗一定的内存空间，一般服务器能够同时处理的进程规模也就在数十到数百个，当进程超过一定的数量，系统的运行将会变的不稳定。

使用多线程

和多进程的方案比较类似，但是多线程的方案更加的轻量级，线程是依赖于进程而存在，同一个进程可以容纳多个线程，并且不同线程共享同一个进程空间。
那么继续来看看代码吧

...
from threading import Thread

# 一个简单的同步socket应用
def blocking_way(number): ...

# 多线程方式(大约耗时2.5～5.5s)
def threading_way():
    threads = []
    for i in range(10):
        p = Thread(target=blocking_way, args=(i,))
        threads.append(p)
    for t in threads:
        t.start()
        # t.join()
    return len(threads)

再看看执行时间

start time: 1565683676.944701
Parent process 36035.
task 4 end (36035) time: 1565683677.234011
task 3 end (36035) time: 1565683677.269881
task 6 end (36035) time: 1565683677.542932
task 1 end (36035) time: 1565683678.26774
task 5 end (36035) time: 1565683678.5796092
task 0 end (36035) time: 1565683679.201456
task 7 end (36035) time: 1565683679.384767
task 2 end (36035) time: 1565683679.392001
task 8 end (36035) time: 1565683679.526201
task 9 end (36035) time: 1565683679.5626528
use time:  2.6182520389556885

从执行时间上可以看出，比多进程耗时要少一些，另外线程可以支持的任务数量，也有了质的提升。
在高并发场景下，线程带来的性能提升是十分明显的。这是由于线程的上下文开销是低于进程的。

值得一提的是，虽然执行效率得到了极大的提升，但是在单个线程或者进程中，阻塞调用依旧是阻塞的。

至于为什么，已经偏离了本篇的主题，这里放两个链接，可以参考:
进程切换与线程切换的代价比较
啃碎并发（三）：Java线程上下文切换

非阻塞方案

在来看看非阻塞的方案，我们继续对上面的代码进行改写

import os
import socket
import time
import random

from tech_share.time_deco import TimeLogger

# 一个简单的同步socket应用
@TimeLogger()
def non_blocking_way(number):
    sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    # 将socket调用设置为非阻塞
    sock.setblocking(False)
    try:
        # time.sleep(random.random() * 3)  # 此处加time_sleep模拟耗时操作不合适
        sock.connect(('www.baidu.com', 443))
    except BlockingIOError:
        # 忽略非阻塞连接中抛出的异常
        pass
    request = b'GET / HTTP/1.0\r\n Host: www.baidu.com\r\n\r\n'
    while True:
        try:
            sock.send(request)
            # 当send不抛异常时，则发送完成
            break
        except OSError:
            pass
    response = b''
    # 此时并不知晓socket何时就绪,所以需要不断尝试发送
    while True:
        try:
            chunk = sock.recv(4096)
            while chunk:
                response += chunk
                chunk = sock.recv(4096)
            break
        except OSError:
            pass
    print('task {} end ({}) time: {}'.format(number, os.getpid(), time.time()))
    return response

# 非阻塞方式(大约耗时13～17秒)
def run():
    res = []
    for i in range(10):
        res.append(non_blocking_way(i))
    return len(res)

其中：
sock.setblocking(False)将socket上的阻塞调用都改为非阻塞，非阻塞在运行时，不妨碍调用它的程序做别的事情。
上述代码在执行完sock.connect()和sock.recv()后的确不再阻塞，可以继续往下执行请求准备的代码或者是执行下一次读取。
比较麻烦的是，socket在发送非阻塞连接的过程中，系统底层会抛出异常，需要通过try语句包裹，connect()被调用之后，立即可以往下执行代码。

后面写两个while循环是由于socket已经变成了非阻塞，在执行send()和receive()的时候，程序并不知道socket是否已经就绪，所以需要不停的循环尝试发送和接收

执行，看看什么效果

task 0 end (38062) time: 1565692133.393855
task 1 end (38062) time: 1565692134.593825
task 2 end (38062) time: 1565692135.383206
task 3 end (38062) time: 1565692136.024352
task 4 end (38062) time: 1565692136.091566
task 5 end (38062) time: 1565692136.897728
task 6 end (38062) time: 1565692137.917314
task 7 end (38062) time: 1565692138.845514
task 8 end (38062) time: 1565692141.672517
task 9 end (38062) time: 1565692143.136748
use time:  12.892203092575073

emmmmm，那么问题来了，好像非阻塞的执行效果和同步阻塞的耗时没多大区别。
这段代码有以下几个问题：

虽然 connect() 和recv()不再阻塞主程序，但是CPU本身还是没有得到有效的使用，主要体现在程序在while中不断循环尝试读写socket(因为不知道socket是否就绪)。
需要处理来自底层的可忽略的异常
无法同时处理多个 socket

非阻塞的改进（其实是I/O多路复用）

在上面的程序中，socket状态的判断是交由程序来执行的，导致代码效率十分低下，那么，如果我们能够把这一步交给操作系统去判断，我们就能充分利用非阻塞空闲的时间来做别的事情。

实现这一功能，我们需要用到Python的 selector'模块，这个模块在底层封装了系统模块select（select是用来监视文件描述符的变化情况——读写或是异常的一个底层函数）
程序可以通过select注册文件描述符（形式上是一个非负的整数，内核kernel利用它来访问文件。打开现存文件或新建文件时，内核会返回一个文件描述符。读写文件也需要使用文件描述符来指定待读写的文件。）和回调函数，当文件描述符发生变化时，select就调用先前注册好的回调函数

select因其算法效率比较低，后来改进成了poll，再后来又有进一步改进，BSD内核改进成了kqueue模块，而Linux内核改进成了epoll模块

这里主要是使用基于linux的epoll模块，我们目前只需要知道，高并发情况下并且有大量空闲连接时，epoll的性能是是要高于select和poll，但是它们都有一个共同点，三者都是I/O多路复用机制（既可以监视多个描述符）

至于它们的区别，这里不过多的赘述，可以看下面这篇总结。
select、poll、epoll之间的区别总结[整理]

python标注库select模块提供了IO多路复用支持，包括select，poll，epoll。

OK，利用epoll和回调进行改写，我们来继续看看代码

import socket
import time
from tech_share.time_deco import TimeLogger
from selectors import DefaultSelector, EVENT_READ, EVENT_WRITE

# 根据环境选择最佳模块
selector = DefaultSelector()
stopped = False
count = 10

class Creeper:

    def __init__(self, task):
        self.sock = None
        self.response = b''
        self.task = task

    def fetch(self):
        # 初始化的两个参数含义分别为地址簇和套接字类型(TCP/UDP)
        self.sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
        self.sock.setblocking(False)
        try:
            # time.sleep(random.random() * 3)  # 这里再模拟阻塞就不合适了，应为time.sleep并不会立即返回
            self.sock.connect(('www.baidu.com', 443))
            # self.sock.connect(('www.google.com', 443))
        except BlockingIOError:
            pass
        selector.register(self.sock.fileno(), EVENT_WRITE, self.connected)

    def connected(self, key):
        """
        :param key: 一个具名元祖,内容包括文件对象,文件描述符,事件,回调
        :return:
        """
        selector.unregister(key.fd)
        request = b'GET / HTTP/1.0\r\n Host: www.baidu.com\r\n\r\n'
        self.sock.send(request)
        selector.register(key.fd, EVENT_READ, self.read_response)

    def read_response(self, key):
        global stopped, count
        # 如果响应大于4kb, 下一次循环会继续
        chunk = self.sock.recv(4096)
        if chunk:
            self.response += chunk
        else:
            selector.unregister(key.fd)
            print('task {} end time: {}'.format(self.task, time.time()))
            count -= 1
            if count == 0:
                stopped = True

# 建立事件循环（Event loop）
@TimeLogger()
def loop():
    while not stopped:
        # 这个地方，其实还是阻塞的，直到一个事件发生
        event = selector.select()
        for event_key, event_mask in event:
            callback = event_key.data
            callback(event_key)

def run():
    for task_id in range(count):
        creeper = Creeper(task_id)
        creeper.fetch()
        
if __name__ == '__main__':
    # 启动10个socket应用
    run()
    # 事件循环
    loop()

简单分析一下这段代码
首先，加入了select的I/O多路复用机制之后，之前的while循环总算是没有了，socket状态的监听交给了epoll去执行
另外，可以看到，原来的socket应用的不同阶段被拆分成了不同的任务，每个任务划分的也很明确，我们来一个一个看一下

fetch()
创建socket连接，并在selector上注册可写事件
connect()
首先将该socket的文件描述符对应的事件注销（后续绑定可读事件，不注销会报已注册的错误）
之后发送请求
read_response()
接收数据，如果chunk没有数据了，则注销对应的事件
如果所有任务结束（count == 0)，则将中止变量stop置为True

另外两个方法run()和loop()，其中run()比较好理解，就是开10个任务，每个任务调用一下fetch()方法，剩下的交给epoll去处理就行了。

至于loop()，他的作用是创建了一个事件循环（Event loop），在这个循环下，我们去访问select模块，不断的去询问当前是否有事件发生，如果没有，则会返回一个空列表。
当事件发生变化时，我们在事件循环中获取当前的事件(下面简写为key)和事件类型(mask)，本例中，我们只关注key。

通过观察selector的源代码可知，key是一个包含了事件详情的具名元组，
key中包含的内容分别为

fileobj ：文件对象
fd ：文件描述符
event：事件类型
data：回调函数

根据不同的事件，调用不同的回调函数，我们实现了基于I/O多路复用的socket应用。下面来看看代码的执行效果：

task 0 end time: 1565851610.7112331
task 5 end time: 1565851610.711699
task 1 end time: 1565851610.7117581
task 2 end time: 1565851610.711793
task 6 end time: 1565851610.716775
task 7 end time: 1565851610.716991
task 9 end time: 1565851610.7170382
task 3 end time: 1565851610.722931
task 4 end time: 1565851610.723006
task 8 end time: 1565851610.7242408
use time:  0.06382608413696289

从结果上可以看出，I/O多路复用使得程序的性能获得了极大的提升，线程的切换开销也省了，同时能够支持的任务规模也能够达到数万到数十万。

为什么性能提升了

观察上面的代码，我们发现，在loop()函数中，这段代码仍然是阻塞的：
event = selector.select()
那么为什么代码的执行效率仍然能够获得极大提升呢，这得益于I/O多路复用机制的强大。
我们在事件循环中监听socket事件的过程和同步阻塞的I/O模型并没有多大的区别

但是，使用selector最大的优势就是我们可以在一个线程内同时处理多个socket的I/O请求，注册多个socket，通过不断的调用select()方法读取被激活的socket，我们就实现了在同一个线程内同时处理多个I/O请求的目的。

继续纠结

但是这么做仍然存在一个不好的地方，那就是回调

之前的例子都很简单，然而在实际生产项目当中，我们的代码要复杂的多，相应的，回调函数的设计和调试难度也会大大增加。

最直接的，如果我们的回调函数中又嵌套了回调，我们可能会面临经典的回调地狱的问题，代码的可读性差不说，回调函数出错排查的代价也是十分高昂。

此外，共享状态管理也变得十分困难，在上面的代码中，我们使用OOP的变成风格，在creeper实例化之后主动保存了自己socket对象，这只是一个简单的实例，实际生产过程中，回调之间需要共享的数据可能要多得多，我们需要仔细考虑哪些数据需要共享，在链式回调的过程中，共享数据就像接力似的，从一个回调传递给另一个回调。

假如我们已经精心设计好了一个看似完美的调用链，在实际运行过程中，万一调用的某一个环节出现了错误，调用链不幸断掉了，回调函数的状态也会丢失，然后就是一连串的报错，从异常的那一层开始，自底向上不断抛出异常。此时我们只能看到最顶层的异常，真正出错的那一层被隐藏了起来！这种情况称为调用栈断裂。

所以，为了防止上述情况，我们必须捕获每一个可能出现的回调异常，将异常以数据的形式返回，而不是直接抛出异常，然后每个回调中需要检查上次调用的返回值，以防错误吞没。

总体来说，基于回调的异步编程真的是困难重重。

升级，协程～

我们使用框架和Python，目的就是让开发更加的高（舒）效（坦），一个困难重重的开发模式，终究会被开发者们干掉的。随着Python生态的不断的演化，在事件循环+回调的基础上，我们有了新的选择：

协程

比较著名的有tornado，asyncio等。

基于协程的介绍，我们放到下一篇：）

参考

深入理解Python异步编程
怎样理解阻塞非阻塞与同步异步的区别？
Python实现socket的非阻塞式编程
Python网络编程-IO阻塞与非阻塞及多路复用

你可能感兴趣的:(python)

linux执行python脚本conda库_Pycharm使用远程linux服务器conda/python环境在本地运行的方法(图解）)... weixin_39992462
Pycharm使用远程linux服务器conda/python环境在本地运行的方法(图解))1.首先在PycharmTools->Deployment->Configurations打开新建SFTP输入host:ip地址username密码然后点击TestConnection出现下图，则测试成功因为已经连接成功，这时候已经可以读取远程服务器的目录了：2.选择项目mapping(可以跳过3.在Set
brew mysql client_Mac安装mysqlclient过程解析 weixin_39630440 brew mysql client
尝试在虚拟环境下通过pip安装：pipinstallmysqlclient然后报错：OSError:mysql_confignotfound找到官方文档https://github.com/PyMySQL/mysqlclient-python，解释说安装前需安装另一个模块：brewinstallmysql-connector-c但是报错：查看报错信息，在安装mysql-connector-c前先b
macos安装python-nodejs_MAC平台基于Python Appium环境搭建过程图解 weixin_39612038
前言最近笔者要为python+appium课程做准备，mac在2019年重新安装了一次系统，这次重新在mac下搭建appium环境，刚好顺带写个文稿给大家分享分享搭建过程。一、环境和所需软件概述1.1目前环境：MacOS(10.15.3)1.2所需软件:jdk-8u91-macosx-x64.dmg(jdk1.8及以上版本应该都可以)android-sdk_r24.4.1-macosx.zip(m
python接口自动化全世界最帅的男人 python 自动化开发语言
Python是一种非常流行的编程语言，也是许多接口自动化测试框架的首选语言。下面是一个简单的接口自动化测试框架的思路：1.安装必要的库和工具：在Python中，我们可以使用requests库来发送HTTP请求，使用unittest库来编写测试用例，使用HTMLTestRunner库来生成测试报告。此外，我们还需要安装一个代码编辑器，如PyCharm或VSCode。2.创建测试用例：编写测试用例是接
Python接口自动化花落同学 Python自动化从入门到放弃 python 自动化
4接口自动化4.1使用python实现接口自动化如果不了解接口测试可参考https://ke.qq.com/course/4092904使用Python的request库实现接口测试：importjsonimportrequests#使用session管理：#1.可以自动关联set-cookie里面的内容#2.可以加快与服务器的连接速度session=requests.session()#auth
Python异步编程：从基础到高级 CarlowZJ python 网络数据库
前言在现代软件开发中，异步编程已经成为一种必不可少的技能。Python的异步编程模型（基于asyncio）为开发者提供了一种高效的方式来处理高并发任务，而无需依赖多线程或多进程。异步编程不仅可以提高程序的性能，还能简化并发代码的复杂性。本文将带你从异步编程的基础概念出发，逐步深入到高级应用，帮助你掌握Python异步编程的核心技能。一、异步编程的基础概念1.1什么是异步编程？异步编程是一种编程范式
python实现接口自动化一只小H呀の python 自动化开发语言
代码实现自动化相关理论代码编写脚本和工具实现脚本区别是啥?代码：优点：代码灵活方便缺点：学习成本高工具：优点：易上手缺点：灵活度低，有局限性。总结：功能脚本：工具自动化脚本：代码代码接口自动化怎么做的？第一步：python+request+unittest;具体描述？第二步：封装、调用、数据驱动、日志、报告;详细举例:第三步：api\scripts\data\log\report\until…脚本
探索Python中的集成方法：Stacking Echo_Wish Python 笔记 Python 算法 python 开发语言
在机器学习领域，Stacking是一种高级的集成学习方法，它通过将多个基本模型的预测结果作为新的特征输入到一个元模型中，从而提高整体模型的性能和鲁棒性。本文将深入介绍Stacking的原理、实现方式以及如何在Python中应用。什么是Stacking？Stacking，又称为堆叠泛化（StackedGeneralization），是一种模型集成方法，与Bagging和Boosting不同，它并不直
【Python】 Stacking: 强大的集成学习方法音乐学家方大刚 Python python 集成学习开发语言
我们都找到天使了说好了心事不能偷藏着什么都一起做幸福得没话说把坏脾气变成了好沟通我们都找到天使了约好了负责对方的快乐阳光下的山坡你素描的以后怎么抄袭我脑袋想的薛凯琪《找到天使了》在机器学习中，单一模型的性能可能会受到其局限性和数据的影响。为了解决这个问题，我们可以使用集成学习（EnsembleLearning）方法。集成学习通过结合多个基模型的预测结果，来提高整体模型的准确性和稳健性。Stacki
minimind2学习：（1）训练溯源006 minimind学习学习深度学习生成模型
1、数据下载参考：https://github.com/jingyaogong/minimind/tree/master2、预训练训练6个epochspythontrain_pretrain.py--epochs6训练过程：LLM总参数量：25.830百万Epoch:[1/6](0/11040)loss:8.940lr:0.000550000000epoch_Time:106.0min:Epoch
使用Seaborn库中的`violinplot`函数绘制水平小提琴图（Violin Plot）是一种常见的数据可视化方法 code_welike 信息可视化数据分析数据挖掘 Python
使用Seaborn库中的violinplot函数绘制水平小提琴图（ViolinPlot）是一种常见的数据可视化方法。水平小提琴图可以展示数据的分布特征，并可以对比不同组别之间的差异。本文将介绍如何使用Python和Seaborn库绘制水平小提琴图，并提供相应的源代码示例。首先，我们需要确保已经安装了Seaborn库。可以使用以下命令在Python中安装Seaborn：pipinstallseabo
【集成学习】：Stacking原理以及Python代码实现 Geeksongs 机器学习 python 机器学习深度学习人工智能算法
Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用，尤其是在结构化的机器学习竞赛当中表现非常好。今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理。并在博文的后面附有相关代码实现。总体来说，stacking集成算法主要是一种基于“标签”的学习，有以下的特点：用法：模型利用交叉验证，对训练集进行预测，从而实现二次学习优点：可以结合不同的模型缺点：增加了时间开销，容
使用Seaborn绘制水平小提琴图 YOUFDJ python 开发语言 Python
使用Seaborn绘制水平小提琴图水平小提琴图是一种常用的数据可视化工具，可以用于展示不同类别之间的分布情况。在Python中，我们可以使用Seaborn库的catplot函数来轻松地绘制水平小提琴图。本文将介绍如何使用Seaborn绘制水平小提琴图，并附带相应的源代码示例。首先，确保你已经安装了Seaborn库。如果没有安装，可以使用以下命令在命令行中安装：pipinstallseaborn安装
Python文件与格式化：编程世界的“读写之道“（技术深挖版）被窝妄想家 python进阶指南 python 数据库开发语言
一、文件操作：Python的"读写之眼"1.1文件基础哲学在计算机世界中，文件就像一本本等待翻阅的典籍。Python的open()函数如同手持放大镜，让我们能精确控制阅读和书写：#经典打开模式组合withopen("data.txt","r+",encoding="utf-8")asf:#r+模式：可读可写，文件指针初始位置在开头content=f.read(10)#读取前10个字节f.seek(
使用Seaborn绘制小提琴图 CodeWG python 开发语言
使用Seaborn绘制小提琴图在数据分析与可视化中，小提琴图是一种常用的图表类型。它能够展示数据的分布情况，同时还能显示中位数、四分位数和异常值等统计指标。在Python中，我们可以使用Seaborn库来轻松地绘制小提琴图。下面就来详细介绍一下如何使用Seaborn来创建小提琴图。首先，我们需要导入必要的库和数据集。这里我们使用Seaborn自带的数据集tips作为例子。importseaborn
python实际应用场景代码 yzx991013 python 前端服务器
1.自动化文件整理importosimportshutildeforganize_downloads_folder():download_path="/Users/YourName/Downloads"#修改为你的下载路径file_types={"Images":[".jpg",".png",".gif"],"Documents":[".pdf",".docx",".txt"],"Videos":
python大赛对名_用100行Python爬虫代码抓取公开的足球数据玩（一）司马各 python大赛对名
在《用Python模拟2018世界杯夺冠之路》一文中，我选择从公开的足球网站用爬虫抓取数据，从而建模并模拟比赛，但是略过了爬虫的实施细节。虽然爬虫并不难做，但希望可以让更多感兴趣的朋友自己动手抓数据下来玩，提供便利，今天就把我抓取球探网的方法和Python源码拿出来分享给大家，不超过100行代码。希望球友们能快速get爬虫的技能。#-*-coding:utf-8-*-from__future__i
从入门到进阶：Python数据可视化实战技巧 Blossom.118 分布式系统与高性能计算领域信息可视化 python 开发语言网络协议 spring boot java 后端
在数据分析和数据科学领域，数据可视化是将复杂数据以直观图形展示的重要手段。Python作为数据科学领域的首选语言之一，提供了强大的数据可视化库，如Matplotlib、Seaborn、Plotly等。本文将从入门到进阶，逐步介绍Python数据可视化的实战技巧，帮助读者快速提升数据可视化能力。一、入门：Matplotlib基础Matplotlib是Python中最基础、最强大的数据可视化库之一。它
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
wooyun知识库爬虫（自动整理保存为pdf）大囚长编程人生黑客帝国 spider python
#!C:\Python27\python.exe#coding=utf8importosimportpdfkitimporturllib2frombs4importBeautifulSoupfrommultiprocessingimportPoolimportsocketsocket.setdefaulttimeout(60)importsysreload(sys)sys.setdefaulten
HCIA-AI人工智能笔记3：数据预处理噗老师华为认证人工智能笔记 wpf 数据处理 AI 华为认证
统讲解数据预处理的核心技术体系，通过Python/Pandas与华为MindSpore双视角代码演示，结合特征工程优化实验，深入解析数据清洗、标准化、增强等关键环节。一、数据预处理技术全景图graphTDA[原始数据]-->B{数据清洗}B-->B1[缺失值处理]B-->B2[异常值检测]B-->B3[重复值删除]A-->C{特征工程}C-->C1[标准化/归一化]C-->C2[离散化分箱]C--
python画画加粗_Matplotlib'粗体'字体 - python weixin_39569747 python画画加粗
跟随thisexample：importnumpyasnpimportmatplotlib.pyplotaspltfig=plt.figure()fori,labelinenumerate(('A','B','C','D')):ax=fig.add_subplot(2,2,i+1)ax.text(0.05,0.95,label,transform=ax.transAxes,fontsize=16,
matplotlib使用大字体，粗线 weixin_34254823 python
2019独角兽企业重金招聘Python工程师标准>>>matplotlib在绘图时缺省的字体和线条都有些细，所以需要加粗一下importmatplotlib.pyplotaspltdefuseLargeSize(axis,marker_lines=None,fontsize='xx-large',fontproperties=None):'''将X,Y坐标轴的标签、刻度以及legend都使用大字体
六种方法教你将Python源代码打包成exe xuefeng_210 python 开发语言 linux
将Python源代码打包成可执行文件（exe）是一种常见的需求，它可以使我们的程序在没有安装Python解释器的环境中运行。在本文中，我们将介绍六种常用的方法来实现这个目标，并详细说明每种方法的使用过程。cx_Freezecx_Freeze是一个用于将Python脚本打包成可执行文件的工具。它可以将Python代码和依赖的库文件一起打包，并生成一个独立的可执行文件。使用cx_Freeze的步骤如下
Python Excel操作新玩法：从零到高手掌握openpyxl xuefeng_210 python 自动化 java
openpyxl是Python中一个强大的第三方库，用于操作Excel文件，它可以读取、写入和修改Excel文件，并且支持Excel文件中的样式、图表等元素。openpyxl使得在Python中处理Excel文件变得非常简单和高效。本文将从入门到精通地介绍openpyxl的使用方法，带你掌握在Python中处理Excel文件的技巧。目录安装和导入创建和保存Excel文件读取Excel文件写入Exc
CentOS7下安装python3.8 讓丄帝愛伱 Linux 编程语言
查看系统版本#查看系统版本cat/etc/centos-release>CentOSLinuxrelease7.2.1511(Core)uname-a>Linuxlocalhost.localdomain3.10.0-327.el7.x86_64#1SMPThuNov1922:10:57UTC2015x86_64x86_64x86_64GNU/Linux#查看python版本python-V>Py
Ubuntu18.04切换python3.8版本波波维琦 python linux ubuntu
安装python3.8sudoaptinstallpython3.8赋予python优先级sudoupdate-alternatives--install/usr/bin/pythonpython/usr/bin/python3.82切换python默认版本sudoupdate-alternatives--configpython选择python3.8的编号，回车赋予python3优先级sudou
Python连接StarRocks全流程实践: SQL文件调用与Pandas混合优化 ToreanonyTang python sql pandas 数据库开发语言
文章目录一环境准备与连接方法1.安装核心依赖库2.连接字符串配置3.多模式连接验证二SQL文件调用与动态执行1.外部SQL文件结构设计2.Python动态加载执行三Pandas混合使用技巧1.查询结果直接转DataFrame2.批量数据写入优化四深度性能优化策略1.StarRocks服务端优化2.Python客户端优化3.混合计算策略五完整业务场景示例1:用户转化漏斗业务场景实现代码公用表表达式(
DJANGO 中间件的白名单配置换个网名有点难 django python
在处理白名单内的多个Apps的URL链接时，可以采用以下几种方法来简化白名单的配置：1.使用reverse动态获取URL如果你在urls.py中为每个App的URL定义了名称（name参数），可以使用reverse函数动态获取这些URL，而不是硬编码路径。这样可以避免手动维护大量的路径字符串。Python复制fromdjango.urlsimportreverseclassLoginRequire
MySQL Connector / Python weixin_30369087
MySQLConnector/Python允许Python程序使用符合Python数据库API规范v2.0（PEP249）的API访问MySQL数据库。MySQLConnector/Python包括对以下内容的支持：几乎所有MySQLServer提供的功能都包括MySQLServer版本5.7。Connector/Python8.0也支持XDevAPI。有关使用XDevAPI的MySQLConne
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D