zy阿二

Python多线程篇一，theanding库、queue队列、生产者消费者模式爬虫实战代码超详细的注释、自动分配线程对应多任务，GIF演示【傻瓜式教程】

⭐ 简介：大家好，我是zy阿二，我是一名对知识充满渴望的自由职业者。
☘️ 最近我沉溺于Python的学习中。你所看到的是我的学习笔记。
❤️ 如果对你有帮助，请关注我，让我们共同进步。有不足之处请留言指正！

认识多线程

A：那我们以前写的程序难道都是单线程的嘛？
Q：是的。把程序比作一个作坊。单线程就是老板自己接单，自己安排任务，自己生产产品，自己销售。生产效率低，产值低，但是管理方便自己管自己，做完一个做下一个。

A：那多线程是什么样子？
Q：老板接了个大单子，一个人来不及干了，怎么办？只能招工、请外援。老板从第一生产线退居到了第二生产线的管理者，管理工人生产。生产效率高了，产值也高了，但是带来问题就是如何把大量的工作合理的安排给工人呢？请往下阅读。

A: 现有多线程教程很多，你为什么还要写他？
Q：正如标题所述，自动分配线程对应多任务。在上看到太多的文章都是直接3行代码开多线程。第一句for循环，第二句创建线程任务，第三句t.strat。殊不知这样是在用每一个线程做一个任务。过度耗费CPU资源，过高的线程并发，这样的爬虫对目标网站也是不道德的。

多线程的简单用法。

安装theading包。 pip install theading
导入包import threading
本文涉及 threading模块的方法：

代码	作用
`t=threading.Thead(target=func,args=(a,))`	创建一个线程对象，并给一个func任务
`t.start`	激活多线程对象（激活 ≠ 开启）
`t.join`	等待线程结束
`threading.active_count()`	返回当前激活线程数
`m=threading.BoundedSemaphore(3)`	设定线程的最大数量
`m.acquire(timeout=5)`	超线程上锁，超时时间5秒
`m.release()`	解锁一个线程，写在任务结束的地方

一、初试多线程：

先来看看示例代码，单线程的。等于只有老板自己一个人在干活。生产一个商品需要耗费0.3秒，所以生产10个需要3秒。这是单线程的效果
~~较真的朋友要说：不对啊，明明是3.091秒啊。。。 Python编译代码，开启进程执行代码都需要时间。老板安排工作是有耗时的~~

import threading
import time


def func(i, ):
    print(f'子线程打印{i}')
    time.sleep(1)



if __name__ == '__main__':
    # args接受的必须是一个可迭代对象。所以及时只有一个参数也要写args=(i,)
    st = time.time()
    for i in range(10):
        t = threading.Thread(target=func, args=(i,))
        t.start()

    print('主线程结束,耗时：', time.time() - st)

老板招了10个工人，每个工人生产1个产品需要1秒。10个线程同时开始工作，任务。只0.0019秒？聪明的小伙伴就开始提问了：

A1：就算10个人一起开始，那也应该需要1秒才能完成任务啊。为什么只用0.19秒就打印了主线程结束呢？
Q：老板给10个工人安排任务用了0.0019秒，所以老板是主线程，他没有其他任务所以结束的很快，但是子线程（工人）任然需要继续工作，1秒后，子线程全部完工，同时进程结束。所以此时的工厂有11个人，10个工人和1个老板。

A2：为什么打印的结果不是那么整齐？
Q：t.start() 是激活线程，具体开始时间取决于CPU，先激活的线程不一定就是先完成的。同时每个线程在实际情况中遇到的情况不同，所以具体完成的时间不同，打印结果也就会乱。

A3：那如果我有9999个产品难道要开9999个线程才可以吗？
Q：厉害！能想到这个问题。很多刚接触多线程去做爬虫的伙伴，经常会这样：有100页面要爬，然后写多线程的时候代码如下

for i in range(100):
    t = threading.Thread(target=func, args=(i,))
    t.start()

细品这个代码是什么意思？开了100个线程？做100个任务？
如果你是老板，你会雇佣100个工人每个工人只生成一个产品就下班了？
所以如何使用theading模块合理安排多线程多任务，请往下看。

A4：示例func中为什么没有return呢？那如何接受返回值?
Q：threading库并没有返回值的功能。所以我们要用其他的方法，1. 写入硬盘。 2. 全局变量。 3. 队列。这也是本文要讲的内容之一。

二、多线程 threading.Thread 参数和方法：

# 先来看下 threading.Thread 中接受的参数
t = threading.Thread(group=None, target=(), name=None,
                args=(), kwargs={}, *, daemon=True)

参数名	作用
target	必填，函数名或方法名。
args	元组类型数据传参。（单个参数也需要写成元组，如：(1,)）
kwargs	字典类型数据传参。
name	线程名，可以忽略，一般不用设置。有默认名。
group	线程组，直接忽略，因为目前只能使用None。
daemon	布尔值，默认False。主线程守护。True = 子线程会随主线程一起结束
t.setDaemon(True)	也可以在后续设置线程守护

方法	作用
t.start()	激活线程
t.jion()	等待对象线程结束。
threading.current_thread()	获取当前的线程名字
threading.active_count()	获得当前激活的线程数
lock = threading.BoundedSemaphore()	限制最大线程数量锁
lock.acquire()	上锁
lock.release()	解锁
lock2 = threading.Lock()	线程锁，互斥锁
lock2.acquire()	上锁
lock2.release()	解锁

三、多任务分配（任务多线程少）

不废话，直接行代码

import threading
import time


def func():
    time.sleep(0.3)
    print('当前线程数量：', threading.active_count())
    # 在完成工作后，解锁
    lock.release()


if __name__ == '__main__':
    # 创建一个允许最大激活线程数量为 5 的锁
    # 可以理解为：做多允许出现 5 把锁
    lock = threading.BoundedSemaphore(5)
    for i in range(100):
        # 每次开启线程前，加一次锁，循环5次后，这里就会等待解锁一把后才会放行。
        lock.acquire()
        t = threading.Thread(target=func)
        t.start()

妙不妙？
其实这个问题因为有更好的解决方案：线程池，所以导致了threading模块的这个控制最大线程的方法被雪藏。我上培训机构的老师都没教。都是直接一个for循环到底每个任务一个线程。
我也是钻了牛角看了很多文章，突然豁然开朗。如下是我的解题经历：

最初的时候，我也直接选择用线程池，又简单有能解决问题。
后来我选择效率更高的异步并发。
都爽完后，我静下心来思考了一个问题，难道Thead库真的这么鸡肋？
于是开始静下心来查阅theading相关文章，很快发现了threading.active_count()方法
随即我写了如下代码，用while循环堵塞主线程。
不满足的我觉得肯定有更好，更合理的方法。
于是又查阅了十几篇文章后发现了threading.BoundedSemaphore()方法

# 这个代码是我的解题经历，不是最终答案。最优解在上面 
# 这个代码是我的解题经历，不是最终答案。最优解在上面 
# 这个代码是我的解题经历，不是最终答案。最优解在上面 
import threading
import time

def func():
    time.sleep(0.3)
    print('当前线程数量：', threading.active_count())

if __name__ == '__main__':
    for i in range(100):
    	# 在主线程上加入while 判断线程数量堵塞主线程创建子线程
        while threading.active_count() > 5:
            if threading.active_count() < 5:
                break
            time.sleep(0.05)
            
        t = threading.Thread(target=func)
        t.start()

三、如何接受返回值？（建议直接看3️⃣）

1️⃣、写入硬盘存储数据。这个都看不懂就先去学基础吧。

很显然这根本处理不了大数据，而且效率低下。

import threading

def func(f, i):
    f.write(i)

if __name__ == '__main__':
    f = open('xxx.txt', 'a')
    for i in range(5):
        t = threading.Thread(target=func, args=(f, i))
        t.start()
    f.close()

2️⃣、全局变量

当多个线程同时操作同一个全局变量的时候，数据将会变得不准确。
而且下面的代码实际上是一个单线程的。因为读数据线程虽然创建了，但是确在等待写数据的线程结束后才被激活。

# 错误的多线程代码示例。
import threading
import time

a = []

def func1():
    for i in range(5):
        a.append(i)
        time.sleep(0.1)
    print("写:", a)

def func2():
    print("读:", a)

if __name__ == '__main__':
    t1 = threading.Thread(target=func1) # 写数据线程
    t2 = threading.Thread(target=func2) # 读数据线程
    t1.start() # 写数据线程激活
    t1.join() # 等待线程对象t1结束
    print("激活t2,读取数据")
    t2.start() # 读数据线程激活

如果我们去掉了 t1.join之后。保证2个线程可以同时进行。我们来看下代码运行结果。
同时为了更直观的反映问题，我们把a 换成int类型，函数是让2个线程分别给 a +1 一百万次

import threading

a = 0

def func1():
    for i in range(1000000):
        global a
        a += 1
    print("func1:", a)


def func2():
    for i in range(1000000):
        global a
        a += 1
    print("func2:", a)


if __name__ == '__main__':
    t1 = threading.Thread(target=func1)
    t2 = threading.Thread(target=func2)
    t1.start()
    t2.start()

第一个线程打印的结果尽然只有158.4万+？？这结果变得不可控了！就是多线程操作同一个全局变量在处理大量数据时必然会出现的问题。那如何解决呢？
在t1.start()后面加上t1.join()确实可以解决这个问题，但问题是多线程变成了单线程。
如果t1有其他IO任务需要3秒，t2的也有其他的IO任务需要3秒，那么加了join后的整个线程就需要6秒才能完成。这就妥妥的伪多线程啊。
再来看一个示例：

# 2个线程分别对 a-1 一百万次 。 a+1 一百万次。理论结果a 应当任然等于0
import threading

a = 0

def func1():
    for i in range(1000000):
        global a
        a -= 1 # 让a-1 一百万次

def func2():
    for i in range(1000000):
        global a
        a += 1 # 让a+1 一百万次

if __name__ == '__main__':
    t1 = threading.Thread(target=func1)
    t2 = threading.Thread(target=func2)
    t1.start()
    t2.start()
    t2.join() # 堵塞主线程，等待t2结束后打印a的值
    print(a) # 减一百万再加一百万，理论答案应该还是0

但是实际答案确出乎意料。。这就是多线程操作同一个全局变量的问题。那么下面来讲解决方案。

2️⃣1️⃣、互斥锁

lock = threading.Lock() 程序开始前创建一把锁
lock.acquire() 在修改全局变量时先用此命令上锁
lock.release() 修改结束后，再加上此命令解锁

import threading

a = 0
lock = threading.Lock() # 创建锁

def func1():
    lock.acquire()  # 在处理数据前上锁
    for i in range(1000000):
        global a
        a += 1
    print("func1:", a)  
    lock.release()  # 处理完了就解锁


def func2():
    lock.acquire()  # 处理数据时上锁
    for i in range(1000000):
        global a
        a += 1
    print("func2:", a)
    lock.release() # 处理完了就解锁


if __name__ == '__main__':
    t1 = threading.Thread(target=func1)
    t2 = threading.Thread(target=func2)
    t1.start()
    t2.start()

那为了解决上面数据不可控的情况，我们利用lock = threading.Lock() 通过创建锁，上锁，解锁的步骤，解决了多线程和处理全局变量的问题。但是很显然，这样做的优势是可以做到多线程，及时t1，t2，都有3秒的IO任务，那么整个进程也是只需要3秒就会完成。但是在处理全局变量时，依然会出现t2等待t1计算结束后t2才会处理。那么到底如何才能完美解决多线程数据交互的问题呢？

3️⃣、queue库，队列

标准流程第一步，安装库：pip install queue

队列就是仓库。举个栗子，还是那个工厂，工人们各自生产产品互不影响，但是成品需要放到一个共有的仓库，等待老板下令发货，队列就是这个仓库。而仓管也有发货顺序的。现在我们来看下3个常用的queue列队的发货顺序：

模块	发货顺序
`queue.Queue`	先进先出 FIFO
`queue.LifoQueue`	后进先出
`queue.PriorityQueue`	自定义进出顺序
`queue.SimpleQueue`	简单的FIFO 队列，缺少任务跟踪等高级功能。

常用命令	作用
`q.put(x)`	添加x到队列中，x可以是任何类型数据，但是一次只能加1个数据
`q.put(x,block=False)`	当列队已满时再增加数据会报错 queue.Full
`q.put(x,timeout=5)`	当队列已满时，会最多等待5秒，如果5秒后还是没有空位，则会报错，queue.Full
`q.get()`	从队列中取数据（得到的数据由发货顺序决定）
`q.get(block=False)`	队列为空，仍然继续取数据，会报错_queue.Empty
`q.get(timeout=5)`	取数据时可以最多等待5秒，如果5秒后仍然没数据则报错_queue.Empty
`q.qsize()`	返回队列已有数据量，int
`q.empty()`	返回队列是否为空，空为True
`q.full()`	返回列队是否已满，满为True
`q.task_done()`	告诉队列，该任务已处理完成
`q.join`	阻塞队列。当队列添加新数据时，任务 +1，当调用`task_done()`，任务 -1，当计数=0 `join()` 解除阻塞
`q.queue`	得到当前队列中的所有数据

3️⃣1️⃣、queue.Queue 先进先出 FIFO

参数：maxsize = int，用于设置可以放入队列的数据上线。当达到这个大小的时候，插入操作将阻塞至队列中的项目被消费掉。如果 maxsize 默认等于零，队列则为无穷大。（解释：maxsize 是设置仓库的大小，可以容纳多少商品，当仓库塞满后，后面要加进来的商品就会在仓库外面排队，有空间了才会再进来。）

import queue

q = queue.Queue()  # 创建队列,不设置 maxsize，默认无穷大
for i in range(4):
    q.put(i)  # 往队列中加数据

for i in range(4):
    print(q.get()) # 从队列中取数据
    
# 加进入的顺数是0、1、2、3，取出来的顺序也是0、1、2、3
0
1
2
3

3️⃣2️⃣、queue.Queue 先进先出 LIFO

import queue
q = queue.LifoQueue()
for i in range(4):
     q.put(i)
for i in range(4):
     print q.get()
     
# 加进入的顺数是0、1、2、3，取出来的顺序是3、2、1、0
3
2
1
0

3️⃣3️⃣、queue.PriorityQueue 优先级队列

import queue

# 示例1 。 正常添加到队列中。
q = queue.PriorityQueue()
q.put_nowait((0, '123', ['aaa', 'eee'], 0))
q.put_nowait((0, '456', ['bbb'], 0))

# 示例2。 报错！
q.put_nowait((0, '123', {"name": 'aaa', "age": 12}, 0))
q.put_nowait((0, '456', {"name": 'bbb'}, 0))

示例2报错内容：
TypeError: ‘<’ not supported between instances of ‘dict’ and ‘list’。
“dict”和“list” 之间无法进行数据比较。

PriorityQueue的正确使用方式，应该是如下两种，使用tuple的第一个元素作为优先级数字，或者自定义类中重定义__lt__方法，使得类实例能够相互比较。

import queue

# 示例3。插入的tuple中，index=0的值代表优先级，index=1的值是数据
q = queue.PriorityQueue()
q.put_nowait((0, {'name': 'aaa'}))
q.put_nowait((1, {'name', 'bbbb'}))

# 示例4：
import queue


class Task(object):
    def __init__(self, priority, name):
        self.priority = priority
        self.name = name

    def __str__(self):
        return f'Task(priority={self.priority}, name={self.name})'

    def __lt__(self, other):
        """ 定义<比较操作符。 """
        return self.priority < other.priority


q = queue.PriorityQueue()
# 自定义的类定义了__lt__, 可以比较大小
q.put_nowait(Task(3, "task1"))
q.put_nowait(Task(1, "task2"))
print(q.get())
print(q.get())

返回结果：
Task(priority=1, name=task2)
Task(priority=3, name=task1)

4️⃣、使用theading和queue 实操爬虫

获取堆糖网图片
https://www.duitang.com/search/?kw=%E7%BE%8E%E5%A5%B3&type=feed
第一步、获取图片信息
第二步、下载图片

代码中有超详细的注释。请直接copy代码到IDE中查看或运行。

import time
import requests  # 网络请求库
import threading  # 多线程库
from queue import Queue  # 先进先出的队列
from tqdm import tqdm  # 进度条库
import re  # 正则表达式
import os

"""
获取堆糖网美女图片
https://www.duitang.com/search/?kw=%E7%BE%8E%E5%A5%B3&type=feed
"""
q = Queue()  # 实例化一个队列，不指定最大长度。即无限长。


def GetImgUrl(page):
    """
    生产者的实际工作内容。生产每个网页上的图片信息。 URL和给图片命名的信息传入q 队列
    :param page: int,  需要爬取多少页的图片信息
    """
    param = {'kw': '美女',
             'after_id': str(24 * page),  # 一页24条图片数据，所以这里的值是 24*page
             'type': 'feed',
             'include_fields': 'top_comments,is_root,source_link,item,buyable,root_id,status,like_count,like_id,sender,album,reply_count,favorite_blog_id',
             '_type': '',
             '_': f'{timeint}{100 + page}'}  # 时间戳 + 最后3位数100是随便给的，只要随着翻页递增即可。
    url = f"https://www.duitang.com/napi/blogv2/list/by_search/"

    # 返回的结果中包含了我们需要下载的图片地址
    resp = requests.get(url, params=param, headers={
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'})

    # 预创建一个正则表达式，取图片地址、 ID 和 上传者的名字。后续将名字+id给图片命名
    RE = re.compile(
        r'"path":"(?P.*?)","size":.*?"id":(?P\d+),"sender".*?"username":"(?P.*?)"', re.S)
    img_url = RE.finditer(resp.text)
    # 将 图片地址和图片ID丢到队列里
    for _j in img_url:
        q.put([_j.group('url'), _j.group('id'), _j.group('name')])
        # tqdm.write(f"{_j.group('url')}, {_j.group('id')}, {_j.group('name')}")  # 等同于print
    
    # 完成任务，拿到图片数据，解锁一个生产者线程
    ProducerMaximumThread.release()


def downloadImg(imgurl, imgid, imgname):
    """
    消费者的工作，通过队列获取图片信息，并开始下载图片。
    :param imgurl: str ， 图片的URL地址
    :param imgid: str， 图片的ID 用于给图片命名。图片名称 = imgname+imgid.jpg
    :param imgname: str， 图片上传者的名字，用于给图片命名。图片名称 = imgname+imgid.jpg
    :return:
    """
    resp = requests.get(imgurl)

    # 二进制方式写文件。 等于保存图片操作
    with open(f'{pic_path}\\{imgname}{imgid}.jpg', 'wb') as f:
        f.write(resp.content)  # 二进制写入

    # 队列任务完成，返回结果
    q.task_done()

    # 消费者下载图片完成，解锁一个线程
    ConsumerMaximumThread.release()


def friststep():
    """
    给生产者 安排任务，获取图片信息，url 和 给图片命名的数据
    """
    with tqdm(range(page + 1), desc='获取图片地址') as tbar1:  # 创建动作条，实例化
        # 和正常循环一样，只是额外增加了进度条
        for _i in tbar1:
            # 设置每个循环中进度条展示的动态信息
            tbar1.set_postfix(当前页码=_i, 总页数=page, 已有列队数=q.qsize(), 当前激活线程=threading.active_count())

            # 上锁，限制生产者的线程数量。timeout=5 设置锁的最大时间。避免特殊情况导致堵塞
            ProducerMaximumThread.acquire(timeout=5)

            # 给多线程安排任务，并激活线程。
            t = threading.Thread(target=GetImgUrl, args=(_i,), daemon=True)
            t.start()


def secondstep():
    """
    给消费者 安排任务，下载图片
    """
    plan = q.qsize()
    with tqdm(range(plan), desc='正在下载图片') as tbar2:  # 创建进度条
     	# 和正常循环一样，只是额外增加了进度条
        for _i in tbar2:
            # 设置每个循环中进度条展示的动态信息
            tbar2.set_postfix(已下载=_i, 总数=plan, 列队任务剩余=q.qsize(), 当前激活线程=threading.active_count())

            # 从队列中取数据,设置超时时间，编码数据空了后直接报错
            imgurl, imgid, imgname = q.get(timeout=3)

            # 上锁。 限制消费者的线程数量。timeout=5 设置锁的最大时间
            ConsumerMaximumThread.acquire(timeout=5)

            # 给消费者多线程安排任务，并激活线程。 daemon=True 主线程结束，子线程也结束
            t = threading.Thread(target=downloadImg, args=(imgurl, imgid, imgname), daemon=True)
            t.start()


if __name__ == '__main__':
    pic_path = r'E:\堆糖图片'  # 下载图片的存放路径

    # 判断文件夹 是否存在
    if not os.path.exists(pic_path):
        # 如果不存在那么就创建文件夹。
        os.mkdir(pic_path)

    # 设置需要爬多少页图片，每页24张。 控制在50以内
    page = 10

    # 设置生产者（爬数据）最大线程数量。获取图片URL地址的最大线程数量
    ProducerMaximumThread = threading.BoundedSemaphore(3)

    # 设置消费者（下载数据）最大线程数量。下载图片保存到指定文件夹
    ConsumerMaximumThread = threading.BoundedSemaphore(8)

    # 获取到当前时间戳,去掉小数点
    timeint = int(time.time())

    # 执行生产者任务，获取图片路径
    friststep()

    # 消费者模式，下载图片保存到指定文件夹
    secondstep()

你可能感兴趣的:(python,爬虫,开发语言)

go执行java -jar 完成DSA私钥解析并签名 DavidSoCool java jar golang
起因，最近使用go对接百度联盟api需要使用到DSA私钥完成签名过程，在百度提供的代码示例里面没有go代码的支持，示例中仅有php、python2和3、java的代码，网上找了半天发现go中对DSA私钥解析支持不友好，然后决定使用在java中完成签名计算过程，生成可执行jar后由外部传入参数获取签名数据。百度联盟api文档说明：1）权限开通后，登录百度联盟媒体平台（union.baidu.com）
【30天玩转python】项目实战：从零开始开发一个Python项目爱技术的小伙子 30天玩转python linux 运维服务器
项目实战：从零开始开发一个Python项目在学习Python的过程中，开发一个完整的项目是非常重要的实战练习。它不仅能够帮助你巩固所学的知识，还能提高实际编程能力。本文将带领你从零开始开发一个Python项目，介绍从项目规划、环境搭建、代码实现到项目发布的完整过程。我们将以一个简单的“任务管理系统”为例，逐步讲解如何构建、测试和优化这个项目。1.项目规划1.1项目简介我们将开发一个基于命令行的任务
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
python递推法_如何使用Python递归函数中的递推？热茶走 python递推法
我们大家都知道，一个函数可能存在多种不同的用法，很少是有函数只针对一个方式，那么基于一种函数，我们肯定要了解多个方式，今日针对递归函数里的递推内容给大家介绍哦~递归是什么？是指函数/过程/子程序在运行过程序中直接或间接调用自身而产生的重入现象。下面是个人理解：递归就是在函数内部调用自己的函数被称之为递归。实例：#直接调用自己：deffunc:print('fromfunc')funcFunc#间接
python递推式_Python 递推式构造列表(List Comprehensions) man One python递推式
你需要构造一个新的列表,列表中的元素是从一个已知列表中的元素计算而得到的.比如你要创建一个列表,里面的元素是另一个列表中的元素加23后得到的.使用递推式构造列表是最理想的方法:thenewlist=[x+23forxintheoldlist]如果你希望用一个列表中大于5的元素构造一个新的列表,使用递推式也是很方便的:thenewlist=[xforxintheoldlistifx>5]如果你希望将
Dash 简介 tankusa dash
Dash是一个基于Python的开源框架，专门用于构建数据分析和数据可视化的Web应用程序。Dash由Plotly团队开发，旨在帮助数据分析师、数据科学家和开发人员快速创建交互式的、基于数据的Web应用，而无需深入掌握前端技术（如HTML、CSS和JavaScript）。Dash的核心优势在于其简单易用性和强大的功能。通过Dash，用户可以使用纯Python代码来构建复杂的Web应用，而无需编写繁
视频下载插件：yt-dlp 小怪兽长大啦 python
Yt-dlp插件使用下载方法方法一：Python插件下载使用pip工具安装即可:pipinstallyt-dlp.Python已经配置过环境变量，下载yt-dlp时不需要配置。方法二：直接下载EXE可执行文件网上下载yt-dlp应用程序：https://github.com/yt-dlp/yt-dlp/releases配置环境变量。常用使用命令（配置好环境变量后，控制台下输入命令即可）直接下载视频
Python __init__.py 模块详解鱼丸丶粗面 Python __init__.py
文章目录1概述2导入演示2.1执行顺序：先父后子2.2导入所有模块（含子模块）1概述1.工具:Pycharm场景:在创建一个PythonPackage时，会默认在该包下生成一个'__init__.py'文件2.目的:'进行一些初始化操作'(1)当importpackage时，"自动"执行'__init__.py'文件中的内容(2)常用于导入模块2导入演示2.1执行顺序：先父后子目录结构：目录结构简
Python __init__.py 愚昧之山绝望之谷开悟之坡 python init
Python__init__.py作用详解尼古拉苏关注12018.06.1012:57:34字数745阅读45,278转载于：https://www.cnblogs.com/tp1226/p/8453854.html__init__.py该文件的作用就是相当于把自身整个文件夹当作一个包来管理，每当有外部import的时候，就会自动执行里面的函数。1.标识该目录是一个python的模块包（modul
利用Java爬虫获取衣联网商品详情：实战指南 Jason-河山 java 爬虫开发语言
在电商领域，获取商品详情是数据分析和市场研究的重要环节。衣联网作为知名的电商平台，提供了丰富的服装商品资源。本文将详细介绍如何利用Java编写爬虫程序，通过商品ID获取衣联网商品详情。一、准备工作（一）环境搭建Java安装：确保已安装Java开发环境，推荐使用JDK11或更高版本。开发工具配置：使用IntelliJIDEA或Eclipse等Java开发工具，创建一个新的Maven项目。依赖库添加：
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
有趣的学习Python-第十篇：Python的“魔法宝库”：标准库之旅王盼达有趣的学习Python 学习 python 开发语言
Python不仅是一门强大的编程语言，更像是一座充满宝藏的“魔法宝库”，里面装满了各种各样的“魔法工具”（标准库）。这些“魔法工具”可以帮助你轻松地完成各种任务，从文件操作到网络编程，从数据处理到性能优化。接下来，让我们一起探索Python的“魔法宝库”，看看这些“魔法工具”到底有多神奇！10.1操作系统接口：与“魔法世界”互动os模块就像是一个“魔法接口”，可以帮助你与操作系统进行互动。你可以用
有趣的学习Python-第八篇：Python的“魔法盾牌”：错误与异常处理王盼达有趣的学习Python 学习 python 开发语言
在Python的魔法世界里，即使是经验丰富的魔法师也可能遇到一些“魔法失误”。这些失误分为两种：语法错误和异常。别担心，Python为你准备了一面强大的“魔法盾牌”，帮助你应对这些挑战。8.1语法错误：魔法咒语写错了语法错误就像是你在念魔法咒语时，不小心说错了单词。这是学习Python过程中最常见的问题。比如，你可能忘记在while循环后面加上冒号：whileTrueprint('Hellowor
Python字符串操作 weixin_30871905 python
转自http://blog.chinaunix.net/u/19742/showart_382176.html#Python字符串操作'''1.复制字符串'''#strcpy(sStr1,sStr2)sStr1='strcpy'sStr2=sStr1sStr1='strcpy2'printsStr2'''2.连接字符串'''#strcat(sStr1,sStr2)sStr1='strcat'sSt
零基础必看！CCF-GESP Python一级考点全解析：运算符这样学就对了奕澄羽邦 python 开发语言
第一章编程世界的基础工具：运算符三剑客在Python编程语言中，运算符如同魔法咒语般神奇。对于CCF-GESPPython一级考生而言，正确掌握比较运算符、算术运算符和逻辑运算符这三大基础工具，就相当于打开了数字世界的大门。这三个运算符家族共同构成了程序逻辑的核心骨架，其灵活组合能实现从简单计算到复杂判断的多样功能。1.1运算符分类图谱算术运算符：负责数字间的数学运算（+-*/%）比较运算符：用于
Python 字符串操作 iteye_13776 Python Python C C++C#
Python截取字符串使用变量[头下标:尾下标]，就可以截取相应的字符串，其中下标是从0开始算起，可以是正数或负数，下标可以为空表示取到头或尾。#例1：字符串截取str='12345678'printstr[0:1]>>1#输出str位置0开始到位置1以前的字符printstr[1:6]>>23456#输出str位置1开始到位置6以前的字符num=18str='0000'+str(num)#合并字
【Python 第五篇章】数据类型蜗牛 | ICU Python 专栏 python windows 开发语言
一、列表详解list.append(x)在列表末尾添加一个元素。list.extend(iterable)用可迭代对象的元素扩展列表。list.insert(i,x)在指定位置插入元素，第一个参数是插入元素的索引，第二个是值。list.remove(x)从列表中删除第一个值为x的元素。list.pop([i])移除列表中给定位置的条目，并返回该条目。如果未指定索引号，则a.pop()将移除并返回列
python catia catalog文件_Python封装的获取文件目录的函数卢新生 python catia catalog文件
获取指定文件夹中文件的函数，网上学习时东拼西凑的结果。注意，其中文件名如1.txt，文件路径如D:\文件夹\1.txt；direct为第一层子级importos#filePath输入文件夹全路径#mode#1递归获取所有文件名;#2递归获取所有文件路径;#3获取direct文件名;#4获取direct文件路径;#5获取direct文件名和direct子文件夹名;#6获取direct文件路径和dir
Python：每日一题之错误票据努力的敲码工蓝桥杯每日一题 python 蓝桥杯
题目描述某涉密单位下发了某种票据，并要在年终全部收回。每张票据有唯一的ID号。全年所有票据的ID号是连续的，但ID的开始数码是随机选定的。因为工作人员疏忽，在录入ID号的时候发生了一处错误，造成了某个ID断号，另外一个ID重号。你的任务是通过编程，找出断号的ID和重号的ID。假设断号不可能发生在最大和最小号。输入描述输入描述要求程序首先输入一个整数N(N<100)表示后面数据行数。接着读入N行数据
Python控制批量插入Catia文件并修改文件定义及PN 一盘红烧肉 python
改了两天，总算初步摸清楚了Catia中的文件结构，实现了使用Python控制批量修改文件名及定义使用Pycatia在Product中插入Part并改名及定义
PySide2是 Qt 库的 Python 绑定之一 WwwwwH_PLUS #Qt qt python 开发语言
PySide2是Qt库的Python绑定之一，它为Python程序员提供了创建跨平台桌面应用程序的工具和功能。PySide2是Qt5.x系列的Python绑定，而Qt本身是一个跨平台的图形用户界面（GUI）框架，广泛用于开发各种类型的桌面应用程序，包括多种平台（Windows、Linux、macOS）的应用。主要特点跨平台支持：PySide2可以在Windows、Linux和macOS上运行，允许
Python学习第十一天 Leo来编程 Python学习 python
疑惑：有很多人不知道是不是也分不清什么是单核？什么是多核？什么是时间片？进程？线程？那么在讲进程和线程前我先举个例子更好理解这些概念。单核例子：比如你是一个厨师（计算机）在一个厨房（CPU）里需要同时做3个菜（进程）、每个菜需要准备不同的调料以及协作（线程），那么这个厨师需要不断地切换时间（时间片）来达到同时在一个时间将三个菜做完。多核的话其实对应的例子就是多个厨师，这样的例子太多了因为万物皆对象
python学习第三天 Leo来编程 Python学习 python 开发语言
条件判断条件判断使用if、elif和else关键字。它们用于根据条件执行不同的代码块。#条件判断age=18ifage0:#也可以写if(s>0)但是没必要因为python给个提示建议去掉保证代码的按照缩进来进行更加规范print("这个数字是大于0的数字!")#这行代码属于if语句的代码块elifs==0:print("这个数字是等于0的数字!")#这行代码属于elif语句的代码块else:pr
三种优化算法旅者时光算法算法 python 开发语言
本文将总结遗传算法、粒子群算法、模拟退火三种优化算法的核心思路，并使用python完整实现。实际上，越来越多的优秀算法已经被封装为一个易用的接口。很多时候，一行代码就能实现我们的需求。但了解这些算法的基本逻辑，能够使用最基本的代码实现它。无论对于提升我们的编程能力还是解决问题的能力，都会大有裨益。甚至，改变我们思考问题的方式。1、遗传算法遗传算法，顾名思义，就是借鉴了生物通过遗传变异来逐渐适应环境
基于HarmonyNext的ArkTS高级实战：构建高性能跨平台应用 harmonyos-next
基于HarmonyNext的ArkTS高级实战：构建高性能跨平台应用引言随着HarmonyOSNext的发布，ArkTS作为其核心开发语言，为开发者提供了更强大的工具和更高效的开发体验。ArkTS基于TypeScript，结合了HarmonyOS的分布式能力，使得开发者能够轻松构建高性能、跨平台的应用。本文将深入探讨如何使用ArkTS在HarmonyNext平台上进行高级开发，通过实战案例讲解如何
使用 Python 合并微信与支付宝账单，生成财务报告 python后端
最近用思源笔记记东西上瘾，突然想每个月存一份收支记录进去。但手动整理账单太麻烦了，支付宝导出一份CSV，微信又导出一份，格式还不一样，每次复制粘贴头都大。干脆写了个Python脚本一键处理，核心就干两件事：把俩平台的CSV账单合并到一起自动生成带分类表格的Markdown（直接拖进思源就能渲染）代码主要折腾了这些：支付宝账单前24行都是废话，直接skiprows=24跳过去，GBK编码差点让我栽跟
Python Flask 在网页应用程序中处理错误和异常 dowhileprogramming python flask 开发语言
PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常在我们所有的代码示例中，我们没有注意如何处理用户在浏览器中输入错误的URL或向我们的应用程序发送错误的参数集的情况。这不是设计意图，但目的是首先关注网页应用程序的关键组件。网页框架的美妙之处在于，它们通常默认支持错误处理。如果发生任何错误，将自
农业生产模拟和农业政策分析：WOFOST模型与PCSE模型安装、运行、数据准备；农田农作物生长模拟和产量预测等 WangYan2022 作物模型农业 WOFOST模型 PCSE模型农田生态系统作物模型农业生产模拟
WOFOST（WorldFoodStudies）和PCSE（PythonCropSimulationEnvironment）是两个用于农业生产模拟的模型：WOFOST是一个经过多年开发和验证的模型，被广泛用于全球的农业生产模拟和农业政策分析；采用了模块化的结构，可以对不同的农作物和环境条件进行参数化和适应；WOFOST可用于长期模拟，能够模拟整个作物生长周期，包括播种、生长、收获等各个阶段；WOF
基于Python+Vue开发的电影订票管理系统源码+运行步骤冷琴1996 Python系统设计 python vue.js 开发语言
项目简介该项目是基于Python+Vue开发的电影订票管理系统（前后端分离），这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能，同时锻炼他们的项目设计与开发能力。通过学习基于Python的电影订票管理系统项目，大学生可以在实践中学习和提升自己的能力，为以后的职业发展打下坚实基础。技术学习之路主要功能影片管理：管理系统可以录入、修改和查询影片的基本信息，如
Python通过YOLO格式TXT标签文件在图像中画框 CHERISH_KDX python YOLO 人工智能
使用场景检测数据集标注是否有误：在目标检测算法中需要标注自己的数据集，为了更加方便的检查数据集标注是否有误，可以使用该工具将标注结果绘制在图像中并查看。美化识别结果中的检测框：在一些目标检测场景中，YOLO检测算法原始的检测框绘制会导致重叠、颜色冲突、字体过大等问题。可以使用该工具进行修改。代码importosimportcv2classcheck_label:def__init__(self,c
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的