_Tsun

python多进程多线程的使用

GIL 全局解释器锁

cpython解释器有，pypy解释器就没有GIL。

GIL使得同一时刻，

只有一个线程在cpu上执行字节码

也无法将多个线程映射到多个cpu上

import dis
def add(a):
	a = a + 1
	return a
	
print(dis.dis(add))
"""
多线程的时候，一个线程执行了一定的字节码后，会释放GIL锁
其他的线程，会有一个占用这个GIL锁


释放GIL锁的时机：
1.执行了一定的字节码
2.时间片
3.遇到IO操作的时候
"""

多线程编程

"""
每个进程之下，会有多个进程。
对于IO操作为主的操作来说，使用多线程较为划算。
以一个模拟的爬虫为栗子

程序：
1.一个线程去爬虫页面的url
2.一个线程去取出url,去爬取页面
"""
# mythread.py

import time
import threading


def get_detail_html(url):
    print("根据爬去的url，进入了一个页面")
    time.sleep(2)
    print("页面爬去完成")


def get_detail_url(index_url):
    print("进入首页")
    time.sleep(2)
    print("爬取更多的url")


if __name__ == "__main__":
    thread1 = threading.Thread(target=get_detail_url,args=("",))
    thread2 = threading.Thread(target=get_detail_html, args=("",))

    start_time = time.time()
    thread1.start()
    thread2.start()
    
    print(time.time()-start_time)
"""
虽然我们启动了2个线程
但是其实这个程序有三个线程
还有一个是主线程，就是我们运行的 python mythread.py 这个线程为主线程

可以看到，主线程运行完后，没有退出，而是等待子线程退出后才退出。

t.setDaemon(True) 在t.start()前加入
则主线程运行完，会关闭掉子线程，子线程中断运行，主线程退出。

t.join() 主线程会阻塞，等待线程t执行完成，然后才会向下执行。

"""

# 如果逻辑比较复杂 ，可以继承Thread类，重写run方法 。
# class A(threading.Thread)

线程间的通信-共享变量

"""
首先要了解，线程间问什么要通信。
"""

import time
import threading

detail_url_list = []


def get_detail_html(detail_url_list):
    """进入文章详情页，抓取信息"""
    while True:
        if len(detail_url_list):
            url = detail_url_list.pop()
            print("根据爬去的url，进入了一个页面")
            time.sleep(2)
            print("页面爬去完成")

            # for url in  detail_url_list:
            # 这样做，不是很合理，因为这样就又是串行抓取了
            #    print("根据爬去的url，进入了一个页面")
            #    time.sleep(2)
            #    print("页面爬去完成")


def get_detail_url(detail_url_list):
    """进入文章列表页，抓取文章的url"""
    while True:
        print("进入首页")
        time.sleep(2)
        for i in range(20):
            detail_url_list.append(f"http://edu/wenzhang/{i}")
        print("爬取更多的url")


if __name__ == "__main__":
    thread1 = threading.Thread(target=get_detail_url, args=(detail_url_list,))
    for i in range(10):
        html_thread = threading.Thread(target=get_detail_html, args=(detail_url_list,))
        html_thread.start()
    thread1.start()
    print("~~~~~~~~")
    
"""
当我们有许多变量需要维护的时候，比如这个list 
可以单独写一个点py文件，去存储这个变量 如/目录/variable.py里
from 目录 import variable
variable.url_list 就可以使用了

注意： 不要使用 from 目录.variable import url_list
	  因为引入url_list后，其他线程修改了后，我们是看不到也不知道被修改了的。
	  
	  
共享变量的也存在很多问题，线程安全问题
比如list.pop 并不是线程安全的，需要加锁。
如果对锁不够了解，不建议用作线程间通信
"""

线程间的通信-queue

from queue import Queue
# 设置最大值
q = Queue(maxsize=1000)
# 将q当参数传入

# 放入
q.put(obj) # block=True,timeout=None  、 如果block=False
# 如果为空，会阻塞到这里，q是线程安全的。
q.get()

q.qsize()#长度
q.empty()#判断是否为空
q.full()#判断是否满

# 异步的方法
put_nowait()
get_nowait()

q.task_done() # 会取消join阻塞
q.join() # 会一直阻塞住，如果想退出，必须在某个地方使用task_done方法

"""
首选用q,实现线程间通信
"""

线程同步 Lock

"""
线程同步，是多线程必须要面对的问题
举个栗子

a = 0
Q(a) # 给a+1
E(a) # 给a-1

多线程运行 Q E，多线程是按时间片，字节等因素切换cpu的，
Q执行过程 q1.声明全局变量a q2.赋值 q3.减法操作 q4.再赋值
E同Q e1 e2 e3 e4

如果执行顺序变为 q1 e1 qqee q4/e4
那么a 最终会为 1 或者 -1 就会出错
我们希望两个线程执行完后，数据a为0

实际线上生产环境中，web电商减库存的问题类似

"""

from threading import Lock 
#锁
lock = Lock()  # 可以将lock当参数传入到多线程中
lock.acquire() # 获取锁
# do something
lock.release() # 释放锁
"""
获取锁，和释放锁 影响性能，这是必然存在的 。

另外锁，会引起死锁的。
lock.acquire()
lock.acquire()
lock.release()
第二个lock.acquire()，会等待第一次lock.acquire()释放，就造成了死锁

死锁另一种情况，
A(a,b) acquire(a) acquire(b)
B(a,b) acquire(b) acquire(a)
现在 
A占有a 等待b资源
B占有b 等待a资源
相互等待，造成死锁

"""

from threading import RLock 
"""
另外一种会造成死锁
lock.acquire()
dosomethong(lock)
lock.release()
这种时候，就会无意陷入死锁，所以这时候python引入了可重入的锁
"""
block = RLock() # 就可以重入可

线程锁 threading.Condition()

import threading

class XiaoAi(threading.Thread):
    def __init__(self, cond):
        super().__init__(name="小爱")
        self.cond = cond

    def run(self):
        with self.cond:
            self.cond.wait()
            print("{} : 在 ".format(self.name))
            self.cond.notify()

            self.cond.wait()
            print("{} : 好啊 ".format(self.name))
            self.cond.notify()

            self.cond.wait()
            print("{} : 君住长江尾 ".format(self.name))
            self.cond.notify()

            self.cond.wait()
            print("{} : 共饮长江水 ".format(self.name))
            self.cond.notify()

            self.cond.wait()
            print("{} : 此恨何时已 ".format(self.name))
            self.cond.notify()

            self.cond.wait()
            print("{} : 定不负相思意 ".format(self.name))
            self.cond.notify()

class TianMao(threading.Thread):
    def __init__(self, cond):
        super().__init__(name="天猫精灵")
        self.cond = cond

    def run(self):
        with self.cond:
            print("{} : 小爱同学 ".format(self.name))
            self.cond.notify()
            self.cond.wait()

            print("{} : 我们来对古诗吧 ".format(self.name))
            self.cond.notify()
            self.cond.wait()

            print("{} : 我住长江头 ".format(self.name))
            self.cond.notify()
            self.cond.wait()

            print("{} : 日日思君不见君 ".format(self.name))
            self.cond.notify()
            self.cond.wait()

            print("{} : 此水几时休 ".format(self.name))
            self.cond.notify()
            self.cond.wait()

            print("{} : 只愿君心似我心 ".format(self.name))
            self.cond.notify()
            self.cond.wait()



if __name__ == "__main__":
    cond = threading.Condition()
    xiaoai = XiaoAi(cond)
    tianmao = TianMao(cond)
	xiaoai.start()
    tianmao.start()
"""
启动顺序很重要
在调用with cond之后才能调用wait或者notify方法
condition有两层锁， 一把底层锁会在线程调用了wait方法的时候释放， 
上面的锁会在每次调用wait的时候分配一把并放入到cond的等待队列中，等到notify方法的唤醒


with self.cond:  ==

self.cond.acquire()
#智能语音音响说的所有话
self.cond.notify()
self.cond.wait()
self.cond.notify()
self.cond.wait()
self.release()
"""

线程信号量锁 Semaphore

"""
Semaphore 是用于控制进入数量的锁
文件读写
写一般只是用于一个线程写，
读可以允许有多个

爬虫 限制爬虫的并发数
"""

import threading
import time

class HtmlSpider(threading.Thread):
    def __init__(self, url, sem):
        super().__init__()
        self.url = url
        self.sem = sem

    def run(self):
        time.sleep(2)
        print("got html text success")
        self.sem.release()

class UrlProducer(threading.Thread):
    def __init__(self, sem):
        super().__init__()
        self.sem = sem

    def run(self):
        for i in range(20):
            self.sem.acquire()
            html_thread = HtmlSpider("http://localhost/{}".format(i), self.sem)
            html_thread.start()

if __name__ == "__main__":
    sem = threading.Semaphore(3)
    url_producer = UrlProducer(sem)
    url_producer.start()
"""
sem = threading.Semaphore(3)
sem.acquire() # 数量会-1，为0会被锁住，停在sem.acquire()
sem.release() # 释放的时候会+1
这样就可以控制 线程的并发数了。
需要注意的就是sem当做参数进行传递， 还有acquire() release() 使用的位置。

Semaphore是Condition的应用（源码解析）

这里很像线程池，使用线程池会更加简单。
"""

线程池

from concurrent.futures import ThreadPoolExecutor
import time

def get_html(times):
    time.sleep(times)
    print("get page {} success".format(times))
    return times

executor = ThreadPoolExecutor(max_workers=2)
#通过submit函数提交执行的函数到线程池中, submit 是立即返回
task1 = executor.submit(get_html, (3))
task2 = executor.submit(get_html, (2))

""" 
t.done() 判断是否完成    
t.result() 阻塞的方法，获取返回值
task2.cancel() 取消任务  取消成功返回True,执行中和执行完成是取消不掉的，会返回True
"""

线程，子线程执行完毕，主线程立即获取返回值

"""
# 线程执行完毕，主线程立即获取返回值，没有顺序的（比较下一小节）
from concurrent.futures import ThreadPoolExecutor,as_completed
executor = ThreadPoolExecutor(max_workers=2)
# 启动三个线程，并将对象放入all_task中
urls = [3,2,4]
all_task = [executor.submit(get_html, (url)) for url in urls]
# 使用 as_completed  future.result()获取返回结果
for future in as_completed(all_task):
    data = future.result()
"""

线程池上面的另一种变种。

"""
# 线程执行完毕，主线程立即获取返回值，顺序不变（比较上一小节）
from concurrent.futures import ThreadPoolExecutor,as_completed
executor = ThreadPoolExecutor(max_workers=2)

# 通过executor的map实现上面的功能
for future in executor.map(get_html,urls):
	# urls是一个可迭代对象，每次将值传入func中，线程池中运行
    print(future.result())
    # 返回的顺序，和url的顺序是一致的
    # 和上面的不同，上面的是谁先执行完毕，打印谁。

"""

线程concurrent.futures的 wait

"""
阻塞，等待某一个或某一些线程执行完成后，才继续向下执行
from concurrent.futures import ThreadPoolExecutor, as_completed, wait
urls = [3,2,4]
all_task = [executor.submit(get_html, (url)) for url in urls]

wait(all_task)
wait 还有一个参数return_when = ALL_COMPLETED 为默认，所有
还有其他参数
有第一个执行完之后，等等，一共四个参数。
"""

多进程和多线程对比

import time
from concurrent.futures import ThreadPoolExecutor, as_completed
from concurrent.futures import ProcessPoolExecutor
# 多进程编程
# 耗cpu的操作，用多进程编程， 对于io操作来说， 使用多线程编程，进程切换代价要高于线程

# 对于耗费cpu的操作，多进程由于多线程
# def fib(n):
#     if n<=2:
#         return 1
#     return fib(n-1)+fib(n-2)
#
# if __name__ == "__main__":
#     with ThreadPoolExecutor(3) as executor:
#         all_task = [executor.submit(fib, (num)) for num in range(25,40)]
#         start_time = time.time()
#         for future in as_completed(all_task):
#             data = future.result()
#             print("exe result: {}".format(data))
#
#         print("last time is: {}".format(time.time()-start_time))

#2. 对于io操作来说，多线程优于多进程
def random_sleep(n):
    time.sleep(n)
    return n

if __name__ == "__main__":
    with ProcessPoolExecutor(3) as executor:
        all_task = [executor.submit(random_sleep, (num)) for num in [2]*30]
        start_time = time.time()
        for future in as_completed(all_task):
            data = future.result()
            print("exe result: {}".format(data))

        print("last time is: {}".format(time.time()-start_time))

多进程

"""
from concurrent.futures import ThreadPoolExecutor, as_completed
from concurrent.futures import ProcessPoolExecutor
以上两个 多进程和多线程的 接口是一样的
"""

os.fork

import os
#fork只能用于linux/unix中
pid = os.fork()
print("bobby")
if pid == 0:
    print('子进程 {} ，父进程是： {}.' .format(os.getpid(), os.getppid())) 
   
else:
    print('我是父进程：{}.'.format(pid))
    
"""
想一下，为什么 if else 都会执行，正常情况下不是只执行其中一个吗？
是因为fork创建了一个子进程,
主进程和子进程，拥有相同的环境资源，所以可以看到打印了两边 bobby
这时候 主进程和子进程 都有if else,都会去执行，根据判断结果，执行了不同的代码而已

os.getpid()当前进程 os.getppid()当前运行进程的父进程。
"""

多进程 multiprocessing

import time
import multiprocessing

def get_html(n):
    time.sleep(n)
    print("sub_progress success")
    return n


if __name__ == "__main__":
    progress = multiprocessing.Process(target=get_html, args=(2,))
    print(progress.pid) #None
    progress.start()
    print(progress.pid)
    progress.join()
    print("main progress end")

进程池 multiprocessing

"""
# 指明 进程数为cpu数量
pool = multiprocessing.Pool(multiprocessing.cpu_count())
# 向进程池添加任务并执行
result = pool.apply_async(get_html, args=(3,))
#等待所有任务完成
pool.close() # 关闭进程池，不再接收任务
pool.join()  # 回收
# 获取结果
result.get()
"""

进程池imap和imap_unordered


"""
for result in pool.imap(func,[1,6,3]):
	print(result) 
	# 这里result就是return回的值 
	# 这里返回顺序为列表顺序
	
	
for result in pool.imap_unordered(func,[1,6,3]):
	print(result) 
	# 这里谁先完成，谁打印
"""

进程间通信

from multiprocessing import Process, Queue, Pool, Manager, Pipe

# Queue
"""
Queue 用法同线程一样，不过要注意，是进程的Queue,此外queue不能用于pool里。
进程池pool间进程通信 用Manager().Queue(10)
"""

# Pipe 管道
"""
简化版本的Queue,只适用于两个进程
rec_pipe,send_pipe  = Pipe()
# as pipe
pipe.send("xxx")
pipe.recv() 
和socket有点像

pipe性能问题是高于queue的，某些特定情况，可以优先考虑pipe 
"""

# Manager 进程间的共享内存操作
"""
Manager().list() # 等等 可以进去看看，很多，前边线程有的进程Manager都有。

Manager().dict() 参数一样传入就可以了。
"""

python内置函数——enumerate() Believer_abby python内置函数 python
说明：emumerate()函数用于将一个可遍历的序列（如列表，元组或字符串）组合为一个索引序列，同时列出数据和数据下标，一般用在for循环中。语法：enumerate(sequence,[start=0])参数：sequence：表示一个序列、迭代器或其他支持迭代的对象；start：下标起始位置，默认为0。使用：seasons=['spring','summer','fall','winter'
【Python基础】07 实战：批量视频压缩的实现智算菩萨 python 服务器开发语言
前言在数字化时代，视频内容已成为信息传播的主要载体。无论是个人用户还是企业，都面临着大量视频文件存储和传输的挑战。视频文件通常体积庞大，占用大量存储空间，同时在网络传输时也会消耗大量带宽。因此，一个高效、易用的视频压缩工具变得尤为重要。本文将详细介绍一个基于Python开发的批量视频压缩工具，该工具结合了现代图形界面设计和强大的FFmpeg视频处理能力，为用户提供了一站式的视频压缩解决方案。通过本
前端领域：jQuery UI组件的使用指南_副本大厂前端小白菜前端开发实战前端 jquery ui ai
前端领域：jQueryUI组件的使用指南关键词：jQueryUI、前端组件、交互效果、用户界面、使用指南摘要：本文旨在为前端开发者提供一份全面的jQueryUI组件使用指南。首先介绍了jQueryUI的背景，包括其目的、适用读者、文档结构和相关术语。接着详细阐述了jQueryUI的核心概念与联系，通过文本示意图和Mermaid流程图展示其架构。然后深入讲解了核心算法原理，并给出具体操作步骤和Pyt
男模Python 函数命名以及鸡兔同笼函数 pythonyuanke python 开发语言
那么问你一个问题，现在是不是所有的函数都是def开头的？如果def就是函数的名字，那么python怎么区分该调用哪一个函数？名字都一样啊那也就是def后面的是函数名字?def后面，括号前面参数列表，这里的参数指的是形式参数，就是括号里面的部分这里只有一个形式参数，所以没有逗号，如果有多个形式参数，那么用逗号分隔参考我们在world.py里面写的几个函数，比如defadd(a,b)你说一下它的名字和
Python 开发规范：pdb & cProfile：调试 & 性能分析写文章的大米 Python 核心技术 python
↑↑↑欢迎点赞、关注、收藏！！！，10年IT行业老鸟，持续分享更多IT干货文章目录pdb&cProfile：调试&性能分析核心内容1、调试和性能分析的必要性2、pdb调试工具3、cProfile性能分析工具pdb&cProfile：调试&性能分析核心内容1、调试和性能分析的必要性在实际生产环境中，代码调试（找问题根因、修复bug）和性能分析（优化效率、减少latency）是开发关键环节。尤其，面对
Python私有属性：隐藏数据的秘密武器有奇妙能力吗知识分享 Python python 开发语言
Python私有属性详解：为什么我们需要“隐藏”对象的数据？一、引言在面向对象编程中，封装（Encapsulation）是三大基本特性之一（另外两个是继承和多态）。而“私有属性”就是实现封装的重要手段之一。在Python中虽然不像Java或C++那样严格区分访问权限，但依然提供了一种机制来限制对类内部属性的直接访问。本文将带你深入了解：什么是私有属性？如何定义私有属性？私有属性的原理与注意事项使用
Python中filter()函数详解有奇妙能力吗 Python 知识分享 python 开发语言
什么是filter()？filter()是Python内置的一个函数，它的作用是：从一个可迭代对象（如列表、元组等）中筛选出符合条件的元素，生成一个新的迭代器。你可以把它理解成一个“过滤器”：你给它一堆数据和一个筛选条件，它会帮你把符合这个条件的数据挑出来。基本语法filter(函数,可迭代对象)第一个参数是一个函数，它用来判断每个元素是否符合条件。第二个参数是一个可迭代对象，比如列表、元组、字符
Python命名空间：名字管理的秘密
什么是命名空间？你可以把命名空间想象成一个“名字的电话簿”：它记录了你程序中使用的各种名字（变量名、函数名、类名等）和它们对应的内容。比如你写了一个变量x=10，Python就会在某个命名空间里记下：“哦，用户用了x这个名字，它代表的是10。”命名空间的类型（就像不同的电话本）Python中有几种不同作用范围的命名空间，我们可以理解为是不同层级的“电话本”：1.内置命名空间（Built-inNam
python中的运算符走过.. python 开发语言
目录文章目录前言一、算数运算符1.算数运算符包括+，-，*，/，**，//，%1.1、加减乘除（+，-，*，/）运算符的使用1.2、**是求次方m的n次方1.3、%是求余，m%2可以用来验证奇数偶数0为偶，1为奇数。m%n有n中情况，m%n==0证明m是n的倍数。二、赋值运算符1.赋值运算符有=,+=,-=,*=,/=,//=,**=,%=1.1赋予（=）1.2（+，-，*，/，**，//，%）=
暖通锅炉的智能管控：物联网实现节能又舒适蓝蜂物联网物联网人工智能
暖通锅炉系统在建筑供暖、工业供热等领域扮演着重要角色，其运行效率和能源消耗直接关系到用户的使用体验和成本支出。传统的暖通锅炉管理方式往往依赖人工操作和经验判断，存在能耗高、调节不灵活、舒适性差等问题。随着物联网技术的发展，暖通锅炉的智能管控成为可能，蓝蜂凭借先进的技术和创新的解决方案，为暖通锅炉管理带来了全新变革。蓝蜂基于物联网技术，打造了智能高效的暖通锅炉管控系统。在建筑供暖场景中，蓝蜂部署了一
Kubernetes Pod调度基础别骂我h 个人笔记容器
目录一、ReplicationController和ReplicaSet1.ReplicationControllerReplicationController的使用示例2.标签与标签选择器标签标签选择器标签与标签选择器举例3.ReplicaSet定义ReplicaSet实例二、无状态应用管理Deployment1.什么是无状态2.无状态服务特点3.无状态服务的应用场景4.创建Deployment
【Python 中的几类运算符】
文章目录文章目录一、算术运算符二、比较运算符三、赋值运算符四、逻辑运算符附加知识：五、其他运算符1.位运算符2.成员运算符3.身份运算符总结一、算术运算符加法（+）：用于两个数值相加。例如，a=5，b=3，a+b的结果为8。也可以用于字符串拼接，如"Hello,"+"World"的结果为"Hello,World"。示例：a=5b=3result=a+bprint("求和",result)a="He
Windows PowerShell中无法将"python"项识别为cmdlet、函数、脚本文件或可运行程序的名称 xqhrs232 ROS系统/Python
原文地址::https://blog.csdn.net/Blateyang/article/details/86421594相关文章1、如何在Powershell中运行python程序?----https://cloud.tencent.com/developer/ask/1426072、Windows下如何方便的运行py脚本----https://blog.csdn.net/Naisu_kun/
Vscode中Python无法将pip/pytest”项识别为 cmdlet、函数、脚本文件或可运行程序的名称
在Python需要pip下载插件时报错，是因为没有把Python安装路径下的Scripts添加到系统的path路径中。如果到了对应路径没发现pip文件，查看是否有pip相关文件，一般会存在pip3命令行使用pip3install后会进行提示更新，按照提示进行更新即可bug2：通过piplist发现其实已经安装pytest但使用pytest--version提示相同错误可通过pipuninstall
Python中if name == ‘main‘的妙用 el psy congroo Python python
参考：Python中的ifname==‘main’是干嘛的？先运行下面代码：print(__name__)if__name__=="__main__":print(__name__)print("helloworld")print(__name__)当py文件作为主程序直接运行时，__name__无论在哪都是__main__那if__name__=="__main__"有什么用呢?一个py文件也是
Java线程池源码分析，深度解读努力的橙子go java 开发语言
前言本文将深入分析Java线程池的源码，包括线程池的创建、任务提交、工作线程的执行和线程池的关闭等过程。通过对线程池源码的解析，我们能够更好地理解线程池的原理和机制，为我们在实际开发中合理使用线程池提供指导。文章内容较长，建议找个安静的环境慢慢细读。线程池简介概念在传统的多线程编程中，每次需要执行任务时都会创建一个新的线程，任务执行完毕后再销毁该线程。这种方式存在一些问题，例如频繁创建和销毁线程会
Python爬取与可视化-豆瓣电影数据木子空间Pro 项目集锦 #课程设计 python 信息可视化开发语言
引言在数据科学的学习过程中，数据获取与数据可视化是两项重要的技能。本文将展示如何通过Python爬取豆瓣电影Top250的电影数据，并将这些数据存储到数据库中，随后进行数据分析和可视化展示。这个项目涵盖了从数据抓取、存储到数据可视化的整个过程，帮助大家理解数据科学项目的全流程。环境配置与准备工作在开始之前，我们需要确保安装了一些必要的库：urllib：用于发送HTTP请求和获取网页数据Beauti
突破反爬防线：Python3反爬虫原理与绕过策略深度解析程序员威哥爬虫网络 scrapy python 开发语言
在信息化时代，数据已成为互联网的重要资产。为了保护数据的安全和防止恶意抓取，越来越多的网站开始采用反爬虫技术。然而，随着反爬虫技术的不断演化，爬虫开发者面临的挑战也在日益增大。如何理解反爬虫原理并有效绕过这些防护措施，是每个爬虫开发者必须掌握的技能。本文将全面解析Python3在爬虫开发中的应用，深入探讨常见的反爬虫原理，并提供绕过反爬策略的实战经验。通过结合实际案例，帮助开发者掌握应对复杂反爬措
基于Python的携程景点评价爬虫与情感评分分析程序员威哥 python 爬虫开发语言
一、项目背景携程（Ctrip）是中国最流行的旅游预订平台之一，其景点用户评论包含了大量真实的游客反馈。通过分析评论的情感倾向，可以：为用户提供更可靠的景点推荐辅助景区运营方了解用户口碑构建情感评分系统，为评分失衡提供补充二、项目目标自动化抓取携程指定景点的用户评论清洗与分词评论文本对评论进行情感分析打分分析整体情绪趋势并可视化结果三、技术栈与工具模块工具/库数据爬取requests,re,json
从0到1构建智能招聘数据引擎：基于 Python 的 BOSS直聘信息采集实战与反爬破解指南程序员威哥 python 开发语言
前言在大数据浪潮席卷的时代，招聘平台蕴藏着海量的岗位信息，揭示着行业走向、人才趋势、薪资结构等核心价值。BOSS直聘作为国内极具代表性的直招平台，其数据对职业分析、市场监测甚至智能推荐系统的构建都有着重要意义。本文将手把手带你打造一个高质量、抗封锁的Python爬虫系统，精准采集BOSS直聘网的岗位数据，并全面解析其中涉及的反爬机制识别、加密参数处理、数据提取与存储等高级技巧，助你在Web数据采集
揭秘影评数据的金矿：基于 Python 的豆瓣电影排行榜热度挖掘与数据智能分析实战程序员威哥 python 开发语言
前言：从数据出发，看见银幕之外的流行密码在内容为王的时代，影视作品既是大众娱乐的主阵地，也是数据分析的重要入口。豆瓣作为中国最具影响力的影视评分平台之一，凝聚了数千万用户对电影、剧集的真实反馈。本文将带你一步步深入，从爬取豆瓣电影排行榜数据出发，结合Python技术栈，构建一个完整的热门电影数据采集+分析+可视化系统。我们不仅要采数据，更要从中挖掘背后的价值：哪些类型影片最受欢迎？评分是否与评论数
微博热搜数据采集全攻略：利用 Python 爬虫实时捕捉社会热点与舆情风向程序员威哥 python 爬虫开发语言
微博作为国内最具影响力的社交媒体平台，其热搜榜单被广泛认为是社会热点的风向标。无论是娱乐八卦、社会事件，还是突发新闻，微博热搜往往能够迅速反映出公众关注的焦点。对于数据分析师、舆情监测专家、或者企业品牌分析师来说，如何抓取并分析这些实时热搜数据，已成为一种核心竞争力。在这篇文章中，我们将结合Python爬虫技术，深入探讨如何高效抓取微博热搜数据，如何规避反爬虫机制，如何处理与存储数据，并展示如何利
Python知识点：如何使用Nvidia Jetson与Python进行边缘计算杰哥在此 Python系列 python 边缘计算开发语言面试编程
开篇，先说一个好消息，截止到2025年1月1日前，翻到文末找到我，赠送定制版的开题报告和任务书，先到先得！过期不候！如何使用NvidiaJetson与Python进行边缘计算NvidiaJetson平台是专为边缘计算设计的一系列AI计算机，它们能够处理和分析来自物联网(IoT)设备和边缘节点的数据。这些设备小巧、节能且功能强大，非常适合用于执行机器学习、计算机视觉和自然语言处理等任务。Python
AI工作流平台对比分析 come11234 Ai 人工智能
以下是和「扣子工作流」（KoFlow）类似的AI工作流平台对比分析，涵盖主流工具的核心特点、使用方式、优缺点及区别：一、主流工作流平台分类平台类型核心定位代表用户扣子(KoFlow)低代码AI流程中文场景优化，深度集成大模型中文开发者/企业LangChain代码框架开发者灵活构建AI链Python开发者/AI工程师LlamaIndex数据增强框架企业级RAG（检索增强生成）数据工程师/知识库应用M
Python爬虫（57）Python数据可视化全攻略：Matplotlib从入门到三维动态图表（8000字实战教程）一个天蝎座白勺程序猿 Python爬虫入门到高阶实战 python 爬虫信息可视化
目录背景与需求分析第一章：Matplotlib基础与核心工作流1.1环境配置与基础架构1.2基础图表类型实战1.2.1折线图进阶1.2.2分组柱状图第二章：高阶可视化技术2.1子图矩阵与多面板布局2.2动态可视化与动画第三章：行业案例实战案例1：电商用户行为分析案例2：医疗影像数据可视化第四章：可视化美学与工程优化4.1配色方案实战4.2百万级数据渲染优化第五章：交互式扩展方案5.1Matplot
Vue 响应式数据传递：ref、reactive 与 Provide/Inject 完全指南
Vue响应式数据传递：ref、reactive与Provide/Inject完全指南理解如何在不同组件层级间传递响应式数据是Vue开发的关键技能。我将深入探讨ref和reactive配合provide/inject的使用场景和最佳实践。响应式数据与跨层级传递架构提供数据无法传递数据provideinject根组件App.vue中间组件Container.vueDeepChild.vue在多层组件嵌
Java与Kotlin中的泛型之：擦除、不变、协变、逆变 Σ冰咖啡 java kotlin
Java与Kotlin中的泛型之：擦除、不变、协变、逆变前言对于Java中泛型的使用方法和应用场景等，不在本文章中作讨论，在阅读此篇文章时，我已经默认你对Java泛型有了一个较为清楚的认识和较为熟悉的应用熟练度。代码中的部分声明因篇幅原因没办法完全展示，只展示关键代码，但是别担心，你一定能看懂。本文章的内容均参考《Kotlin核心编程》中对该知识点的讲述，以及结合本人的实际开发经验。概述Java中
Python多进程编程
Python多任务提升程序性能之一---------多进程#Python的多进程编程的方法是multiprocessing，他是可以在当前的主进程下面去创建n个子进程所以所以他，执行相当于n+1个进程#首先导入multimprocessing包importmultiprocessing#防止执行熟读太快看出出多进程的区别importtime#编写尊卑使用多进程的方法deftest01():fori
python三角网格代码_Python 实现 Delaunay Triangulation weixin_39828457 python三角网格代码
DelaunayTriangulation是一种空间划分的方法，它能使得分割形成的三角形最小的角尽可能的大，关于DelaunayTriangulation的详细介绍，请参考这里，DelaunayTriangulation在很多领域都有应用，科学计算领域它是有限元和有限体积法划分网格的重要方法，除此之外在图像识别、视觉艺术等领域也有它的身影。贴一段有趣的油管视频，用DelaunayTriangula
c语言创建对象变量,对象的建立和使用 Damien丶 c语言创建对象变量
大家还记得上节课的“类是对象的抽象和概括，而对象是类的具体和实例。”这句话吗，学会类的定义之后，下一步就是对象的创建和使用了1.对象的创建类就是包含函数的结构体，是一种自定义数据类型，用它定义出来变量，就是对象，这就是所谓的“对象是类的具体和实例”，定义了一个这个类的对象，也可以说实例化了一个对象，就是这个意思！而对象的使用，和结构体的使用也一样，都是主要访问里面的成员，也都是用过.的方式来访问，
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$

python多进程多线程的使用

GIL 全局解释器锁

多线程编程

线程间的通信-共享变量

线程间的通信-queue

线程同步 Lock

线程 锁 threading.Condition()

线程 信号量 锁 Semaphore

线程池

线程，子线程执行完毕，主线程立即获取返回值

线程池 上面的另一种变种。

线程concurrent.futures的 wait

多进程和多线程对比

多进程

os.fork

多进程 multiprocessing

进程池 multiprocessing

进程间通信

你可能感兴趣的:(python多进程多线程的使用)

线程锁 threading.Condition()

线程信号量锁 Semaphore

线程池上面的另一种变种。