NealHuiwen

Python爬虫的N种姿势，异步，并发，scrapy效率比较

问题的由来

前几天，在微信公众号（Python爬虫及算法）上有个人问了笔者一个问题，如何利用爬虫来实现如下的需求，需要爬取的网页如下（网址为：https://www.wikidata.org/w/index.php?title=Special:WhatLinksHere/Q5&limit=500&from=0）：

我们的需求为爬取红色框框内的名人（有500条记录，图片只展示了一部分）的名字以及其介绍，关于其介绍，点击该名人的名字即可，如下图：

这就意味着我们需要爬取500个这样的页面，即500个HTTP请求（暂且这么认为吧），然后需要提取这些网页中的名字和描述，当然有些不是名人，也没有描述，我们可以跳过。最后，这些网页的网址在第一页中的名人后面可以找到，如George Washington的网页后缀为Q23.
爬虫的需求大概就是这样。

爬虫的N中姿势

首先，分析来爬虫的思路：先在第一个网页（https://www.wikidata.org/w/index.php?title=Special:WhatLinksHere/Q5&limit=500&from=0）中得到500个名人所在的网址，接下来就爬取这500个网页中的名人的名字及描述，如无描述，则跳过。
接下来，我们将介绍实现这个爬虫的4种方法，并分析它们各自的优缺点，希望能让读者对爬虫有更多的体会。实现爬虫的方法为：

一般方法（同步，requests+BeautifulSoup）
并发（使用concurrent.futures模块以及requests+BeautifulSoup）
异步（使用aiohttp+asyncio+requests+BeautifulSoup）
使用框架Scrapy

一般方法

一般方法即为同步方法，主要使用requests+BeautifulSoup，按顺序执行。完整的Python代码如下：

import requests
from bs4 import BeautifulSoup
import time

# 开始时间
t1 = time.time()
print('#' * 50)

url = "http://www.wikidata.org/w/index.php?title=Special:WhatLinksHere/Q5&limit=500&from=0"
# 请求头部
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'}
# 发送HTTP请求
req = requests.get(url, headers=headers)
# 解析网页
soup = BeautifulSoup(req.text, "lxml")
# 找到name和Description所在的记录
human_list = soup.find(id='mw-whatlinkshere-list')('li')

urls = []
# 获取网址
for human in human_list:
    url = human.find('a')['href']
    urls.append('https://www.wikidata.org'+url)

# 获取每个网页的name和description
def parser(url):
    req = requests.get(url)
    # 利用BeautifulSoup将获取到的文本解析成HTML
    soup = BeautifulSoup(req.text, "lxml")
    # 获取name和description
    name = soup.find('span', class_="wikibase-title-label")
    desc = soup.find('span', class_="wikibase-descriptionview-text")
    if name is not None and desc is not None:
        print('%-40s,\t%s'%(name.text, desc.text))

for url in urls:
    parser(url)

t2 = time.time() # 结束时间
print('一般方法，总共耗时：%s' % (t2 - t1))
print('#' * 50)

输出的结果如下(省略中间的输出，以......代替)：

##################################################
George Washington                       ,	first President of the United States
Douglas Adams                           ,	British author and humorist (1952–2001)
......
Willoughby Newton                       ,	Politician from Virginia, USA
Mack Wilberg                            ,	American conductor
一般方法，总共耗时：724.9654655456543
##################################################

使用同步方法，总耗时约725秒，即12分钟多。
一般方法虽然思路简单，容易实现，但效率不高，耗时长。那么，使用并发试试看。

并发方法

并发方法使用多线程来加速一般方法，我们使用的并发模块为concurrent.futures模块，设置多线程的个数为20个（实际不一定能达到，视计算机而定）。完整的Python代码如下：

import requests
from bs4 import BeautifulSoup
import time
from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED

# 开始时间
t1 = time.time()
print('#' * 50)

url = "http://www.wikidata.org/w/index.php?title=Special:WhatLinksHere/Q5&limit=500&from=0"
# 请求头部
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'}
# 发送HTTP请求
req = requests.get(url, headers=headers)
# 解析网页
soup = BeautifulSoup(req.text, "lxml")
# 找到name和Description所在的记录
human_list = soup.find(id='mw-whatlinkshere-list')('li')

urls = []
# 获取网址
for human in human_list:
    url = human.find('a')['href']
    urls.append('https://www.wikidata.org'+url)

# 获取每个网页的name和description
def parser(url):
    req = requests.get(url)
    # 利用BeautifulSoup将获取到的文本解析成HTML
    soup = BeautifulSoup(req.text, "lxml")
    # 获取name和description
    name = soup.find('span', class_="wikibase-title-label")
    desc = soup.find('span', class_="wikibase-descriptionview-text")
    if name is not None and desc is not None:
        print('%-40s,\t%s'%(name.text, desc.text))

# 利用并发加速爬取
executor = ThreadPoolExecutor(max_workers=20)
# submit()的参数： 第一个为函数， 之后为该函数的传入参数，允许有多个
future_tasks = [executor.submit(parser, url) for url in urls]
# 等待所有的线程完成，才进入后续的执行
wait(future_tasks, return_when=ALL_COMPLETED)

t2 = time.time() # 结束时间
print('并发方法，总共耗时：%s' % (t2 - t1))
print('#' * 50)

输出的结果如下（省略中间的输出，以......代替)：

##################################################
Larry Sanger                            ,	American former professor, co-founder of Wikipedia, founder of Citizendium and other projects
Ken Jennings                            ,	American game show contestant and writer
......
Antoine de Saint-Exupery                ,	French writer and aviator
Michael Jackson                         ,	American singer, songwriter and dancer
并发方法，总共耗时：226.7499692440033
##################################################

使用多线程并发后的爬虫执行时间约为227秒，大概是一般方法的三分之一的时间，速度有了明显的提升啊！多线程在速度上有明显提升，但执行的网页顺序是无序的，在线程的切换上开销也比较大，线程越多，开销越大。
关于多线程与一般方法在速度上的比较，可以参考文章：Python爬虫之多线程下载豆瓣Top250电影图片。

异步方法

异步方法在爬虫中是有效的速度提升手段，使用aiohttp可以异步地处理HTTP请求，使用asyncio可以实现异步IO，需要注意的是，aiohttp只支持3.5.3以后的Python版本。使用异步方法实现该爬虫的完整Python代码如下：

import requests
from bs4 import BeautifulSoup
import time
import aiohttp
import asyncio

# 开始时间
t1 = time.time()
print('#' * 50)

url = "http://www.wikidata.org/w/index.php?title=Special:WhatLinksHere/Q5&limit=500&from=0"
# 请求头部
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'}
# 发送HTTP请求
req = requests.get(url, headers=headers)
# 解析网页
soup = BeautifulSoup(req.text, "lxml")
# 找到name和Description所在的记录
human_list = soup.find(id='mw-whatlinkshere-list')('li')

urls = []
# 获取网址
for human in human_list:
    url = human.find('a')['href']
    urls.append('https://www.wikidata.org'+url)

# 异步HTTP请求
async def fetch(session, url):
    async with session.get(url) as response:
        return await response.text()
        
# 解析网页
async def parser(html):
    # 利用BeautifulSoup将获取到的文本解析成HTML
    soup = BeautifulSoup(html, "lxml")
    # 获取name和description
    name = soup.find('span', class_="wikibase-title-label")
    desc = soup.find('span', class_="wikibase-descriptionview-text")
    if name is not None and desc is not None:
        print('%-40s,\t%s'%(name.text, desc.text))

# 处理网页，获取name和description
async def download(url):
    async with aiohttp.ClientSession() as session:
        try:
            html = await fetch(session, url)
            await parser(html)
        except Exception as err:
            print(err)

# 利用asyncio模块进行异步IO处理
loop = asyncio.get_event_loop()
tasks = [asyncio.ensure_future(download(url)) for url in urls]
tasks = asyncio.gather(*tasks)
loop.run_until_complete(tasks)

t2 = time.time() # 结束时间
print('使用异步，总共耗时：%s' % (t2 - t1))
print('#' * 50)

输出结果如下（省略中间的输出，以......代替)：

##################################################
Frédéric Taddeï                         ,	French journalist and TV host
Gabriel Gonzáles Videla                 ,	Chilean politician
......
Denmark                                 ,	sovereign state and Scandinavian country in northern Europe
Usain Bolt                              ,	Jamaican sprinter and soccer player
使用异步，总共耗时：126.9002583026886
##################################################

显然，异步方法使用了异步和并发两种提速方法，自然在速度有明显提升，大约为一般方法的六分之一。异步方法虽然效率高，但需要掌握异步编程，这需要学习一段时间。
关于异步方法与一般方法在速度上的比较，可以参考文章：利用aiohttp实现异步爬虫。
如果有人觉得127秒的爬虫速度还是慢，可以尝试一下异步代码（与之前的异步代码的区别在于：仅仅使用了正则表达式代替BeautifulSoup来解析网页，以提取网页中的内容）：

import requests
from bs4 import BeautifulSoup
import time
import aiohttp
import asyncio
import re

# 开始时间
t1 = time.time()
print('#' * 50)

url = "http://www.wikidata.org/w/index.php?title=Special:WhatLinksHere/Q5&limit=500&from=0"
# 请求头部
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'}
# 发送HTTP请求
req = requests.get(url, headers=headers)
# 解析网页
soup = BeautifulSoup(req.text, "lxml")
# 找到name和Description所在的记录
human_list = soup.find(id='mw-whatlinkshere-list')('li')

urls = []
# 获取网址
for human in human_list:
    url = human.find('a')['href']
    urls.append('https://www.wikidata.org' + url)

# 异步HTTP请求
async def fetch(session, url):
    async with session.get(url) as response:
        return await response.text()

# 解析网页
async def parser(html):
    # 利用正则表达式解析网页
    try:
        name = re.findall(r'(.+?)', html)[0]
        desc = re.findall(r'(.+?)', html)[0]
        print('%-40s,\t%s' % (name, desc))
    except Exception as err:
        pass

# 处理网页，获取name和description
async def download(url):
    async with aiohttp.ClientSession() as session:
        try:
            html = await fetch(session, url)
            await parser(html)
        except Exception as err:
            print(err)

# 利用asyncio模块进行异步IO处理
loop = asyncio.get_event_loop()
tasks = [asyncio.ensure_future(download(url)) for url in urls]
tasks = asyncio.gather(*tasks)
loop.run_until_complete(tasks)

t2 = time.time()  # 结束时间
print('使用异步（正则表达式），总共耗时：%s' % (t2 - t1))
print('#' * 50)

输出的结果如下（省略中间的输出，以......代替)：

##################################################
Dejen Gebremeskel                       ,	Ethiopian long-distance runner
Erik Kynard                             ,	American high jumper
......
Buzz Aldrin                             ,	American astronaut
Egon Krenz                              ,	former General Secretary of the Socialist Unity Party of East Germany
使用异步（正则表达式），总共耗时：16.521944999694824
##################################################

16.5秒，仅仅为一般方法的43分之一，速度如此之快，令人咋舌（感谢某人提供的尝试）。笔者虽然自己实现了异步方法，但用的是BeautifulSoup来解析网页，耗时127秒，没想到使用正则表达式就取得了如此惊人的效果。可见，BeautifulSoup解析网页虽然快，但在异步方法中，还是限制了速度。但这种方法的缺点为，当你需要爬取的内容比较复杂时，一般的正则表达式就难以胜任了，需要另想办法。

爬虫框架Scrapy

最后，我们使用著名的Python爬虫框架Scrapy来解决这个爬虫。我们创建的爬虫项目为wikiDataScrapy，项目结构如下：

在settings.py中设置“ROBOTSTXT_OBEY = False”. 修改items.py，代码如下：

# -*- coding: utf-8 -*-

import scrapy

class WikidatascrapyItem(scrapy.Item):
    # define the fields for your item here like:
    name = scrapy.Field()
    desc = scrapy.Field()

然后，在spiders文件夹下新建wikiSpider.py，代码如下:

import scrapy.cmdline
from wikiDataScrapy.items import WikidatascrapyItem
import requests
from bs4 import BeautifulSoup

# 获取请求的500个网址，用requests+BeautifulSoup搞定
def get_urls():
    url = "http://www.wikidata.org/w/index.php?title=Special:WhatLinksHere/Q5&limit=500&from=0"
    # 请求头部
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'}
    # 发送HTTP请求
    req = requests.get(url, headers=headers)
    # 解析网页
    soup = BeautifulSoup(req.text, "lxml")
    # 找到name和Description所在的记录
    human_list = soup.find(id='mw-whatlinkshere-list')('li')

    urls = []
    # 获取网址
    for human in human_list:
        url = human.find('a')['href']
        urls.append('https://www.wikidata.org' + url)

    # print(urls)
    return urls

# 使用scrapy框架爬取
class bookSpider(scrapy.Spider):
    name = 'wikiScrapy'  # 爬虫名称
    start_urls = get_urls()  # 需要爬取的500个网址

    def parse(self, response):
        item = WikidatascrapyItem()
        # name and description
        item['name'] = response.css('span.wikibase-title-label').xpath('text()').extract_first()
        item['desc'] = response.css('span.wikibase-descriptionview-text').xpath('text()').extract_first()

        yield item

# 执行该爬虫，并转化为csv文件
scrapy.cmdline.execute(['scrapy', 'crawl', 'wikiScrapy', '-o', 'wiki.csv', '-t', 'csv'])

输出结果如下（只包含最后的Scrapy信息总结部分）：

{'downloader/request_bytes': 166187,
 'downloader/request_count': 500,
 'downloader/request_method_count/GET': 500,
 'downloader/response_bytes': 18988798,
 'downloader/response_count': 500,
 'downloader/response_status_count/200': 500,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2018, 10, 16, 9, 49, 15, 761487),
 'item_scraped_count': 500,
 'log_count/DEBUG': 1001,
 'log_count/INFO': 8,
 'response_received_count': 500,
 'scheduler/dequeued': 500,
 'scheduler/dequeued/memory': 500,
 'scheduler/enqueued': 500,
 'scheduler/enqueued/memory': 500,
 'start_time': datetime.datetime(2018, 10, 16, 9, 48, 44, 58673)}

可以看到，已成功爬取500个网页，耗时31秒，速度也相当OK。再来看一下生成的wiki.csv文件，它包含了所有的输出的name和description，如下图：

可以看到，输出的CSV文件的列并不是有序的。至于如何解决Scrapy输出的CSV文件有换行的问题，请参考stackoverflow上的回答：https://stackoverflow.com/questions/39477662/scrapy-csv-file-has-uniform-empty-rows/43394566#43394566 。

Scrapy来制作爬虫的优势在于它是一个成熟的爬虫框架，支持异步，并发，容错性较好（比如本代码中就没有处理找不到name和description的情形），但如果需要频繁地修改中间件，则还是自己写个爬虫比较好，而且它在速度上没有超过我们自己写的异步爬虫，至于能自动导出CSV文件这个功能，还是相当实在的。

总结

本文内容较多，比较了4种爬虫方法，每种方法都有自己的利弊，已在之前的陈述中给出，当然，在实际的问题中，并不是用的工具或方法越高级就越好，具体问题具体分析嘛~

本文到此结束，感谢阅读哦~

python运行路径和脚本文件所在路径 Wiseehw Python
我在sublimeText2编辑python脚本程序，用ipython导入脚本模块，打开文件时总是报错，原来是路径问题deffile2matrix(filename):fp=open(filename,'r')datalines=fp.readlines()lenlines=len(datalines)dataSet=np.zeros((lenlines,3))labels=[]index=0fo
揭秘！100 个 Python 常用易错知识点的避坑指南 tekin Python python Python 易错点 Python 编程避坑 Python 知识总结 Python 基础与进阶 Python 代码优化 Python 常见错误解析
目录简介1.类方法命名中的下划线2.函数形参中的*和**3.函数实参中的*4.变量作用域5.浅拷贝和深拷贝6.默认参数的陷阱7.迭代器和生成器相关迭代器使用后耗尽生成器表达式和列表推导式混淆8.异常处理相关捕获异常范围过大异常处理中的finally子句9.多线程和多进程相关全局解释器锁（GIL）误解多线程性能提升多进程中的资源共享问题10.字符串编码问题编码和解码错误11.模块导入相关循环导入问题
Deepseek与doubao|tongyi|wenxin三个大模型对比编写数据处理脚本 AI技术老狗（QA） Deepseek 大模型 AI编写脚本
‌DeepSeek在编写脚本方面的能力非常强大，尤其在编程、推理和数学计算方面展现出了超越普通AI的能力‌。DeepSeek的核心优势在于其编程能力的显著提高，能够轻松应对前端脚本和后端逻辑的编写，大大降低了程序员编写代码的难度。今天我们就对比下deepseek、豆包、通义千问、文心一言这四个进行一下对比，对比的题目为：《帮我写一个处理excel数据的python脚本，要求：100万条数据，去除重
python工作目录与文件目录我家大宝最可爱 python 开发语言
总结open函数中的相对路径是以工作目录为基准的import导入package时，相对路径是以当前执行import的文件路径为基准的由于python规定顶层模块不能作为package，因此import只能导入当前文件所在的目录以及子路下的package，无法导入上层目录的pakcage，例如import..xxx是不行的，只能是importx或者importx.y想要导入上层目录的package，
logging 日志同时输出到控制台（踩坑：python2 vs python3使用差异) freesonWANG 入门 python logging
一段python3生效的代码：importloggingforhandlerinlogging.root.handlers[:]:logging.root.removeHandler(handler)logging.basicConfig(level=logging.DEBUG,format=
踩坑记录: Python的工作路径(working dircetory) neowell 个人笔记 python 开发语言
本部分不涉及模块搜索方式的具体解释,有兴趣可以看看我之前的笔记:Python中令人困惑的模块导入.问题描述项目简介首先给出一个简单的项目结构:root└──random_dir├──random_file.py└──text_file.txtroot是项目的根目录,旗下只有一个名为random_dir的文件夹,在这个文件夹内,有一个python的脚本文件random_file.py,以及一份空的文
Github 2024-06-20 开源项目日报 Top10 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2024-06-20统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目4TypeScript项目4Rust项目2JavaScript项目1Dart项目1Java项目1Go项目1RustDesk:用Rust编写的开源远程桌面软件创建周期：1218天开发语言：Rust,Dart协议类型：GNUAfferoG
不安装python怎么运行py_如何不用安装python就可以运行.py文件？ weixin_39632471 不安装python怎么运行py
解决这个问题的便携版的python不能直接运行py文件。解决这个问题的便携版的python不能直接运行py文件。协会:直接运行.py文件没有windows下的一个前缀。协会:python的便携版的问题不能直接运行python脚本。直接运行py文件\u2026为了方便部署,您需要编译Python源代码到一个可执行文件,和编译后的可执行文件可以运行的Python环境。你好!这是你第一次使用欢迎页面显示
python引用其他文件提示找不到模块_命令行执行python模块时提示ImportError: No module named xxx... weixin_39644146
在pycharm中运行python文件没有问题，切换到cmd中是提示：ImportError:Nomodulenamedxxx原因：pycharm在运行时会把当前工程的所有文件夹路径都作为包的搜索路径，而命令行默认只是搜索当前路径。’解决方法：在出错的模块中加上importsysimportoscurPath=os.path.abspath(os.path.dirname(__file__))ro
集群与分片：深入理解及应用实践一休哥助手架构系统架构
目录引言什么是集群？集群的定义集群的类型什么是分片？分片的定义分片的类型集群与分片的关系集群的应用场景负载均衡高可用性分片的应用场景大数据处理数据库分片集群与分片的架构设计系统架构设计数据存储设计案例分析Hadoop集群Elasticsearch分片性能优化策略集群性能优化分片性能优化挑战和解决方案总结参考资料引言在现代计算系统中，处理大规模数据和提高系统的可靠性已经成为了基础需求。集群和分片是两
python3 + selenium webdriver自动化测试启动不同浏览器 cs_mengxi selenium Web自动化 selenium 测试工具
seleniumwebdriver自动化测试启动不同浏览器seleniumwebdriver介绍SeleniumWebDriver进行自动化测试的一般流程浏览器驱动下载浏览器驱动的安装chrome、edge、Firefox、Opera、Safari、phantomjs应用HeadlessChrome、HeadlessFirefox应用seleniumwebdriver介绍SeleniumWebDr
通过命令行运行py文件与通过ide运行py文件，对文件中模块的引用方式的影响 yaoshengting python python
通过命令行运行Python文件和通过IDE运行Python文件时，模块的引用方式会受到一些影响，主要体现在工作目录和模块导入路径（sys.path）的设置上。下面详细介绍这两种方式的区别和它们如何影响模块引用。1.通过命令行运行Python文件当你通过命令行运行Python文件时，Python会根据你在命令行中指定的路径来查找模块。通常情况下，当前工作目录（即你运行Python命令的目录）会被添加
Python删除文件与文件夹：remove()、rmdir() 大数据张老师 Python程序设计 python 开发语言运维
Python删除文件与文件夹：remove()、rmdir()在文件和目录管理中，删除操作是非常重要的一部分。Python提供了os模块中的remove()和rmdir()方法来删除文件和文件夹。本节将详细讲解这两个方法的用法、注意事项以及它们的适用场景，帮助读者准确掌握删除文件与文件夹的操作。1.删除文件：os.remove()os.remove()方法用于删除指定路径的文件。当路径对应的目标为
python中datetime模块时间的使用幸运的星竹 Python python 开发语言
python中，有两个模块用来表示时间，一个是time模块，一个是datetime模块。之前我们讲述过time模块怎么使用时间，这篇我们看下datetime模块怎么表达时间。datetime类型是一个比较综合的类型，它下面有子包datetime.date专门用来表示日期，datetime.time专门用来表示时间，而datetime.datetime就表示日期时间，其中还有datetime.dat
python中os的常用方法神即道道法自然如来 python python
os.path常用方法：os.getcwd()获取当前工作目录，即当前python脚本工作的目录路径os.chdir("dirname")改变当前脚本工作目录；相当于shell下cdos.curdir返回当前目录:('.')os.pardir获取当前目录的父目录字符串名：('..')os.makedirs('dirname1/dirname2')可生成多层递归目录os.removedirs('di
爬虫工具yt-dlp 港漂青铜康爬虫 dlp
yt-dlp是youtube-dlp的一个fork，youtube-dlp曾经也较为活跃，但后来被众多网站屏蔽，于是大家转而在其基础上开发yt-dlp。yt-dlp的github项目地址为：GitHub-yt-dlp/yt-dlp:Afeature-richcommand-lineaudio/videodownloaderAfeature-richcommand-lineaudio/videodo
python字符串怎么转换成字典_用python将字符串转换成字典 weixin_39777018
Iknowthatthisquestionsoundaduplicate,butit'snot,atleastlookedforawhileandIcouldn'tfinenothingformyspecificproblem.Ihavethefollowingstring:"{first:{name:'test',value:100},second:{name:'test2',value:50}
Python里的OS模块常用函数说明 weixin_34050389 python 操作系统 shell
Python的标准库中的os模块包含普遍的操作系统功能。如果你希望你的程序能够与平台无关的话，这个模块是尤为重要的。即它允许一个程序在编写后不需要任何改动，也不会发生任何问题，就可以在Linux和Windows下运行。下面列出了一些在os模块中比较有用的部分。它们中的大多数都简单明了。os.sep可以取代操作系统特定的路径分隔符。windows下为“\\”os.name字符串指示你正在使用的平台。
python-将字符串转换为字典 weixin_30505751 python json
json越来越流行，通过python获取到json格式的字符串后，可以通过eval函数转换成dict格式：>>>a='{"name":"yct","age":10}'>>>eval(a){'age':10,'name':'yct'}转载于:https://www.cnblogs.com/gy-ph/p/8087372.html
Python调用C语言动态库（DLL）结构体/指针/变量的方法 ENOCH_Q PYTHON python c语言开发语言
文章目录前言一、如何生成C语言动态库DLL第一步：安装编译工具第二步：设计C代码第三步：编译成C语言动态库DLL二、如何使用C语言动态库第一步：python/pytorch调入DLL接口第二步：Python调用DLL函数第三步：Python测试函数三、完整程序与测试结果总结前言在使用python等进行数据处理时，有时需要使用C语言生成的动态库进行数据处理，比如有些算法已经用C语言实现，或有些函数处
使用Python引用DLL文件的方法 NoABug python microsoft 开发语言 Python
Python是一种功能强大的编程语言，可以与其他编程语言和库进行交互。在某些情况下，您可能需要使用Python引用动态链接库（DLL）文件，以便在Python代码中调用DLL文件中的函数和方法。本文将介绍如何使用Python引用DLL文件并调用其中的函数。步骤1：准备DLL文件首先，您需要准备一个DLL文件，该文件包含您要在Python中调用的函数和方法。您可以通过自己编写DLL文件，或者使用第三
在Python 中字符串转换为字典 Yuº Python python
在Python中把字符串转换为字典例如，将字符串user_info=‘{“name”:“john”,“gender”:“male”,“age”:28}’转换为字典user_dict={“name”:“john”,“gender”:“male”,“age”:28}有以下几种方法1.通过json来转换importjsonuser_info='{"name":"john","gender":"male"
Python实现AWS Fargate自动化部署系统 ivwdcwso 运维开发 python aws 自动化 ecs 开发 Fargate 运维
一、背景介绍在现代云原生应用开发中,自动化部署是提高开发效率和保证部署质量的关键。AWSFargate作为一项无服务器计算引擎,可以让我们专注于应用程序开发而无需管理底层基础设施。本文将详细介绍如何使用Python实现AWSFargate的完整自动化部署流程。©ivwdcwso(ID:u012172506)二、技术栈选择Python3.8+:作为主要开发语言boto3:AWS官方PythonSDK
小程序二：利用Python编写一个简单的计算器（实现加减乘除）嘵奇 Python小程序 python
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210515164416507.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxNDc5ODUwNTgx,size_16,color_FFFFFF,t
java 缓存篇2 dzl84394 java 缓存开发语言
缓存的部署方式单机主从哨兵集群特性主从（Master-Slave）哨兵（Sentinel）集群（Cluster）数据分片不支持不支持支持，基于slot进行水平分片高可用性部分支持（手动故障转移）高可用性，自动故障转移高可用性，自动故障转移及数据分片配置复杂度低中高扩展性低至中中高适用场景中小规模应用，读多写少需要高可用性且不需要分片的应用大规模分布式应用，需水平扩展和高可用性一致性弱（异步复制，可
如何学习Elasticsearch（ES）：从入门到精通的完整指南狮歌~资深攻城狮 jenkins 运维 elasticsearch 大数据
如何学习Elasticsearch（ES）：从入门到精通的完整指南嘿，小伙伴们！如果你对大数据搜索和分析感兴趣，并且想要掌握Elasticsearch这一强大的分布式搜索引擎，那么你来对地方了！本文将为你提供一个系统的学习路径，帮助你从零开始逐步深入理解Elasticsearch。1.基础知识准备1.1理解全文搜索在开始学习Elasticsearch之前，建议先了解一下全文搜索的基本概念。全文搜索
如何学习HBase：从入门到精通的完整指南狮歌~资深攻城狮 hbase 大数据
如何学习HBase：从入门到精通的完整指南嘿，小伙伴们！如果你对大数据存储感兴趣，并且想要掌握HBase这一强大的分布式数据库，那么你来对地方了！本文将为你提供一个系统的学习路径，帮助你从零开始逐步深入理解HBase。1.基础知识准备1.1理解NoSQL数据库在开始学习HBase之前，建议先了解一下NoSQL数据库的基本概念和分类。NoSQL数据库与传统的关系型数据库（如MySQL）有很大的不同，
【愚公系列】《Python网络爬虫从入门到精通》012-字符串处理愚公搬代码愚公系列-书籍专栏 python 爬虫开发语言
标题详情作者简介愚公搬代码头衔华为云特约编辑，华为云云享专家，华为开发者专家，华为产品云测专家，CSDN博客专家，CSDN商业化专家，阿里云专家博主，阿里云签约作者，腾讯云优秀博主，腾讯云内容共创官，掘金优秀博主，亚马逊技领云博主，51CTO博客专家等。近期荣誉2022年度博客之星TOP2，2023年度博客之星TOP2，2022年华为云十佳博主，2023年华为云十佳博主，2024年华为云十佳博主等
Python 实现 2025 专属烟花效果粒子 Clevermea python 开发语言 pygame 算法逻辑回归推荐算法
引言“爆竹声中一岁除”，听到这句话，想必大家都不陌生吧。在城市中看到那拖着彩星的烟花飞向天空，在空中绽放出来，那一刻是多么美好。那么，话说回来，你是否想过用代码的力量，在虚拟世界中重现这绚烂的烟花场景呢？借助Python强大的绘图和动画库，我们完全可以实现这一有趣的创意，为2025年增添一份独特的科技感与浪漫氛围。准备工作在开始编码之前，我们需要安装一些必要的Python库。这里我们会用到pyga
AWS上基于高德API验证Amazon Redshift里国内地址数据正确性的设计方案 weixin_30777913 python 数据仓库云计算 aws
该方案通过无服务架构实现高可扩展性，结合分页查询和批量更新确保高效处理海量数据，同时通过密钥托管和错误重试机制保障安全性及可靠性。一、技术栈组件技术选型说明计算层AWSLambda无服务器执行，适合事件驱动、按需处理，成本低数据存储AmazonRedshift存储原始地址数据及验证结果API调用高德地理编码API提供地址标准化及验证能力开发语言Python3.9+使用requests处理HTTP请
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb