weixin_39614060

beautifulsoup网页爬虫解析_Python爬虫的N种姿势

爬虫的N中姿势

首先，分析来爬虫的思路：先在第一个网页（https://www.wikidata.org/w/index.php?title=Special:WhatLinksHere/Q5&limit=500&from=0）中得到500个名人所在的网址，接下来就爬取这500个网页中的名人的名字及描述，如无描述，则跳过。
接下来，我们将介绍实现这个爬虫的4种方法，并分析它们各自的优缺点，希望能让读者对爬虫有更多的体会。实现爬虫的方法为：

一般方法（同步，requests+BeautifulSoup）
并发（使用concurrent.futures模块以及requests+BeautifulSoup）
异步（使用aiohttp+asyncio+requests+BeautifulSoup）
使用框架Scrapy

一般方法

一般方法即为同步方法，主要使用requests+BeautifulSoup，按顺序执行。完整的Python代码如下：

import

输出的结果如下(省略中间的输出，以......代替)：

##################################################
George Washington                       ,   first President of the United States
Douglas Adams                           ,   British author and humorist (1952–2001)
......
Willoughby Newton                       ,   Politician from Virginia, USA
Mack Wilberg                            ,   American conductor
一般方法，总共耗时：724.9654655456543
##################################################

使用同步方法，总耗时约725秒，即12分钟多。
一般方法虽然思路简单，容易实现，但效率不高，耗时长。那么，使用并发试试看。

并发方法

并发方法使用多线程来加速一般方法，我们使用的并发模块为concurrent.futures模块，设置多线程的个数为20个（实际不一定能达到，视计算机而定）。完整的Python代码如下：

import requests
from bs4 import BeautifulSoup
import time
from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED

# 开始时间
t1 = time.time()
print('#' * 50)

url = "http://www.wikidata.org/w/index.php?title=Special:WhatLinksHere/Q5&limit=500&from=0"
# 请求头部
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'}
# 发送HTTP请求
req = requests.get(url, headers=headers)
# 解析网页
soup = BeautifulSoup(req.text, "lxml")
# 找到name和Description所在的记录
human_list = soup.find(id='mw-whatlinkshere-list')('li')

urls = []
# 获取网址
for human in human_list:
    url = human.find('a')['href']
    urls.append('https://www.wikidata.org'+url)

# 获取每个网页的name和description
def parser(url):
    req = requests.get(url)
    # 利用BeautifulSoup将获取到的文本解析成HTML
    soup = BeautifulSoup(req.text, "lxml")
    # 获取name和description
    name = soup.find('span', class_="wikibase-title-label")
    desc = soup.find('span', class_="wikibase-descriptionview-text")
    if name is not None and desc is not None:
        print('%-40s,t%s'%(name.text, desc.text))

# 利用并发加速爬取
executor = ThreadPoolExecutor(max_workers=20)
# submit()的参数： 第一个为函数， 之后为该函数的传入参数，允许有多个
future_tasks = [executor.submit(parser, url) for url in urls]
# 等待所有的线程完成，才进入后续的执行
wait(future_tasks, return_when=ALL_COMPLETED)

t2 = time.time() # 结束时间
print('并发方法，总共耗时：%s' % (t2 - t1))
print('#' * 50)

输出的结果如下（省略中间的输出，以......代替)：

##################################################
Larry Sanger                            ,   American former professor, co-founder of Wikipedia, founder of Citizendium and other projects
Ken Jennings                            ,   American game show contestant and writer
......
Antoine de Saint-Exupery                ,   French writer and aviator
Michael Jackson                         ,   American singer, songwriter and dancer
并发方法，总共耗时：226.7499692440033
##################################################

使用多线程并发后的爬虫执行时间约为227秒，大概是一般方法的三分之一的时间，速度有了明显的提升啊！多线程在速度上有明显提升，但执行的网页顺序是无序的，在线程的切换上开销也比较大，线程越多，开销越大。
关于多线程与一般方法在速度上的比较，可以参考文章：Python爬虫之多线程下载豆瓣Top250电影图片。

异步方法

异步方法在爬虫中是有效的速度提升手段，使用aiohttp可以异步地处理HTTP请求，使用asyncio可以实现异步IO，需要注意的是，aiohttp只支持3.5.3以后的Python版本。使用异步方法实现该爬虫的完整Python代码如下：

import requests
from bs4 import BeautifulSoup
import time
import aiohttp
import asyncio

# 开始时间
t1 = time.time()
print('#' * 50)

url = "http://www.wikidata.org/w/index.php?title=Special:WhatLinksHere/Q5&limit=500&from=0"
# 请求头部
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'}
# 发送HTTP请求
req = requests.get(url, headers=headers)
# 解析网页
soup = BeautifulSoup(req.text, "lxml")
# 找到name和Description所在的记录
human_list = soup.find(id='mw-whatlinkshere-list')('li')

urls = []
# 获取网址
for human in human_list:
    url = human.find('a')['href']
    urls.append('https://www.wikidata.org'+url)

# 异步HTTP请求
async def fetch(session, url):
    async with session.get(url) as response:
        return await response.text()
        
# 解析网页
async def parser(html):
    # 利用BeautifulSoup将获取到的文本解析成HTML
    soup = BeautifulSoup(html, "lxml")
    # 获取name和description
    name = soup.find('span', class_="wikibase-title-label")
    desc = soup.find('span', class_="wikibase-descriptionview-text")
    if name is not None and desc is not None:
        print('%-40s,t%s'%(name.text, desc.text))

# 处理网页，获取name和description
async def download(url):
    async with aiohttp.ClientSession() as session:
        try:
            html = await fetch(session, url)
            await parser(html)
        except Exception as err:
            print(err)

# 利用asyncio模块进行异步IO处理
loop = asyncio.get_event_loop()
tasks = [asyncio.ensure_future(download(url)) for url in urls]
tasks = asyncio.gather(*tasks)
loop.run_until_complete(tasks)

t2 = time.time() # 结束时间
print('使用异步，总共耗时：%s' % (t2 - t1))
print('#' * 50)

输出结果如下（省略中间的输出，以......代替)：

##################################################
Frédéric Taddeï                         ,   French journalist and TV host
Gabriel Gonzáles Videla                 ,   Chilean politician
......
Denmark                                 ,   sovereign state and Scandinavian country in northern Europe
Usain Bolt                              ,   Jamaican sprinter and soccer player
使用异步，总共耗时：126.9002583026886
##################################################

显然，异步方法使用了异步和并发两种提速方法，自然在速度有明显提升，大约为一般方法的六分之一。异步方法虽然效率高，但需要掌握异步编程，这需要学习一段时间。

关于异步方法与一般方法在速度上的比较，可以参考文章：利用aiohttp实现异步爬虫。

如果有人觉得127秒的爬虫速度还是慢，可以尝试一下异步代码（与之前的异步代码的区别在于：仅仅使用了正则表达式代替BeautifulSoup来解析网页，以提取网页中的内容）：

import requests
from bs4 import BeautifulSoup
import time
import aiohttp
import asyncio
import re

# 开始时间
t1 = time.time()
print('#' * 50)

url = "http://www.wikidata.org/w/index.php?title=Special:WhatLinksHere/Q5&limit=500&from=0"
# 请求头部
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'}
# 发送HTTP请求
req = requests.get(url, headers=headers)
# 解析网页
soup = BeautifulSoup(req.text, "lxml")
# 找到name和Description所在的记录
human_list = soup.find(id='mw-whatlinkshere-list')('li')

urls = []
# 获取网址
for human in human_list:
    url = human.find('a')['href']
    urls.append('https://www.wikidata.org' + url)

# 异步HTTP请求
async def fetch(session, url):
    async with session.get(url) as response:
        return await response.text()

# 解析网页
async def parser(html):
    # 利用正则表达式解析网页
    try:
        name = re.findall(r'(.+?)', html)[0]
        desc = re.findall(r'(.+?)', html)[0]
        print('%-40s,t%s' % (name, desc))
    except Exception as err:
        pass

# 处理网页，获取name和description
async def download(url):
    async with aiohttp.ClientSession() as session:
        try:
            html = await fetch(session, url)
            await parser(html)
        except Exception as err:
            print(err)

# 利用asyncio模块进行异步IO处理
loop = asyncio.get_event_loop()
tasks = [asyncio.ensure_future(download(url)) for url in urls]
tasks = asyncio.gather(*tasks)
loop.run_until_complete(tasks)

t2 = time.time()  # 结束时间
print('使用异步（正则表达式），总共耗时：%s' % (t2 - t1))
print('#' * 50)

输出的结果如下（省略中间的输出，以......代替)：

##################################################
Dejen Gebremeskel                       ,   Ethiopian long-distance runner
Erik Kynard                             ,   American high jumper
......
Buzz Aldrin                             ,   American astronaut
Egon Krenz                              ,   former General Secretary of the Socialist Unity Party of East Germany
使用异步（正则表达式），总共耗时：16.521944999694824
##################################################

16.5秒，仅仅为一般方法的43分之一，速度如此之快，令人咋舌（感谢某人提供的尝试）。笔者虽然自己实现了异步方法，但用的是BeautifulSoup来解析网页，耗时127秒，没想到使用正则表达式就取得了如此惊人的效果。可见，BeautifulSoup解析网页虽然快，但在异步方法中，还是限制了速度。但这种方法的缺点为，当你需要爬取的内容比较复杂时，一般的正则表达式就难以胜任了，需要另想办法。

爬虫框架Scrapy

最后，我们使用著名的Python爬虫框架Scrapy来解决这个爬虫。我们创建的爬虫项目为wikiDataScrapy，项目结构如下：

在settings.py中设置“ROBOTSTXT_OBEY = False”. 修改items.py，代码如下：

# -*- coding: utf-8 -*-

import scrapy

class WikidatascrapyItem(scrapy.Item):
    # define the fields for your item here like:
    name = scrapy.Field()
    desc = scrapy.Field()

然后，在spiders文件夹下新建wikiSpider.py，代码如下:

import scrapy.cmdline
from wikiDataScrapy.items import WikidatascrapyItem
import requests
from bs4 import BeautifulSoup

# 获取请求的500个网址，用requests+BeautifulSoup搞定
def get_urls():
    url = "http://www.wikidata.org/w/index.php?title=Special:WhatLinksHere/Q5&limit=500&from=0"
    # 请求头部
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'}
    # 发送HTTP请求
    req = requests.get(url, headers=headers)
    # 解析网页
    soup = BeautifulSoup(req.text, "lxml")
    # 找到name和Description所在的记录
    human_list = soup.find(id='mw-whatlinkshere-list')('li')

    urls = []
    # 获取网址
    for human in human_list:
        url = human.find('a')['href']
        urls.append('https://www.wikidata.org' + url)

    # print(urls)
    return urls

# 使用scrapy框架爬取
class bookSpider(scrapy.Spider):
    name = 'wikiScrapy'  # 爬虫名称
    start_urls = get_urls()  # 需要爬取的500个网址

    def parse(self, response):
        item = WikidatascrapyItem()
        # name and description
        item['name'] = response.css('span.wikibase-title-label').xpath('text()').extract_first()
        item['desc'] = response.css('span.wikibase-descriptionview-text').xpath('text()').extract_first()

        yield item

# 执行该爬虫，并转化为csv文件
scrapy.cmdline.execute(['scrapy', 'crawl', 'wikiScrapy', '-o', 'wiki.csv', '-t', 'csv'])

输出结果如下（只包含最后的Scrapy信息总结部分）：

{'downloader/request_bytes': 166187,
 'downloader/request_count': 500,
 'downloader/request_method_count/GET': 500,
 'downloader/response_bytes': 18988798,
 'downloader/response_count': 500,
 'downloader/response_status_count/200': 500,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2018, 10, 16, 9, 49, 15, 761487),
 'item_scraped_count': 500,
 'log_count/DEBUG': 1001,
 'log_count/INFO': 8,
 'response_received_count': 500,
 'scheduler/dequeued': 500,
 'scheduler/dequeued/memory': 500,
 'scheduler/enqueued': 500,
 'scheduler/enqueued/memory': 500,
 'start_time': datetime.datetime(2018, 10, 16, 9, 48, 44, 58673)}

可以看到，已成功爬取500个网页，耗时31秒，速度也相当OK。再来看一下生成的wiki.csv文件，它包含了所有的输出的name和description，如下图：

可以看到，输出的CSV文件的列并不是有序的。至于如何解决Scrapy输出的CSV文件有换行的问题，请参考stackoverflow上的回答：https://stackoverflow.com/questions/39477662/scrapy-csv-file-has-uniform-empty-rows/43394566#43394566 。

Scrapy来制作爬虫的优势在于它是一个成熟的爬虫框架，支持异步，并发，容错性较好（比如本代码中就没有处理找不到name和description的情形），但如果需要频繁地修改中间件，则还是自己写个爬虫比较好，而且它在速度上没有超过我们自己写的异步爬虫，至于能自动导出CSV文件这个功能，还是相当实在的。

总结

本文内容较多，比较了4种爬虫方法，每种方法都有自己的利弊，已在之前的陈述中给出，当然，在实际的问题中，并不是用的工具或方法越高级就越好，具体问题具体分析嘛~
本文到此结束，感谢阅读哦~

UART协议——异步全双工串行通信方式 dsjljdfniuevf 总线协议接口协议学习 UART协议
文章目录前言一、简介1、优点2、缺点二、数据格式三、波特率1、定义2、波特率和采样频率3、计算四、常见接口电平1、TTL电平2、RS232（负逻辑）3、RS485前言2023.4.22世界地球日一、简介UART：UniversalAsynchronousReceiver/Transmitter，通用异步收发器广泛的应用在各类MCU和SOC产品上“不需要额外的时钟线进行数据的同步传输”。即只要信号拉
ThinkPHP接入PayPal支付 ETO_冬 thinkphp PayPal
ThinkPHP5接入PayPal支付，PayPal的流程是服务器请求Paypal的接口下单（需要传订单id/支付成功的重定向地址/支付失败的重定向地址），接会返回一个支付地址，项目服务器把地址返给用户，用户打开链接登录Paypal完成付款，然后Paypal给重定向到指定地址。在paypal官网开通商户号，设置通知地址。开通沙箱模式用于测试，后台会给沙箱模式生成商户账号和用户账号，请注意区分。申请
ES6模块化(对比commonjs模块化) zvapour javascript
ES6模块化common.js对比CommonJS运行时加载–>只有运行时才能得到这个对象(module.exports的对象)在第一次加载之后会被缓存，引入的是缓存中的值//若需要动态更新，使用gettercount=1;module.exports={getcount(){returncount;},plusCoun
使用LM Studio在WordPress基于大模型原创文章上稿进行SEO优化 Mr数据杨 Python 自然语言技术 wordpress 大模型 seo 1024程序员节
在进行自动化文章生成与发布的流程中，首先需要确保基础配置的完善性和数据的准确性。通过手动设置分类和标签，文章能够在发布时被准确归类，从而提升SEO的效果。通过Excel表格的方式管理这些分类与标签，结合Python脚本，可以高效地实现自动化文章的生成和发布。该流程依赖于对WordPress数据库的操作，包括标签的批量导入、分类和标签的映射，以及通过AI生成内容的自动发布。全面的配置不仅节省了手动处
SEO模板网站的wordpress主题最适合google外贸SEO podoor seo
在寻找最适合Google外贸SEO的WordPress主题时，有几个关键因素需要考虑：速度、SEO友好性、多语言支持、以及是否易于定制。以下是一些推荐的WordPress主题，它们不仅速度快，而且对SEO非常友好，非常适合外贸网站：–模板帝：MobanDi.com是一个完全可定制且免费的WordPress博客主题。它包括适用于个人博客、投资组合、商业博客甚至电子商务网站的入门网站。它反应灵敏，可与
uniapp邪门事件岑梓铭前端问题 uni-app
很久之前在这篇《THREEJS在uni-app中使用（微信小程序）》：THREEJS在uni-app中使用（微信小程序）_uni-app_帶刺的小葡萄-华为开发者空间中学到了如何在uniapp的微信小程序里接入three.js的3d模型由于小程序自身很多不兼容原因，博主建议去用GitHub一个大佬改写的js库来引入适合小程序的three.js，于是我去照搬模仿，然后手动检查了一下，确实可以正常运行
Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention UnknownBody LLM Daily LLM context 语言模型人工智能
本文是LLM系列文章，针对《LeaveNoContextBehind:EfficientInfiniteContextTransformerswithInfini-attention》的翻译。不让任何上下文掉队：无限关注的高效无限上下文Transformer摘要1引言2方法3实验4相关工作5结论摘要这项工作介绍了一种将基于Transformer的大型语言模型（LLM）扩展到具有有限内存和计算的无限
Python 小练习 —— 统计字符串各类字符数量奶香臭豆腐 python 开发语言学习
需求允许用户不断输入一个字符串。写一个函数负责统计该字符串中的字符、数字、空格、特殊字符的个数。代码如下：#统计字符、数字、特殊字符的个数fromtypingimportTuple#使用类型注释所需的库#定义函数，用到了类型注释。defcount_characters(msg:str)->Tuple[int,int,int,int]:digit_count=0#数字计数器alpha_count=0
Python —— 深拷贝和浅拷贝奶香臭豆腐 python 开发语言学习
Python——深拷贝和浅拷贝浅拷贝——ShallowCopy深拷贝——DeepCopy总结常见的应用场景浅拷贝——ShallowCopy浅拷贝是指复制对象本身，但不会复制对象内部的嵌套对象。换句话说，浅拷贝会创建一个新的对象，但是新对象中的元素是原始对象元素的引用（即指向同一块内存地址）。因此，若原始对象中的元素是可变对象，修改这些元素会影响到原始对象和拷贝对象。s="abcdef123456"
正则表达式regex GotoMeiben 正则表达式
工具网站：RegExr:Learn,Build,&TestRegEx正则表达式（RegularExpression,Regex）是一种强大的字符串匹配工具，广泛用于文本搜索、数据处理和输入验证等场景。无论是Python、Java、JavaScript还是Shell脚本，Regex都是不可或缺的技能。本文将深入介绍正则表达式的各种用法，包括：基本匹配（字母、数字）特殊符号^$\b量词{}*+?字符类
(4)UART应用设计及仿真验证4 —— UART模块集成少卿不在大理寺数字IC设计从入门到实战 uart IC设计 verilog IC
四、模块集成1.UART模块集成这会儿你再来看这个uart模块构是不是就亲切了很多，归总一下TX和RX之后，我们发现整个的UART的模块输入输出都是定好了的。所以在结构上没有什么需要再分析和拆解了的。直接上代码：moduleuart(inputclk,inputrstn,inputrx,inputtx_data,inputtx_data_valid,outputtx,outputtx_ready,
什么是网关，网关的作用是什么？网络安全零基础入门到精通实战教程！黑客demon web安全服务器网络安全网关计算机网络
1.什么是网关网关又称网间连接器、协议转换器，也就是网段(局域网、广域网)关卡，不同网段中的主机不能直接通信，需要通过关卡才能进行互访，比如IP地址为192.168.31.9(子网掩码：255.255.255.0)和192.168.7.13(子网掩码：255.255.255.0)的两个主机不是同一网段，想要进行互访就得需要网关。就像古代想要出城的唯一路径就是过城门下的关卡。网关在传输层上实现不同网
使用Python爬虫实时监控行业新闻案例海拥✘ python 爬虫开发语言
目录背景环境准备请求网页数据解析网页数据定时任务综合代码使用代理IP提升稳定性运行截图与完整代码总结在互联网时代，新闻的实时性和时效性变得尤为重要。很多行业、技术、商业等领域的新闻都可以为公司或者个人发展提供有价值的信息。如果你有一项需求是要实时监控某个行业的新闻，自动化抓取并定期输出这些新闻，Python爬虫可以帮你轻松实现这一目标。本文将通过一个案例，带你一步一步实现一个简单的Python爬虫
为什么WP建站更适合于谷歌SEO优化？推广小赵经验分享
在当今数字时代，建立一个网站似乎变得容易，但要构建一个真正能够带来流量和订单的网站却并非易事。特别是在谷歌SEO优化方面，不同的建站程序在SEO支持方面的效果差异显著。对于希望提升搜索引擎表现的用户来说，WordPress无疑是最佳选择。WordPress的优势作为一款强大且广泛使用的内容管理系统（CMS），WordPress最大的优势在于其灵活性和可扩展性。该平台允许用户利用丰富的SEO插件来优
大厂面试真题-说说DDD中的防腐层以及它和四层架构的关系鱼跃鹰飞大厂真题 DDD 架构设计 1024程序员节职场和发展开发语言面试
DDD（领域驱动设计）中的防腐层（Anti-CorruptionLayer，ACL）是一种设计模式，旨在解决不同子系统或限界上下文间由于领域模型或接口不兼容而带来的集成问题。以下是对DDD防腐层的详细介绍，以及它与四层架构的关系：一、DDD防腐层定义：防腐层是一种在不同应用间转换的机制，通过引入一层适配层来隔离和转换不同系统间的交互。作用：隔离领域模型：保护自身领域模型免受其他领域模型代码的侵害。
vue3 + vite引入地址路径报错，以及无法点击跳转相应的文件 zmyalh 前端 javascript vue.js
vue3+vite引入地址路径报错，以及无法点击跳转相应的文件在项目中找到tsconfig.json，或者jsconfig.json文件，使用一下代码替换即可。如果两个文件都不存在，如果项目使用了ts，就创建tsconfig.json文件，复制下方代码。如果不是使用的ts，就创建jsconfig.json文件，复制下方代码。配置完成后关掉软件重启！！！{"compilerOptions":{"ba
NFC碰一碰发视频源码高质量矩阵宣传视频，支持OEM 余~~18538162800 python 开发语言音视频
一、引言在当今竞争激烈的商业环境中，创新的拓客方式对于企业的生存与发展至关重要。NFC（NearFieldCommunication）碰一碰技术的出现，为营销领域带来了新的机遇。结合视频传播的强大影响力，NFC碰一碰发视频拓客系统应运而生。本文将深入探讨该系统的源码搭建过程，并详细阐述如何实现对OEM（原始设备制造商）的支持，为开发者和企业提供一套全面的技术指南。二、系统架构设计（一）NFC交互层
AI外呼机器人：营销新利器还是骚扰电话的升级版？ yoloGina 客户管理外呼系统电话外呼人工智能机器人
"您好，这里是XX房产，最近有购房需求吗？""您好，您最近有种牙需求吗？"相信很多人都接到过类似的营销电话，而电话那头，很可能已经不是真人，而是AI外呼机器人。近年来，AI外呼系统凭借其高效率、低成本的优势，迅速在电销行业普及，成为企业营销的"新宠"。据统计，2022年中国AI外呼市场规模已达50亿元，预计2025年将突破100亿元。AI外呼系统的核心技术是语音识别和自然语言处理。通过深度学习海量
阿里云部署Django项目（超详细图文教程）—— Part3. Django settings修改、PostgreSQL配置马志峰的编程笔记 Django部署 postgresql django git nginx 阿里云
阿里云部署Django项目（超详细图文教程）Part3.Djangosettings修改、PostgreSQL配置前言：花了一个月的空闲时间，终于成功把Django网站部署到了阿里云ECS上，包含以下功能：不使用任何第三方工具，直接用网页连接阿里云ECS使用GIT进行源码控制和上传到服务器使用githooks实现自动部署用的是时下比较流行的一套部署方案——Nginx,Gunicorn,virtua
Java中锁升级的探究我心向阳iu #Java多线程 Java面试知识点精讲 java jvm 开发语言
文章目录锁升级概述四种锁介绍1.无锁2.偏向锁实现原理3.轻量级锁（自旋锁）实现原理4.重量级锁实现原理锁升级过程锁升级过程举例说明锁升级原理锁升级概述JDK1.6之前，synchronized还是一个重量级锁，是一个效率比较低下的锁。但是在JDK1.6后，JVM为了提高锁的获取与释放效率对synchronized进行了优化，引入了偏向锁和轻量级锁，从此以后锁的状态就有了四种：无锁：无锁是指没有对
CSS 修改 SVG图标的颜色小达学徒 html css svg 图标颜色改变
方法1、利用filter中的drop-shadow给icon加样式(利用原图标的阴影区域，同时将原图标移动超过之前父元素范围)filter:drop-shadow(red80px0);transform:translateX(-80px);给父元素加样式（父元素超范围隐藏，正好把原图标的隐藏掉，显示阴影区域）overflow:hidden;filter的drop-shadow标准用法drop-sh
oracle序列每天重置 &loopy& oracle 数据库
在Oracle数据库中，若要实现序列每天重置，可以通过以下步骤进行操作：一、创建序列首先，需要创建一个序列。创建序列的SQL语句如下：CREATESEQUENCEsequence_nameSTARTWITH0--或其他起始值INCREMENTBY1CACHE10;--缓存大小可根据需要调整其中，sequence_name是序列的名称，STARTWITH指定序列的起始值，INCREMENTBY指定序
MongoDB：掌握核心常用命令语句，精通数据操作泰山AI 数据库技术 Docker入门到精通 mongodb 数据库
标题：MongoDB：掌握核心命令，精通数据操作前言：MongoDB是一种非关系型数据库，以文档为中心，使用JSON格式的BSON来存储数据。它具有高可用性、高性能和易于扩展的特点，被广泛应用于各种规模的项目中。本文将详细介绍MongoDB的常用命令，帮助你更好地理解和掌握MongoDB的数据操作。一、连接与断开数据库要开始使用MongoDB，首先需要连接到数据库。在命令行中输入以下命令：mong
i css svg,如何设置 CSS 背景图中的 SVG 的颜色魔法少女皮皮瞎 i css svg
ColoringSVGsinCSSBackgroundImages如何设置CSS背景图中的SVG的颜色IloveusingSVGinCSSbackgroundimagesbutitsucksthatyoucan'talterthefillcoloreasilywithinyourCSS.Hereareafewwaysaroundthat.在CSS背景中我喜欢用SVG，但是，这会导致你无法用CSS很
使用Cohere进行文本生成: 从安装到实战 shuoac python 开发语言
Cohere是一家加拿大初创公司，提供自然语言处理模型，帮助企业提升人机交互体验。本文将详细介绍如何使用Cohere进行文本生成，包括环境配置、核心原理、代码演示和实际应用场景分析。1.技术背景介绍随着自然语言处理技术的快速发展，基于大模型的文本生成应用在各行各业中展现出了巨大的潜力。Cohere提供了高效、易用的API，使得开发者能够快速集成高质量的文本生成能力。本文将带你一步步实现这些功能。2
Java零基础入门笔记：(3)程序控制 Sherlock Ma Java Java入门 java 笔记开发语言程序人生学习方法改行学it 跳槽
前言本笔记是学习狂神的java教程，建议配合视频，学习体验更佳。【狂神说Java】Java零基础学习视频通俗易懂_哔哩哔哩_bilibiliScanner对象之前我们学的基本语法中我们并没有实现程序和人的交互，但是Java给我们提供了这样一个工具类，我们可以获取用户的输入。Scanner类是Java中的一个实用工具类，位于java.util包中，主要用于从用户输入、文件或其他输入源中读取数据。它提
Java零基础入门笔记：(4)方法 Sherlock Ma Java Java入门 java 笔记开发语言学习方法改行学it 跳槽程序人生
前言本笔记是学习狂神的java教程，建议配合视频，学习体验更佳。【狂神说Java】Java零基础学习视频通俗易懂_哔哩哔哩_bilibili第1-2章：Java零基础入门笔记：(1-2)入门（简介、基础知识）-CSDN博客第3章：Java零基础入门笔记：(3)程序控制-CSDN博客--方法何谓方法Java方法是语句的集合，它们在一起执行一个功能。方法是解决一类问题的步骤的有序组合方法包含于类或对象
腿足机器人之五- 粒子滤波 shichaog 腿足机器人机器人
腿足机器人之五粒子滤波直方图滤波粒子滤波上一篇博客使用的是高斯分布结合贝叶斯准则来估计机器人状态，本篇是基于直方图和粒子滤波器这两种无参滤波器估计机器人状态。直方图方法将状态空间分解成有限多个区域，并用直方图表示后验概率。直方图为每个区域分配一个单独的累积概率；可以将其视为对连续密度函数的逐段常数近似。第二种技术通过有限多个样本来表示后验概率。由此产生的滤波器被称为粒子滤波器，在某些机器人问题中获
ClickHouse 数仓大怀特 bigdata database software architecture java 数据库
ClickHouse是OLAP并且面向列的数据管理系统.具有高性能分析任何应用,从是嵌入式服务到成百台服务器.开源并且面向列的SQL存储ClickHouse首先是一个开源的SQL数仓,并且带有高性能,成熟,像数据SybaseIQ,Vertica,andSnowflake一样稳定.有以下特性列存储,并且可以有万亿的行和数千列已经压缩并且编解码显著减少I/O可以线性扩展通过矢量查询和sharding具
开发一个音响控制板程序，需要从硬件架构设计、通信协议选择、核心功能实现三个层面进行系统化开发。以下是基于工业级开发流程的实施方案星糖曙光后端语言（node javascript vue等等）stm32 emacs AI编程设计规范课程设计
一、硬件架构设计阶段主控芯片选型推荐采用STM32F4系列（如STM32F407VGT6），其168MHz主频和硬件浮点单元可满足实时音频处理需求[7]外围电路需集成PT2313音频处理芯片，实现4通道输入选择、音量/音调调节功能[13]存储系统采用W25Q128闪存保存用户配置参数，预留SDIO接口支持扩展存储信号处理架构cc//典型信号链路配置voidAudioPath_Init(void){
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S