Python 详解通过Scrapy框架实现爬取百度新冠疫情数据流程

前言

闲来无聊，写了一个爬虫程序获取百度疫情数据。申明一下，研究而已。而且页面应该会进程做反爬处理，可能需要调整对应xpath。

Github仓库地址：代码仓库

本文主要使用的是scrapy框架。

环境部署

主要简单推荐一下

插件推荐

这里先推荐一个Google Chrome的扩展插件xpath helper，可以验证xpath语法是不是正确。

爬虫目标

需要爬取的页面：实时更新：新型冠状病毒肺炎疫情地图

主要爬取的目标选取了全国的数据以及各个身份的数据。

项目创建

使用scrapy命令创建项目

scrapy startproject yqsj

webdriver部署

这里就不重新讲一遍了，可以参考我这篇文章的部署方法：Python 详解通过Scrapy框架实现爬取CSDN全站热榜标题热词流程

项目代码

开始撸代码，看一下百度疫情省份数据的问题。

页面需要点击展开全部span。所以在提取页面源码的时候需要模拟浏览器打开后，点击该按钮。所以按照这个方向，我们一步步来。

Item定义

定义两个类YqsjProvinceItem和YqsjChinaItem，分别定义国内省份数据和国内数据。

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html
 
import scrapy
 
 
class YqsjProvinceItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    location = scrapy.Field()
    new = scrapy.Field()
    exist = scrapy.Field()
    total = scrapy.Field()
    cure = scrapy.Field()
    dead = scrapy.Field()
 
 
class YqsjChinaItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # 现有确诊
    exist_diagnosis = scrapy.Field()
    # 无症状
    asymptomatic = scrapy.Field()
    # 现有疑似
    exist_suspecte = scrapy.Field()
    # 现有重症
    exist_severe = scrapy.Field()
    # 累计确诊
    cumulative_diagnosis = scrapy.Field()
    # 境外输入
    overseas_input = scrapy.Field()
    # 累计治愈
    cumulative_cure = scrapy.Field()
    # 累计死亡
    cumulative_dead = scrapy.Field()

中间件定义

需要打开页面后点击一下展开全部。

完整代码

# Define here the models for your spider middleware
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/spider-middleware.html
 
from scrapy import signals
 
# useful for handling different item types with a single interface
from itemadapter import is_item, ItemAdapter
from scrapy.http import HtmlResponse
from selenium.common.exceptions import TimeoutException
from selenium.webdriver import ActionChains
import time
 
 
class YqsjSpiderMiddleware:
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the spider middleware does not modify the
    # passed objects.
 
    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s
 
    def process_spider_input(self, response, spider):
        # Called for each response that goes through the spider
        # middleware and into the spider.
 
        # Should return None or raise an exception.
        return None
 
    def process_spider_output(self, response, result, spider):
        # Called with the results returned from the Spider, after
        # it has processed the response.
 
        # Must return an iterable of Request, or item objects.
        for i in result:
            yield i
 
    def process_spider_exception(self, response, exception, spider):
        # Called when a spider or process_spider_input() method
        # (from other spider middleware) raises an exception.
 
        # Should return either None or an iterable of Request or item objects.
        pass
 
    def process_start_requests(self, start_requests, spider):
        # Called with the start requests of the spider, and works
        # similarly to the process_spider_output() method, except
        # that it doesn't have a response associated.
 
        # Must return only requests (not items).
        for r in start_requests:
            yield r
 
    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)
 
 
class YqsjDownloaderMiddleware:
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the downloader middleware does not modify the
    # passed objects.
 
    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s
 
    def process_request(self, request, spider):
        # Called for each request that goes through the downloader
        # middleware.
 
        # Must either:
        # - return None: continue processing this request
        # - or return a Response object
        # - or return a Request object
        # - or raise IgnoreRequest: process_exception() methods of
        #   installed downloader middleware will be called
        # return None
        try:
            spider.browser.get(request.url)
            spider.browser.maximize_window()
            time.sleep(2)
            spider.browser.find_element_by_xpath("//*[@id='nationTable']/div/span").click()
            # ActionChains(spider.browser).click(searchButtonElement)
            time.sleep(5)
            return HtmlResponse(url=spider.browser.current_url, body=spider.browser.page_source,
                                encoding="utf-8", request=request)
        except TimeoutException as e:
            print('超时异常:{}'.format(e))
            spider.browser.execute_script('window.stop()')
        finally:
            spider.browser.close()
 
    def process_response(self, request, response, spider):
        # Called with the response returned from the downloader.
 
        # Must either;
        # - return a Response object
        # - return a Request object
        # - or raise IgnoreRequest
        return response
 
    def process_exception(self, request, exception, spider):
        # Called when a download handler or a process_request()
        # (from other downloader middleware) raises an exception.
 
        # Must either:
        # - return None: continue processing this exception
        # - return a Response object: stops process_exception() chain
        # - return a Request object: stops process_exception() chain
        pass
 
    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)

定义爬虫

分别获取国内疫情数据以及省份疫情数据。完整代码：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2021/11/7 22:05
# @Author  : 至尊宝
# @Site    : 
# @File    : baidu_yq.py
 
import scrapy
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
 
from yqsj.items import YqsjChinaItem, YqsjProvinceItem
 
 
class YqsjSpider(scrapy.Spider):
    name = 'yqsj'
    # allowed_domains = ['blog.csdn.net']
    start_urls = ['https://voice.baidu.com/act/newpneumonia/newpneumonia#tab0']
    china_xpath = "//div[contains(@class, 'VirusSummarySix_1-1-317_2ZJJBJ')]/text()"
    province_xpath = "//*[@id='nationTable']/table/tbody/tr[{}]/td/text()"
    province_xpath_1 = "//*[@id='nationTable']/table/tbody/tr[{}]/td/div/span/text()"
 
    def __init__(self):
        chrome_options = Options()
        chrome_options.add_argument('--headless')  # 使用无头谷歌浏览器模式
        chrome_options.add_argument('--disable-gpu')
        chrome_options.add_argument('--no-sandbox')
        self.browser = webdriver.Chrome(chrome_options=chrome_options,
                                        executable_path="E:\\chromedriver_win32\\chromedriver.exe")
        self.browser.set_page_load_timeout(30)
 
    def parse(self, response, **kwargs):
        country_info = response.xpath(self.china_xpath)
        yq_china = YqsjChinaItem()
        yq_china['exist_diagnosis'] = country_info[0].get()
        yq_china['asymptomatic'] = country_info[1].get()
        yq_china['exist_suspecte'] = country_info[2].get()
        yq_china['exist_severe'] = country_info[3].get()
        yq_china['cumulative_diagnosis'] = country_info[4].get()
        yq_china['overseas_input'] = country_info[5].get()
        yq_china['cumulative_cure'] = country_info[6].get()
        yq_china['cumulative_dead'] = country_info[7].get()
        yield yq_china
        
        # 遍历35个地区
        for x in range(1, 35):
            path = self.province_xpath.format(x)
            path1 = self.province_xpath_1.format(x)
            province_info = response.xpath(path)
            province_name = response.xpath(path1)
            yq_province = YqsjProvinceItem()
            yq_province['location'] = province_name.get()
            yq_province['new'] = province_info[0].get()
            yq_province['exist'] = province_info[1].get()
            yq_province['total'] = province_info[2].get()
            yq_province['cure'] = province_info[3].get()
            yq_province['dead'] = province_info[4].get()
            yield yq_province

pipeline输出结果文本

将结果按照一定的文本格式输出出来。完整代码：

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html
 
 
# useful for handling different item types with a single interface
from itemadapter import ItemAdapter
 
from yqsj.items import YqsjChinaItem, YqsjProvinceItem
 
 
class YqsjPipeline:
    def __init__(self):
        self.file = open('result.txt', 'w', encoding='utf-8')
 
    def process_item(self, item, spider):
        if isinstance(item, YqsjChinaItem):
            self.file.write(
                "国内疫情\n现有确诊\t{}\n无症状\t{}\n现有疑似\t{}\n现有重症\t{}\n累计确诊\t{}\n境外输入\t{}\n累计治愈\t{}\n累计死亡\t{}\n".format(
                    item['exist_diagnosis'],
                    item['asymptomatic'],
                    item['exist_suspecte'],
                    item['exist_severe'],
                    item['cumulative_diagnosis'],
                    item['overseas_input'],
                    item['cumulative_cure'],
                    item['cumulative_dead']))
        if isinstance(item, YqsjProvinceItem):
            self.file.write(
                "省份:{}\t新增:{}\t现有:{}\t累计:{}\t治愈:{}\t死亡:{}\n".format(
                    item['location'],
                    item['new'],
                    item['exist'],
                    item['total'],
                    item['cure'],
                    item['dead']))
        return item
 
    def close_spider(self, spider):
        self.file.close()

配置文件改动

直接参考，自行调整：

# Scrapy settings for yqsj project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     https://docs.scrapy.org/en/latest/topics/settings.html
#     https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
#     https://docs.scrapy.org/en/latest/topics/spider-middleware.html
 
BOT_NAME = 'yqsj'
 
SPIDER_MODULES = ['yqsj.spiders']
NEWSPIDER_MODULE = 'yqsj.spiders'
 
 
# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = 'yqsj (+http://www.yourdomain.com)'
USER_AGENT = 'Mozilla/5.0'
 
# Obey robots.txt rules
ROBOTSTXT_OBEY = False
 
# Configure maximum concurrent requests performed by Scrapy (default: 16)
#CONCURRENT_REQUESTS = 32
 
# Configure a delay for requests for the same website (default: 0)
# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
#DOWNLOAD_DELAY = 3
# The download delay setting will honor only one of:
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16
 
# Disable cookies (enabled by default)
COOKIES_ENABLED = False
 
# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False
 
# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'en',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.94 Safari/537.36'
}
 
# Enable or disable spider middlewares
# See https://docs.scrapy.org/en/latest/topics/spider-middleware.html
SPIDER_MIDDLEWARES = {
   'yqsj.middlewares.YqsjSpiderMiddleware': 543,
}
 
# Enable or disable downloader middlewares
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
   'yqsj.middlewares.YqsjDownloaderMiddleware': 543,
}
 
# Enable or disable extensions
# See https://docs.scrapy.org/en/latest/topics/extensions.html
#EXTENSIONS = {
#    'scrapy.extensions.telnet.TelnetConsole': None,
#}
 
# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
   'yqsj.pipelines.YqsjPipeline': 300,
}
 
# Enable and configure the AutoThrottle extension (disabled by default)
# See https://docs.scrapy.org/en/latest/topics/autothrottle.html
#AUTOTHROTTLE_ENABLED = True
# The initial download delay
#AUTOTHROTTLE_START_DELAY = 5
# The maximum download delay to be set in case of high latencies
#AUTOTHROTTLE_MAX_DELAY = 60
# The average number of requests Scrapy should be sending in parallel to
# each remote server
#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
#AUTOTHROTTLE_DEBUG = False
 
# Enable and configure HTTP caching (disabled by default)
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
#HTTPCACHE_ENABLED = True
#HTTPCACHE_EXPIRATION_SECS = 0
#HTTPCACHE_DIR = 'httpcache'
#HTTPCACHE_IGNORE_HTTP_CODES = []
#HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

验证结果

看看结果文件

总结

emmmm，闲着无聊，写着玩，没啥好总结的。

修心，亦是修行之一。顺境修力，逆境修心，缺一不可。 ——《剑来》

如果本文对你有作用的话，不要吝啬你的赞，谢谢。

以上就是Python 详解通过Scrapy框架实现爬取百度新冠疫情数据流程的详细内容，更多关于Python Scrapy框架的资料请关注脚本之家其它相关文章！

rust语言闭包trait类型编译器推导总结灵山悟空 rust 开发语言后端
Rust编译器根据闭包对捕获的外部变量的使用方式自动推断其实现的Trait类型，如：Fn,FnMut,FnOnce；而非是否捕获所有权。注意move关键字只是令闭包捕获外部变量的所有权，并非决定闭包的Trait类型为FnOnce。对捕获变量的使用方式组合：（1）捕获外部变量的所有权。（2）消耗捕获的变量，消耗：释放，杀死，清除，关闭等。（3）只读。（4）可写（变）（5）不可变借用。（6）可变借用。
用python设计一个表白灯牌噔噔噔噔@ python pygame
表白灯牌可以通过控制LED灯的颜色和亮度来实现。你可以使用树莓派或者Arduino这样的硬件平台，结合Python编程语言来控制LED灯的状态。下面是一个简单的示例代码，可以实现一个表白灯牌效果：importRPi.GPIOasGPIOimporttime#设置GPIO引脚编号模式GPIO.setmode(GPIO.BCM)#设置LED引脚编号red_pin=17green_pin=18#设置GP
从零基础到高分逆袭：考研英语备考心得分享闲虎考研考研经验考研
考研英语，对于许多考生来说，是一道关卡，也是一个挑战，尤其是对于英语基础薄弱的考生，如何在短时间内实现从零基础到高分逆袭，成为了备考的关键，本文将从备考心得、方法技巧等方面，为大家分享一些实用经验。明确目标，坚定信念1、了解考研英语考试大纲：首先要明确考研英语考试的内容、题型、分值等，这样才能有针对性地进行备考。2、制定合理的学习计划：根据自己的实际情况，制定一个切实可行的学习计划，并严格按照计划
基于Arduino的ESP32开发环境搭建惆怅客123 嵌入式开发单片机 Arduino ESP32 VSCode
ESP32(Euno)购买链接串口驱动开发环境搭建参考自开发环境搭建_arduinoesp32_NaisuXu的博客-CSDN博客下载安装ArduinoIDE：https://www.arduino.cc/en/Main/SoftwareArduinoIDE中添加ESP32开发板数据：安装完成后选择：文件>首选项>附加开发板管理器网址中加入Arduinocoreforesp32的地址https:/
考研复习之记忆方法 herosunly 考名校研究生经验分享考研
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
探索未来：FacebookResearch的JEPa项目详解瞿旺晟
探索未来：FacebookResearch的JEPa项目详解去发现同类优质开源项目:https://gitcode.com/项目简介是FacebookResearch推出的一个开源项目，全称为"JointEmbeddingofProgramsandAttributes"。它是一个用于程序理解和属性预测的深度学习框架，旨在提升代码的理解和自动化程度，为开发者提供更智能的编程辅助工具。技术分析**1.
I-JEPA：联合嵌入预测架构的自监督学习实现平奇群Derek
I-JEPA：联合嵌入预测架构的自监督学习实现I-JEPAImplementationofI-JEPAfrom"Self-SupervisedLearningfromImageswithaJoint-EmbeddingPredictiveArchitecture"项目地址:https://gitcode.com/gh_mirrors/ij/I-JEPA项目介绍欢迎来到I-JEPA，这是一个基于Se
Kotlin D3 GH小杨 kotlin 开发语言 android
KotlinD3面向对象一、课程目标本次课程旨在让学员全面且深入地了解面向对象编程的核心概念，透彻掌握类与对象之间的紧密关系，熟练运用Kotlin语言中各类常用类进行程序开发。通过理论知识的系统讲解、丰富多样的实际案例分析以及详细的代码解读，帮助学员将面向对象编程思想融入到Kotlin编程实践中，提升解决实际问题的能力，为后续开发复杂的Kotlin应用程序奠定坚实基础。二、面向对象的概念2.1什么
数据挖掘|关联分析与Apriori算法详解皖山文武数据挖掘商务智能数据挖掘关联分析 Apriori算法机器学习
数据挖掘|关联分析与Apriori算法1.关联分析2.关联规则相关概念2.1项目2.2事务2.3项目集2.4频繁项目集2.5支持度2.6置信度2.7提升度2.8强关联规则2.9关联规则的分类3.Apriori算法3.1Apriori算法的Python实现3.2基于mlxtend库的Apriori算法的Python实现1.关联分析关联规则分析（Association-rulesAnalysis）是数
C++上机实验|继承与派生编程练习皖山文武 C++语言程序设计教程 c++开发语言
1.实验目的(1)掌握派生与继承的概念与使用方法(2)运用继承机制对现有的类进行重用。(3)掌握继承中的构造函数与析构函数的调用顺序,(4)为派生类设计合适的构造函数初始化派生类。(5)深入理解继承与组合的区别。2.实验内容设计一个人员类person和一个日期类date,由人员类派生出学生类student和教师类professor,学生类和教师类的数据成员birthday为日期类。3.参考代码#i
时间序列预测之移动平均法预测模型皖山文武数据挖掘商务智能数据挖掘 python 时间序列移动平均
时间序列预测之移动平均法预测模型1.时间序列预测法概述1.1时间序列的基本特征1.2时间序列的分类1.3时间序列的影响因素分析2移动平均数预测模型2.1一次移动平均法2.2二次移动平均法2.3基于Python的移动平均法预测模型1.时间序列预测法概述时间序列，也称为时间数列、历史复数或动态数列。它是将某种统计的指标数值按照时间先后顺序排列所形成的数列。根据时间序列所反映出来的发展过程、方向和趋势，
网站总报SSL错误？常见原因及解决方案 WoTrusSSL ssl https 网络协议
作为企业网站运营者，SSL证书就像“网络身份证”，它能加密数据、保护用户隐私，让客户放心下单。但一旦出现SSL错误，浏览器直接亮红警告，用户秒关页面，订单流失、品牌形象受损都可能发生！别慌！我们整理了企业最常见的几种SSL错误原因及解决方案，教你如何快速排查修复，让网站安全又稳定！1.证书装错了？检查配置细节！问题：SSL证书安装时，路径填错、私钥不匹配、参数设置漏了……一个小失误就能让证书“罢工
OPPO机器学习算法岗（AI智能体）内推飞300 人工智能业界资讯
专注于以端设备为中心的AI智能体研究与应用，研究方向包括但不限于智能体与多智能体框架、大模型推理与规划、大模型工具使用等。1、负责大模型驱动的AI智能体框架的实现、评估与优化，并参与构建产品原型；2、设计微调方案、适配算法和调优工程方案，结合智能体应用，实现最佳效果与性能；3、跟踪与研究AI智能体相关前沿技术，并针对大模型推理与规划、工具使用、结构化输出等提出创新性方案。推荐码：X3448036
SSE Server-Send Events适用于什么场景，有什么弊端存在 Jerome_GHW 信息与通信
Server-SentEvents(SSE)是一种用于在客户端和服务器之间实现单向实时通信的Web技术。它主要适用于需要从服务器向客户端推送实时信息的场景，例如新闻更新、股票价格变动、社交媒体通知等。SSE的优点：实时性：SSE提供了从服务器到客户端的单向实时通信，允许服务器在事件发生时向客户端推送数据。简单易用：SSE使用简单，只需使用EventSource对象在客户端监听即可。SSE的弊端：单
Redis学习 LDM>W< 苍穹外卖 redis 学习数据库 java 后端
Redisredis是基于key-valve的方式将热门数据存储在内存，访问性能高的数据库redis服务端启动：redis-serve.exeredis.windows.confredis服务端关闭：ctrl+credis客户端连接本地：redis.cli.exeredis客户端连接其他地方：redis.cli.exe-hhost-p6379-a****(密码)//-h即host-p即port这里
AOP开发 LDM>W< Java学习 java spring 学习
8.1aop思想oop（面向对象编程）：面向对象，就是纵向地将事物给封装成类，里面具有这种事物的属性和行为。当别人想用到这种事物时，就通过构造它的一个实例对象来获得。体现出一种封装性。aop（面向切面编程）：横向地对不同事物的抽象，属性与属性，方法与方法，对象与对象都可以组成一个切面。简单来说，aop思想就是可以将某些类里的属性方法等抽取出来进行处理，组成一个新方法。下面来张图说明一下：可以看到，
人工智能混合编程实践：C++调用Python ONNX进行YOLOv8推理 FriendshipT 人工智能混合编程实践人工智能 c++python YOLO ONNX 目标检测
人工智能混合编程实践：C++调用PythonONNX进行YOLOv8推理前言相关介绍Python简介C++简介ONNX简介YOLOv8简介前提条件实验环境项目结构C++调用PythonONNX进行YOLOv8推理C++调用Python的相关dll代码framework.hpch.hcxx_pythonModule.hdllmain.cpppch.cppcxx_pythonModule.cppC++
SpringBean的实例创建方式 LDM>W< Java学习 java spring
说在前面：可能会疑惑之前不是学了两种方式吗：beanFactory和applicationContext。最根本来讲，就是通过工厂模式创建。是的，是工厂模式创建，但又分了两种方式：构造+工厂构造方法其中又分为了无参构造和有参构造。在默认情况下，工厂就是通过无参构造来创建bean的，如果我们提供的是有参构造的话，就需要在配置中添加参数publicServiceImpl(StringchineseNa
2025年工业智能对讲机有多智能？数据采集+AI不在话下！ AORO_BEIDOU 人工智能信息与通信智能手机安全网络
在工业通信领域，对讲机始终是不可替代的即时交互工具。但传统设备仅能实现基础语音传输的局限性，已难以满足现代工业对效率与智能化的需求。遨游通讯推出的新一代智能对讲机，凭借DeepSeek本地化部署与模块化数据采集能力，实现了语音交互的智能升级，并通过红外热成像、NFC、工业内窥镜等专业模块的深度融合，构建起覆盖现场感知、数据分析与决策支持的闭环体系。AOROM55G智能对讲机传统的对讲机往往只能进行
Java小白-Collection集合体系林深的林 windows python linux
一、Collection集合体系1.核心接口与实现类‌类型‌‌特点‌‌实现类‌‌底层结构‌‌线程安全‌‌List‌有序、可重复、有索引ArrayList动态数组否LinkedList双向链表否Vector动态数组是（同步）‌Set‌无序、唯一HashSet哈希表+链表/红黑树否TreeSet红黑树否二、Collection常用API1.添加相关方法‌方法‌‌说明‌booleanadd(Ee)添加单
Java小白-线程相关林深的林 java 开发语言
一、线程的创建方式1.继承Thread类通过创建一个类继承Thread类，并重写其run方法，然后在创建该类的实例时启动线程（调用start方法）。示例代码：classMyThreadextendsThread{@Overridepublicvoidrun(){//线程执行的代码}}publicclassMain{publicstaticvoidmain(String[]args){MyThrea
HTML基础标签雪兔♛ html 前端经验分享
基础标签＜！--id属性，唯一的确定一个标签，id名字具有唯一性-->回到这里飞流直下三千尺飞流直下三千尺飞流直下三千尺飞流直下三千尺飞流直下三千尺飞流直下三千尺飞流直下三千尺飞流直下三千尺飞流直下三千尺飞流直下三千尺百度一下，你就知道登录点击回到顶部
JAVA PTA 7-2 声明图书类，记录图书总册数，利用静态变量赋值。分数 10 作者强彦单位太原理工大学 pta pass java 开发语言
声明一个图书类，其数据成员为书名、编号（利用静态变量实现自动编号）、书价，并拥有静态数据成员册数，记录图书的总册数；在构造方法中，利用静态变量为对象的编号赋值，在主方法中定义对象数组，并求出总册数。输出格式:请输出每本图书对应的书名，书号，书价以及总图书数。输出样例:书名：Java程序设计,书号：1,书价：34.5书名：数据结构,书号：2,书价：44.8书名：C++程序设计,书号：3,书价：35.
PyQt有哪些主要组件？ 2301_78316786 python pyqt
这是一个非常强大的跨平台GUI库，可以让你用Python语言创建美观且功能强大的桌面应用程序。让我们先来了解一下它的主要组件。首先，我们要介绍的是窗口。窗口是PyQt应用程序的基本元素，所有的GUI元素都放置在窗口中。你可以创建主窗口、模态对话框、无模式对话框和自定义窗口。下面是一个创建主窗口的例子：fromPyQt5.QtWidgetsimportQApplication,QMainWindow
基于Python的新闻网站内容爬取与分析：从数据获取到文本挖掘的完整指南 Python爬虫项目 2025年爬虫实战项目 python 开发语言人工智能爬虫 oracle 数据挖掘
引言在当今信息化社会，新闻成为我们获取世界信息的重要途径。通过新闻网站，用户能够快速了解时事热点、政治、经济、娱乐等各类信息。随着技术的发展，获取新闻数据已经变得越来越简单。我们可以利用Python编写爬虫程序，自动化地从新闻网站上抓取最新的新闻内容，并进行进一步的分析，如情感分析、关键词提取、热点话题分析等。本篇博客将为你详细介绍如何使用Python爬虫技术从新闻网站抓取最新新闻，并进行分析。我
什么是JEPA（联合嵌入预测架构），它与现有技术有何不同？百态老人架构
联合嵌入预测架构（JEPA）是一种新的预测建模方法，旨在通过在表示空间中进行预测，而不是直接生成详细的像素级输出，从而提高模型的效率和准确性。JEPA的核心思想是利用输入数据（如图像或视频）的抽象表示来捕捉重要的信息，并在此基础上进行预测，而不是试图重建输入数据的每一个细节。与传统的生成式模型不同，JEPA不专注于在像素空间中重建输入数据，而是通过编码器将输入和目标数据抽象为表示，并使用潜在变量来
考研复习时间规划：从迷茫到高效备考的进阶之路闲虎考研考研经验考研
考研复习是一场持久战，科学的复习规划是成功的关键。对于大多数考生而言，复习时间通常在6-12个月之间，如何在这段时间内实现高效备考，需要建立在对自身情况和考研规律的深刻认知之上。一、考研复习的时间特征考研复习具有明显的阶段性特征。基础阶段需要全面梳理知识体系，强化阶段着重攻克重点难点，冲刺阶段则要进行查漏补缺和模拟训练。每个阶段都有其特定的任务和目标，考生需要根据这些特征合理安排时间。考研复习的时
三维仿射变换矩阵惆怅客123 计算几何仿射变换矩阵平移缩放旋转
三维仿射变换矩阵平移变换缩放变换旋转变换绕x、y、z单个轴旋转的变换绕任意轴旋转三维仿射变换矩阵有3×4、4×43\times4、4\times43×4、4×4两种写法，都是施加到三维点的齐次式上，4×44\times44×4的仿射变换矩阵是在3×43\times43×4的矩阵后追加一行(0,0,0,1)(0,0,0,1)(0,0,0,1)，便于通过连续左乘计算组合变换矩阵，这里只对平移、缩放
MPPT与PWM充电原理及区别详解皖山文武智能制造机电一体化技术机电一体化
MPPT（最大功率点跟踪）和PWM（脉宽调制）是太阳能充电控制器中常用的两种技术，它们在原理、效率和适用场景上有显著区别。以下是两者的详细对比：1.工作原理PWM（脉宽调制）核心机制：通过快速开关（MOSFET等）调节太阳能板与电池之间的连接，使太阳能板电压被强制拉低至电池电压水平。充电过程：初期以大电流快速充电（电池电压较低）。当电池接近充满时，通过调节脉冲宽度（占空比）减少电流，防止过充。电压
4.桥接模式油盐不进的吗桥接模式 python 开发语言
概况桥接模式：将抽象部分与实现部分分离，使它们可以独立变化，通过组合而非继承的方式实现解耦。业务场景场景描述：开发一个跨平台的图形绘制系统，支持不同形状（如圆形、矩形）和不同渲染方式（如矢量渲染、栅格渲染）。抽象部分：形状（如圆形、矩形）。实现部分：渲染方式（如矢量渲染、栅格渲染）。代码示例：//实现部分接口interfaceRenderer{voidrenderShape(Stringshape
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他