请给我一脚

【爬虫】深圳卫健委疫情确诊和无症状数据

叨叨在前：
关于疫情数据获取，早就被做烂了，网上的博客和github也挺多资源。
主要数据源有两类，一个是类似网易、腾讯、支付宝和丁香园等提供的综合数据，第二类是各省市卫健委和国家卫健委。
当然第一类也是来源于第二类的。

另外淘宝也提供疫情数据购买，但我咨询了下，只有各城市，不提供具体到区的数据

反正看自己需求吧

这是两个github项目。
https://github.com/lewangdev/shanghai-lockdown-covid-19
这个是在2022年上海封控期间，作者写的爬虫，爬的是卫健委数据。我下面的代码也主要改写自这个项目

https://github.com/BlankerL/DXY-COVID-19-Crawler
这个是更早的项目，star和folk的人也很多。数据从2020-现在，还在更新。主要是各省市和其他各国的数据。注意的是这是累计数据，累计确诊、累计无症状等等。
我用这里面数据计算出的当日确诊和上海卫健委爬取数据对比了下，75%左右的准确率吧。
当然作者也提供API之类的，但我没有仔细研究。

综合，我选择了自己改写上海项目的代码，爬取我需要城市的卫健委数据
另，我用的是jupyter notebook，以下四部分分别一个cell，

crawler爬虫

这一块主要就是，爬取卫健委网页里每条新闻，存为html格式到指定路径
json文件自己创建一个空的就行

import os
import json
import hashlib
import requests
from bs4 import BeautifulSoup

archived_html_dir = "你的存放urls.json的父路径"
urls_crawled_filename = f"{archived_html_dir}/urls.json"

def clean_filename(filename):
    # Remove special characters except for underscores and hyphens
    cleaned_filename = re.sub(r'[^\w\-]', '_', filename)
    return cleaned_filename

def write_file(content, filename):
    with open(filename, 'w',encoding='utf-8-sig') as f:
        f.write(content)

def read_file(filename):
    with open(filename, 'r',encoding='utf-8-sig') as f:
        return f.read()

#读取urls.json的内容，转换为json格式
def get_urls_crawled():
    if os.path.exists(urls_crawled_filename):
        content = read_file(urls_crawled_filename)
        try:
            return json.loads(content)  
        except json.JSONDecodeError as e:
            print("Error decoding JSON:", e)  #如果是空json，返回
            return []
    return []


#爬取
def get_html_content(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) \
            AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.88 Safari/537.36'
    }
    r = requests.get(url, headers=headers)
    return r.text

#爬取链接内容，获得哈希值，保存内容
def crawl_url(target_url, text):
    urls = []
    hyperlink_html_content = get_html_content(target_url)
    hashname = hashlib.md5(
        hyperlink_html_content.encode('utf8')).hexdigest() #获得哈希值
    filename = f"{hashname}.html"
    urls.append(  
        {"url": target_url, "text": text, "filename": filename})  #将哈希值存到字典urls中
    write_file(hyperlink_html_content,
               f"{archived_html_dir}/{filename}")  #保存url爬取到的内容为html格式
    return urls

def crawl(pages, urls_crawled):
    urls = []
    for p in pages:
        if p == '':
            url = f"http://wjw.sz.gov.cn/yqxx/" 
        else:
            url = f"http://wjw.sz.gov.cn/yqxx/index_{p}.html"

        html_content = get_html_content(url)
        soup = BeautifulSoup(html_content, 'html.parser')
        # 找到所有包含标题和链接的 li 元素
        list_items = soup.find_all('li')
        # 遍历每个 li 元素，提取标题和日期信息
        for li in list_items:
            title_element = None  # 设置初始值为 None
            time_element = None  # 设置初始值为 None
            href = None
            title_element = li.find('a')
            date_element = li.find('span')

            if title_element and date_element:
                title = title_element.get_text()
                href = title_element['href']
                date = date_element.get_text()

                print("Title:", title)
                print("Link:", href)
                print("Date:", date)
            
            #获得网页哈希值（内容）
            if href is not None:
                hyperlink_html_content = get_html_content(href)
                hashname = hashlib.md5(
                        hyperlink_html_content.encode('utf8')).hexdigest()
                
                # 有些标题以？等字符结尾，无法正常保存为链接，需转换
                cleaned_title = clean_filename(title)
                filename = f"{cleaned_title}.html"
                
                # 检查是否已存在该天新闻内容的html文件
                file_path = os.path.join(archived_html_dir, filename)  
                if not os.path.exists(file_path): 
                    print(f'{file_path}信息开始保存')
                    write_file(hyperlink_html_content,f"{archived_html_dir}/{filename}")
                else:
                    print(f'{file_path}内容已存在')

                #检查urls.json文件中是否已存在该天新闻信息
                if href in set(map(lambda x: x['url'], urls_crawled)): 
                    print(f'{href}已在urls.json中')
                    print('************************************')
                    continue
                else:           
                    print(f'{href}添加到urls.json中')
                    urls.append(
                        {"url": href, "text": title, "filename": filename})
                    print('****************************************')
            else:
                print(f'{href} is none')           
    return urls


#保存
def save_urls_crawled(urls):
    json_data=json.dumps(urls, ensure_ascii=False, indent=4, separators=(',', ':'))
    write_file(json_data, urls_crawled_filename)  #把数据写入/urls.json文件

parse解析

这一步是读取每条符合正则表达式的新闻，比如2022年1月20日新冠肺炎疫情情况
因为卫健委一般不止统计疫情情况，还有其他新闻，尤其是深圳，简直多了去了。
读取后将html中关于疫情信息的文本提取出来，正则表达式进行筛选符合的行。找到确诊和无症状数据
原github项目代码中，更加精准，还有无症状转确诊的数据计算之类，我这里没要。

import re
import json
from bs4 import BeautifulSoup
import pandas as pd

# 从每天新闻标题中读取数据
def extract_line(line):
    # 12月27日0-24时，深圳新增确诊病例xx和无症状感染者xx。
    regex_1 = "^(\\d+)月(\\d+)日.*?深圳新增本土确诊病例(\d+)例.*?无症状感染者(\d+)例.*?"
    pattern_1 = re.compile(regex_1, re.IGNORECASE)
    m1 = pattern_1.match(line)
    if m1 is not None:
        (m, d, confirmed, asymptomatic) = m1.groups() 
        return (int(m), int(d), int(confirmed), int(asymptomatic))
    
    # 7月7日0-24时，深圳本土新增新冠肺炎确诊病例2例和新冠病毒无症状感染者4例。
    regex_15 = "^(\\d+)月(\\d+)日.*?深圳本土新增.*?确诊病例(\d+)例.*?无症状感染者(\d+)例.*?"
    pattern_15 = re.compile(regex_15, re.IGNORECASE)
    m15 = pattern_15.match(line)
    if m15 is not None:
        (m, d, confirmed, asymptomatic) = m15.groups() 
        return (int(m), int(d), int(confirmed), int(asymptomatic))
        
    ##xxx，深圳新增x例本土确诊病例和x例本土无症状 
    regex_14 = "^(\\d+)月(\\d+)日.*?深圳新增本土(\d+)例确诊.*?和(\d+)例.*?无症状.*?"
    pattern_14 = re.compile(regex_14, re.IGNORECASE)
    m14 = pattern_14.match(line)
    if m14 is not None:
        (m, d, confirmed, asymptomatic) = m14.groups() 
        return (int(m), int(d), int(confirmed), int(asymptomatic))
    
        ##xxx，深圳新增x例本土确诊病例和x例本土无症状 
    regex_11 = "^(\\d+)月(\\d+)日.*?深圳新增(\d+)例本土确诊.*?和(\d+)例本土无症状.*?"
    pattern_11 = re.compile(regex_11, re.IGNORECASE)
    m11 = pattern_11.match(line)
    if m11 is not None:
        (m, d, confirmed, asymptomatic) = m11.groups() 
        return (int(m), int(d), int(confirmed), int(asymptomatic))
    
    #12月27日0-24时，深圳无新增确诊病例和无症状感染者。
    regex_5 = "^(\\d+)月(\\d+)日.*?深圳无本土确诊病例和本土无症状感染者.*?"
    pattern_5 = re.compile(regex_5, re.IGNORECASE)
    m5 = pattern_5.match(line)
    if m5 is not None:
        (m, d) = m5.groups() 
        return (int(m), int(d), 0, 0)
    
        #12月27日0-24时，深圳无新增确诊病例和无症状感染者。
    regex_10 = "^(\\d+)月(\\d+)日.*?深圳无新增确诊病例和无症状感染者.*?"
    pattern_10 = re.compile(regex_10, re.IGNORECASE)
    m10 = pattern_10.match(line)
    if m10 is not None:
        (m, d) = m10.groups() 
        return (int(m), int(d), 0, 0)
    
    #12月27日0-24时，深圳新增本土xx确诊病例xx例 xxxx
    regex_2 = "^(\\d+)月(\\d+)日.*?深圳新增新冠肺炎确诊病例(\d+)例.*?"
    pattern_2 = re.compile(regex_2, re.IGNORECASE)
    m2 = pattern_2.match(line)
    if m2 is not None:
        (m, d, confirmed) = m2.groups() 
        return (int(m), int(d), int(confirmed), 0)
    
        #12月27日0-24时，深圳新增x例新冠肺炎确诊 xxxx
    regex_6 = "^(\\d+)月(\\d+)日.*?深圳新增(\d+)例新冠肺炎确诊病例.*?"
    pattern_6 = re.compile(regex_6, re.IGNORECASE)
    m6 = pattern_6.match(line)
    if m6 is not None:
        (m, d, confirmed) = m6.groups() 
        return (int(m), int(d), int(confirmed), 0)
    
    #xxx，深圳新增xx例无症状 xxxx
    regex_4 = "^(\\d+)月(\\d+)日.*?深圳新增(\d+)例新冠病毒无症状.*?"
    pattern_4 = re.compile(regex_4, re.IGNORECASE)
    m4 = pattern_4.match(line)
    if m4 is not None:
        (m, d, asymptomatic) = m4.groups() 
        return (int(m), int(d), 0, int(asymptomatic))
    
        #xxx，深圳本土新增xx无症状x例
    regex_16 = "^(\\d+)月(\\d+)日.*?深圳本土新增.*?无症状感染者(\d+)例.*?"
    pattern_16 = re.compile(regex_16, re.IGNORECASE)
    m16 = pattern_16.match(line)
    if m16 is not None:
        (m, d, asymptomatic) = m16.groups() 
        return (int(m), int(d), 0, int(asymptomatic))
    
        #xxx，深圳xxx发现xx例无症状 xxxx
    regex_7 = "^(\\d+)月(\\d+)日.*?深圳.*?发现(\d+)例新冠病毒无症状.*?"
    pattern_7 = re.compile(regex_7, re.IGNORECASE)
    m7 = pattern_7.match(line)
    if m7 is not None:
        (m, d, asymptomatic) = m7.groups() 
        return (int(m), int(d), 0, int(asymptomatic))

    #xxx，深圳新增xx例确诊和xx例无症状 xxxx
    regex_3 = "^(\\d+)月(\\d+)日.*?深圳新增(\d+)例新冠肺炎确诊和(\d+)例.*?新冠病毒无症状.*?"
    pattern_3 = re.compile(regex_3, re.IGNORECASE)
    m3 = pattern_3.match(line)
    if m3 is not None:
        (m, d, confirmed, asymptomatic) = m3.groups() 
        return (int(m), int(d), int(confirmed), int(asymptomatic))
    
     #xxx，xx诊断为确诊 xx诊断为无症状
    regex_8 = "^(\\d+)月(\\d+)日.*?深圳新增.*?(\d+)例诊断为新冠肺炎确诊.*?(\d+)例诊断为新冠病毒无症状.*?"
    pattern_8 = re.compile(regex_8, re.IGNORECASE)
    m8 = pattern_8.match(line)
    if m8 is not None:
        (m, d, confirmed, asymptomatic) = m8.groups() 
        return (int(m), int(d), int(confirmed), int(asymptomatic))  
    
    #xxx，深圳新增x例本土确诊病例 
    regex_11 = "^(\\d+)月(\\d+)日.*?深圳新增(\d+)例本土.*?确诊.*?"
    pattern_11 = re.compile(regex_11, re.IGNORECASE)
    m11 = pattern_11.match(line)
    if m11 is not None:
        (m, d, confirmed) = m11.groups() 
        return (int(m), int(d), int(confirmed), 0)
    
        #xxx，深圳本土新增确诊病例x例
    regex_17 = "^(\\d+)月(\\d+)日.*?深圳本土新增.*?确诊病例(\d+)例.*?"
    pattern_17 = re.compile(regex_17, re.IGNORECASE)
    m17 = pattern_17.match(line)
    if m17 is not None:
        (m, d, confirmed) = m17.groups() 
        return (int(m), int(d), int(confirmed), 0)
    
        ##xxx，深圳本土无新增病例 
    regex_12 = "^(\\d+)月(\\d+)日.*?深圳无新增病例.*?"
    pattern_12 = re.compile(regex_12, re.IGNORECASE)
    m12 = pattern_12.match(line)
    if m12 is not None:
        (m, d) = m12.groups() 
        return (int(m), int(d), 0, 0)
    
            ##xxx，深圳本土无新增病例 
    regex_13 = "^(\\d+)月(\\d+)日.*?深圳.*?无本土新增病例.*?"
    pattern_13 = re.compile(regex_13, re.IGNORECASE)
    m13 = pattern_13.match(line)
    if m13 is not None:
        (m, d) = m13.groups() 
        return (int(m), int(d), 0, 0)

    return 0,0,0,0


# 从html提取文字方便读取数据
def parse_html_to_lines(filename: str):
    with open(filename, 'r', encoding='utf-8-sig') as f:
        html_content = f.read()
    soup = BeautifulSoup(html_content, 'html.parser')
    # 通过 CSS 选择器选取该 HTML 内容中的 p 标签
    span_elems = soup.select(".news_cont_d_wrap p")  # 深圳这里是这个类
    # 获得该 HTML 中所有文字信息
    lines = []
    for span_elem in span_elems:
        text = span_elem.get_text().strip()
        if text:  # 跳过空行
            lines.append(text)
    return lines


def parse_lines_to_json(lines):
    total_found = False
    total = []
    for line in lines:
        print(line)
        #获得年月日，确诊和无症状数据
        if not total_found:
            (m, d, confirmed, asymptomatic) = extract_line(line)
            total_found = True
            total = dict(
                date=f"{m:0>2}-{d:0>2}", 
                confirmed=int(confirmed), 
                asymptomatic=int(asymptomatic),)
            print(f'标题数据：{total}')
            continue
        else:
            print('未找到新闻里匹配的文字')
    return total #返回给main函数

# 从html中先读取文本，再从文本中提取需要数据
def parse_html_to_json(filename: str):
    lines = parse_html_to_lines(filename) # 提取html中文字内容
    return parse_lines_to_json(lines)


def generate_json_files(urls,archived_html_dir):
    # 2022年1月20日新冠肺炎疫情情况
    regex = r"(\d+)年(\d+)月(\d+)日深圳市新冠肺炎疫情情况"
    pattern = re.compile(regex, re.IGNORECASE)
    for url in urls:
        text = url['text']
        print(f'新闻标题为：{text}')
        m = pattern.match(text)
        if m is None:
            print('新闻标题和正则表达式没匹配上')
            print('**********************')
            continue
        else:
            filename = archived_html_dir +'/' + url['filename']
            print(f"Parse: {text}, filename: {filename}")
            if os.path.exists(filename):
                print(f'正则表达式匹配结果为：{m}')
                total = parse_html_to_json(filename)
                #将各区和总数据保存为csv
                date=total['date']
                df_total=pd.DataFrame([total])               
                df_total.to_csv(
                "你的路径/{}_total.csv".format(date),
                encoding='utf-8-sig', index=False)
                print(df_total)
                print('**********************')
            else:
                print(str(url['filename'])+'在当前文件夹不存在')
                print('**********************')
    return total

# 深圳新增境外输入，在无本土确诊时显示该字样，在有本土确诊也显示。无法区分。
# 因此读取 ‘6月4日深圳无本土新增病例.html’ ,直接将对应日期的确诊记为0，不用正则表达式做筛选 
def generate_none_confirmed(urls, archived_html_dir):
    regex = r"(\d+)月(\d+)日深圳无本土新增病例"
    pattern = re.compile(regex, re.IGNORECASE)
    
    for url in urls:
        total_none_confirmed = []
        text = url['text']
        m = pattern.match(text)
        
        if m is None:
            continue
        else:
            (month, day) = m.groups()
            total_none_confirmed=dict(
                        date=f"{month:0>2}-{day:0>2}", 
                        confirmed=0, 
                        asymptomatic=None)  # Use None instead of nan
            #存为csv
            date = total_none_confirmed['date']
            df_total_none_confirmed=pd.DataFrame([total_none_confirmed])               
            df_total_none_confirmed.to_csv(
            "你的路径/{}_total.csv".format(date),
            encoding='utf-8-sig', index=False)
            print(df_total_none_confirmed)
    return total_none_confirmed

主函数

这里注意，先运行1，再注释掉1，运行2.1，依次类推
1是调动前面的爬虫，2是对爬取的html进行解析，获得疫情数据

import pandas as pd
import os
from datetime import datetime, timedelta

# 1 爬取卫健委疫情新闻
# pages = [''] # 此时仅读取https://wsjkw.sh.gov.cn/yqtb/第一页
# pages=list(range(3,77)) # 2022年全年
# urls_crawled = get_urls_crawled()  #读取已存在的urls.json文件
# urls = crawl(pages, urls_crawled)  #卫健委官网读取每日链接。检查是否已存在在urls.json中。保存爬取内容
# urls.extend(urls_crawled)  # urls是读取page后的内容，如果原来urls中内容不重复，需要合并
# save_urls_crawled(urls)

# # 2 解析html
# # 2.1 先读取爬取生成的urls.json文件
archived_html_dir = '你的html保存路径'
urls_crawled_filename = f"{archived_html_dir}/urls.json"
urls_crawled = get_urls_crawled()  #读取已存在的urls.json文件 
len_urls = len(urls_crawled)
print(urls_crawled[0])

# # # 2.2 解析每天疫情新闻
# # # 2022年1月22日xxx市新冠肺炎疫情情况'
total = generate_json_files(urls_crawled[0:len_urls],archived_html_dir)
# 6月4日深圳无本土新增病例(将此类新闻标题的确诊设为0)
# toal_none_confirmed = generate_none_confirmed(urls_crawled[0:len_urls],archived_html_dir)

missing_date检查

这一步就我加的，因为正则表达式很难把所有数据完整获得，总用缺失的天数，

这里就是把保存的total内容，合并为一个dataframe，再检查缺哪些天，把缺失的天插入进去，直观知道哪些天数缺了

import os
import pandas as pd
from datetime import datetime
from dateutil.relativedelta import relativedelta

folder_path = '你的total路径'
file_names = [file for file in os.listdir(folder_path) if file.endswith('.csv')]

# 合并数据
merged_df = pd.DataFrame()
for file_name in file_names:
    file_path = os.path.join(folder_path, file_name)
    df = pd.read_csv(file_path, encoding='utf-8-sig')
    merged_df = pd.concat([merged_df, df], ignore_index=True)
# 定义一个函数来进行日期格式转换
def convert_date(date_str):
    full_date = f"2022-{date_str}"
    parsed_date = pd.to_datetime(full_date, format="%Y-%m-%d")
    formatted_date = parsed_date.strftime("%Y-%m-%d")
    return formatted_date
# 使用 apply 方法将函数应用到日期列，替换原始数据
merged_df['date'] = merged_df['date'].apply(convert_date)

# 设置2022全年为日期范围
start_date = datetime(2022, 1, 1).date()
end_date = datetime(2022, 12, 31).date()
date_range = [start_date + timedelta(days=i) for i in range((end_date - start_date).days + 1)]
# 查找缺失数据
missing_dates = []
for date in date_range:
    if str(date) not in merged_df['date'].astype(str).values:  # 将日期值转换为字符串进行比较以精确匹配
        missing_dates.append(date)
    else:
        continue

if len(missing_dates) > 0:
    print("缺失的日期：")
    for date in missing_dates:
        print(date.strftime('%Y-%m-%d'))
else:
    print("没有日期缺失")
    

# 生成缺失日期的DataFrame
missing_data = pd.DataFrame({
    'date': [date for date in missing_dates],
    'confirmed': [float('nan')] * len(missing_dates),
    'asymptomatic': [float('nan')] * len(missing_dates)
})

# 合并原始数据和缺失数据
result_data = pd.concat([merged_df, missing_data], ignore_index=True)
# result_data.sort_values(by=['date'], inplace=True)  # 按照日期排列
result_data.to_csv('你的最终文件保存路径',encoding='utf-8-sig')

总结

相比于github项目代码，深圳这里没有对各个区的数据进行爬取，因为正则表达式真的，蛮难写好以准确获得想要的数据
但是对各区获取的逻辑是一样的，就是对文本每行进行筛选，符合要求的就保存
有兴趣的可以自己试试

此外，原项目提供了保存csv、json等方式，我习惯csv操作，所以改了点。

parse中的正则表达式有些重复和不完善的，但我懒得改了，缺的一些数据人工补录了。

就酱。没事还是别做疫情了，风口在过去，奈何数据限制，我有这个背景需要。

如何使用 Spring Boot 实现分页和排序大G哥 spring boot 后端 java spring
在SpringBoot中实现分页和排序通常是通过SpringDataJPA或者SpringDataMongoDB提供的分页功能来完成的。以下是一个基于SpringDataJPA的分页和排序实现的基本步骤。1.添加依赖首先，确保你在pom.xml中包含了SpringDataJPA和数据库驱动的依赖。org.springframework.bootspring-boot-starter-data-jp
Elasticsearch大文件检索性能提升20倍实践（干货）_elasticsearch 查询优化 2401_84247505 2024年程序员学习 elasticsearch jenkins 大数据
3、问题排查与定位步骤1：限定返回记录条数。不提供直接访问末页的入口。baidu，360，搜狗等搜索引擎都不提供访问末页的请求方式。都是基于如下的请求方式：通过点击上一下、下一页逐页访问。这个从用户的角度也很好理解，搜索引擎返回的前面都是相关度最高的，也是用户最关心的信息。Elasticsearch的默认支持的数据条数是10000条，可以通过post请求修改。最终，本步骤将支持ES最大返回值100
Spring Boot整合JWT 实现双Token机制 Cloud_. spring boot 后端 java
目录JWT核心概念解析SpringBoot整合步骤2.1基础环境搭建2.2Token生成与解析2.3拦截器实现企业级增强方案3.1双Token刷新机制3.2安全防护策略常见问题与解决方案1.JWT核心概念解析1.1Token的三重使命身份凭证：替代Session实现无状态认证信息载体：存储用户基础信息（如userid、roles）安全屏障：数字签名防止数据篡改1.2JWT结构示例Header{"a
还不会构建MindIE镜像？一篇文章搞定 Zain Lau vim 编辑器 linux MindIE 昇腾
MindIE镜像构建工程项目简介用于构建多平台/架构的MindiE镜像的脚本。用户可以根据需要准备好所需的软件包，修改相关配置并构建镜像。前提条件网络连接在整个构建过程中，必须保持稳定的网络连接。此构建工程依赖于在线下载多个资源，包括但不限于Python源码、编译工具以及各种依赖，无法离线构建。Docker推荐版本：Docker20.10.x及以上最低版本要求：Docker19.03.x安装方式：
使用 certbot 在centos7 搭建ssl证书自动并且续约 TwoSs110 ssl https
第一步，确定服务器适合安装的certbot版本sudoyuminstallpython27如果上述方法不起作用，你可以尝试编译安装。首先，你需要安装编译Python所需的依赖包。sudoyuminstallgccmakeopenssl-develsqlite-develreadline-develzlib-develbzip2-devel接下来，下载Python2.7.5的源代码，并进行编译安装。
Assembly语言的自然语言处理花韵婷包罗万象 golang 开发语言后端
Assembly语言在自然语言处理中的应用引言自然语言处理（NaturalLanguageProcessing,NLP）作为人工智能的一个重要分支，致力于实现计算机与人类语言之间的互动。随着计算能力的提升以及大数据的蓬勃发展，NLP在各个领域的应用如火如荼。从语音识别、机器翻译到情感分析等，NLP正在改变我们与信息之间的互动方式。不过，当前主流的NLP研究通常是用高级编程语言（如Python、Ja
Groovy语言的漏洞扫描花韵婷包罗万象 golang 开发语言后端
Groovy语言漏洞扫描：深入分析与实践引言Groovy是一种基于Java虚拟机（JVM）的动态编程语言，它结合了Python、Ruby和Smalltalk等语言的特性，提供了简洁的语法和强大的功能。Groovy广泛应用于脚本编写、自动化测试、构建工具（如Gradle）以及Web开发等领域。然而，随着Groovy的广泛应用，其安全性问题也逐渐显现出来。本文将深入探讨Groovy语言中的常见漏洞类型
Scala语言的硬件驱动花韵婷包罗万象 golang 开发语言后端
使用Scala语言进行硬件驱动开发引言随着计算机技术的快速发展，硬件设备的交互和控制在现代应用中显得尤为重要。大多数硬件驱动程序都用C或C++编写，但随着Scala语言的流行及其在数据处理和并发编程中的优势，越来越多的开发者开始探讨利用Scala进行硬件驱动开发的可能性。本文将深入探讨Scala语言在硬件驱动开发中的应用、优势、以及一些实际案例。什么是硬件驱动硬件驱动（DeviceDriver）是
Julia语言的学习路线樟松包罗万象 golang 开发语言后端
Julia语言学习路线指南引言在编程语言层出不穷的今天，Julia作为一门新兴的高级编程语言，以其出色的性能和易用性逐渐获得了越来越多的关注。特别是在科学计算、数据分析和机器学习等领域，Julia的表现十分出色，成为研究人员和开发者的热门选择。本文将为希望学习Julia语言的读者提供一条详细的学习路线，包括基础知识、工具、库、项目和实践经验等，帮助大家有效地掌握这门语言。一、了解Julia语言在开
大模型的webui Zain Lau 人工智能 python 昇腾 Ascend 天数
exportXXX_LLM_C=~/xcore-llm/build/ReleaseexportCUDA_VISIBLE_DEVICES=2,3exportCUDACXX=/usr/local/cuda-12.3/bin/nvccnohup/usr/bin/python3/home/src/api_server/api_server.py--modelLLama2:7b-chat-hf_A800--
自动同步多服务器下SQL脚本3.0 a栋栋栋遇到的问题 sql 自动化事务失效
由于上一版发现数据库【MySQL】不支持DML事务回滚，该迭代主要是去兼容这种问题。数据表新增一个completed字段，用来表示当前版本下同步成功的个数。数据表CREATETABLE`auto_sql_version`(`id`intNOTNULLAUTO_INCREMENT,`version`varchar(20)CHARACTERSETutf8mb4COLLATEutf8mb4_0900_a
云计算、边缘计算与雾计算白小白呀笔记大数据
云计算（数据上传到云端进行处理）云计算(CloudComputing)是一种基于互联网的计算方式，通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。通俗的讲，云是网络、互联网的一种比喻说法，即互联网与建立互联网所需要的底层基础设施的抽象体。“计算”指的是一台足够强大的计算机提供的计算服务（包括各种功能，资源，存储）。“云计算”可以理解为：通过互联网可以使用足够强大的计算机为用户提
架构模式之黑板模式 weixin_30518397 c/c++游戏数据库
一、定义黑板模式是一种常用的架构模式，应用中的多种不同数据处理逻辑相互影响和协同来完成数据分析处理。黑板模式允许多个消息读写者同时存在，消息的生产者和消费者完全分开。这就像一个黑板，任何一个教授（消息的生产者）都可以在其上书写消息，任何一个学生（消息的消费者）都可以从黑板上读取消息，两者在空间和时间上可以解耦，并且互不干扰。这种模式对于没有确定解决方案策略的问题是有用的。二、模式组成黑板模式由3个
Tornado 初识 Wu_Candy Web服务器
一、什么是tornadoTornado是使用Python编写的一个强大的、可扩展的Web服务器。它在处理严峻的网络流量时表现得足够强健，但却在创建和编写时有着足够的轻量级，并能够被用在大量的应用和工具中。二、tornado有什么优势Tornado和现在的主流baiduWeb服务器框架（包括大多数Python的框架）有着明显的区别：它是非阻塞式服务器，而且速度相当快，得利于其非阻塞的方式和对epol
黑板架构风格 BGM不迷路架构
一、定义黑板架构（BlackboardArchitecture）是一种用于解决复杂问题的系统架构模式，其中多个独立的组件（通常称为知识源）共同工作，通过共享一个共同的“黑板”（通常是一个全局的共享数据结构）来实现解决方案的推演的架构风格。每个组件根据黑板上的信息做出贡献，修改黑板上的状态，直到最终完成任务。二、组成黑板架构由黑板（Blackboard）、知识源（KnowledgeSources）、
大模型+智能代理：自动化测试的终极组合？测试者家园软件测试质量效能人工智能人工智能软件测试质量效能职场和发展 AI赋能智能体 LLM
用ChatGPT做软件测试在软件测试领域，自动化测试的目标一直是提高测试效率、减少人工干预、提升缺陷发现率。然而，传统自动化测试仍然面临诸多挑战，例如脚本维护成本高、难以应对动态UI变化、测试数据生成受限，以及难以覆盖复杂业务逻辑。近年来，大模型（LLM,LargeLanguageModel）+智能代理（Agent）的结合，为自动化测试带来了新的可能性。这种“智能测试代理”能够利用大模型的自然语言
SSL 和 TLS 认证百里自来卷 ssl 网络协议网络
SSL（SecureSocketsLayer，安全套接层）认证是一种用于加密网络通信和验证服务器身份的安全技术。它是TLS（TransportLayerSecurity，传输层安全协议）的前身，虽然现在大多数应用使用的是TLS，但仍习惯性地称之为SSL认证。SSL认证SSL认证的核心作用数据加密：防止数据在传输过程中被窃取或篡改，保证机密性。身份验证：验证服务器身份，防止用户连接到伪造的服务器（如
SSL的原理和应用 m0_74092749 ssl 网络协议网络
前言：SSL协议便是Internet上应用最为广泛的网络数据安全传输协议。SSL协议隶属于会话层,处于有连接的会话层之上,它一经产生就在Internet领域发挥了它的巨大作用。目前,国外著名的商用浏览器和Web服务器都支持SSL协议,SSL已成为最流行的WWW安全协议。目前已经有若干国外厂商推出了基于SSL的安全产品,但是协议在核心密码算法上都有出口限制,大多采用一些低安全强度的算法,而且协议代码
详解PriorityQueue 27xixi 算法数据结构 java
PriorityQueue是Java集合框架中的一个类，它实现了优先级队列的数据结构。优先级队列是一种特殊的队列，其中的元素按照优先级顺序出队，而不是按照插入顺序（FIFO）。默认情况下，PriorityQueue是一个最小堆，即优先级最小的元素最先出队。1.PriorityQueue的特点基于堆实现:PriorityQueue通常基于二叉堆（最小堆或最大堆）实现。无界队列:PriorityQue
java Stream API中的聚合操作 27xixi java java18
聚合操作是指对一组数据进行处理，最终生成一个单一的结果。在编程中，聚合操作通常用于对集合（如列表、数组等）中的元素进行统计、计算或汇总。常见的聚合操作包括求和、求平均值、查找最大值/最小值、计数等。在Java的StreamAPI中，聚合操作是通过终端操作（TerminalOperations）来实现的。以下是一些常见的聚合操作及其用法：1.求和（Sum）对集合中的元素进行求和。示例：求整数列表的和
IIS网站用myssl评级为B级 bigsea76 windows ssl
不光是IIS网站，包括.net使用HttpListener开发的web程序，在默认情况下都会被评为B级。提示为：降级原因：1.没有使用AEAD系列加密套件,降级为B2.没有优先使用FS系列加密套件，降级为B。我现在知道AEAD系列加密套件指的是那些支持认证加密和关联数据（AuthenticatedEncryptionwithAssociatedData）的套件，比如AES-GCM和ChaCha20
Redis 常用数据类型 27xixi java技术栈 redis 数据库缓存
Redis常用数据类型的详细介绍及其典型应用场景：String（字符串）描述：最基本的数据类型，可存储文本、数字或二进制数据（最大512MB）。常用命令：SETkeyvalue：设置值GETkey：获取值INCRkey：将值自增1（原子性操作）EXPIREkeyseconds：设置过期时间应用场景：缓存简单键值对（如用户会话、配置项）。计数器（如文章阅读量、库存扣减）。分布式锁（结合SETNX命令
LabVIEW cRIO中CSV文件的读取 LabVIEW开发 LabVIEW知识 LabVIEW功能 CRIO
在LabVIEWcRIO中读取CSV文件，需通过文件传输、路径配置、数据解析等步骤实现。本文详细说明如何通过代码读取本地存储的CSV文件，并探讨直接通过对话框选择文件的可行性及替代方案。一、CSV文件传输至cRIO本地存储1.使用NIMAX文件管理步骤：打开NIMAX（Measurement&AutomationExplorer）。连接目标cRIO设备，进入“文件”选项卡。选择路径（如/c/），点
python高并发访问mysql_Python访问MySQL 阿廖林诺
Python访问数据库作为Python开发工程师，选择哪个数据库呢？当然是MySQL。因为MySQL不仅免费，普及率最高，出了错，可以很容易找到解决方法。而且，围绕MySQL有一大堆监控和运维的工具，安装和使用很方便。使用MySQLMySQL是Web世界中使用最广泛的数据库服务器。SQLite的特点是轻量级、可嵌入，但不能承受高并发访问，适合桌面和移动应用。而MySQL是为服务器端设计的数据库，能
Redis 源码分析-内部数据结构 quicklist 笨手笨脚の #Redis redis 数据结构数据库 quicklist 链表快速链表 ziplist
Redis源码分析-内部数据结构quicklistquicklist是Redis对外暴露的list数据结构的内部实现，经常被当作队列或栈使用，我们可以从常用的一些api上先思考一下它的结构最常用的就是lpush、lpop、rpush、rpop，同时它也支持lindex查询某元素在list中的索引，linsert在指定元素旁边插入新元素。从头、尾节点的push、pop来看，这就是双向链表最优秀的设计
气候变化和人类活动对中国植被固碳的贡献量化数据（2001-2018）树谷-胡老师资源 arcgis
气候变化和人类活动对中国植被固碳的贡献量化数据（2001-2018）数据分享：气候变化和人类活动对中国植被固碳的贡献量化数据（2001-2018）该数据集包括中国2001~2018年月尺度或年尺度的地表短波波段反照率、植被光合有效辐射吸收比、叶面积指数、森林覆盖度和非森林植被覆盖度、地表温度、地表净辐射、地表蒸散发、地上部分自养呼吸、地下部分自养呼吸、总初级生产力和净初级生产力。空间分辨率为0.1
Python 爬取大量数据如何并发抓取与性能优化 chusheng1840 Python 教程 python 性能优化开发语言
Python并发抓取与性能优化在进行网络爬虫开发时，爬取大量数据可能非常耗时。尤其是在处理许多网页或API请求时，逐个请求速度会非常慢。为了解决这个问题，我们可以通过并发抓取提高爬取效率。同时，通过性能优化来进一步减少耗时和资源占用，使爬虫更高效。本篇文章将带大家了解Python中常用的并发抓取方法，并介绍如何进行性能优化。1.并发抓取的基本概念并发抓取指的是同时发出多个请求的技术，而不是顺序地等
提出机器人自主学习新范式，深大团队最新顶会论文，刷新6大复杂任务SOTA 量子位
关注前沿科技量子位让机器人轻松学习复杂技能有新框架了！深圳大学大数据系统计算技术国家工程实验室李坚强教授团队联合鹏城国家实验室、北京理工莫斯科大学，提出了奖励函数与策略协同进化框架ROSKA。在多个高维度机器人任务上，在仅使用89%训练样本的情况下，比现有SOTA方法平均性能提升95.3%。众所周知，随着机器人技术的快速发展，其应用已渗透至日常生活和工业生产场景。然而在多自由度机器人控制领域，传统
【机器学习】基于t-SNE数据可视化工程无水先生 AI原理和python实现人工智能综合人工智能算法
一、说明t-SNE(t-DistributedStochasticNeighborEmbedding)是一种常用的非线性降维技术。它可以将高维数据映射到一个低维空间（通常是2D或3D）来便于可视化。Scikit-learnAPI提供TSNE类，以使用T-SNE方法可视化数据。在本教程中，我们将简要学习如何在Python中使用TSNE拟合和可视化数据。二、t-SNE是个什么？2.1什么是t-SNE？
数据处理和分析之数据降维：t-SNE：使用t-SNE进行数据可视化实践 kkchenkx 数据挖掘信息可视化算法聚类均值算法数据挖掘机器学习
数据处理和分析之数据降维：t-SNE：使用t-SNE进行数据可视化实践数据降维简介降维技术的重要性在数据科学和机器学习领域，数据降维是一种关键的技术，用于减少数据集的维度，同时保留数据的结构和重要信息。降维不仅可以帮助我们更有效地存储和处理数据，还能在高维数据中发现潜在的模式和结构，这对于数据可视化和模型训练尤为重要。高维数据往往难以直观理解，通过降维，我们可以将其转换为二维或三维空间，便于可视化
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，

【爬虫】深圳卫健委疫情确诊和无症状数据

crawler爬虫

parse解析

主函数

missing_date检查

总结

你可能感兴趣的:(Python,爬虫,疫情数据,确诊数据,beautifulsoup)