康仔☆

python3 爬取汽车之家所有车型数据操作步骤（更新版）

题记:

　　互联网上关于使用python3去爬取汽车之家的汽车数据（主要是汽车基本参数，配置参数，颜色参数，内饰参数）的教程已经非常多了，但大体的方案分两种：

　　1.解析出汽车之家某个车型的网页，然后正则表达式匹配出混淆后的数据对象与混淆后的js，并对混淆后的js使用pyv8进行解析返回正常字符，然后通过字符与数据对象进行匹配，具体方法见这位园友，传送门：https://www.cnblogs.com/my8100/p/js_qichezhijia.html （感谢这位大神前半部分的思路）

2.解析出汽车之家某个车型的网页，然后正则表达式匹配出混淆后的数据对象与混淆后的js，针对混淆后的js进行进行手动匹配，因为混淆的js大概分为8大类（无参数返回常量，无参数返回函数，参数等于返回值函数，无参数返回常量，无参数返回常量中间无混淆代码，字符串拼接时使无参常量，字符串拼接时使用返回参数的函数），然后通过正则表达式进行解析出8类内容并进行逐个替换，最终也会返回一个带有顺序的字符串，将这个字符串与前边的数据对象再次替换，最终数据对象中的所有span都会被替换成中文，具体操作见园友的地址，传送门:https://www.cnblogs.com/dyfblog/p/6753251.html （感谢这位大神前半部分的思路）

不过鉴于作者技术有限，上述的两种方案，我都没有完整的执行完成，哪怕花了一周的时间也没有，但是没有办法，谁让我是一个很爱钻牛角尖的人呢，下一步提出我自己琢磨出来的方案，流程上稍微有点复杂，但是稳打稳扎，还是可以爬出来的，好了话不多说了，贴出步骤；

1.获取所有车型的网页，保存到本地：

import bs4
import requests as req
'''
第一步，下载出所有车型的网页。
'''
def mainMethod():
    '''
    解析汽车之家所有车型数据保存到D盘
    '''
    li = [chr(i) for i in range(ord("T"),ord("Z")+1)]
    firstSite="https://www.autohome.com.cn/grade/carhtml/"
    firstSiteSurfixe=".html"
    secondSite = "https://car.autohome.com.cn/config/series/"
    secondSiteSurfixe = ".html"

    for a in li:
        if a is not None:
            requestUrl = firstSite+a+firstSiteSurfixe
            print(requestUrl)
            #开始获取每个品牌的车型
            resp = req.get(requestUrl)
            # print(str(resp.content,"gbk"))
            bs = bs4.BeautifulSoup(str(resp.content,"gbk"),"html.parser")
            bss = bs.find_all("li")
            con = 0
            for b in bss:
                d = b.h4
                if d is not None:
                    her = str(d.a.attrs['href'])
                    her = her.split("#")[0]
                    her = her[her.index(".cn")+3:].replace("/",'')
                    if her is not None:
                        secSite = secondSite +her + secondSiteSurfixe
                        print("secSite="+secSite)
                        # print(secSite)
                        #奥迪A3
                        if her is not None:
                            resp = req.get(secSite)
                            text = str(resp.content,encoding="utf-8")
                            print(a)
                            fil = open("d:\\autoHome\\html\\"+str(her),"a",encoding="utf-8")
                            fil.write(text)
                    con = (con+1)
            else:
                print(con)
if __name__ =="__main__":
    mainMethod()

2.解析出每个车型的关键js并拼装成一个html,保存到本地。

import os
import re
'''
第二步，解析出每个车型的关键js拼装成一个html
'''
if __name__=="__main__":
    print("Start...")
    rootPath = "D:\\autoHome\\html\\"
    files = os.listdir(rootPath)
    for file in files:
        print("fileName=="+file.title())
        text = ""
        for fi in open(rootPath+file,'r',encoding="utf-8"):
            text = text+fi
        else:
            print("fileName=="+file.title())
        #解析数据的json
        alljs = ("var rules = '2';"
                 "var document = {};"
                 "function getRules(){return rules}"
                 "document.createElement = function() {"
                 "      return {"
                 "              sheet: {"
                 "                      insertRule: function(rule, i) {"
                 "                              if (rules.length == 0) {"
                 "                                      rules = rule;"
                 "                              } else {"
                 "                                      rules = rules + '#' + rule;"
                 "                              }"
                 "                      }"
                 "              }"
                 "      }"
                 "};"
                 "document.querySelectorAll = function() {"
                 "      return {};"
                 "};"
                 "document.head = {};"
                 "document.head.appendChild = function() {};"

                 "var window = {};"
                 "window.decodeURIComponent = decodeURIComponent;")
        try:
            js = re.findall('(\(function\([a-zA-Z]{2}.*?_\).*?\(document\);)', text)
            for item in js:
                alljs = alljs + item
        except Exception as e:
            print('makejs function exception')


        newHtml = "    "
        f = open("D:\\autoHome\\newhtml\\"+file+".html","a",encoding="utf-8")
        f.write(alljs)
        f.close()

3.解析出每个车型的数据json，比如var config ,var option , var bag var innerbag..但我就解析了基本信息跟配置信息，其他的无所谓。

import os
import re
'''
第三步 解析出每个车型的数据json，保存到本地。
'''
if __name__=="__main__":
    print("Start...")
    rootPath = "D:\\autoHome\\html\\"
    files = os.listdir(rootPath)
    for file in files:
        print("fileName=="+file.title())
        text = ""
        for fi in open(rootPath+file,'r',encoding="utf-8"):
            text = text+fi
        else:
            print("fileName=="+file.title())
        #解析数据的json
        jsonData = ""
        config = re.search('var config = (.*?){1,};',text)
        if config!= None:
            print(config.group(0))
            jsonData = jsonData+ config.group(0)
        option = re.search('var option = (.*?)};',text)
        if option != None:
            print(option.group(0))
            jsonData = jsonData+ option.group(0)
        bag = re.search('var bag = (.*?);',text)
        if bag != None:
            print(bag.group(0))
            jsonData = jsonData+ bag.group(0)
        # print(jsonData)
        f = open("D:\\autoHome\\json\\"+file,"a",encoding="utf-8")
        f.write(jsonData)
        f.close()

4.生成样式文件，保存到本地。

import os
from selenium import webdriver

'''
    第四步，浏览器执行第二步生成的html文件，抓取执行结果，保存到本地。
'''
class Crack():
    def __init__(self,keyword,username,passod):
        self.url = 'https://www.baidu.com'
        self.browser = webdriver.Chrome('E:\work\ChromePortable\App\Google Chrome\chromedriver.exe')

if __name__=="__main__":
    lists = os.listdir("D:/autoHome/newHtml/")
    crack = Crack('测试公司','17610177519','17610177519')
    for fil in lists:
        file = os.path.exists("D:\\autoHome\\content\\"+fil)
        if file :
            print('文件已经解析。。。'+str(file))
            continue
        print(fil)
        crack.browser.get("file:///D:/autoHome/newHtml/"+fil+"")
        text = crack.browser.find_element_by_tag_name('body')
        print(text.text)
        f = open("D:\\autoHome\\content\\"+fil,"a",encoding="utf-8")
        f.write(text.text)
    else:
        f.close()
        crack.browser.close()

5.读取样式文件，匹配数据文件，生成正常数据文件

 import os
import re
'''
第五步 匹配样式文件与json数据文件，生成正常的数据文件。
'''
if __name__ =="__main__":
    rootPath = "D:\\autoHome\\json\\"
    listdir = os.listdir(rootPath)
    for json_s in listdir:
        print(json_s.title())
        jso = ""
        #读取json数据文件
        for fi in open(rootPath+json_s,'r',encoding="utf-8"):
            jso = jso+fi
        content = ""
        #读取样式文件
        spansPath = "D:\\autoHome\\content\\"+json_s.title()+".html"
        # print(spansPath)
        for spans in  open(spansPath,"r",encoding="utf-8"):
            content = content+ spans
        print(content)
        #获取所有span对象
        jsos = re.findall("",jso)
        num = 0
        for js in jsos:
            print("匹配到的span=>>"+js)
            num = num +1
            #获取class属性值
            sea = re.search("'(.*?)'",js)
            print("匹配到的class==>"+sea.group(1))
            spanContent = str(sea.group(1))+"::before { content:(.*?)}"
            #匹配样式值
            spanContentRe = re.search(spanContent,content)
            if spanContentRe != None:
                if sea.group(1) != None:
                    print("匹配到的样式值="+spanContentRe.group(1))
                    jso = jso.replace(str(""),re.search("\"(.*?)\"",spanContentRe.group(1)).group(1))
        print(jso)
        fi = open("D:\\autoHome\\newJson\\"+json_s.title(),"a",encoding="utf-8")
        fi.write(jso)
        fi.close()

6.到前五步已经可以看到json数据文件都已经是混淆前的了，说明已经爬取成功了。

7.读取数据文件，生成excel

import json
import os
import re
import xlwt
'''
第七步读取数据文件，生成excel
'''
if __name__ == "__main__":
    rootPath = "D:\\autoHome\\newJson\\"
    workbook = xlwt.Workbook(encoding = 'ascii')#创建一个文件
    worksheet = workbook.add_sheet('汽车之家')#创建一个表
    files = os.listdir(rootPath)
    startRow = 0
    isFlag = True #默认记录表头
    for file in files:
        list = []
        carItem = {}
        print("fileName=="+file.title())
        text = ""
        for fi in open(rootPath+file,'r',encoding="utf-8"):
            text = text+fi
        # else:
            # print("文件内容=="+text)
        #解析基本参数配置参数，颜色三种参数，其他参数
        config = "var config = (.*?);"
        option = "var option = (.*?);var"
        bag = "var bag = (.*?);"

        configRe = re.findall(config,text)
        optionRe = re.findall(option,text)
        bagRe = re.findall(bag,text)
        for a in configRe:
            config = a
        print("++++++++++++++++++++++\n")
        for b in optionRe:
            option = b
            print("---------------------\n")
        for c in bagRe:
            bag = c
        # print(config)
        # print(option)
        # print(bag)

        # print(bag)
        try:
            config = json.loads(config)
            option = json.loads(option)
            bag = json.loads(bag)
            # print(config)
            # print(option)
            # print(bag)
            path = "D:\\autoHome\\autoHome.xls"

            configItem = config['result']['paramtypeitems'][0]['paramitems']
            optionItem = option['result']['configtypeitems'][0]['configitems']
        except Exception as e:
            f =  open("D:\\autoHome\\异常数据\\exception.txt","a",encoding="utf-8")
            f.write(file.title()+"\n")
            continue

        #解析基本参数
        for car in configItem:
            carItem[car['name']]=[]
            for ca in car['valueitems']:
                carItem[car['name']].append(ca['value'])
        # print(carItem)
        #解析配置参数
        for car in optionItem:
            carItem[car['name']]=[]
            for ca in car['valueitems']:
                carItem[car['name']].append(ca['value'])

        if isFlag:
            co1s = 0

            for co in carItem:
                co1s = co1s +1
                worksheet.write(startRow,co1s,co)
            else:
                startRow = startRow+1
                isFlag = False

        #计算起止行号
        endRowNum = startRow + len(carItem['车型名称']) #车辆款式记录数
        for row in range(startRow,endRowNum):
            print(row)
            colNum = 0
            for col in carItem:

                colNum = colNum +1
                print(str(carItem[col][row-startRow]),end='|')
                worksheet.write(row,colNum,str(carItem[col][row-startRow]))

        else:
            startRow  = endRowNum
    workbook.save('d:\\autoHome\\Mybook.xls')

8.最后打开excel文件，给你们看看。

数据量大概有8300的样子。以后买车就用这个参考了。

08.03.01.tiptop webserver接口篇（增加接口案例测试单表数据） DKLi1717 鼎捷tiptop 5.3 开发语言
本页目录：1、制作xml2、配置2、测试注册服务接口案例：/u1/topprod/tiptop/aws/4gl/aws_ttsrv2_service.4glCreateCustomerData接口案例代码：/u1/topprod/tiptop/aws/4gl/aws_create_customer_data.4gl制作xml注意：vscode可以下载插件：XML对代码进行格式化再添加转译符或者&l
08.03.02.tiptop webserver接口篇（增加接口案例测试多表数据） DKLi1717 鼎捷tiptop 5.3 开发语言
本页目录：1、制作xml2、配置2、测试注册服务接口案例：/u1/topprod/tiptop/aws/4gl/aws_ttsrv2_service.4glCreateQuotationData接口案例代码：/u1/topprod/tiptop/aws/4gl/aws_create_quotation_data.4gl制作xml注意：vscode可以下载插件：XML对代码进行格式化再添加转译符或者
基于vue3实现的聊天机器人前端（附代码） P7进阶路前端
跟它说说话吧！一个活泼的伙伴，为你提供情感支持！??发送消息！import{ref,onMounted}from'vue';import{v4asuuidv4}from'uuid';//引入UUID生成库//响应式数据constmessage=ref('');//用户输入的消息constchatbox=ref(null);//聊天记录显示区的引用constchatId=ref(uuidv4());
1.动手学习深度学习课程安排及深度学习数学基础 Unknown To Known 动手学习深度学习深度学习人工智能
视频资源B站：动手学习深度学习——李沐目录目标内容将学到什么1.N维数组样例2.访问2维数组元素3.数据操作4.线性代数5.矩阵计算6.自动求导目标介绍深度学习景点和最新模型LeNetAlexNetVGGResNetLSTMBERT…机器学习基础损失函数，目标函数，过拟合，优化实践使用pytorch实现介绍的知识点在真实数据上体验算法效果内容深度学习基础——线性神经网络，多层感知机卷积神经网络——
MySQL有哪些高可用方案？ java1234_小锋 mysql java 开发语言
大家好，我是锋哥。今天分享关于【MySQL有哪些高可用方案？】面试题。希望对大家有帮助；MySQL有哪些高可用方案？1000道互联网大厂Java工程师精选面试题-Java资源分享网MySQL高可用（HighAvailability，HA）方案主要是通过一系列技术和架构来确保MySQL数据库在出现故障时仍然可以继续提供服务。以下是一些常见的MySQL高可用方案：1.主从复制（Master-Slave
什么是分布式系统？什么是微服务架构？ BELONGS TO YOU . 微服务架构分布式
什么是分布式系统？分布式系统是由一组通过网络进行通信、为了完成共同的任务而协调工作的计算机节点组成的系统。分布式系统的出现是为了用廉价的、普通的机器完成单个计算机无法完成的计算、存储任务。其目的是利用更多的机器，处理更多的数据。首先需要明确的是，只有当单个节点的处理能力无法满足日益增长的计算、存储任务的时候，且硬件的提升（加内存、加磁盘、使用更好的CPU）高昂到得不偿失的时候，应用程序也不能进一步
单片机寄存器理解学不动CV了 51/32单片机相关知识数据库单片机 c语言 c++嵌入式硬件
单片机寄存器是单片机（嵌入式微控制器）内部的一种存储单元，位于CPU核心或与CPU紧密集成，用于暂存数据、指令或控制硬件外设。其读写速度极快，是连接软件与硬件的关键桥梁，直接影响单片机的数据处理效率和功能实现一、基本定义与核心组成本质与结构寄存器由触发器（如D触发器）构成，每个触发器存储1位数据，多个触发器组合形成不同位宽的寄存器（如8位、32位）。例如，4位寄存器由4个D触发器组成，通过时钟脉冲
报表DSL优化，享元模式优化过程，优化效果怎么样？蒂法就是我享元模式 python 前端
报表DSL优化与享元模式应用详解一、报表DSL优化1.问题背景报表系统通常使用领域特定语言（DSL）定义模板结构、数据绑定规则及样式配置。随着复杂度提升，DSL可能面临以下问题：冗余配置：重复定义样式、布局或数据源。解析效率低：嵌套层级过深或语法冗余导致解析耗时增加。维护困难：DSL文件臃肿，难以快速定位问题。2.优化策略结构扁平化：减少嵌套层级，通过引用机制复用公共配置块。#优化前（嵌套冗余）t
Python实现链表反转：迭代与递归双解法详解达不溜先生 ୧⍢⃝୨ python 数据结构链表算法 leetcode
目录一、问题描述二、核心代码实现2.1迭代法实现迭代法中的prev初始值是None的原因：关键步骤图解2.2递归法实现递归法中要设置head.next=None的原因递归过程拆解三、方法对比与选择建议一、问题描述链表反转是数据结构中的基础算法问题，常见于面试和算法题库（如LeetCode#206）。要求将单向链表的节点顺序完全倒置二、核心代码实现2.1迭代法实现时间复杂度：O(n)空间复杂度：O(
数学建模与图形建模资源全解析点我头像干啥 Ai 数学建模人工智能 python 深度学习数据挖掘分类
引言在当今的数据驱动时代，数学建模与图形建模已成为解决复杂问题、揭示数据内在规律的重要工具。无论是科学研究、工程设计，还是商业分析、决策支持，建模技术都发挥着举足轻重的作用。本文旨在为数学建模与图形建模的初学者及进阶者提供一份详尽的资源指南，涵盖软件工具、学习资料、在线课程、社区论坛等多个方面，帮助大家更好地掌握这些技能。一、数学建模资源概览1.数学建模软件工具数学建模离不开强大的软件支持。以下是
探索IT世界的宝藏：优质资源推荐与深度解析点我头像干啥 Ai 分类人工智能数据挖掘 python 深度学习
引言在当今数字化时代，信息技术（IT）已经成为推动社会进步和经济发展的重要引擎。无论是软件开发、网络安全、数据分析，还是人工智能、云计算等领域，IT技术都在不断革新和演进。对于IT从业者、学生以及技术爱好者来说，掌握最新的技术动态和获取优质的学习资源至关重要。本文将为大家推荐一些优质的IT资源，并深入探讨如何利用这些资源提升自己的技术能力。一、优质IT资源推荐1.在线学习平台1.1Coursera
H100架构解析与性能优化策略智能计算研究中心其他
内容概要NVIDIAH100GPU作为面向高性能计算与人工智能领域的旗舰级产品，其架构设计与优化策略在计算效率、显存带宽及并行任务处理等方面实现了显著突破。本文将从核心架构创新与典型场景调优两个维度展开：首先解析第三代TensorCore的稀疏计算加速机制、FP8混合精度支持特性及其对矩阵运算的优化效果；其次，针对显存子系统中HBM3堆栈布局、L2缓存分区策略以及数据预取算法的协同优化进行拆解；最
单机和微服务的区别，微服务有什么问题？数据一致性问题怎么解决？幂等问题怎么解决？蒂法就是我微服务架构云原生
单机与微服务的区别架构模式:单机架构:整个应用程序部署在一台机器上，通常是一个大型的单体应用。所有的功能模块紧密耦合，难以单独进行升级与扩展。微服务架构:应用程序被拆分为一组小的、独立的服务，每个服务通过API进行通信。服务可以被独立开发、部署和扩展。部署与扩展:单机架构:任何变更都需重新部署整个应用，扩展通常需要增加更强的单一硬件。微服务架构:每个服务可以独立部署，支持快速迭代与独立扩展，容易应
Python机器学习实战：使用Flask构建机器学习API AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：使用Flask构建机器学习API作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在数据科学和机器学习领域，模型训练和部署一直是重要的挑战。传统的机器学习项目往往采用独立的脚本或复杂的流程，难以实现模型的自动化、可视化和复现。为了解决这一问题，将机器学习模型封装成可访问的API变得越来越流行。Fla
一张表多少记录，会成为大表？如何计算 18你磊哥 mysql 数据库 mysql
首先，“大表”的定义并不是绝对的。不同的数据库系统、不同的硬件配置、不同的查询模式，对“大”的定义可能都不一样。比如，对于MySQL来说，百万级别的记录可能已经算大表，而对于一些分布式数据库，可能处理十亿级别的数据才算挑战。接下来，用户可能想知道如何判断自己的表是否过大，以及如何计算这个阈值。这时候，我需要考虑几个方面：数据量、性能指标、存储引擎的特性、索引情况、查询复杂度等。数据量方面，表的记录
Django 初始化导入数据详解 jay丿 django sqlite 数据库
Django初始化导入数据详解在Django项目中，初始化数据导入是一个常见的需求，特别是在开发阶段或者部署新环境时，通常需要一些预置的数据来确保应用能够正常运行。Django提供了一种高效的方法来加载初始化数据，即通过fixtures机制。本文将详细介绍如何使用Django的fixtures功能来导入初始化数据。1.Fixtures机制概述Django默认会在应用的目录下查找名为fixtures
Spring Boot 集成 Kettle m0_74824112 面试学习路线阿里巴巴 spring boot 后端 java
Kettle简介Kettle最初由MattCasters开发，是Pentaho数据集成平台的一部分。它提供了一个用户友好的界面和丰富的功能集，使用户能够轻松地设计、执行和监控ETL任务。Kettle通过其强大的功能和灵活性，帮助企业高效地处理大规模数据集成任务。主要组成部分Spoon：用途：Spoon是Kettle的图形化设计工具。用户可以使用Spoon设计和调试ETL转换和作业。功能：拖放式界面
大模型全军覆没，中科院自动化所推出多图数学推理新基准 | CVPR 2025 量子位
关注前沿科技量子位挑战多图数学推理新基准，大模型直接全军覆没？！事情是这样的。近日，中国科学院自动化研究所推出多图数学推理全新基准MV-MATH（该工作已被CVPR2025录用），这是一个精心策划的多图数学推理数据集，旨在全面评估MLLM（多模态大语言模型）在多视觉场景中的数学推理能力。结果评估下来发现，GPT-4o仅得分32.1，类o1模型QvQ得分29.3，所有模型均不及格。具体咋回事，下面接
JavaEE 项目常见错误解决方案一弦一柱 JavaEE 常见错误中文乱码 JSP 404
JavaEE项目常见错误解决方案数据库连接JavaBean获取不到数据库字段值或出现意料之外的值业务中出现null或""404NOTFOUNDGET请求中文乱码form表单提交中文乱码最近的实训中，练了一个比较基础的项目，JSP+Servlet+JavaBean，完成两张表的CRUD操作，前端使用Bootstrap和JQuery，交互使用AJAX，IDE选用Eclipse,在时间比较仓促的情况下完
实现openAI流式打印效果 (包含markdown代码高亮及复制功能) Todo_MrWu javascript vue.js 前端
准备工作//插件npminstallmarkdown-ithighlight.js//引入文件importMarkdownItfrom'markdown-it'importhljsfrom'highlight.js'import'highlight.js/styles/atom-one-dark.css'初始化数据data(){return{vHtml:'',//最终填充展示的htmlstring
定期备份数据库：基于 Shell 脚本的自动化方案 mysql服务器脚本
数据库备份这件事，说实话，我一直没怎么上心。平时服务器跑得好好的，谁会想着备份呢？直到某天真出问题了，才意识到自己平时有多“懒”。我相信很多人跟我一样，觉得这东西看起来麻烦，等到数据库挂了、数据丢失了，才感叹自己怎么就没提前准备好呢？有一次数据库问题搞得我手忙脚乱，最后还好有个朋友给了我个备份文件，才算是有惊无险。经历了这次以后，我决定不能再拖了，必须把备份这事儿自动化起来。所以，我写了一个简单的
一文详解，什么是外贸订单管理系统？有什么功能和特点？
随着全球贸易的快速发展，外贸企业面临订单处理效率低、流程复杂、数据管理混乱等挑战。如何通过数字化工具实现订单全生命周期管理？外贸订单管理系统应运而生。本文将以ZohoBooks为例，解析其核心功能与价值。一、什么是外贸订单管理系统？1、什么是外贸订单管理系统？外贸订单管理系统是一种专门用于管理国际贸易订单的软件工具。它帮助企业跟踪和管理从客户下单到订单完成的整个流程，包括订单录入、订单审核、订单分
【排序算法】选择排序啥也不会干的小码排序算法排序算法算法 c语言
一、定义：选择排序（Selectionsort）是一种简单直观的排序算法。第一次从待排序的数据（元素）中选出最小（或最大）的一个元素，存放在数组的起始位置，然后再从剩余的没有排序的元素中寻找到最小（大）元素，然后放到已排序的数组的末尾。以此类推，直到全部待排序的数据元素的个数为零。对于数据量大的排序就没啥用了，排的比较慢。二、原理：1、对于待排序的数组，我们从首元素开始，将首元素的下标用min记住
10 大中文医学数据集汇总：涵盖神农中医药、中医药古籍、医学推理、医学问答……
医疗人工智能的快速发展离不开高质量数据集的支持。从疾病诊断到药物研发，再到个性化医疗，数据集在推动机器视觉、大模型等应用于医学领域中发挥着不可或缺的作用。医学数据集的形式多样，涵盖了不同维度和领域的数据资源。例如，在疾病诊断领域，像RJUA-QA这样的问答数据集推动了复杂医学知识的自动化应用；而在中医药领域，神农中医药数据集整合了传统中医药文献、临床案例和药方数据。针对于此，本文整理了医学领域的1
中文对联/十二生肖/城市景点/旅游计划……年味超浓的数据集汇总
正月初三，年味正浓。新春的喜庆氛围不仅弥漫在大街小巷，也在人工智能领域引发了诸多创新应用。从AI生成春联，到春运交通标志的智能识别，再到生肖文化的深度挖掘，AI工具正赋能传统民俗，让年味更浓！在这阖家团圆，喜庆祥和的日子里，HyperAI超神经为大家整理了8个春节相关的数据集，涵盖对联、十二生肖、民族文化等热门主题，助力开发者在AI赋能春节的道路上大展拳脚！快来领取你的「新春大礼包」吧~点击查看更
归并排序（二叉树的后续遍历思想和数组的双指针技巧）冰火同学力扣算法排序算法数据结构
这次归并排序就只讲思路了，代码实现放到下次刷题再做首先确认一下归并排序的时间复杂度是NlogN的时间复杂度。实现归并排序的算法，我认为有几个困难需要克服掉1、首先就是要明确归并排序的算法思想，就是二叉数据的后序遍历，就是先从中间分割成两个子数组，然后继续分，直到只剩下一个元素，那么此时就是有序的，这个和构造二叉树时的分解思想十分相似，把子问题全部解决，那问题也就都解决了，至于我们只关注其中一个节点
讲一下Spark的shuffle过程冰火同学 Spark spark 大数据分布式
首先Spark的shuffle是Spark分布式集群计算的核心。Spark的shuffle可以从shuffle的阶段划分，shuffle数据存储，shuffle的数据拉取三个方面进行讲解。首先shuffle的阶段分为shuffle的shufflewrite阶段和shuffleread阶段。shufflewrite的触发条件就是上游的Stage任务shuffleMapTask完成计算后，会哪找下游S
第 146 题「LRU缓存机制」（手撸LRU算法）冰火同学力扣缓存数据结构算法
首选用比较通俗的语言来讲一讲LRU算法，那手机内存来举例子，就是当内存超出了手机设置的内存后，就要删除了内存，那删除那部分内存呢，LRU算法就是提供一个策略来选择那些需要缓存需要被删除掉，就是谁隔得最远就删除掉谁。LRU算法的描述怎么描述呢，其实上述描述的就是LRU算法要实现的逻辑只不多是人能理解的活，那么如何从写代码的角度来说一下实现LRU算法的逻辑呢，这个时候就要通过基础的数据结构结合来讲LR
selectdataset 发布2024最热门Top100数据集数据集
遇见数据集索引了国内外的大部分网站。首页有最新的数据集推荐：GitHub、HuggingFace、arXiv这些热门站点，都属于日级别的更新。这个站点是从搜索引擎方面去监控最新的数据集，大家如果有关注某个一个特点领域或话题的更新，可以关注这个站点：遇见数据集-让每个数据集都被发现，让每一次遇见都有价值。遇见数据集，领先的千万级数据集搜索引擎，实时追踪全球数据集，助力把握数据要素市场。https:/
Spark数据倾斜的问题冰火同学 Spark spark 大数据分布式
Spark数据倾斜业务背景Spark数据倾斜表现Spark的数据倾斜，包括SparkStreaming和SparkSQL，表现主要有下面几种：1、Excutorlost，OOM，Shuffle过程出错2、DriverOOM3、单个Excutor执行器一直在运行，整体任务卡在某个阶段不能结束4、正常运行的任务突然失败数据倾斜产生的原因以Spark使用场景为例，我们再做数据计算的时候会涉及类似coun
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1