数量技术宅

一个真实数据集的完整机器学习解决方案（上）

数量技术宅团队在CSDN学院推出了量化投资系列课程

欢迎有兴趣系统学习量化投资的同学，点击下方链接报名：

量化投资速成营（入门课程）

Python股票量化投资

Python期货量化投资

Python数字货币量化投资

C++语言CTP期货交易系统开发

数字货币JavaScript语言量化交易系统开发

引言

我们到底应该怎么学会、灵活使用机器学习的方法？技术宅做过小小的调研，许多同学会选择一本机器学习的书籍，或是一门机器学习的课程来系统性地学习。而在学完书本、课程后，并不清楚如何将这些理论、技术应用到实际的项目流程中。

这就好比，你的机器学习知识储备中已经有了一块块碎片化的机器学习知识，但不知道怎样才能将它们融合成一个整体。在本次的分享中，技术宅将借用国外机器学习大牛的数据，为大家系统的讲解一个针对真实数据集的完整机器学习解决方案，让你碎片化的知识，一文成型。

我们先来看，一个完整的机器学习工程的实现步骤：

1. 数据预处理

2. 探索性数据特征统计

3. 特征工程与特征选取

4. 建立基线

5. 机器学习建模

6. 超参数调优

7. 测试集验证

首先，我们来看本次机器学习模型想要解决的问题。我们使用的是纽约市的公共可用建筑能源数据（数据源下载地址：

http://www.nyc.gov/html/gbee/html/plan/ll84_scores.shtml），想要实现的是通过该数据集，利用机器学习算法建立模型，该模型可以预测出纽约市建筑物的能源之星评分，而且我们要求实现的模型，即筛选出的影响评分的特征，尽可能具有可解释性。我们将使用范例数据集，通过Python对上述的每个步骤，分步实现。而该项目的完整代码，我们也将在文章的最后分享给大家。

通过对于我们想要实现的这一模型的简单分析，可以知道我们需要做的是一个有监督的回归机器学习模型：

其一，我们训练的数据集中，既有潜在的特征变量，也有目标，整个学习过程就是找到目标与特征之间的有效映射模型

其二，纽约市建筑物的能源之星评分，是一个0-100的连续变量，而非分类标签，构建的模型属于回归的范畴

简单分析完我们想要解决的问题，接下来，我们就遵循上述七个步骤，依次开发实现我们想要的模型。

数据预处理

在实际的数据集中，包含互联网数据、金融数据等，往往都会存在缺失值和异常值，我们进行机器学习的建模，第一步就需要对数据进行清洗，并在清洗的过程中处理这些缺失、异常。

我们使用pandas读取准备好的csv数据集

我们读入的Dataframe共有60列，此处只截取了一部分的数据因子。其中，能源之星得分（ENERGY STAR Score)是我们需要预测的目标列，而其余的列，我们都可以将它看作是潜在能够构成特征的变量，对于这些列，我们最好都能够清楚每一列的数据代表的含义，以便于我们能够更好的在将来解释这个模型。

对于我们想要预测的目标列，能源之星得分（ENERGY STAR Score)，我们来做一个详细的说明：该得分来自纽约州每年所提交的能源使用情况报告，使用的是1~100的百分制排名，分数越高越好，代表该建筑物使用能源的效率的越高，相对来说更加节能环保。

接下来，我们使用dataframe的info()方法查看每一列的数据类型：

可以看到，其中有相当多的列属于objects类型（非数据类型）。如果我们需要用这些列来形成模型的特征，就需要将其转换为数值数据类型。我们将所有“Not Available”条目替换为np.nan，然后再将相关列转换为float数据类型，如此一来，所有的列，就都纳入分析范围了。

在处理完非数据类型的列后，我们在进行机器学习模型训练前，必须对缺失数据进行处理。缺失数据的处理方式一般有两者：删除、填充，删除指的是直接删除缺失数据对应的行或列，而填充可以有前向填充、均值填充等多种方式。对于样例中的数据集，我们先来看每列中缺失值的数量。

从上图的统计结果中，%of Total Values列表示缺失数据量占该列总数据量的百分比。对于缺失数据量超过一定比例的列，加入机器学习模型训练数据，显然会受到缺失值的影响，因此，我们考虑剔除缺失值超过一定比例的列数据。

除了缺失数据外，我们还需要对离群数据进行进一步的处理，离群数据或是由一些偶发现象产生，或是本身数据在存储的过程中出现了错误，它们会对特征的计算值产生较大的影响。我们对于离群值采用缩尾处理(Winsorize) ，具体是指，对于低于第一四分位数(Q1) - 3 *四分位差、高于第三四分位数(Q3) + 3 *四分位差的数值，进行缩尾。

处理完缺失数据、离群数据后，我们进入下一环节。

探索性数据特征统计

探索性数据统计分析（简称EDA）是对我们预处理完的数据进行探索性分析的阶段，通过EDA，我们可以初步知道数据的一些统计特征，以帮助我们更加合理的选择和使用数据构建特征。

单变量统计特征

由于所有数据列中，能源之星得分（ENERGY STAR Score）是最重要的、也是我们要预测的目标变量，于是我们先通过hist函数，画出能源之星得分的直方图，来看一下能源之星得分的一个具体的分布。

通过hist绘制的直方图可以看到，能源之星得分这一目标变量，既不是均匀分布，也不是类似正态分布那样的钟形曲线，而是一个两端分布频率极高，中间分布频率较低且不均匀的一个分布。

这个分布看上去比较奇怪，但如果仔细看一下能源之星得分的官方定义，它是基于“自我报告的能量使用”，也就是要求每个建筑物的所有者自行报告能源的使用情况，这就好比每个学生在考试的时候能自定成绩，那谁又不想拿满分呢？而对于0分频率的突然增高，或许是因为有些建筑物年久失修，连所有者也几乎放弃治疗了。

但是，无论能源之星得分的分布多么不合乎常理，它都是我们这个项目需要预测的唯一目标，我们更需要关注的是如何准确的预测分数。

分组特征

我们可以先用其中的某一个变量对所有的建筑物进行一次分类，再在每个分类中计算该分类的能源之星得分的数据分布。我们可以按类别对密度图进行着色，以查看变量对分布影响。我们首先查看建筑物分布类型对于能源之星得分的影响，如下是实现代码与可视化结果。

上图直观地反应出了不同建筑物类型，对于得分确实存在较大的影响，比如办公楼在高得分段分布频率更高，而酒店的低得分区域分布频率更高。因此，建筑物类型应该是一个比较重要的影响变量。由于建筑物类型是一个离散变量，我们可以通过对建筑物类型进行独热编码，将他们转换为数值变量。

我们再来看一个纽约市下属不同行政区域对于能源之星得分的影响，从下图可以看出，不同区域对于得分基本上没有区分度，也能说明该变量大概率不是一个好的特征变量。

相关性统计

我们可以使用皮尔逊（Pearson）相关系数来衡量目标与其他数据列的相关关系，从而找到与目标变量相关性（正负）最强的列的排序。

我们分布截取了负相关性、正相关性最高的两组变量，可以看到，负相关性的变量，其相关性的绝对数值更高，并且最负相关的几项类别变量几乎都与能源使用强度（EUI）有关。EUI表示建筑物的能源使用量是其规模或其他特性的函数（越低越好）。直观来看，显著的负相关性是有意义的：随着EUI的增加，能源之星评分趋于下降。

双变量分析

我们还可以使用散点图来对双变量进行分析，并在散点图中用不同颜色，代表某个变量所区分的不同子类别，比如下图以不同建筑物的类型作为分类，绘制的能源之星评分与Site EUI（即负相关排名第一变量）的二维散点图。

通过这个图，可以印证我们在此前计算的相关性系数，不同类型的建筑物，随着SiteEUI的减少，能源之星得分呈现上升态势。

此外，成对图（Pairs Plot）也是一种很不错的分析工具，比如4*4的Pairs Plot，我们就能同时分析4组变量相互之间的联合分布与相关关系，我们使用seaborn可视化库和PairGrid函数来创建Pais Plot--上三角部分使用散点图，对角线使用直方图以及下三角形使用二维核密度图和相关系数。

特征工程与特征选取

特征工程和特征选取，可以说是整个机器学习项目中最为关键的一步。一个机器学习模型在样本内外能否有优异的表现，模型的构建与参数的选择，并不是最重要的，最重要的还是特征对于目标的预测能力。如果特征的预测能力足够强，即使简单的线性模型，也能有较好的拟合能力。我们先来简单解释一下特征工程和特征选取：

特征工程：特征工程是指通过原始数据，提取或创建新特征，在这个过程中，可能需要对部分原始变量进行转换。例如对于某些非正态分布数据取自然对数、对分类变量进行独热（one-hot）编码，使得他们能够被纳入模型训练中。

特征选取：特征选取在实际过程中是一项需要经验的操作，往往通过删除无效或重复的数据特征以帮助模型更好地学习和总结数据特征并创建更具可解释性的模型。特征选择更多的是对特征做减法，只留下那些相对重要的特征，在删除的过程中，需要特别注意避免重要特征被删除的情况。

机器学习模型只能从我们提供的数据和特征中学习，所以必须确保数据中有预测我们目前所需要的全部数据，如果我们提供的数据特征维度不够丰富，最终的学习效果也许会达不到我们的预期。

接下来，我们对本次项目的数据集分两块进行特征工程。第一是对于分类变量，采用独热（one-hot）编码进行分类，转换为数值。独热（one-hot）编码在模型的训练数据中包含分类变量时，应用很常见。比如，我们的某个变量包含三个类别，那么就用001、010、100三个独热编码，分别对应三个原始分类。

第二是对数值型数据取对数。我们知道，很多原始的数据的分布都不是正态分布，如果我们直接将数据放入模型训练，可能存在由数据偏态分布带来的潜在偏差，于是，我们对所有数值特征取自然对数并添加到原始数据中。以下是上述两个特征工程操作步骤的Python代码实现。

完成上述特征工程后，我们的变量维度又增加了许多（独热编码、指数变换），这其中大概率存在着一些冗余的变量，比如高度相关的变量。以下图为例，Site EUI与Weather Norm EUI，这两个变量的相关系数高达0.997，显然我们不需要都做保留。

这些相关性很高的变量，在模型中我们称之为共线性（collinear），消除变量之间的共线性，能够让机器学习模型更鲁棒并且具有更强的可解释性。我们将使用相关系数来识别和删除共线性的冗余特征，具体做法是，我们通过循环遍历，两两计算除目标变量外所有变量的相关系数，当某两个变量相关系数大于一定阈值，我们就放弃其一，具体实现代码如下。筛选完成后，剩下64列特征和1列目标特征（能源之星得分）。

建立基线（Baseline）

在完成特征工程和冗余特征的筛选后，我们开始下一步工作：建立模型绩效对比的基准，我们也把它称之为基线（Baseline）。我们通过基线来与最终模型的绩效评估指标对比，如果机器学习最终训练得到的模型没有超越基线，那么说明该模型并不适用该数据集，或是我们的特征工程特征选取存在着问题。

对于回归问题，一个合理的基线是通过预估测试集中所有示例的运行结果为训练集中目标结果的均值，并根据均值计算平均绝对误差（MAE）。选择MAE作为基线有两方面考虑，一是它的计算简单，二是其可解释性强。

在计算基线前，我们需要先将原始数据划分为训练集和测试集，这也是为了在后续的处理过程中，绝对避免数据泄露的发生。我们采用比较常规的70％原始数据进行训练，30％用于测试。

划分完训练与测试集，我们再计算MAE的数值，并计算基线。由下图结果可以看到，计算得出预估模型表现为66，在测试集中的误差约为25左右（百分制）。可以说是比较容易达到的性能。

深夜码字，困意袭来，上篇暂且先到这里，下篇争取明天更完

关注 “数量技术宅”不迷路（下篇精彩继续），您的点赞、在看、转发，是我输出干货，最大的动力

往期干货分享推荐阅读

如何使用交易开拓者（TB）开发数字货币策略

股指期货高频数据机器学习预测

如何使用TradingView（TV）回测数字货币交易策略

如何投资股票型基金？什么时间买？买什么？

【数量技术宅|量化投资策略系列分享】基于指数移动平均的股指期货交易策略

AMA指标原作者Perry Kaufman 100+套交易策略源码分享

【数量技术宅 | 期权系列分享】期权策略的“独孤九剑”

如何获取免费的数字货币历史数据

【数量技术宅|金融数据分析系列分享】套利策略的价差序列计算，恐怕没有你想的那么简单

【数量技术宅|量化投资策略系列分享】成熟交易者期货持仓跟随策略

【数量技术宅|量化投资策略系列分享】多周期共振交易策略

【数量技术宅|金融数据分析系列分享】为什么中证500（IC）是最适合长期做多的指数

大宗商品现货数据不好拿？商品季节性难跟踪？技术宅带你Python爬虫一键解决没烦恼

【数量技术宅|金融数据分析系列分享】如何正确抄底商品期货、大宗商品

【数量技术宅|量化投资策略系列分享】股指期货IF分钟波动率统计策略

【数量技术宅 | Python爬虫系列分享】实时监控股市重大公告的Python爬虫

Python深度学习实践：建立端到端的自动驾驶系统 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：建立端到端的自动驾驶系统1.背景介绍自动驾驶系统是当今科技领域最具挑战性和前景的应用之一。它融合了计算机视觉、深度学习、规划与控制等多个领域的先进技术,旨在实现车辆的自主感知、决策和操控。随着人工智能技术的不断发展,越来越多的公司和研究机构投入了大量资源来开发自动驾驶系统。Python作为一种高效、易学且开源的编程语言,在这一领域扮演着重要角色。本文将探讨如何利用Pyth
华为OD机试 2025B卷 - 字符串序列判定(C++&Python&JAVA&JS&C语言) YOLO大师华为od 华为OD机试2025B卷华为OD2025B卷华为OD机试华为OD机考2025B卷
2025B卷目录点击查看：华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解2025B卷100分题型题目描述：字符串序列判定/最后一个有效字符（本题分值100）输入两个字符串S和L，都只包含英文小写字母。S长度<=100，L长度<=500,000。判定S是否是L的有效子串。判定规则：S中的每个字符在L中都能找到（可以不连续），且S在Ｌ中字符的前后顺序与S中顺序要保持一致。（例如，S=”a
在Carla上应用深度强化学习实现自动驾驶（一）寒霜似karry 自动驾驶人工智能机器学习
carla环境下基于强化学习的自动驾驶_哔哩哔哩_bilibili本篇文章是小编在pycharm上自己手敲代码学习自动驾驶的第一篇文章，主要讲述如何在Carla中控制我们自己生成的汽车并且使用rgb摄像头传感器获取图像数据。以下代码参考自：（如有侵权，请联系我将立即删除）使用Carla和Python的自动驾驶汽车第2部分——控制汽车并获取传感器数据-CSDN博客1、导入carla（其中的路径根据自
华为OD机试E卷 - 分糖果（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)java python javascript c++华为OD2025A卷华为od
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述小明从糖果盒中随意抓一把糖果，每次小明会取出一半的糖果分给同学们。当糖果不能平均分配时，小明可以选择从糖果盒中（假设盒中糖果足够）取出一个糖果或放回一个糖果。小明最少需要多少次（取出、放回和平均分配均记一次），能将手中糖果分至只剩一颗。输入描述抓取的糖果数（<10000000000）：15输出描述最少分至一颗糖果的次数
（Python基础篇）字符串的操作 EternityArt 基础篇 python 开发语言算法
目录引言一、字符串的基本定义与访问（一）字符串的定义（二）字符串的索引与切片二、字符串的常用操作方法（一）字符串的拼接与重复（二）字符串的大小写转换（三）字符串的去除空白（四）字符串的查找与替换（五）字符串的分割与连接（六）字符串的判断方法三、字符串的格式化（一）使用%运算符（二）使用str.format()方法（三）使用f-字符串（Python3.6+）四、字符串的不可变性五、总结引言在Pyth
华为OD机试 2025B卷 - 小明减肥(C++&Python&JAVA&JS&C语言) YOLO大师华为od c++python 华为OD2025B卷华为OD机试华为机试2025B卷华为OD机试2025B卷
2025B卷目录点击查看：华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解2025B卷100分题型最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述小明有n个可选运动，每个运动有对应卡路里，想选出其中k个运动且卡路里和为t。k，t，n都是给定的。求出可行解数量输入描述第一行输入ntk第一行输入每个运动的卡路里按照空格进行分割备注00,00输出描述求出可行解
【华为OD机试真题 2025B卷】130、最多获得的短信条数、云短信平台优惠活动 | 机试真题+思路参考+代码解析（C++、Java、Py、C语言、JS） KFickle 最新华为OD机试(C++Java Py C JS)+OJ 华为od c++java javascript 华为OD机试真题 c语言最多获得的短信条数
文章目录一、题目题目描述输入输出样例1样例2二、代码与思路参考C++代码Java代码Python代码C语言代码JS代码订阅本专栏后即可解锁在线OJ刷题权限个人博客首页：KFickle专栏介绍：最新的华为OD机试真题，使用C++，Java，Python，C语言，JS五种语言进行解答，每个题目都包含解题思路，五种语言的解法，每日持续更新中，订阅后支持开通在线OJ测试刷题！！！一次订阅永久享受更新，有代
【华为OD机试真题 2025B卷】128、判断一组不等式是否满足约束并输出最大差 | 机试真题+思路参考+代码解析（C++、Java、Py、C语言、JS） KFickle 最新华为OD机试(C++Java Py C JS)+OJ 华为od c++java 华为OD机试真题 c语言 javascript
文章目录一、题目题目描述输入输出样例1样例2二、代码与思路参考C++代码Java代码Python代码C语言代码JS代码订阅本专栏后即可解锁在线OJ刷题权限个人博客首页：KFickle专栏介绍：最新的华为OD机试真题，使用C++，Java，Python，C语言，JS五种语言进行解答，每个题目都包含解题思路，五种语言的解法，每日持续更新中，订阅后支持开通在线OJ测试刷题！！！一次订阅永久享受更新，有代
Python编程菜鸟教程：从入门到精通的完全指南_python菜鸟教程 2401_89285717 python 开发语言
我们将介绍Python在数据科学、机器学习、Web开发等方面的应用，并带你了解Python社区和生态系统。基础入门Python安装：在官方网站下载安装包，根据不同操作系统进行安装。Mac用户可直接使用Homebrew进行安装Windows用户需下载安装包后进行手动安装Linux用户可使用apt-get或yum进行安装基础语法：Python是一种解释型语言，支持面向对象、函数式和面向过程等多种编程范
Python Pandas库超详细教程：从入门到精通实战指南 stormsha Python python pandas 开发语言 python3.11 数据分析
欢迎莅临我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐：「stormsha的主页」，「stormsha的知识库」持续学习，不断总结，共同进步，为了踏实，做好当下事儿~非常期待和您一起在这个小小的网络世界里共同探索、学习和成长。✨✨欢迎订阅本专栏✨✨TheStart点点关注，收藏不迷路文章目录Pyt
Docker快速部署Hive服务长路 ㅤ 运维 Docker配置 Hive环境大数据远程调试
文章目录前言Docker快速配置hive环境资料获取前言博主介绍：✌目前全网粉丝4W+，csdn博客专家、Java领域优质创作者，博客之星、阿里云平台优质作者、专注于Java后端技术领域。涵盖技术内容：Java后端、大数据、算法、分布式微服务、中间件、前端、运维等。博主所有博客文件目录索引：博客目录索引(持续更新)CSDN搜索：长路视频平台：b站-Coder长路Docker快速配置hive环境Ap
从UI设计到数字孪生实战：构建智慧教育的个性化学习平台
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：数字孪生重构智慧教育的技术范式在教育数字化转型加速推进的背景下，传统在线教育正面临"个性化不足、学习体验单一、效果评估滞后"的瓶颈。教育部数据显示，采用数字孪生技术的智慧教育平台，学生学习效率平均提升35
python中的元类Metaclass ReedSun python python
python中的元类Metaclass理解元类之前需要学习的知识如果说让我们创建一个类，最先想到的肯定是用class创建，当我们使用class创建类的时候，python解释器自动创建这个对象，但是python同样也提供了手动处理的方法来创建类，这就是用python的自建函数type()。我们所熟知的type()函数的作用是返回一个参数的类型，但是实际上，它也有一种完全不同的能力，即接受一个类的一些
python 元类的继承_Python学习_13_继承和元类五伤先生 python 元类的继承
继承继承的含义就是子类继承父类的命名空间，子类中可以调用父类的属性和方法，由于命名空间的查找方式，当子类中定义和父类同名属性或者方法时，子类的实例调用的是子类中的属性，而不是父类，这就形成了python中的多态：defSuperClass:defa_method:passdefSubClass(SuperClass):defa_method:passobj=SubClass()obj.a_meth
网络安全用什么编程语言_网络安全的5种最佳编程语言程序员羊羊 web安全网络安全开发语言数据库
网络安全用什么编程语言要成为网络安全专家，要取得成功，需要多种技能。全方位的专业人员可以放心地实施和监视安全措施，以保护计算机系统免受攻击和未经授权的访问。总部位于巴西的Python专家Henrique教人们如何使用该语言创建应用程序，他强调“除了紧跟网络安全领域的最新动态，您还需要熟悉各种编程语言。”这里有5种最佳编程语言，可帮助您提高网络安全职业的学习能力。1.C和C++C和C++是网络安全专
Python面试题：使用Python进行元编程：元类和元编程技巧
在Python中，元编程是一种编程技巧，它涉及到代码本身的结构和行为的编程。元编程允许你编写能够操作、修改或生成代码的代码。最常见的元编程技术包括使用元类、装饰器和类装饰器。以下是对Python元编程的详细讲解，包括元类和一些常用的元编程技巧。1.元类（Metaclasses）1.1定义和概念元类是用来创建类的类。换句话说，元类定义了类的行为，就像类定义了对象的行为一样。在Python中，type
每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户_用户每日登陆脉脉会访问app不同的模块,现有两个表表1记录了每日脉脉活跃用户的ui(1)
文章目录每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户每日语录第25题：1.需求列表1.初级题:每日活跃用户思路分析(1)创建表(2)思路答案获取加技术群讨论附表文末SQL小技巧后记每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户大家好，我是Maynor。相信大家和我一样，都有一个大厂梦，作为一名资深大数据选手，深知SQL重要性，接下来我准备用100天时间，基于大
Python元类基础知识示例深度剖析，从新手小白成为Python编程高手只存在于虚拟的King python 开发语言深度学习学习经验分享计算机网络程序人生
文章目录引言一、什么是元类？二、元类的工作原理三、如何定义元类四、元类的应用场景五、元类的注意事项六、结论关于Python技术储备一、Python所有方向的学习路线二、Python基础学习视频三、精品Python学习书籍四、Python工具包+项目源码合集①Python工具包②Python实战案例③Python小游戏源码五、面试资料六、Python兼职渠道引言Python是一种强大的编程语言，一部
stm32 micropython vscode_VS Code 上最硬核的 MicroPython 插件 weixin_39968309 stm32 micropython vscode
介绍VSCode上最硬核的MicroPython插件——RT-ThreadMicroPython，为MicroPython开发提供了强大的开发环境，主要特性如下：设备快速连接(串口、网络、USB)支持基于MicroPython的代码智能补全与语法检查支持MicroPythonREPL交互环境提供丰富的代码示例与demo程序提供工程同步功能支持下载单个文件或文件夹至开发板支持在内存中快速运行代码文件
Python对JSON数据操作
在Python中，对JSON数据进行增删改查及加载保存操作，主要通过内置的json模块实现。一、基础操作1.加载JSON数据•从文件加载使用json.load()读取JSON文件并转换为Python对象（字典/列表）：importjsonwithopen('data.json','r',encoding='utf-8')asf:data=json.load(f)•从字符串加载使用json.load
【转载】python json
概念序列化（Serialization）：将对象的状态信息转换为可以存储或可以通过网络传输的过程，传输的格式可以是JSON、XML等。反序列化就是从存储区域（JSON，XML）读取反序列化对象的状态，重新创建该对象。JSON（JavaScriptObjectNotation）：一种轻量级数据交换格式，相对于XML而言更简单，也易于阅读和编写，机器也方便解析和生成，Json是JavaScript中的
Python os库完全指南：文件操作必备晨曦543210 Python启航之路 python 开发语言
一、简介Python的os库。这个库主要用于和操作系统交互，比如管理文件、目录、运行系统命令等。二、导入库importos三、基础操作获取当前工作目录current_dir=os.getcwd()print("当前目录:",current_dir)切换目录os.chdir("/path/to/new/directory")列出目录内容files=os.listdir()#不传参数则默认当前目录pr
03 数据可视化的世界非常广阔，除了已提到的类型，还有许多更细分或前沿的可视化形式。晨曦543210 信息可视化人工智能
十五、机器学习与数据科学专用图表特征重要性图（FeatureImportancePlot）用途：展示机器学习模型中各特征对预测结果的贡献度。示例：随机森林模型中影响房价预测的关键因素。混淆矩阵热力图（ConfusionMatrixHeatmap）用途：分类模型性能评估，显示预测结果与真实标签的对比。示例：疾病诊断模型的真阳性/假阳性分布。学习曲线（LearningCurve）用途：分析模型训练过程
Python 爬虫实战：Selenium 爬取豆瓣相册（图片分类 + 标签提取）西攻城狮北 python 爬虫 selenium
一、引言豆瓣作为国内知名的社区平台，其相册功能允许用户上传和分享各类图片，涵盖电影海报、音乐专辑、生活记录等多个领域。这些图片数据对于了解用户兴趣、进行内容推荐和市场调研具有重要价值。然而，豆瓣对直接的数据访问设定了诸多限制，因此，本文将介绍如何通过Python爬虫技术结合Selenium自动化工具，合法高效地爬取豆瓣相册图片，并运用深度学习技术实现图片分类和标签提取。二、开发环境搭建（一）编程语
Python JSON操作完全指南
目录一、简介二、JSON和Python的对应关系三、核心函数1.json.dumps()：将Python对象→JSON字符串2.json.loads()：将JSON字符串→Python对象3.json.dump()：将Python对象→JSON文件4.json.load()：从JSON文件→Python对象四、常见错误处理1.JSON解析错误2.类型不支持错误五、总结六、常用函数1️⃣json.d
AI“大航海”时代：企业人力资源的AI-HR实践与效能提升策略
在数字化浪潮的推动下，人工智能（AI）正以前所未有的速度渗透各行各业，人力资源管理（HR）领域也不例外。AI技术的引入与应用落地，不仅提升HR管理效率，更在深层次上带来人力资源运作模式的变革。什么是AI-HR所谓AI-HR，是指将人工智能技术应用于人力资源管理，并通过机器学习、自然语言处理、数据挖掘等技术，优化招聘、培训、绩效评估、员工关系等人力资源各个业务模块。近年来，随着AI技术的成熟和普及，
华为OD机试 - 计算某字符出现次数（Python/JS/C/C++ 2025 B卷 100分）哪吒华为od python javascript 2025B卷华为OD机试
2025B卷华为OD机试统一考试题库清单（持续收录中）以及考点说明（Python/JS/C/C++）。专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述写出一个程序
华为OD机试 - 取零食 - 动态规划（Python/JS/C/C++ 2024 E卷 100分）哪吒华为od 动态规划 python
2025华为OD机试题库（按算法分类）：2025华为OD统一考试题库清单（持续收录中）以及考点说明（Python/JS/C/C++）。专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随
华为OD机试 - 快速人名查找 - 深度优先搜索dfs（Python/JS/C/C++ 2025 B卷 200分）哪吒华为od 深度优先 python 2025A卷华为OD机试
一、题目描述给一个字符串，表示用","分开的人名。然后给定一个字符串，进行快速人名查找，符合要求的输出。快速人名查找要求：人名的每个单词的连续前几位能组成给定字符串，一定要用到每个单词。二、输入描述第一行是人名，用“，”分开的人名第二行是查找字符串。三、输出描述输出满足要求的人名。四、测试用例测试用例1：1、输入alicebob,charliedelta,alicecharlieac2、输出ali
2025上半年最新华为OD机试与面试指南，最新2025B卷独家总结上岸技巧，答读者问！必看！【万字长文，建议收藏】（Python/JS/C/C++）
专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。2025年5月12日，华为官方已经将华为OD机试（A卷）切换为B卷。目前正在考的是B卷，按照华为OD往常的操作，B卷题目是由往
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL