贪玩懒悦

数据预处理流程

数据预处理流程总结

下面分享一下自己通常会用到的一些数据预处理的方法和步骤，用Kaggle平台上的elo用户忠诚度预测的数据集作为应用案例。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
merchant = pd.read_csv(r'\原始数据\elo-merchant-category-recommendation\merchants.csv', header=0)

一、初步探索

拿到一份数据，首先要确定样本大小、特征个数、字段类型这些基本信息。用.info()可以初步得到数据集的这些信息

merchant.info()


RangeIndex: 334696 entries, 0 to 334695
Data columns (total 22 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   merchant_id                  334696 non-null  object 
 1   merchant_group_id            334696 non-null  int64  
 2   merchant_category_id         334696 non-null  int64  
 3   subsector_id                 334696 non-null  int64  
 4   numerical_1                  334696 non-null  float64
 5   numerical_2                  334696 non-null  float64
 6   category_1                   334696 non-null  object 
 7   most_recent_sales_range      334696 non-null  object 
 8   most_recent_purchases_range  334696 non-null  object 
 9   avg_sales_lag3               334683 non-null  float64
 10  avg_purchases_lag3           334696 non-null  float64
 11  active_months_lag3           334696 non-null  int64  
 12  avg_sales_lag6               334683 non-null  float64
 13  avg_purchases_lag6           334696 non-null  float64
 14  active_months_lag6           334696 non-null  int64  
 15  avg_sales_lag12              334683 non-null  float64
 16  avg_purchases_lag12          334696 non-null  float64
 17  active_months_lag12          334696 non-null  int64  
 18  category_4                   334696 non-null  object 
 19  city_id                      334696 non-null  int64  
 20  state_id                     334696 non-null  int64  
 21  category_2                   322809 non-null  float64
dtypes: float64(9), int64(8), object(5)
memory usage: 56.2+ MB

用.info()搞清楚哪些是分类变量，哪些是数值型变量，分类进行处理。可以先把变量名分类放入category_cols、numeric_cols两个列表中，等待后续操作。

由于object类型变量中有一些离散型变量，之后要把它们的取值映射到数值上（比如category_1有3个取值，分别是A 、B、C，无法直接对它们进行建模计算，要把它们分别转化成0、1、2），也可以把这样的object型变量名存放起来。

category_cols = ['merchant_id', 'merchant_group_id', 'merchant_category_id',
       'subsector_id', 'category_1',
       'most_recent_sales_range', 'most_recent_purchases_range',
       'category_4', 'city_id', 'state_id', 'category_2']
numeric_cols = ['numerical_1', 'numerical_2',
     'avg_sales_lag3', 'avg_purchases_lag3', 'active_months_lag3',
       'avg_sales_lag6', 'avg_purchases_lag6', 'active_months_lag6',
       'avg_sales_lag12', 'avg_purchases_lag12', 'active_months_lag12']
object_cols = ['category_1','most_recent_sales_range','most_recent_purchases_range','category_4' ]

二、正确性校验

2.1 样本重复性检验

一般多用于数据中的样本ID重复性检验，有些数据里面的样本id是不允许重复的，比如订单ID在电商系统中是不会重复使用的，这样的数据集中就不该有重复的样本id,没有重复的订单ID，才算是一份比较漂亮的数据。电商数据中，重复的订单ID可能说明以下两个事实：（1）样本中有大量重复数据（2）数据中的每条样本并不是订单，而是订单中的一个商品，因此标签中的异常实际上可能是“这笔交易的异常”，而不是整个订单的异常（如果是这种情况，数据预处理就会比较困难了）

而有些情况下，样本id重复是被允许的，比如在本文使用的这个例子当中，商户信息数据集中，商户id有重复，因为一些商户进行了业务更新；在一些信用卡交易记录数据中，每张信用卡可以交易多次，所以数据集中出现多个样本具有同样的id，也是一件正常的事情，还是要结合具体业务背景来看样本重复性是否被允许。但是样本重复性检验的确是不可缺失的一个步骤。

这一个步骤常用到.unique()和.nunique()

.unique()返回某一列中所有不同的值。
.nunique()返回某一列中不同取值的个数。

merchant.nunique()

merchant_id                    334633
merchant_group_id              109391
merchant_category_id              324
subsector_id                       41
numerical_1                       954
numerical_2                       947
category_1                          2
most_recent_sales_range             5
most_recent_purchases_range         5
avg_sales_lag3                   3372
avg_purchases_lag3             100003
active_months_lag3                  3
avg_sales_lag6                   4507
avg_purchases_lag6             135202
active_months_lag6                  6
avg_sales_lag12                  5009
avg_purchases_lag12            172917
active_months_lag12                12
category_4                          2
city_id                           271
state_id                           25
category_2                          5
dtype: int64

merchant.nunique()==merchant.shape[0]

merchant_id                    False
merchant_group_id              False
merchant_category_id           False
subsector_id                   False
numerical_1                    False
numerical_2                    False
category_1                     False
most_recent_sales_range        False
most_recent_purchases_range    False
avg_sales_lag3                 False
avg_purchases_lag3             False
active_months_lag3             False
avg_sales_lag6                 False
avg_purchases_lag6             False
active_months_lag6             False
avg_sales_lag12                False
avg_purchases_lag12            False
active_months_lag12            False
category_4                     False
city_id                        False
state_id                       False
category_2                     False
dtype: bool

merchant.shape[0]是样本量，上面这一个命令是检查每个变量中的取值个数是否等于样本数量，若不等于（返回False），那就是有重复值出现.

若等于（返回True）,就说明该变量里面没有重复值。

merchant数据集中所有的变量都是含有重复值的，并没有哪个变量里面的取值完全不一样

2.2 缺失值、无穷值处理

缺失值处理

查看每一个变量中所含有缺失值的样本个数：data.isnull().sum()

merchant.isnull().sum()

merchant_id                        0
merchant_group_id                  0
merchant_category_id               0
subsector_id                       0
numerical_1                        0
numerical_2                        0
category_1                         0
most_recent_sales_range            0
most_recent_purchases_range        0
avg_sales_lag3                    13
avg_purchases_lag3                 0
active_months_lag3                 0
avg_sales_lag6                    13
avg_purchases_lag6                 0
active_months_lag6                 0
avg_sales_lag12                   13
avg_purchases_lag12                0
active_months_lag12                0
category_4                         0
city_id                            0
state_id                           0
category_2                     11887
dtype: int64

处理缺失值几个可以思考的方向：

（1）缺失是否与异常相关？（在样本不平衡场景下可以使用，比如：异常订单识别、患者筛查等等）

看一下有缺失值的样本和异常样本之间的交集，交集越大说明样本缺失与异常越紧密,这时就一定不能删除缺失样本。还要看两个比例：交集部分/缺失值样本、交集部分/缺失值样本。
- 交集部分/缺失值样本：若该比例较大，说明缺失样本大多数是异常样本。
- 交集部分/异常值样本：异常值样本是珍稀物种，如果该比例较大，直接删除缺失值样本，就加重了样本不平衡问题让异常值更加难以捕捉。如果该比例小，直接删去缺失值样本，影响也不会太大。

（2）众数、均值填补

（3）算法填补

（4）直接删掉：.dropna(),删除之后一定要恢复索引：data.index=range(data.shape[0])

当然也可以把四种方法都尝试一下，看看在四份数据集上面建起来的模型谁的表现更好一些。

填补之前可以大致看一下数据分布,缺失值较少的情况下，就直接用均值、众数、中位数来填补；如果连续型变量的缺失值较多，可以考虑用算法填补（比如随机森林）；如果是离散型变量缺失值很多的情况，可以先用一个数字来标记这些缺失值。

avg_sales_lag3=merchant['avg_sales_lag3'].value_counts().sort_index()
avg_sales_lag3

-82.13         1
-0.72          1
-0.40          1
 0.33         42
 0.34         99
              ..
 360107.00     1
 385833.00     1
 608433.00     1
 624741.00     1
 851844.64     1
Name: avg_sales_lag3, Length: 3372, dtype: int64

统计不同取值的样本个数，并从大到小排序发现取值范围非常大，但是极度偏态，较大的取值之间非常离散。再来用可视化的方法看一下数据分布状况。用到的画图函数是自定义函数，代码在这篇博客里面，可以直接调用数据分布探索函数。

for i in ['avg_sales_lag3','avg_sales_lag6','avg_sales_lag12']:
    data_distribution_explore(merchant,i,va_type='numeric')
data_distribution_explore(merchant,'category_2',va_type='category')

一共四个变量含有缺失值，离散变量’category_2’有许多缺失值（11887个），连续型数值变量‘avg_sales_lag3’、‘avg_sales_lag6’、‘avg_sales_lag12’都只有13个缺失值，数量较少。

因此，对于’category_2’，用-1来填补这些缺失值；对于‘avg_sales_lag3’、‘avg_sales_lag6’、‘avg_sales_lag12’，直接用中位数来填补，或者删掉也无妨。

#填补缺失值（分类型变量）
merchant['category_2'] = merchant['category_2'].fillna(-1)

方案一：中位数填补（连续型数值变量）

numeric_fill=['avg_sales_lag3','avg_sales_lag6','avg_sales_lag12']
for i in numeric_fill:
    merchant[i] = merchant[i].fillna(merchant[i].median())

numeric_fill=['avg_sales_lag3','avg_sales_lag6','avg_sales_lag12']
for i in numeric_fill:
    merchant[i] = merchant[i].fillna(merchant[i].median())

方案二：直接删掉少数缺失的样本（副本上操作）。切记！养成好习惯：删除样本后，立刻恢复索引，否则dataframe里面会有空样本。

data=merchant.copy()
data.dropna(inplace=True)
data.index=range(data.shape[0])

merchant.isnull().sum()

merchant_id                    0
merchant_group_id              0
merchant_category_id           0
subsector_id                   0
numerical_1                    0
numerical_2                    0
category_1                     0
most_recent_sales_range        0
most_recent_purchases_range    0
avg_sales_lag3                 0
avg_purchases_lag3             0
active_months_lag3             0
avg_sales_lag6                 0
avg_purchases_lag6             0
active_months_lag6             0
avg_sales_lag12                0
avg_purchases_lag12            0
active_months_lag12            0
category_4                     0
city_id                        0
state_id                       0
category_2                     0
dtype: int64

缺失值填补完毕

无穷值处理

查看哪些变量里面含有inf值，直接.describe()，看均值和最大值

merchant.describe()

可以看到还是有一些变量(avg_purchases_lag3、avg_purchases_lag6、avg_purchases_lag12)的最大值、均值出现了inf,说明这些变量里面存在inf值，无法直接建模。可以使用天花板盖帽法的方式对其进行修改，即将inf改为最大的显式数值。代码实现流程如下：

inf_cols = ['avg_purchases_lag3', 'avg_purchases_lag6', 'avg_purchases_lag12']
merchant[inf_cols] = merchant[inf_cols].replace(np.inf, merchant[inf_cols].replace(np.inf, -99).max().max())

merchant.describe()

	merchant_group_id	merchant_category_id	subsector_id	numerical_1	numerical_2	avg_sales_lag3	avg_purchases_lag3	active_months_lag3	avg_sales_lag6	avg_purchases_lag6	active_months_lag6	avg_sales_lag12	avg_purchases_lag12	active_months_lag12	city_id	state_id	category_2
count	334696.000000	334696.000000	334696.000000	334696.000000	334696.000000	334696.000000	334696.000000	334696.000000	3.346960e+05	334696.000000	334696.000000	3.346960e+05	334696.000000	334696.000000	334696.000000	334696.000000	334696.000000
mean	31028.736143	423.131663	25.116404	0.011476	0.008103	13.832494	2.145143	2.994108	2.164999e+01	2.441947	5.947397	2.522677e+01	2.633572	11.599335	102.917926	11.860942	2.259958
std	31623.043426	252.898046	9.807371	1.098154	1.070497	2395.443478	213.955844	0.095247	3.947031e+03	209.439373	0.394936	5.251740e+03	205.206198	1.520138	107.090673	6.176889	1.657263
min	1.000000	-1.000000	-1.000000	-0.057471	-0.057471	-82.130000	0.333495	1.000000	-8.213000e+01	0.167045	1.000000	-8.213000e+01	0.098330	1.000000	-1.000000	-1.000000	-1.000000
25%	3612.000000	222.000000	19.000000	-0.057471	-0.057471	0.880000	0.923650	3.000000	8.500000e-01	0.902247	6.000000	8.500000e-01	0.898333	12.000000	-1.000000	9.000000	1.000000
50%	19900.000000	373.000000	27.000000	-0.057471	-0.057471	1.000000	1.016667	3.000000	1.010000e+00	1.026961	6.000000	1.020000e+00	1.043361	12.000000	69.000000	9.000000	1.000000
75%	51707.250000	683.000000	33.000000	-0.047556	-0.047556	1.160000	1.146522	3.000000	1.230000e+00	1.215575	6.000000	1.290000e+00	1.266480	12.000000	182.000000	16.000000	4.000000
max	112586.000000	891.000000	41.000000	183.735111	182.079322	851844.640000	61851.333333	3.000000	1.513959e+06	61851.333333	6.000000	2.567408e+06	61851.333333	12.000000	347.000000	24.000000	5.000000

数据中已经没有无穷值了

2.3 数据类型转变

离散变量字典编码

接下来对离散变量进行字典编码，即将object对象类型按照sort顺序进行数值化（整数）编码。例如原始category_1取值为Y/N，通过sort排序后N在Y之前，因此在重新编码时N取值会重编码为0、Y取值会重编码为1。以此类推。

需要注意的是，从严格角度来说，变量类型应该是有三类：连续性变量、名义型变量以及有序变量。

名义变量：没有数值大小意义的分类变量，例如用1表示女、0表示男，0、1只是作为性别的指代，而没有1>0的含义。

有序变量：离散型变量，但却有数值大小含义，如上述most_recent_purchases_range字段，销售等级中A>B>C>D>E，该离散变量的5个取值水平是有严格大小意义的，该变量就被称为有序变量。

下面自定义一个编码函数，可以将object型变量转化成离散型变量

# 字典编码函数
def change_object_cols(se):
    value = se.unique().tolist()
    value.sort()#从小到大排序
    return se.map(pd.Series(range(len(value)), index=value)).values

for col in object_cols:
    merchant[col] = change_object_cols(merchant[col])

C++11 lambda 顾小玙 c++开发语言
前言在Cpp11以前，为了把函数当作对象调用，可以使用C中的函数指针类型，也可以使用Cpp98的仿函数。但二者都不是很好用，函数指针return_type(*name)(parameters)的长相就令人望而却步，仿函数将一个函数重载为一个类的operator()的方式又沉重麻烦。C++11中做出了(抄Python的)更灵活、轻便的lambda表达式。lambda表达式lambda表达式是一个匿名
机器学习中的数学：数学建模常用知识点-1 数字化与智能化机器学习中的数学机器学习凸函数泰勒公式 Jensen 不等式
一、凸函数1、凸函数讲解设函数f(x)是定义在区间X上的函数，若对于区间上任意两点x1、x2和任意实数��∈(0,1)，总有如下表达式成立：则称为f(x)是X上的凸函数；反之，如果下式成立：则称为f(x)在X上的凹函数。如图所示：Python实现凸函数：importnumpyasnpimportmatplotlib.pyplotasplt#定义凸函数defconvex_function(x):re
2025年AI编程工具推荐小猴崽 AI编程 AI编程 ai编程
以下基于2025年权威技术报告、开发者社区评测及厂商白皮书，对当前主流AI编程工具进行客观综述与推荐。数据来源包括IDC《2025中国生态告》、信通院《AI辅助编程技术成熟度评》、StackOverflow开发者调查及头部企业实测案例。一、国际主流AI编程工具GitHubCopilotX核心能力：基于GPT-4模型升级，支持37种编程语言（Python/Java/JS等），可解析数万行代码库的全局
python里面的单引号，双引号以及三引号的介绍 scuter_yu python python 单引号双引号以及三引号
第一次在csdn上写博客，内心有点小激动。该怎么表达我此刻的心情呢？哎呀，让我来唱一首《小苹果》吧。“你是我的小呀小苹果……balabala”！好啦，疯言疯语过后还是赶快进入主题吧。我今天要讲得是python里面的单引号（‘’），双引号（“”）以及三引号（“““”””）的区别。相信刚接触的python的朋友都会遇到这样的一个困惑，就是对单引号（‘’），双引号（“”）以及三引号（“““”””）的使用
【python】pip 国内镜像源叶阿猪 python python pip 开发语言
使用pip下载安装python第三方库的时候，经常会很慢，甚至报错。如下：pip._vendor.urllib3.exceptions.ReadTimeoutError:HTTPSConnectionPool(host='f而使用Python的镜像源（也称为国内安装源或PyPI镜像源）可以提高Python包（如numpy、pandas等）的安装速度和稳定性。Python的镜像源是在国内设置的代理服
接口自动化测试（Python+pytest+PyMySQL+Jenkins）万能程序员-传康Kk python pytest jenkins
接口自动化测试一个完整的企业级接口自动化测试解决方案目录项目介绍技术架构功能特性项目结构环境要求安装部署使用方法测试用例说明预期结果报告系统配置说明数据库设计Jenkins集成常见问题项目亮点扩展指南联系方式项目介绍项目背景接口自动化测试作为现代软件开发流程的核心环节，已成为保障系统质量、提升交付效率的关键手段。本项目基于Python技术栈，构建了一套完整的接口自动化测试解决方案，旨在为开发团队提
如何获取Swift变量的内存内容?如何理解Swift的if let语句?如何理解Swift “case let xxx:“?Swift可以像Python一样在定义变量时省略var或者let?
目录如何获取Swift变量的内存内容?如何理解Swift的iflet语句?如何理解Swift"caseletxxx:"?如何理解Swift"case10...20=a"这种条件表达式?Swift可以像Python一样在定义变量时省略var或者let?Swift结构体或枚举mutating的本质为什么Swift枚举变量前面可以加符号"."?Swift权限控制如何获取Swift变量的内存内容?可使用M
卷积神经网络亿只小灿灿 Python 算法与数据结构人工智能 cnn 人工智能神经网络
一、引言在当今人工智能的浪潮中，卷积神经网络（ConvolutionalNeuralNetwork，CNN）无疑是一颗璀璨的明星。它在图像识别、语音处理、自然语言处理等众多领域取得了巨大的成功，极大地推动了人工智能技术的发展。那么，什么是卷积神经网络？它的算法原理是什么？本文将深入探讨这些问题，并通过Python代码实现一个简单的卷积神经网络，以帮助读者更好地理解和掌握这一强大的技术。二、卷积神经
Python pdfminer.six库【PDF解析库】全面使用指南老胖闲聊 Python库大全 python pdf 开发语言
想全面了解DeepSeek的看过来【包邮】DeepSeek全攻略人人需要的AI通识课零基础掌握DeepSeek的实用操作手册指南【限量作者亲笔签名版售完即止】玩转DeepSeek这本就够了【自营包邮】DeepSeek实战指南deepseek从入门到精通实用操作指南现代科技科普读物AI普及知识读物人工智能使用教程中小学读物京东超级618Python初学者的入门教程动手学深度学习PyTorch版李沐和
AI教学应用作业多元化和教师批改多样化蹦跑的蜗牛 AI 人工智能 ai
AI教学应用作业多元化和教师批改多样化目标是解决「作业形式多样化+教师批改压力大+教学反馈个性化不足」的问题一、需求大学生的作业和高中完全不一样，比如：作业类型多：可能是论文/实验报告（文字类）、Python代码（编程类）、电路仿真图（图片类）、小组调研视频（视频类）、甚至社会调查的问卷数据（表格类）。教师批改难：比如一篇5000字的论文，老师要检查逻辑、查重、给修改建议；一份代码作业要跑通测试、
《Python之禅》：优雅代码的哲学指南郝学胜-神的一滴 Python python 开发语言
Python不仅仅是一门编程语言，它更像是一种编程哲学的体现。而这份哲学的精髓，就藏在一句简单的代码中：importthis运行这段代码，你会看到一段充满诗意的“代码准则”——《Python之禅》（TheZenofPython）。它由Python之父GuidovanRossum的同事TimPeters编写，用19条简洁的格言，定义了Python语言的设计理念和开发者应遵循的编码哲学。《Python
【数据挖掘】分类算法学习—ID3 会的全对٩(ˊᗜˋ*)و 数据挖掘数据挖掘分类学习经验分享 ID3
分类算法学习—ID3ID3（IterativeDichotomiser3）是一种经典的决策树学习算法，由RossQuinlan于1986年提出，主要用于处理离散特征的分类问题。其核心思想是通过信息增益选择最优特征进行节点分裂，递归构建决策树。要求：理解并掌握ID3算法，理解算法的原理，能够实现算法，并对给定的数据集进行分类，分析个人参股的情况代码实现：importpandasaspdimportn
理解不同层的表示（layer representations）科学禅道高维表示人工智能深度学习
在机器学习和深度学习领域，特别是在处理音频和自然语言处理（NLP）任务时，"层的表示"（layerrepresentations）通常是指神经网络不同层在处理输入数据时生成的特征或嵌入。这些表示捕获了输入数据的不同层次的信息。1.层的表示（layerrepresentations）为了更好地理解这一概念，我们可以从以下几个方面进行解释：1.深度神经网络结构深度神经网络（DNN）通常由多个层组成，每
esp32 支持 sd卡 micropython 文件系统_ESP32 / ESP8266 MicroPython教程：读取文件 weixin_39891317 esp32 支持 sd卡 micropython 文件系统
原标题：ESP32/ESP8266MicroPython教程：读取文件引言本篇ESP32/ESP8266MicroPython教程主要说明如何从MicroPython的文件系统中读取一个文件。本教程在esp32和esp8266上进行了测试。通常我会使用Putty与MicroPython命令行界面进行交互。但是为了演示，我在本篇教程中会使用ArduinoSerialMonitor与设备进行交互。因为
AttributeError: module ‘distutils‘ has no attribute ‘version‘ 一只小狐狸坐在沙丘上深度学习人工智能
问题描述run(unidexgrasp)tianyu@tianyu:~/UniDexGrasp/dexgrasp_generation$python./network/train.py--config-nameipdf_config--exp-dir./ipdf_trainError:Traceback(mostrecentcalllast):File"./network/train.py",li
基于机器学习的人形机器人电池健康状态预测方法 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据机器学习机器人人工智能 ai
基于机器学习的人形机器人电池健康状态预测方法：从理论到实践的系统解析关键词电池健康状态（SOH）、剩余使用寿命（RUL）、人形机器人、机器学习、时序数据建模、多模态特征融合、边缘计算部署摘要本报告系统解析基于机器学习的人形机器人电池健康状态预测方法，覆盖从理论框架到工程实现的全链路。首先界定人形机器人场景下电池健康状态的核心指标（SOH/RUL/RC），梳理从电化学模型到数据驱动方法的技术演进；其
软件测试进阶：Python 高级特性与数据库优化（第二阶段 Day6） study软测数据库 python sql
在掌握SQL复杂查询和Python数据库基础操作后，第六天将深入探索Python高级编程特性与数据库性能优化。通过掌握Python的模块与包管理、装饰器等高级语法，结合数据库索引优化、慢查询分析等技术，提升测试工具开发与数据处理效率。一、Python高级编程：模块、包与装饰器1.模块与包的使用模块导入：将代码拆分到不同.py文件中，通过import实现复用#自定义模块my_module.pydef
C++入门笔记张峻铖 C++c++
写在开头初衷：对于一个程序员/算法工程师来说，只会Python未免过于单薄了。出于未来找工作的需要，开始学习C++，并使用C++刷LeetCode。背景：本科有C语言课程，甚至学过汇编，研究生阶段主要使用Python。提醒：该系列文章以尽可能快地应用C++（刷题）为目的，暂以B站黑马程序员C++教程为教材，主要记录重点内容和对个人来讲不易理解或陌生的内容，具有较浓的个人笔记特点，因此，在全面性和权
【5分钟力扣】1160.拼写单词（python3实现）金鞍少年金鞍少年的刷题之路字符串 leetcode 力扣1160题 python拼写单词
文章目录一、前言二、题目三、哈希表解法3.1哈希表基本概念3.2解题思路3.3代码实例四、字符串比较解法4.1解题思路4.2代码实例一、前言如果放弃太早，你永远都不知道自己会错过什么。每天五分钟，看懂一道简单、中等难度的算法题，尽可能将复杂的题讲清楚。疯狂学习python中，2020-07-20更新二、题目给你一份『词汇表』（字符串数组）words和一张『字母表』（字符串）chars。假如你可以用
Day33打卡 @浙大疏锦行 ayuan0119 python打卡shu python
知识点回顾：PyTorch和cuda的安装查看显卡信息的命令行命令（cmd中使用）cuda的检查简单神经网络的流程数据预处理（归一化、转换成张量）#仍然用4特征，3分类的鸢尾花数据集作为我们今天的数据集fromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitimportnumpyasnp
Python包管理之Protry的基本使用菜鸟级后端 python linux 开发语言
一，Poetry是什么Poetry是Python生态中一款革命性的依赖管理与项目打包工具，它通过现代化的设计理念解决了传统工具（如pip+virtualenv）在项目管理中的诸多痛点，比pip的功能强大许多。核心功能如下：1，智能依赖管理Poetry采用pyproject.toml文件统一管理项目元数据、依赖声明及构建配置，通过poetryadd命令即可自动解析依赖树并安装精确版本，避免版本冲突（
Python变量的动态创建念致达 Python python
Python变量的动态创建动态地创建变量可以使用globals()和locals()来实现。这两个对象以字典的形式分别保存着系统的静态变量和局部变量。所以只要将要创建的变量加入这两个字典中的任一个，就实现了变量的动态创建。>>>ls=['name','无奇']>>>i=21>>>globals()[ls[0]+str(i)]=ls[1]>>>name21'无奇'动态变量的应用。最典型的就是pyth
C++实现一个基于多态的职工管理系统（附源码） loveCC_orange C/C++c++面试华为后端开发多态
之前为了找实习，学了Python，刷了五六十道算法题，然后就开始投简历面试了，结果就是各个大厂一轮游，要Python开发的岗位又少的可怜。但所幸华为的实习面试通过了~本来以为这样就可以等着拿offer了，结果泡池子失败，今年华为的RAN研究部offer数量缩水，由于没在前四之列，所以就被pass掉了。然后又重新开始海投简历找实习。在无数次碰壁之后，深感自己才疏学浅，学的东西还是太少了。于是继续刷题
Python编程：色温倔强老吕 C++与python交互编程 python 色温
色温（ColorTemperature）是一个用来描述光源颜色特征的物理量，通常用开尔文温度（K）表示。它并不是指灯泡或光源的实际温度，而是以绝对黑体辐射为参照的一种度量方式。当一个理想的黑体被加热到特定温度时，它会发出特定颜色的光，这个颜色与光源的颜色相匹配时，该黑体的温度即为该光源的色温。色温范围及其对应的光色：低于3000K：暖白色，给人以温暖、舒适的感觉，类似于烛光或者白炽灯。3000K至
超详细Python教程——图形用户界面和游戏开发
图形用户界面和游戏开发基于tkinter模块的GUIGUI是图形用户界面的缩写，图形化的用户界面对使用过计算机的人来说应该都不陌生，在此也无需进行赘述。Python默认的GUI开发模块是tkinter（在Python3以前的版本中名为Tkinter），从这个名字就可以看出它是基于Tk的，Tk是一个工具包，最初是为Tcl设计的，后来被移植到很多其他的脚本语言中，它提供了跨平台的GUI控件。当然Tk并
Python编程：ISP中的白平衡（White Balance）倔强老吕 C++与python交互编程 python ISP 白平衡
白平衡（WhiteBalance）是图像信号处理（ISP）中的关键步骤，用于消除光源色温对图像颜色的影响，使白色物体在不同光照条件下都能呈现真实的白色。白平衡的基本原理白平衡通过调整图像中R、G、B三个通道的增益，使得在特定光源下白色物体能够呈现中性色（R=G=B）。主要概念色温：表示光源颜色的物理量，单位是开尔文(K)灰色世界假设：认为自然场景的平均反射率是中性灰色完美反射体假设：认为图像中最亮
Python编程：使用 YOLO 目标检测倔强老吕 python 开发语言
YOLO（YouOnlyLookOnce）是一种基于深度学习的实时目标检测算法，由JosephRedmon等人于2016年首次提出。与传统的两阶段目标检测方法（如R-CNN系列）不同，YOLO将目标检测任务视为一个单一的回归问题，直接在图像上进行一次推理即可预测边界框和类别概率。YOLO的核心思想单次前向传播（SingleShotDetection）：YOLO只需对输入图像进行一次神经网络推理，就
不懂的还在争论AI，懂行的已用Python+DeepSeek变现！逆袭机会就在AI应用层渡难繁辰 python开发人工智能拥抱AI 人工智能 python ai
最近总有种错觉：AI时代轰轰烈烈，普通人却只能当看客？大模型训练动辄千万美金，算法高深莫测，似乎离我们太远。别急，AI真正的革命性力量，正从神秘实验室涌向普通人的键盘——它的名字叫“AI应用层”。而拿到这张船票的钥匙，就是你早该学起来的：Python。当质疑者还在争论“AI能否取代人类”，行动派已用DeepSeek+LangChain开发智能应用月入五位数！巨头烧钱搭台，我们轻量唱戏！科技大佬砸重
这份「零基础」机器学习实战课程，帮你彻底搞懂AI不再迷茫！——深度解析ML-For-Beginners wylee 人工智能机器学习
引言：告别迷茫，拥抱AI未来在当今科技浪潮之巅，人工智能（AI）无疑是最璀璨的明星。机器学习（MachineLearning），作为AI的核心驱动力，正以前所未有的速度渗透到我们生活的方方面面：从智能推荐系统到自动驾驶，从疾病诊断到金融风控，其应用场景几乎无处不在。然而，对于无数渴望投身AI领域的学习者而言，机器学习的门槛似乎一直高不可攀。你是否也曾有过这样的困惑：面对海量的在线课程和资料，眼花缭
python 内存空间管理、垃圾回收机制、对象的引用机制、引用计数法贵哥的编程之路(热爱分享为后来者) 开发语言 python
一、对象与内存空间在Python中，一切皆对象。每当你创建一个变量、数据结构、函数、类实例等，Python都会在内存中为它分配空间。对象的内存空间由Python的内存管理器自动分配和回收，开发者无需手动管理。二、垃圾回收（GarbageCollection）垃圾回收指的是：当对象不再被使用时，Python会自动销毁该对象并释放其占用的内存空间。这样可以防止“内存泄漏”，让程序长期运行也不会因为无用
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数