Datawhale

数据分析之Pandas缺失数据处理

↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习，不错过

 Datawhale干货 
作者：耿远昊，Datawhale成员，华东师范大学

Pandas 是一个强大的分析结构化数据的工具集，它的使用基础是Numpy（提供高性能的矩阵运算），用于数据挖掘和数据分析，同时也提供数据清洗功能。
在往期文章中，已经详细讲解了Pandas做分析数据的四种基本操作：索引、分组、变形及合并。现在，开始正式介绍Pandas的数据结构类型：缺失数据、文本数据、分类数据和时序数据。
在接下来的两章中，会接触到数据预处理中比较麻烦的类型，即缺失数据和文本数据（尤其是混杂型文本）。今天，我们首先对缺失数据进行系统地梳理。
 本文目录

              1. 基础概念
                  1.1. 缺失值分类
                  1.2. 缺失值处理方法
2. 缺失观测及其类型
    2.1. 了解缺失信息
    2.2. 三种缺失符号
    2.3. Nullable类型与NA符号

    2.4. NA的特性

    2.5. convert_dtypes方法

              3. 缺失数据的运算与分组 
                3.1. 加号与乘号规则
                  3.2. groupby方法中的缺失值
               4. 填充与剔除
                4.1. fillna方法
                  4.2. dropna方法
               5. 插值

    5.1. 线性插值
    5.2. 高级插值方法      5.3. interpolate中的限制参数 6. 问题及练习    6.1. 问题
    6.2. 练习
基础概念首先，对缺失值分类和缺失值处理方法进行讲解。

缺失值的分类
按照数据缺失机制可分为：
可忽略的缺失

完全随机缺失(missing completely at random, MCAR)，所缺失的数据发生的概率既与已观察到的数据无关,也与未观察到的数据无关
随机缺失(missing at random, MAR)，假设缺失数据发生的概率与所观察到的变量是有关的,而与未观察到的数据的特征是无关的。
不可忽略的缺失(non-ignorable missing ,NIM) 或非随机缺失(not missing at random, NMAR, or, missing not at random, MNAR)，如果不完全变量中数据的缺失既依赖于完全变量又依赖于不完全变量本身,这种缺失即为不可忽略的缺失。
【注意】：Panda读取的数值型数据，缺失数据显示“NaN”（not a number）。数据值的处理方法
主要就是两种方法：
删除存在缺失值的个案；
缺失值插补。
【注意】缺失值的插补只能用于客观数据。由于主观数据受人的影响，其所涉及的真实值不能保证。1、删除含有缺失值的个案（2种方法）（1）简单删除法简单删除法是对缺失值进行处理的最原始方法。它将存在缺失值的个案删除。如果数据缺失问题可以通过简单的删除小部分样本来达到目标，那么这个方法是最有效的。
（2）权重法当缺失值的类型为非完全随机缺失的时候，可以通过对完整的数据加权来减小偏差。把数据不完全的个案标记后，将完整的数据个案赋予不同的权重，个案的权重可以通过logistic或probit回归求得。如果解释变量中存在对权重估计起决定行因素的变量，那么这种方法可以有效减小偏差。如果解释变量和权重并不相关，它并不能减小偏差。对于存在多个属性缺失的情况，就需要对不同属性的缺失组合赋不同的权重，这将大大增加计算的难度，降低预测的准确性，这时权重法并不理想。
2、可能值插补缺失值
【思想来源】：以最可能的值来插补缺失值比全部删除不完全样本所产生的信息丢失要少。
（1）均值插补属于单值插补。数据的属性分为定距型和非定距型。如果缺失值是定距型的，就以该属性存在值的平均值来插补缺失的值；如果缺失值是非定距型的，就用该属性的众数来补齐缺失的值。（2）利用同类均值插补
属于单值插补。用层次聚类模型预测缺失变量的类型，再以该类型的均值插补。假设为信息完全的变量，为存在缺失值的变量，那么首先对或其子集行聚类，然后按缺失个案所属类来插补不同类的均值。如果在以后统计分析中还需以引入的解释变量和做分析，那么这种插补方法将在模型中引入自相关，给分析造成障碍。（3）极大似然估计（Max Likelihood ,ML）
在缺失类型为随机缺失的条件下，假设模型对于完整的样本是正确的，那么通过观测数据的边际分布可以对未知参数进行极大似然估计（Little and Rubin）。这种方法也被称为忽略缺失值的极大似然估计，对于极大似然的参数估计实际中常采用的计算方法是期望值最大化(Expectation Maximization，EM）。该方法比删除个案和单值插补更有吸引力，前提是适用于大样本，有效样本的数量足够以保证ML估计值是渐近无偏的并服从正态分布。这种方法可能会陷入局部极值，收敛速度也不是很快，并且计算很复杂。（4）多重插补（Multiple Imputation，MI）
多值插补的思想来源于贝叶斯估计，认为待插补的值是随机的，它的值来自于已观测到的值。具体实践上通常是估计出待插补的值，然后再加上不同的噪声，形成多组可选插补值。根据某种选择依据，选取最合适的插补值。多重插补方法的三个步骤：
为每个空值产生一套可能的插补值，这些值反映了无响应模型的不确定性；每个值都可以被用来插补数据集中的缺失值，产生若干个完整数据集合。
每个插补数据集合都用针对完整数据集的统计方法进行统计分析。
对来自各个插补数据集的结果，根据评分函数进行选择，产生最终的插补值。多重插补方法举例：
假设一组数据，包括三个变量，它们的联合分布为正态分布，将这组数据处理成三组，A组保持原始数据，B组仅缺失，C组缺失和。在多值插补时，对A组将不进行任何处理，对B组产生的一组估计值（作关于的回归），对C组作产生和的一组成对估计值（作关于的回归）。当用多值插补时，对A组将不进行处理，对B、C组将完整的样本随机抽取形成为组（为可选择的组插补值），每组个案数只要能够有效估计参数就可以了。对存在缺失值的属性的分布作出估计，然后基于这组观测值，对于这组样本分别产生关于参数的组估计值，给出相应的预测即，这时采用的估计方法为极大似然法，在计算机中具体的实现算法为期望最大化法（EM）。对B组估计出一组的值，对C将利用 它们的联合分布为正态分布这一前提，估计出一组(）。上例中假定了的联合分布为正态分布。这个假设是人为的，但是已经通过验证（Graham和Schafer于1999），非正态联合分布的变量，在这个假定下仍然可以估计到很接近真实值的结果。多重插补弥补贝叶斯估计的不足之处：
贝叶斯估计以极大似然的方法估计，极大似然的方法要求模型的形式必须准确，如果参数形式不正确，将得到错误得结论，即先验分布将影响后验分布的准确性。而多重插补所依据的是大样本渐近完整的数据的理论，在数据挖掘中的数据量都很大，先验分布将极小的影响结果，所以先验分布的对结果的影响不大。
贝叶斯估计仅要求知道未知参数的先验分布，没有利用与参数的关系。而多重插补对参数的联合分布作出了估计，利用了参数间的相互关系。
缺失观测及其类型首先导入数据：

import pandas as pdimport numpy as npdf = pd.read_csv('data/table_missing.csv')df.head()
了解缺失信息1、isna和notna方法对Series使用会返回布尔列表df['Physics'].isna().head()
df['Physics'].notna().head()
对DataFrame使用会返回布尔表df.isna().head()
但对于DataFrame我们更关心到底每列有多少缺失值
df.isna().sum()
此外，可以通过第1章中介绍的info函数查看缺失信息
df.info()
2、查看缺失值的所以在行以最后一列为例，挑出该列缺失值的行df[df['Physics'].isna()]
3、挑选出所有非缺失值列

使用all就是全部非缺失值，如果是any就是至少有一个不是缺失值df[df.notna().all(1)]
三种缺失符号

1、np.nannp.nan是一个麻烦的东西，首先它不等与任何东西，甚至不等于自己。np.nan == np.nanFalsenp.nan == 0Falsenp.nan == NoneFalse在用equals函数比较时，自动略过两侧全是np.nan的单元格，因此结果不会影响。df.equals(df)True其次，它在numpy中的类型为浮点，由此导致数据集读入时，即使原来是整数的列，只要有缺失值就会变为浮点型。type(np.nan)floatpd.Series([1,2,3]).dtypedtype('int64')pd.Series([1,np.nan,3]).dtypedtype('float64')此外，对于布尔类型的列表，如果是np.nan填充，那么它的值会自动变为True而不是False。pd.Series([1,np.nan,3],dtype='bool')
但当修改一个布尔列表时，会改变列表类型，而不是赋值为True。s = pd.Series([True,False],dtype='bool')s[1]=np.nans
在所有的表格读取后，无论列是存放什么类型的数据，默认的缺失值全为np.nan类型。
因此整型列转为浮点；而字符由于无法转化为浮点，因此只能归并为object类型（'O'），原来是浮点型的则类型不变df['ID'].dtypedtype('float64')df['Math'].dtypedtype('float64')df['Class'].dtypedtype('O')2、NoneNone比前者稍微好些，至少它会等于自身None == NoneTrue它的布尔值为Falsepd.Series([None],dtype='bool')0    False
dtype: bool修改布尔列表不会改变数据类型s = pd.Series([True,False],dtype='bool')s[0]=Nones0    False
1    False
dtype: bools = pd.Series([1,0],dtype='bool')s[0]=Nones0    False
1    False
dtype: bool在传入数值类型后，会自动变为np.nantype(pd.Series([1,None])[1])numpy.float64只有当传入object类型是保持不动，几乎可以认为，除非人工命名None，它基本不会自动出现在Pandas中type(pd.Series([1,None],dtype='O')[1])NoneType在使用equals函数时不会被略过，因此下面的情况下返回Falsepd.Series([None]).equals(pd.Series([np.nan]))False3、NaTNaT是针对时间序列的缺失值，是Pandas的内置类型，可以完全看做时序版本的np.nan，与自己不等，且使用equals是也会被跳过s_time = pd.Series([pd.Timestamp('20120101')]*5)s_time
s_time[2] = Nones_time
s_time[2] = np.nans_time
s_time[2] = pd.NaTs_time
type(s_time[2])pandas._libs.tslibs.nattype.NaTTypes_time[2] == s_time[2]Falses_time.equals(s_time)Trues = pd.Series([True,False],dtype='bool')s[1]=pd.NaTs
Nullable类型与NA符号
这是Pandas在1.0新版本中引入的重大改变，其目的就是为了（在若干版本后）解决之前出现的混乱局面，统一缺失值处理方法。"The goal of pd.NA is provide a “missing” indicator that can be used consistently across data types (instead of np.nan, None or pd.NaT depending on the data type)."——User Guide for Pandas v-1.0官方鼓励用户使用新的数据类型和缺失类型pd.NA1、Nullable整形对于该种类型而言，它与原来标记int上的符号区别在于首字母大写：'Int's_original = pd.Series([1, 2], dtype="int64")s_original
s_new = pd.Series([1, 2], dtype="Int64")s_new
它的好处就在于，其中前面提到的三种缺失值都会被替换为统一的NA符号，且不改变数据类型。
s_original[1] = np.nans_original
s_new[1] = np.nans_new
s_new[1] = Nones_new
s_new[1] = pd.NaTs_new
2、Nullable布尔对于该种类型而言，作用与上面的类似，记号为booleans_original = pd.Series([1, 0], dtype="bool")s_original
s_new = pd.Series([0, 1], dtype="boolean")s_new
s_original[0] = np.nans_original
s_original = pd.Series([1, 0], dtype="bool") #此处重新加一句是因为前面赋值改变了bool类型s_original[0] = Nones_original
s_new[0] = np.nans_new
s_new[0] = Nones_new
s_new[0] = pd.NaTs_new
需要注意的是，含有pd.NA的布尔列表在1.0.2之前的版本作为索引时会报错，这是一个之前的bug，现已经修复。s = pd.Series(['dog','cat'])s[s_new]
3、string类型

该类型是1.0的一大创新，目的之一就是为了区分开原本含糊不清的object类型，这里将简要地提及string，因为它是第7章的主题内容。它本质上也属于Nullable类型，因为并不会因为含有缺失而改变类型。s = pd.Series(['dog','cat'],dtype='string')s
s[0] = np.nans
s[0] = Nones
s[0] = pd.NaTs
此外，和object类型的一点重要区别就在于，在调用字符方法后，string类型返回的是Nullable类型，object则会根据缺失类型和数据类型而改变。
s = pd.Series(["a", None, "b"], dtype="string")s.str.count('a')
s2 = pd.Series(["a", None, "b"], dtype="object")s2.str.count("a")
s.str.isdigit()s2.str.isdigit()
NA的特性
1、逻辑运算只需看该逻辑运算的结果是否依赖pd.NA的取值，如果依赖，则结果还是NA，如果不依赖，则直接计算结果。True | pd.NATruepd.NA | TrueTrueFalse | pd.NAFalse & pd.NAFalseTrue & pd.NA取值不明直接报错#bool(pd.NA)2、算术运算和比较运算这里只需记住除了下面两类情况，其他结果都是NA即可pd.NA ** 011 ** pd.NA1其他情况：pd.NA + 1"a" * pd.NApd.NA == pd.NApd.NA < 2.5np.log(pd.NA)np.add(pd.NA, 1)convert_dtypes方法这个函数的功能往往就是在读取数据时，就把数据列转为Nullable类型，是1.0的新函数。pd.read_csv('data/table_missing.csv').dtypes
pd.read_csv('data/table_missing.csv').convert_dtypes().dtypes
缺失数据的运算与分组加号与乘号规则使用加法时，缺失值为0s = pd.Series([2,3,np.nan,4])s.sum()9.0

使用乘法时，缺失值为1s.prod()24.0使用累计函数时，缺失值自动略过s.cumsum()
s.cumprod()
s.pct_change()
groupby方法中的缺失值
自动忽略为缺失值的组df_g = pd.DataFrame({'one':['A','B','C','D',np.nan],'two':np.random.randn(5)})df_g
df_g.groupby('one').groups
填充与剔除
fillna方法1、值填充与前后向填充（分别与ffill方法和bfill方法等价）df['Physics'].fillna('missing').head()
df['Physics'].fillna(method='ffill').head()
df['Physics'].fillna(method='backfill').head()
2、填充中的对齐特性
df_f = pd.DataFrame({'A':[1,3,np.nan],'B':[2,4,np.nan],'C':[3,5,np.nan]})df_f.fillna(df_f.mean())
返回的结果中没有C，根据对齐特点不会被填充
df_f.fillna(df_f.mean()[['A','B']])
dropna方法
1、axis参数df_d = pd.DataFrame({'A':[np.nan,np.nan,np.nan],'B':[np.nan,3,2],'C':[3,2,1]})df_d
df_d.dropna(axis=0)
df_d.dropna(axis=1)
2、how参数（可以选all或者any，表示全为缺失去除和存在缺失去除）df_d.dropna(axis=1,how='all')
3、subset参数（即在某一组列范围中搜索缺失值）¶df_d.dropna(axis=0,subset=['B','C'])
插值
线性插值1、索引无关的线性插值默认状态下，interpolate会对缺失的值进行线性插值s = pd.Series([1,10,15,-5,-2,np.nan,np.nan,28])s
s.interpolate()
s.interpolate().plot()
此时的插值与索引无关s.index = np.sort(np.random.randint(50,300,8))s.interpolate()#值不变
s.interpolate().plot()#后面三个点不是线性的（如果几乎为线性函数，请重新运行上面的一个代码块，这是随机性导致的）
2、与索引有关的插值method中的index和time选项可以使插值线性地依赖索引，即插值为索引的线性函数s.interpolate(method='index').plot()#可以看到与上面的区别
如果索引是时间，那么可以按照时间长短插值，对于时间序列将在第9章详细介绍s_t = pd.Series([0,np.nan,10]        ,index=[pd.Timestamp('2012-05-01'),pd.Timestamp('2012-05-07'),pd.Timestamp('2012-06-03')])s_t
s_t.interpolate().plot()
s_t.interpolate(method='time').plot()
高级插值方法此处的高级指的是与线性插值相比较，例如样条插值、多项式插值、阿基玛插值等（需要安装Scipy）。关于这部分仅给出一个官方的例子，因为插值方法是数值分析的内容，而不是Pandas中的基本知识：ser = pd.Series(np.arange(1, 10.1, .25) ** 2 + np.random.randn(37))missing = np.array([4, 13, 14, 15, 16, 17, 18, 20, 29])ser[missing] = np.nanmethods = ['linear', 'quadratic', 'cubic']df = pd.DataFrame({m: ser.interpolate(method=m) for m in methods})df.plot()
interpolate中的限制参数1、limit表示最多插入多少个s = pd.Series([1,np.nan,np.nan,np.nan,5])s.interpolate(limit=2)
2、limit_direction表示插值方向，可选forward,backward,both，默认前向。s = pd.Series([np.nan,np.nan,1,np.nan,np.nan,np.nan,5,np.nan,np.nan,])s.interpolate(limit_direction='backward')
3、limit_area表示插值区域，可选inside,outside，默认Nones = pd.Series([np.nan,np.nan,1,np.nan,np.nan,np.nan,5,np.nan,np.nan,])s.interpolate(limit_area='inside')
s = pd.Series([np.nan,np.nan,1,np.nan,np.nan,np.nan,5,np.nan,np.nan,])s.interpolate(limit_area='outside')
问题与练习问题
【问题一】 如何删除缺失值占比超过25%的列？第一步，计算单列缺失值的数量，计算单列总样本数
第二步，算出比例，得到一个列的布尔列表
第三步，利用这个布尔列表进行列索引或列删除
df.loc[:,(df.isna().sum()/df.isna().count()<0.25).values]【问题二】 什么是Nullable类型？请谈谈为什么要引入这个设计？
Nullable类型是一种为了统一NaN，Null，NaT三类缺失值而诞生的新的类型。是在原来的数值、布尔、字符等类型的基础上进行小改，优化了当出现缺失值情况时的应对。引入这个设计时为了更好的处理缺失值，统一缺失值处理方法
【问题三】 对于一份有缺失值的数据，可以采取哪些策略或方法深化对它的了解？可以查看缺失值出现的比例；
查看缺失值之间的关联性；
查看总体的缺失信息；
根据缺失信息判断是否为有效数据；
根据缺失信息清洗数据等等。
练习

【练习一】现有一份虚拟数据集，列类型分别为string/浮点/整型，请解决如下问题。
q1 = pd.read_csv('data/Missing_data_one.csv')q1.head()      A       B     C0  not_NaN  0.922  4.01  not_NaN  0.700  NaN2  not_NaN  0.503  8.03  not_NaN  0.938  4.04  not_NaN  0.952  10.01.1 请以列类型读入数据，并选出C为缺失值的行。
q1[q1['C'].isna()]1.2 现需要将A中的部分单元转为缺失值，单元格中的最小转换概率为25%，且概率大小与所在行B列单元的值成正比
q1['A'] = pd.Series(list(zip(q1['A'].values,q1['B'].values))).apply(lambda x:x[0] if np.random.rand()>0.25*x[1]/q1['B'].min() else np.nan)【练习二】 现有一份缺失的数据集，记录了36个人来自的地区、身高、体重、年龄和工资，解决如下问题：pd.read_csv('data/Missing_data_two.csv').head()  编号 地区 身高    体重   年龄   工资0  1   A   157.50  NaN    47.0  15905.01  2   B   202.00  91.80  25.0  NaN2  3   C   169.09  62.18  NaN   NaN3  4   A   166.61  59.95  77.0  5434.04  5   B   185.19  NaN    62.0  4242.02.1 统计各列缺失的比例并选出在后三列中至少有两个非缺失值的行
q2.isna().sum()/q2.shape[0]q2[q2.iloc[:,-3:].isna().sum(1)<=1].head()2.2 请结合身高列和地区列中的数据，对体重进行合理插值
q2_new = q2.copy()for area,group in q2.groupby('地区'):    q2_new.loc[group.index,'体重'] = group[['身高','体重']].sort_values(by='身高').interpolate()['体重'] q2_new = q2_new.round(decimals=2)q2_new.head()本文电子版 后台回复 缺失数据 获取


“感谢你的在看，点赞，分享三连↓

DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略一个处女座的程序猿资深文章(前沿/经验/创新)DataScience ML 数据科学数据科学的生命周期机器学习
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略导读：本文章是博主在数据科学和机器学习领域，先后实战过几百个应用案例之后的精心总结，应该是完全覆盖了数据科学的整个生命周期及其各个阶段的要点。其中机器学习领域六大阶段更是在整个数据科学生命周期中扮演着极其重要的角色。同时，因为涉及到博主出书中出版社要求在
JVM常用概念之编译器黑洞剑海风云 JDK（Java Development Kit）jvm 编译器编译器黑洞
问题JMH如何避免微小基准测试中的不会运行的代码的消除工作？是否有隐式或显式编译器支持？基础知识优化编译器擅长优化简单的东西。例如，如果存在任何人都无法观察到的计算，则可以将其视为“不会运行的代码”并将其删除。这通常是一件好事，直到你运行基准测试。在那里，你想要计算，但你不需要结果。本质上，你观察基准测试所占用的“资源”，但没有简单的方法可以与编译器争论这一点。比如下面的测试用例，该方法中只涉及到
零基础上手Python数据分析 (6)：Python 异常处理，告别程序崩溃的烦恼！ kakaZhui python 数据分析数据库 excel 数据挖掘
回顾一下，前几篇博客我们学习了Python的基本语法、数据结构和文件操作。现在，我们已经掌握了Python编程的基础知识，可以开始编写更复杂的数据分析代码了。但是，在实际的数据分析工作中，程序并非总能一帆风顺地运行，总会遇到各种意外情况，例如：文件找不到：程序尝试读取一个不存在的数据文件。数据格式错误：数据文件中包含非预期的格式，例如本应是数字的列包含了文本。网络连接中断：程序尝试从网络获取数据，
人工智能 - 通用 AI Agent 之 LangManus、Manus、OpenManus 和 OWL 技术选型天机️灵韵具身智能人工智能人工智能具身智能智能体
一、核心项目概览1.Manus（闭源通用AIAgent）定位：全球首个全流程自动化通用AIAgent，GAIA基准测试SOTA水平。核心能力：全流程自动化：从任务规划（如撰写报告）到执行（代码生成、表格制作）的端到端处理。智能纠错机制：基于沙箱环境的实时错误反思与调整（类似CodeAct技术）。云端依赖：需联网运行，集成浏览器操作、信息检索等工具。局限性：闭源且采用邀请制，二手市场邀请码溢价至数万
MySQL 8.0新特性深度解析：窗口函数与JSON数据处理的10大技巧墨瑾轩一起学学数据库【一】mysql json
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣第1章：MySQL8.0简介嗨，亲爱的小伙伴们！欢迎来到MySQL8.0的奇妙世界，这里充满了新鲜和惊喜。MySQL8.0是一个数据库界的超级英雄，它带着一系列令人兴奋的新特性，比如窗口函数和JSON数据处理，来拯救我们的数据处理任务。1.1MySQL8.0的
平衡二叉树（AVL树）：数据结构特性与自平衡技术详解 One Key Variable 课程设计
摘要平衡二叉树，尤其是AVL树，在追求高效数据存储与检索的场景中占据重要地位。本文深入剖析AVL树的数据结构特性，详细解读其自平衡技术原理与实现，帮助读者理解AVL树如何在动态数据操作中维持高效性能。一、引言在数据处理过程中，二叉搜索树虽能实现快速查找，但在频繁插入和删除节点时，可能因结构失衡导致查找效率大幅下降。AVL树作为一种自平衡二叉搜索树，通过严格的平衡条件和自平衡技术，确保树在动态操作下
微软 LIDA 库：基于大模型的自动化数据分析与可视化窝窝和牛牛 microsoft 数据分析
微软LIDA库：基于大模型的自动化数据分析与可视化一、核心架构与LLM交互流程调用LLM生成数据摘要基于LLM推理分析目标LLM生成可视化代码结合图像生成模型优化原始数据Summarizer模块结构化摘要GoalExplorer模块可视化目标列表VizGenerator模块可执行图表代码Infographer模块风格化信息图表二、LLM交互核心功能1.多模型支持架构兼容主流LLM服务商：通过统一接
负载均衡策略之轮询策略 Time-Traveler Python 算法与数据结构
本文转自:https://mozillazg.com/2019/02/load-balancing-strategy-algorithm-weighted-round-robin.html#hidround-robin,尊重原创前言:本文简单介绍一下轮询(RoundRobin)这个负载均衡策略。轮询选择(RoundRobin):轮询选择指的是从已有的后端节点列表中按顺序依次选择一个节点出来提供服务
CAD二次开发之图纸特性字段AcDbDatabaseSummaryInfo 我的sun&shine CAD二次开发开发语言 c++
一、CAD接口类AcDbDatabaseSummaryInfo接口函数acdbGetSummaryInfo(pDb,pSum);addCustomSummaryInfo(key,value);acdbPutSummaryInfo(pSum);二、使用方法1.实现功能：在一张图纸中定义好字段，插入到另外一张图中，对应的字段会更新值。原图纸需要将对应位置写入字段的表达式例如%%%%%%%%新图纸在创建
python之pyttsx3实现文字转语音播报 l8947943 python问题语音识别人工智能 pyttsx3 python朗读
1.pyttsx3是什么pyttsx3是Python中的文本到语音转换库，可以实现文本的朗读功能。2.pyttsx3的安装pipinstallpyttsx33.pyttsx3的demoimportpyttsx3pyttsx3.speak("Areyouok?")pyttsx3.speak("最近有许多打工人都说打工好难")戴上耳机直接跑即可。是不是很简单！那如果我们想对读音的速率，中英文问题进行自
【YOLOv8】YOLOv8改进系列（9）----替换主干网络之RepViT HABuo YOLOv8入门+改进 YOLO 目标检测深度学习计算机视觉人工智能
主页：HABUO主页：HABUOYOLOv8入门+改进专栏如果再也不能见到你，祝你早安，午安，晚安【YOLOv8改进系列】：【YOLOv8】YOLOv8结构解读YOLOv8改进系列（1）----替换主干网络之EfficientViTYOLOv8改进系列（2）----替换主干网络之FasterNetYOLOv8改进系列（3）----替换主干网络之ConvNeXtV2YOLOv8改进系列（4）----
小白零基础学数学建模系列-引言与课程目录川川菜鸟数学建模小白到精通系列数学建模
目录引言一、我们的专辑包含哪些内容？第一周：数学建模基础与工具第二周：高级数学建模技巧与应用第三周：机器学习基础与数据处理第四周：监督学习与无监督学习算法第五周：神经网络二、学完本专辑能收获到什么？三、适合什么样的人群学习？四、如何学习本专辑？课程目录第1周：数学建模基础与工具第1天：数学建模入门介绍第2天：数学建模工具介绍第3天：线性回归与曲线拟合第4天：线性规划第5天：动态规划第2周：高级数学
AWS SAP学习笔记-概念 HainesFreeman AWS aws
1、什么是ETL应用程序，举个例子说明？ETL（Extract,Transform,Load）应用程序是一种用于数据处理和迁移的工具或程序，它主要负责从多个数据源提取数据，对数据进行转换和清洗，然后将处理后的数据加载到目标数据仓库或数据库中。ETL应用程序广泛应用于数据集成、数据仓库构建、数据分析和数据迁移等场景。ETL的三个主要步骤：Extract（提取）：从各种数据源（如数据库、文件、API等
探索数据安全新境界：Apache Spark SQL Ranger Security插件深度揭秘乌昱有Melanie
探索数据安全新境界：ApacheSparkSQLRangerSecurity插件深度揭秘项目地址:https://gitcode.com/gh_mirrors/sp/spark-ranger随着大数据的爆炸性增长，数据安全性成为了企业不可忽视的核心议题。在这一背景下，【ApacheSparkSQLRangerSecurityPlugin】以其强大的数据访问控制能力脱颖而出，成为数据处理领域的明星级
设计模式之装饰器模式周努力. 设计模式设计模式装饰器模式
装饰器模式(Decorator)依然是我们设计模式中的结构型模式，其中的构造思想仍然是对多个类进行组合使用，以达成系统调用实现指定功能的设计模式。装饰器模式不论在我们日常开发过程中还是在我们提升技术阅读源码过程中都是比较常见的，但是整体学习这个模式的思路难度不大，接下来我将详细讲解此设计模式。目录1.概念2.代码实现3.应用场景4.装饰器模式与代理模式的区别1.概念我们前期所讲到的适配器模式，是连
C# 设计模式之桥接模式鲤籽鲲 C#c#设计模式桥接模式
总目录前言1基础介绍定义：将抽象部分与实现部分分离，使它们都可以独立地变化。桥模式不能只认为是抽象和实现的分离，它其实并不仅限于此。其实两个都是抽象的部分，更确切的理解，应该是将一个事物中多个维度的变化分离。一个维度可以认为是抽象部分，另一个维度可以认为是实现部分，而这两个维度可以独立扩充和维护。桥接模式中的角色：抽象化角色(Abstraction)：定义抽象类的接口，一般为抽象类，规范Refin
AI巨浪中的安全之舵：天空卫士助力人工智能落地远航天空卫士人工智能安全数据安全网络安全大数据
"AI时代的安全战场，不在云端在本地；数据治理的胜负手，不在防御在认知。"近期，众多企业纷纷接入DeepSeek大模型，迅速推动了大型模型应用的广泛铺开。无论是在制造业、金融业，还是在医疗、教育等领域，DeepSeek大模型的应用都如火如荼，遍地开花，展现出了其广泛的应用前景和巨大的商业价值。顺势而来的是DeepSeek一体机以"低成本、高算力、私有化部署"的优势席卷企业市场。因为DeepSeek
设计模式之桥接模式周努力. 设计模式设计模式桥接模式 java
目录1.概念2.代码实现3.应用场景桥接模式(BridgePattern)也是我们结构型设计模式的一种，桥接模式整体来说对于开发者需要深刻理解好抽象类这个概念，而且比较考验在开发前就要设计好桥接点来进行开发，所以整体的理解难度我认为是比较高，接下来我将从概念和一个示例来演示该模式。1.概念桥接模式就是将抽象与实现解藕，使两者都可以独立变化。在现实生活中，某些类具有两个或多个维度的变化，如图形既可按
K8S之POD调度〰振振 ༽ K8S kubernetes docker 容器
K8S-Pod调度1、Deployment/RC:全自动调度简述Deployment或RC的主要功能就是自动部署一个容器应用的多份副本，及持续监控副本的数量并维持该值。创建Deploymentkubectlcreate-fnginx-deployment.yaml#nginx-deployment.yamlapiVersion:apps/v1kind:Deploymentmetadata:name
Kaop打印项之OFD（国标版式文件）天蓝加点盐 Web打印控件 Kaop 前端 javascript html
OFD功能说明实现OFD文件的打印，详细参见属性列表属性列表属性名类型默认值说明nameString“”打印项的名称，在打印任务内应该唯一。labelString“”打印项的标题，打印设计或维护时，可以更好的了解打印项代表的含义。xString0左边缘相对于打印区域的位置，默认单位毫米(mm)，可用单位:毫米-mm，如：“10mm”厘米-cm，如：“1cm”点-pt，如：“16pt”英寸-in，如
创建Datas 一一代码 python
核心数据结构创建DataFrame```pythonimportpandasaspd#从字典创建DataFramedata={'Name':['Alice','Bob','Charlie'],'Age':[25,30,35],'City':['NewYork','LosAngeles','Chicago']}df=pd.DataFrame(data)print(df)```输出：```NameAg
程序员学商务英语之Don‘t jinx it、l have a half mind to do sth、Don‘t change the subject、Quality over quantity.. 李匠2024 英文
1463-Don'tjinxit.-别鸟鸦嘴A:Whatifitrainstheweekend?Youknow,theweather'sbeenchangeablethesedays!如果这个周末下雨怎么办?你知道，这些天的天气变化无常!B:Don'tiinxit.i'vespentalotoftimepreparingforthiscamping.lhopeitstaysfineforthewe
AI 赋能应急管理：ChatGPT、DeepSeek、Grok 的应用探索一ge科研小菜菜人工智能人工智能
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着人工智能（AI）技术的快速发展，大语言模型（LLM）在应急管理领域的应用逐步扩大。ChatGPT、DeepSeek、Grok等AI模型凭借强大的文本处理、数据分析和推理能力，可为灾害预警、应急响应、风险评估等提供高效支持。本文将对比三大AI模型在应急管理中的优势，并探讨其在未来智能化应急管理体系中的应用前景。2.应急管理中的核心挑战应
拥抱健康养生，开启活力生活 lanlande33 生活
在快节奏的现代社会，健康养生不再是一句口号，而是我们对高品质生活的追求。它贯穿于日常的点点滴滴，对我们的身心状态有着深远影响。饮食养生是基础。秉持均衡原则，每日的餐盘应是色彩斑斓的。新鲜蔬菜富含维生素与膳食纤维，像菠菜、西兰花，助力肠道蠕动，维持身体代谢平衡；水果提供丰富果酸与天然糖分，苹果、橙子等，补充水分与营养。优质蛋白质不可或缺，瘦肉、鱼类、豆类都是上佳之选，为身体修复与生长提供原料。同时，
GitHub项目推荐--基于LLM的开源爬虫项目惟贤箬溪穷玩Ai github 爬虫
以下是一些基于大语言模型（LLM，LargeLanguageModel）的开源爬虫项目，它们结合了自然语言处理（NLP）技术与爬虫的功能，能在一定程度上提升爬取的智能化和精度。这些项目可以用于自动化抓取、内容提取、数据分析等任务。1.GPT-3WebScraper简介：这是一个基于OpenAIGPT-3模型的网页抓取工具，利用GPT-3的自然语言理解能力来生成有用的爬虫策略、处理网页内容并提取有价
Android 12.0 WiFi连接流程分析之IP地址分配流程安卓兼职framework应用工程师 android 12.0 Rom开发疑难问题分析 android tcp/ip wifi连接 ip地址分配ip
1.前言在12.0的系统rom定制化开发中，对于wifi的定制功能也是比较多的，在关于wifi连接流程模块的分析，了解整个wifi连接流程也是非常重要的，接下来看下wifi的连接流程分析下相关功能实现2.WiFi连接流程分析之IP地址分配流程的核心类frameworks/opt/net/wifi/service/java/com/android/server/wifi/ClientModeImpl
Python基础知识点总结豆芽819 tip python 开发语言
1Python简介Python特点：解释型语言：无需编译，逐行执行。动态类型：变量类型在运行时确定。简洁易读：语法接近自然语言，代码简洁。跨平台支持：Windows/Linux/macOS均可运行。应用领域：Web开发、数据分析、人工智能、自动化脚本等。开发环境：推荐使用IDLE、PyCharm、VSCode或JupyterNotebook。2Python数值运算基本运算符：算术：+,-,*,/,
Flink相关面试题努力的搬砖人. 面试 java 后端 flink
以下是150道ApacheFlink面试题及其详细回答，涵盖了Flink的基础知识、核心架构、API使用、性能调优等多个方面，每道题目都尽量详细且简单易懂：Flink基础概念类1.什么是ApacheFlink？ApacheFlink是一个开源的流处理和批处理框架，能够实现快速、可靠、可扩展的大数据处理。它既可以处理无界的数据流，也可以处理有界的数据批，提供了低延迟和高吞吐量的实时数据处理能力。Fl
Spring系列学习之Spring Messaging消息支持 m0_74825488 面试学习路线阿里巴巴 spring linq java
英文原文：https://docs.spring.io/spring-boot/docs/current/reference/html/boot-features-messaging.html目录JMSActiveMQ支持Artemis支持使用JNDIConnectionFactory发送消息接收消息AMQPRabbitMQ支持发送消息接收消息ApacheKafka支持发送消息接收消息Kafka流
算法之魂：深入剖析数据结构中的七大排序算法 GeminiGlory 数据结构数据结构排序算法算法
目录1.冒泡排序（BubbleSort）2.选择排序（SelectionSort）3.插入排序（InsertionSort）4.希尔排序（ShellSort）5.快速排序（QuickSort）6.归并排序（MergeSort）7.堆排序（HeapSort）在计算机科学领域，排序是一项基础但至关重要的操作。无论你是处理数据库查询结果还是优化搜索效率，了解不同的排序算法及其适用场景都至关重要。本文将介
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

数据分析之Pandas缺失数据处理

你可能感兴趣的:(数据分析之Pandas缺失数据处理)