Pandas之缺失数据的实现

前言

本章介绍pandas中的缺失数据，主要内容有：

pandas中对np.nan的操作：统计、删除、填充、插值
pandas中的Nullable类型及相关操作

在无特殊说明时，本章主要采用的df数据如下，不再重复说明：

df = pd.read_csv('./data/learn_pandas.csv',usecols=['Grade','Name','Gender','Height','Weight','Transfer'])
df

一、缺失值的统计和删除

1.缺失值的统计

我们可以使用isna()和isnull()方法来统计数据中的np.nan数据：

df.isna()

返回的是相同形状的数据，对于非np.nan的元素返回 Fasle ，否则返回 True 。

接下来让我们验证这两种方法的等效性：

>>> df.isna().equals(df.isnull())
True

notna()和notnull()方法与isna()方法正好相反，它对非缺失值返回的是True，缺失值返回Fasle：

同样地，我们来验证一下它们之间的关系：

>>> df.notna().equals(df.notnull())
True
>>> df.notna().equals(~df.isna())
True

证明这四个方法确实是两两相同，两两相反。

1）配合其他统计方法使用

我们可以将isna()方法与一些其他统计方法一起使用，如统计每行数据缺失值的数量：

df.isna().sum(axis = 1)

axis = 1代表沿着每列去统计，结果返回的是每行的缺失值数

也可以统计每列缺失值所占的比例：

df.isna().sum(axis = 0)/df.shape[0]

其中，axis = 0代表代表沿着每行去统计，结果返回的是每列的缺失值数，df.shape[0]代表数据列的长度。

2）配合索引使用

也可以将isna()方法与索引一起使用，如返回体重为缺失值的行：

df[df['Weight'].isna()]

3）配合逻辑方法使用

如果要返回身高体重同时缺失的行，就需要逻辑方法配合：

df[df[['Height','Weight']].isna().all(axis = 1)]

也可以统计df中有缺失值的列：

df.isna().any(axis = 0)

返回False代表该列无缺失值，True代表该列至少有一个缺失值。

总结规律如下：

缺失值方法	逻辑方法	结果	含义
isna() or isnull()	all	True	都是缺失值情况4
isna() or isnull()	all	False	不都是缺失值情况3
isna() or isnull()	any	True	至少有一个缺失值情况2
isna() or isnull()	any	False	都不是缺失值情况1
notna() or notnull()	all	True	都是非缺失值情况1
notna() or notnull()	all	False	不都是非缺失值情况2
notna() or notnull()	any	True	至少有一个非缺失值情况3
notna() or notnull()	any	False	都不是非缺失值情况4

进一步总结，上面的含义可以划分为4种情况，即isna()和notna()在逻辑方法不同，结果不同时，代表含义相同。

2.缺失值的删除

在pandas中利用dropna方法对缺失值进行删除：

res = df.dropna(how = 'all',subset=['Height','Weight'])
res

how参数可以设置成‘all'或‘any'，默认是‘any'，subset参数代表删除考虑的列名，作用和利用df索引进行访问等同。

来跟上面例子联动一下，查看一下行索引为91和102的同学：

>>> res.loc[91]
KeyError: 91
>>> res.loc[102]
KeyError: 102

可以看到确实是成功删除了。

1）thresh参数

thresh参数代表数据不被删除至少需要的非缺失值数量：

df.dropna(axis = 1,thresh = df.shape[0] - 15)

这里的axis参数跟上面sum方法中的axis参数相比，有一些不一样。我们知道sum方法中axis参数为1代表 沿着列 进行求和，最终返回的是每行的和，而dropna中axis参数为1仅代表对每列的非缺失值进行thresh值比较，意义是不同的，这也警告我们不要对所有方法中的axis参数统一去看待，要视情况而定。

2）自定义方法代替dropna方法

其实dropna的返回结果可以理解成按条件筛选，所以我们可以利用缺失值统计的相关方法进行自定义方法来代替方法：

#删除身高体重均为缺失值的行（保留身高体重至少有一个为非缺失值的行）
>>> res2 = df[df[['Height','Weight']].notna().any(axis = 1)]
>>> res2.equals(res)
True
>>> res = df.dropna(how = 'any',subset=['Height','Weight'])
>>> res2 = df[df[['Height','Weight']].notna().all(axis = 1)]
>>> res2.equals(res)
True

对于无thresh参数的简单dropna使用，总结如下：

dropna的how参数	对应的缺失值统计方法和逻辑方法
all	notna + any
any	notna + all

这是由于，dropna()代表删除isna()在all判断下为True的数据，等价于保留notna()在any判断下为True的数据。

在来看如何代替带有thresh参数的dropna方法：

df.loc[:,df.notna().sum(axis = 0) >= df.shape[0]-15]

即利用notna方法和loc索引，返回非缺失值大于等于thresh的列。

二、缺失值的填充和插值

1.填充

我们利用fillna方法对缺失值进行填充，以Series举例，比较重要的参数有：

value：标量或字典（索引到元素的映射）
method：ffill代表由前面的非缺失值来填充，bfill代表由后面的来填充，默认是None
limit：代表连续缺失值最多填充次数
inplace：是否替换原数据

在这里使用的Series数据如下：

>>> s = pd.Series([np.nan,2,np.nan,np.nan,0,np.nan],list('Xiaomy'))
>>> s
X  NaN
i  2.0
a  NaN
o  NaN
m  0.0
y  NaN
dtype: float64

1）利用value参数进行填充

#使用标量进行填充
>>> s.fillna(1)
X  1.0
i  2.0
a  1.0
o  1.0
m  0.0
y  1.0
dtype: float64

#使用字典进行填充
>>> s.fillna({'X':1,'y':100,'c':1})
X   1.0
i   2.0
a   NaN
o   NaN
m   0.0
y  100.0
dtype: float64

我们可以看到在使用字典进行填充时字典不需要包含所有缺失值的索引，且字典里面可以包含其他非索引值。

2）利用method方法进行填充

也可以利用method方法进行连续填充：

#由前面的非缺失值向后填充
>>> s.fillna(method='ffill')
X  NaN
i  2.0
a  2.0
o  2.0
m  0.0
y  0.0
dtype: float64

#由后面的非缺失值向前填充
>>> s.fillna(method='bfill')
X  2.0
i  2.0
a  0.0
o  0.0
m  0.0
y  NaN
dtype: float64

这里可以看到，对于ffill方式，开始的缺失值是不能填充的；对于bfill方式，结尾的缺失值也是不能填充的。

3）分组和缺失值填充的配合

对于df数据中身高的缺失项，最好利用对应年级的相同性别的平均身高来填充：

>>> df.groupby(['Grade','Gender'])['Height'].transform(lambda x:x.fillna(x.mean()))
0   158.900000
1   166.500000
2   188.900000
3   158.363158
4   174.000000
     ...  
195  153.900000
196  160.900000
197  153.900000
198  175.300000
199  155.700000
Name: Height, Length: 200, dtype: float64

这里利用的是分组中的自定义变换方法配合缺失值填充使用。

另外，limit参数可以限制填充的次数，以配合method参数为例：

>>> s.fillna(method='ffill',limit=1)
X  NaN
i  2.0
a  2.0
o  NaN
m  0.0
y  0.0
dtype: float64

当然，limit参数也可以配合其他参数进行使用，这里不再赘述。

练一练

题目：对一个序列以如下规则填充缺失值：如果单独出现的缺失值，就用前后均值填充，如果连续出现的缺失值就不填充，即序列[1, NaN, 3, NaN, NaN]填充后为[1, 2, 3, NaN, NaN]，请利用fillna函数实现。（提示：利用`limit``参数）

>>> s = pd.Series([1,np.nan,3,np.nan,np.nan])
>>> res = (s.fillna(method='ffill',limit=1)+s.fillna(method='bfill',limit=1))/2
>>> res
0  1.0
1  2.0
2  3.0
3  NaN
4  NaN
dtype: float64

思路：对于不满足题设条件的位置包括处于两端的位置，利用np.nan和其他值相加为本身的特性，依然保持为np.nan；对于左右均为非缺失值的位置，即可求得左右两侧之和，然后最后除2即可。

2.插值方法

在pandas中一般使用interpolate方法进行插值，重要的参数有：

limit_direction：‘forward'代表由前面的非缺失值进行插值，‘backward'代表由前面的非缺失值进行插值，‘both'代表二者兼有
method：插值方法，包括‘nearest', ‘zero', ‘slinear', ‘quadratic', ‘cubic', ‘spline', ‘barycentric', ‘polynomial'，默认为‘linear'
inplace：是否替换原数据
limit：插值次数

本节使用的Series数据如下：

>>> s = pd.Series([np.nan, np.nan, 1, np.nan, np.nan, np.nan, 2, np.nan, np.nan])
>>> s
0  NaN
1  NaN
2  1.0
3  NaN
4  NaN
5  NaN
6  2.0
7  NaN
8  NaN
dtype: float64

1）线性插值

>>> s.interpolate(limit_direction='backward')
0  1.00
1  1.00
2  1.00
3  1.25
4  1.50
5  1.75
6  2.00
7   NaN
8   NaN
dtype: float64

>>> s.interpolate(limit_direction='both')
0  1.00
1  1.00
2  1.00
3  1.25
4  1.50
5  1.75
6  2.00
7  2.00
8  2.00
dtype: float64

这里举了向前和向两端分别进行线性插值的例子，这里注意如果缺失值的左侧或右侧完全没有非缺失值，那么它会由最近的非缺失值来填充。

2）最邻近插值

注意要提前install scipy库，否则会报错：

>>> s.interpolate(method = 'nearest')
0  NaN
1  NaN
2  1.0
3  1.0
4  1.0
5  2.0
6  2.0
7  NaN
8  NaN
dtype: float64

注意，这里会忽视两端，且距离两侧非缺失值相同的位置会默认插入前一个非缺失值。

3）索引插值

索引插值可以理解成不等比线性插值，它是根据索引的相对距离进行插入，有点百分位数的意思：

>>> s = pd.Series([0,np.nan,100],index=[0,1,10])
>>> s.interpolate(method = 'index')
0    0.0
1   10.0
10  100.0
dtype: float64

>>> s.interpolate()
0    0.0
1   50.0
10  100.0
dtype: float64

注意它和线性插值的区别。

三、Nullable类型

1.缺失值的本质和缺陷

python中用None表示缺失值，Numpy中用np.nan表示缺失值，它俩的共同点都是与其他值不等，而不同点是后者与自己也不等且没有用于关键字，需要通过numpy.nan来使用：

>>> None == True
False
>>> np.nan == True
False
>>> np.nan == []
False
>>> None == []
False
>>> np.nan == ''
False
>>> None == ''
False
>>> None == None
True
>>> np.nan == np.nan
False
>>> pd.Series([1, np.nan]) == pd.Series([1, np.nan])
True

虽然两个np.nan是不等的，但是对于包含np.nan变量的s或df数据，它们会跳过比较对应位置的np.nan变量。

np.nan的缺陷在于，它的本质是一种float类型的变量，当它和其他类型同时存在于数据中时，会改变整个数据的类型，如：

>>> pd.Series([100,np.nan]).dtype
dtype('float64')
>>> pd.Series(['1',np.nan]).dtype
dtype('O')
>>> pd.Series([False,np.nan]).dtype
dtype('O')

当np.nan和int型变量放在一起时，会使整个数据序列变成float64型；当np.nan和其他类型变量放在一起时，会使整个数据序列变成object型。

2.pandas中的Nullable类型

pandas设计了新的缺失类型pd.NA以及三种Nullable序列类型尝试解决这些缺陷

它们的作用之一是在比较时返回pd.NA本身而不是False：

>>> s = pd.Series(['a', 'b'])
>>> s_bool = pd.Series([True, np.nan])
>>> s_boolean = pd.Series([True, np.nan]).astype('boolean')
>>> s_bool & True
0   True
1  False
dtype: bool
>>> s_boolean & True
0  True
1  
dtype: boolean

即不会改变比较前后的结果。

3.缺失数据的计算和分组

对np.nan和pd.NA进行标量运算时，除了1的np.nan次幂和np.nan的0次幂两种情况以外，均返回其自身：

>>> np.nan + 1
nan
>>> pd.NA + 1

>>> np.nan * 10
nan
>>> pd.NA * 10

>>> np.nan ** 0
1.0
>>> 1 ** np.nan
1.0

在对含有np.nan的数据进行操作时，默认会忽略它们，如：

>>> s = pd.Series([7,6,np.nan,5,4])
>>> s.sum()
22.0

注意虽然忽视了np.nan，但由于np.nan的存在，还是让结果变为了float类型。

练习

Ex1：缺失值与类别的相关性检验

在数据处理中，含有过多缺失值的列往往会被删除，除非缺失情况与标签强相关。下面有一份关于二分类问题的数据集，其中X_1, X_2为特征变量，y为二分类标签：

df = pd.read_csv('./data/missing_chi.csv')
df

from scipy.stats import chi2
df = pd.read_csv('./data/missing_chi.csv')
#分别将两列的缺失值和非缺失值替换为字符‘NaN'和‘NotNaN'
cat_1 = df.X_1.fillna('NaN').mask(df.X_1.notna()).fillna("NotNaN")
cat_2 = df.X_2.fillna('NaN').mask(df.X_2.notna()).fillna("NotNaN")
#分别进行行列汇总 方便计算Eij和Fij
df_1 = pd.crosstab(cat_1, df.y, margins=True)
df_2 = pd.crosstab(cat_2, df.y, margins=True)
def compute_S(my_df):
	#双层遍历，利用列表推导生成式去做
  res = [((my_df.iat[i, j]-(my_df.iat[i, 2]*my_df.iat[2, j]/my_df.iat[2,2]))**2/(my_df.iat[i, 2]*my_df.iat[2, j]/my_df.iat[2,2])) for i in range(2) for j in range(2)]
  #返回总和
  return sum(res)
res1 = compute_S(df_1)
res2 = compute_S(df_2)
>>> print(chi2.sf(res1, 1) < 0.05)
False
>>> print(chi2.sf(res2, 1) < 0.05)
True

思路：照着参考答案写的，对每一步进行注释，并对循环进行了一定的优化。

Ex2：用回归模型解决分类问题

KNN是一种监督式学习模型，既可以解决回归问题，又可以解决分类问题。对于分类变量，利用KNN分类模型可以实现其缺失值的插补，思路是度量缺失样本的特征与所有其他样本特征的距离，当给定了模型参数n_neighbors=n时，计算离该样本距离最近的n个样本点中最多的那个类别，并把这个类别作为该样本的缺失预测类别，具体如下图所示，未知的类别被预测为黄色：

df = pd.read_excel('./data/color.xlsx')
df.head()

from sklearn.neighbors import KNeighborsClassifier
clf = KNeighborsClassifier(n_neighbors=6)
#传入前两列和预测值
clf.fit(df.iloc[:,:2], df.Color)
clf.predict([[0.8, -0.2]])

1.分类转回归 2.缺失值插补

df = pd.read_csv('./data/audit.csv')
df.head()

参考文献1.pandas中Dataframe的查询方法（[], loc, iloc, at, iat, ix）

到此这篇关于Pandas之缺失数据的实现的文章就介绍到这了,更多相关Pandas之缺失数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

网络安全协议之SSL协议北邮23级网安 ssl web安全网络
SSL协议简介什么是SSL协议？SSL协议是一种安全套接层协议，它可以在TCP协议的基础上提供数据的加密、身份验证和完整性保护。SSL协议主要由两部分组成：握手协议和记录协议。握手协议负责建立安全连接，交换公钥和证书，商定对称密钥等；记录协议负责使用对称密钥对数据进行加密和解密，以及检测数据的完整性。SSL协议常用于Web浏览器和Web服务器之间的通信，例如HTTPS。（HTTPS是一种安全的HT
你懂安全优化SSL嘛? 巴依老爷coder 安全安全 ssl 网络协议
一文带你了解SSL全部内容CIA?SSL概述加密算法对比数字签名与证书RSA加密算法代码实操1.更完善的错误处理2.证书验证3.资源管理改进常见的面试问题CIA?在信息安全领域，CIA（保密性、完整性、可用性）是核心原则，各有其实现方法与面临的威胁：保密性：实现方法：运用加密技术，对称加密（如AES）适合大量数据快速加密，非对称加密（如RSA）用于密钥交换与数字签名；借助访问控制手段，像基于角色的
OpenSSL 与 OpenSSH 离线升级至最新版本 9.9p2
OpenSSL与OpenSSH离线升级至最新版本9.9p2一、前言在网络安全日益重要的今天，保持系统中的OpenSSL和OpenSSH为最新版本是至关重要的。然而，在一些内网环境中，由于网络限制，无法直接从互联网上下载最新的软件包进行升级。本文将详细介绍如何在离线环境下将OpenSSL和OpenSSH升级到最新版本9.9p2。二、准备工作2.1下载所需软件包https://wwyq.lanzouo
MySQL(118)如何使用SSL进行加密连接？
使用SSL进行加密连接可以有效地保护数据在传输过程中的安全性，防止数据被窃取或篡改。下面我们将详细介绍如何在Java应用中使用SSL与MySQL数据库建立加密连接。一.准备工作在开始之前，请确保你已经安装了MySQL，并且有Java开发环境（如JDK和Maven）。二.生成SSL证书生成自签名证书：你可以使用OpenSSL工具来生成自签名证书。以下是生成CA证书、服务器证书和客户端证书的步骤。#生
对于报错..\meson.build:1:0: ERROR: Unknown compiler(s): [[‘icl‘], [‘cl‘], [‘cc‘], [‘gcc‘], [‘clang‘]等随风万里无云笔记笔记
解决方案1.安装完整的C/C++编译环境适用于Windows的官方编译器（MSVC）：下载并安装VisualStudio2022安装时勾选“使用C++的桌面开发”工作负载，并确保勾选以下组件：•MSVCv143-VS2022C++生成工具•Windows10/11SDK•C++核心功能完成安装后重启计算机2.验证编译器是否可用打开命令提示符（CMD）或PowerShell。运行以下命令检查cl.e
【Python 算法零基础 4.排序 ⑦ 桶排序】 L_cl Python常见算法排序算法数据结构算法
草木不争高，争的是生生不息——25.5.26选择排序回顾①遍历数组：从索引0到n-1（n为数组长度）。②每轮确定最小值：假设当前索引i为最小值索引min_index。从i+1到n-1遍历，若找到更小元素，则更新min_index。③交换元素：若min_index≠i，则交换arr[i]与arr[min_index]。'''①遍历数组：从索引 0 到 n-1（n 为数组长度）。②每轮确定最小值：假设
C#企业级API版本控制实战：构建可扩展的微服务架构墨夶 C#学习资料架构 c#微服务
第一章：企业级API版本控制的生死时速1.1版本控制的三重门//版本控制决策树publicenumVersionControlStrategy{[Description("URI路径版本控制")]UriPath=1,[Description("自定义HTTP头版本控制")]CustomHeader=2,[Description("Accept媒体类型版本控制")]MediaType=3}publi
驯服权限怪兽：C# Winform拖放功能的终极实战指南
驯服权限怪兽的四大秘籍秘籍1：基础拖放功能——“快递员入门培训”1.1环境配置与事件绑定首先，我们需要为窗体或控件开启拖放权限，并绑定事件：//Form1.cspublicpartialclassForm1:Form{publicForm1(){InitializeComponent();//关键步骤1：允许窗体接收拖放this.AllowDrop=true;//关键步骤2：绑定事件this.Dr
ASP.NET Core vs ASP.NET：架构革命与性能飞跃的终极指南——从0到1的8大秘诀！墨夶 C#学习资料 asp.net 架构后端
**ASP.NETCore的架构革命与性能优化实战**第一阶段：架构对比——从“城堡”到“积木”1.1传统ASP.NET的“城堡”式架构//旧版ASP.NETWebForms典型结构publicclassGlobal:HttpApplication{voidApplication_Start(){RouteTable.Routes.Add(newRoute("...",newPageRouteHa
Story2：自动化免密登录CSDN和百度+Spring AI文档，并进行页签切换
开发环境搭建以及前期回顾请移步至CSDN自动写博客系列（总）一、整体方案构思，文字描述：1、CSDN免密登录，参考Story1：自动化_CSDN免密登录2、百度免密登录，原理同CSDN免密登录，但是这里注意一下：（1）百度免密登录扫码获取cookie用的是百度APP，请下载好百度APP进行扫描（2）在实现百度免密登录的时候会碰到一个问题，当添加百度cookie的时候，原CSDN的cookie是已经
Spring for kafka系列——1、快速浏览虾条_花吹雪 Spring for Apache Kafka Spring kafka
先决条件：您必须安装并运行ApacheKafka。然后，您必须将SpringforApacheKafka（SpringKafka）JAR及其所有依赖项放在类路径上。最简单的方法是在构建工具中声明依赖关系。如果您没有使用SpringBoot，请在项目中将Springkafka-jar声明为依赖项。org.springframework.kafkaspring-kafka3.3.7使用SpringBo
6，Receiving Messages：@KafkaListener Annotation
@KafkaListener注释用于将bean方法指定为侦听器容器的侦听器。bean被包装在一个配置了各种功能的MessagingMessageListenerAdapter中，例如在必要时转换数据以匹配方法参数的转换器。您可以使用#{…}或属性占位符（${…}）使用SpEL配置注释上的大多数属性。有关更多信息，请参阅Javadoc。RecordListeners@KafkaListener注释为
结合 deepseek R1 模型，新的 AI Cursor 编程最佳实践！让第三方 ai 成为我们和 cursor 沟通的桥梁
hello，我是魔王哒，流光卡片开发者，来分享一下自己最新的ai编程实践经验，不管你是零基础小白还是专业技术人这里的思路相信一定会对你有启发。一句话总结，让deepseek成为你与cursor沟通的桥梁，让其他deepseek来将作为编程小白的我们的语言转换为更适合与cursor对话的提示词。有人要问了，这能说是最佳实践吗？是不是不知道，但是他解决了很多技术人或者小白的痛点，那就是不知道该如何好好
Python练习--Day1 IT小白成长记 python
1、输入三个整数：判断这三个整数能否组成一个三角形？构成三角形的条件：任意两个数之和大于第三个数首先输入三个数：使用Python内置函数input()从标准输入读入一行文本，默认的标准输入为键盘输入input所读入内容的数据类型为字符串类型，需要使用int、float等转换成我们需要的数据类型使用分支结构判断a=int(input("请输入第一个整数："))b=int(input("请输入第二个整
大数据技术之Flink
第1章Flink概述1.1Flink是什么1.2Flink特点1.3FlinkvsSparkStreaming表Flink和Streaming对比FlinkStreaming计算模型流计算微批处理时间语义事件时间、处理时间处理时间窗口多、灵活少、不灵活（窗口必须是批次的整数倍）状态有没有流式SQL有没有1.4Flink的应用场景1.5Flink分层API第2章Flink快速上手2.1创建项目在准备
PostgreSQL系列- 6 - PgBouncer连接池 IfNotExists postgresql 数据库
目录PgBouncer连接池...11、为什么要使用连接池...12、软件安装...13、连接池的配置文件...14、PgBouncer启动和管理...71、为什么要使用连接池1.1能够缓存和PostgreSQL的连接，当有连接请求进来的时候，直接分配空闲进程，而不需要PostgreSQLfork出新进程来建立连接，以节省创建新进程，创建连接的资源消耗。1.2能够有效提高连接的利用率，避免过多的无
php pgsql 连接池,PostgreSQL数据库连接池PgBouncer的搭建 weixin_39612499 php pgsql 连接池
最近有些项目我们是采用PostgreSQL进行后端数据库，由于要对客户端的连接使用类型和连接数进行控制，因此我们采用PgBouncer来进行最近有些项目我们是采用PostgreSQL进行后端数据库，由于要对客户端的连接使用类型和连接数进行控制，因此我们采用PgBouncer来进行实施。PgBouncer相关的基本文档pgsqldb中文站已经有不少文档，这里我就不再作过多的说明，我将集中对其中的几个
2025主流AI大模型终极指南：横向对比+实战测评+官方注册教程 AI新视界 AI工具全指南：从入门到精通解锁高效生产力人工智能
《2025主流AI大模型终极指南：横向对比+实战测评+官方注册教程》在人工智能技术飞速发展的今天，大型语言模型(LLM)已成为推动数字化转型的核心引擎。作为CSDN资深AI技术专家，我将通过本文为您全面剖析2025年主流大模型的技术特点、应用场景和性能差异，并提供详细的官方注册和使用指南，帮助您快速掌握这些强大的AI工具。一、2025年主流大模型全景概览1.1大模型技术发展现状2024-2025年
Postgresql快速同步大量数据方案浅析行星008 数据库 postgresql 数据库
目录推荐方案：并行导出导入+网络加速方案优势：详细步骤1.数据选择与准备2.并行数据导出（111服务器）3.高效网络传输4.并行数据导入（112服务器）5.性能优化参数增量同步方案（可选）方法1：逻辑复制（适合持续同步）方法2：增量更新脚本（适合定时同步）性能优化技巧验证与监控预期性能指标故障处理针对PostgreSQL14.3环境中从111服务器同步部分数据（约1000GB）到112服务器的需求
Postgresql中不同数据类型的长度限制行星008 数据库 postgresql sql 运维
目录一、字符类型（CharacterTypes）二、二进制类型（BinaryTypes）三、数值类型（NumericTypes）四、其他类型五、全局限制：单行数据总大小示例对比表注意事项验证命令在PostgreSQL中，不同数据类型的最大长度限制各异。以下是关键类型的详细说明：一、字符类型（CharacterTypes）VARCHAR(n)/CHAR(n)最大长度：n最大可设置为10485760（
3.二维码的类型以及等级介绍
一、码的类型一维条形码：QRCode:日常生活中最广泛应用的矩阵式二维码Datamatrix:工业上也很常用，常用于商品包装和物流管理中，因其较小的尺寸和较高的密度适合小物品的标识。二、二维码的等级说明二维码的ABCDE五个等级是对二维码质量和可读性的分级划分。这些等级主要基于激光打标技术对二维码质量参数的评估结果。一般刚打印或者喷墨生成的二维码，有客户要求必须扫码并判断等级。注意，一般需要扫码等
PostgreSQL之Pgbouncer连接池安装
PostgreSQL之Pgbouncer连接池安装(1)Pgbouncer功能介绍PgBouncer作为PostgreSQL数据库的连接池中间件，PgBouncer仅作为一个连接池和代理层为PostgreSQL和应用之间提供服务。PgBouncer能够缓存和PostgreSQL的连接，当有连接请求进来的时候，直接分配空闲进程，而不需要PostgreSQLfork出新进程来建立连接，以节省创建新进程
Paimon LSM Tree Compaction核心：堆和败者树 lifallen Paimon LSM Tree java 数据库数据结构 apache 大数据算法 flink
SortMergeReaderWithMinHeapSortMergeReaderWithMinHeap是Paimon合并排序（Merge-Sort）机制中最终执行多路归并（K-wayMerge）的核心实现之一。SortMergeReaderWithMinHeap是SortMergeReader接口的一个具体实现。它的核心功能是接收多个已经排好序的RecordReader（代表多个有序的数据流），
paimon.disk包：磁盘处理
FileIOChannel接口FileIOChannel是Paimon内部用于磁盘I/O操作的一个核心抽象，尤其在需要将大量数据溢出（spill）到本地磁盘的场景（例如外部排序）中扮演着关键角色。它代表了对一个底层文件的I/O通道，并提供了一套管理其生命周期（创建、读写、关闭、删除）的标准化方法。下面我们分部分来解析这个接口。这个接口定义了一个I/O通道的基本行为。//...existingcod
MySQL 学习之你还在用 TIMESTAMP 吗？ zxguan mysql 学习数据库
目录1.弊端1.1.取值范围1.2.时区依赖1.3.隐式转换2.区别3.解决1.弊端1.1.取值范围TIMESTAMP的取值范围为1970-01-0100:00:01UTC到2038-01-1903:14:07UTC，超出范围的数据会被强制归零或触发异常‌。具体表现为在基金债券等业务中，到期日可能是一个比较晚的未来的时间，很可能就会出现超出TIMESTAMP范围的时间。现在已经2025年了，系统崩
Redis集群部署指南：高可用与分布式实践东窗西篱梦 redis 分布式数据库
目录1.原理与理论2.背景与目的3.详细部署步骤（手动操作）步骤1：安装Redis5.0.4步骤2：配置Redis服务步骤3：修改关键配置步骤4：启动所有节点步骤5：构建集群步骤6：验证集群状态4.常见问题与解决方案节点无法加入集群集群槽位未完全分配主从切换失败客户端重定向错误5.总结与心得1.原理与理论Redis集群通过分片（Sharding）实现数据分布式存储，核心机制包括：槽位分配（Slot
2、Connecting to Kafka 虾条_花吹雪 Spring for Apache Kafka kafka 分布式 ai
KafkaAdmin-请参阅配置主题ProducerFactory-请参阅发送消息ConsumerFactory-请参阅接收消息从2.5版本开始，每个版本都扩展了KafkaResourceFactory。这允许在运行时通过向引导服务器的配置中添加Supplier来更改引导服务器：setBootstrapServersSupplier（（）->…）。所有新连接都将调用此命令以获取服务器列表。消费者和
PostgreSQL-XL之序列（Sequence）行星008 数据库 postgresql 数据库
目录序列的定义和作用PostgreSQL-XL中序列的特殊性序列的使用方法1.创建序列2.在分布式表中使用序列3.手动操作序列值4.查看序列与表的关联关系关键注意事项典型使用场景故障排查技巧在PostgreSQL-XL中，序列（Sequence）是一种特殊的数据库对象，用于生成唯一的数值序列。作为分布式数据库，PostgreSQL-XL中的序列需要特殊处理以保证全局唯一性。序列的定义和作用定义：序
Netty架构解析：从高性能到协议支持 lifallen Netty java 开发语言设计模式数据结构 nio
Netty是一个异步事件驱动的网络应用程序框架，用于快速开发可维护的高性能协议服务器和客户端。主要应用场景高性能网络服务器(HTTP、WebSocket、TCP服务器)分布式系统通信(RPC框架、消息队列)协议实现(自定义协议、标准协议适配)网络代理和网关(负载均衡、API网关)核心基础(CoreFoundation)io.netty.common:提供通用的工具类、常量和基本抽象，例如Attri
基于python+flask框架的某图书馆书籍推荐系统的设计与实现（开题+程序+论文）计算机毕设 zhihao502 python flask 课程设计
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容研究背景在数字化时代，图书馆作为知识传播与积累的重要场所，面临着如何更有效地服务于广大读者的挑战。随着信息量的爆炸式增长，读者在浩瀚的书海中寻找符合个人兴趣和需求的书籍变得日益困难。传统的图书检索方式已难以满足读者快速、精准获取推荐书籍的需求。因此，开发一套智能化的图书馆
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他