小小明少

Pandas（六）——缺失数据（Missing Data）

思维导图
基本概念
- 缺失值的分类
- 数据值的处理方法
- Series与DataFrame
缺失观测及其类型
- 了解缺失信息
- 三种缺失符号
- Nullable类型与NA符号
缺失数据的运算与分组
- 加号与乘号规则
- groupby方法中的缺失值
填充与剔除
- fillna方法
- dropna方法
插值（interpolation）
- 线面插值
- 高级插值方法
- interpolate中的限制参数

思维导图

基本概念

缺失值的分类

按照数据缺失机制可分为：

可忽略的缺失
- 完全随机缺失(missing completely at random, MCAR)
  - 所缺失的数据发生的概率既与已观察到的数据无关,也与未观察到的数据无关.
- 随机缺失(missing at random, MAR)
  - 假设缺失数据发生的概率与所观察到的变量是有关的,而与未观察到的数据的特征是无关的.
不可忽略的缺失(non-ignorable missing ,NIM) 或非随机缺失(not missing at random, NMAR, or, missing not at random, MNAR)
- 如果不完全变量中数据的缺失既依赖于完全变量又依赖于不完全变量本身,这种缺失即为不可忽略的缺失.

【注意】：Panda读取的数值型数据，缺失数据显示**“NaN”**（not a number）。

数据值的处理方法

主要就是两种方法：
①删除存在缺失值的个案；
②缺失值插补；
【注意】缺失值的插补只能用于客观数据。由于主观数据受人的影响，其所涉及的真实值不能保证。

1、删除含有缺失值的个案（2种方法）
- （1）简单删除法
  - 简单删除法是对缺失值进行处理的最原始方法。
  - 它将存在缺失值的个案删除。
  - 如果数据缺失问题可以通过简单的删除小部分样本来达到目标，那么这个方法是最有效的。
- （2）权重法
  - 当缺失值的类型为非完全随机缺失的时候，可以通过对完整的数据加权来减小偏差。
  - 把数据不完全的个案标记后，将完整的数据个案赋予不同的权重，个案的权重可以通过logistic或probit回归求得。
  - 如果解释变量中存在对权重估计起决定行因素的变量，那么这种方法可以有效减小偏差。
  - 如果解释变量和权重并不相关，它并不能减小偏差。
  - 对于存在多个属性缺失的情况，就需要对不同属性的缺失组合赋不同的权重，这将大大增加计算的难度，降低预测的准确性，这时权重法并不理想。
2、可能值插补缺失值

【思想来源】：以最可能的值来插补缺失值比全部删除不完全样本所产生的信息丢失要少。

（1）均值插补
- 属于单值插补。
- 数据的属性分为定距型和非定距型。
- 如果缺失值是定距型的，就以该属性存在值的平均值来插补缺失的值；
- 如果缺失值是非定距型的，就用该属性的众数来补齐缺失的值。
（2）利用同类均值插补
- 属于单值插补。
- 用层次聚类模型预测缺失变量的类型，再以该类型的均值插补。
- 假设X= (X1,X2, … ,Xp)为信息完全的变量，Y为存在缺失值的变量，那么首先对X或其子集行聚类，然后按缺失个案所属类来插补不同类的均值。
- 如果在以后统计分析中还需以引入的解释变量和Y做分析，那么这种插补方法将在模型中引入自相关，给分析造成障碍。
（3）极大似然估计（Max Likelihood ,ML）
- 在缺失类型为随机缺失的条件下，假设模型对于完整的样本是正确的，那么通过观测数据的边际分布可以对未知参数进行极大似然估计（Little and Rubin）。
- 这种方法也被称为忽略缺失值的极大似然估计，对于极大似然的参数估计实际中常采用的计算方法是期望值最大化(Expectation Maximization，EM）。
- 该方法比删除个案和单值插补更有吸引力，
- 重要前提：适用于大样本
- 有效样本的数量足够以保证ML估计值是渐近无偏的并服从正态分布。
- 这种方法可能会陷入局部极值，收敛速度也不是很快，并且计算很复杂。
（4）多重插补（Multiple Imputation，MI）
- 多值插补的思想来源于贝叶斯估计，认为待插补的值是随机的，它的值来自于已观测到的值。
- 具体实践上通常是估计出待插补的值，然后再加上不同的噪声，形成多组可选插补值。
- 根据某种选择依据，选取最合适的插补值。

【多重插补方法的三个步骤】：

为每个空值产生一套可能的插补值，这些值反映了无响应模型的不确定性；每个值都可以被用来插补数据集中的缺失值，产生若干个完整数据集合。
每个插补数据集合都用针对完整数据集的统计方法进行统计分析。
对来自各个插补数据集的结果，根据评分函数进行选择，产生最终的插补值。

【多重插补方法举例】：
假设一组数据，包括三个变量Y1，Y2，Y3，它们的联合分布为正态分布，将这组数据处理成三组，A组保持原始数据，B组仅缺失Y3，C组缺失Y1和Y2。在多值插补时，对A组将不进行任何处理，对B组产生Y3的一组估计值（作Y3关于Y1，Y2的回归），对C组作产生Y1和Y2的一组成对估计值（作Y1，Y2关于Y3的回归）。

当用多值插补时，对A组将不进行处理，对B、C组将完整的样本随机抽取形成为m组（m为可选择的m组插补值），每组个案数只要能够有效估计参数就可以了。对存在缺失值的属性的分布作出估计，然后基于这m组观测值，对于这m组样本分别产生关于参数的m组估计值，给出相应的预测即，这时采用的估计方法为极大似然法，在计算机中具体的实现算法为期望最大化法（EM）。对B组估计出一组Y3的值，对C将利用 Y1,Y2,Y3它们的联合分布为正态分布这一前提，估计出一组(Y1，Y2）。

上例中假定了Y1,Y2,Y3的联合分布为正态分布。这个假设是人为的，但是已经通过验证（Graham和Schafer于1999），非正态联合分布的变量，在这个假定下仍然可以估计到很接近真实值的结果。

【多重插补弥补贝叶斯估计的不足之处】：

贝叶斯估计以极大似然的方法估计，极大似然的方法要求模型的形式必须准确，如果参数形式不正确，将得到错误得结论，即先验分布将影响后验分布的准确性。而多重插补所依据的是大样本渐近完整的数据的理论，在数据挖掘中的数据量都很大，先验分布将极小的影响结果，所以先验分布的对结果的影响不大。
贝叶斯估计仅要求知道未知参数的先验分布，没有利用与参数的关系。而多重插补对参数的联合分布作出了估计，利用了参数间的相互关系。

Series与DataFrame

区别：
- Series，只是一个一维数据结构，它由index和value组成。
- DataFrame，是一个二维结构，除了拥有index和value之外，还拥有column。
联系：
- dataframe由多个series组成，无论是行还是列，单独拆分出来都是一个series。

缺失观测及其类型

【Pandas读取数据】：

import numpy as np
import pands as pd 
#读取一个csv文件，读取其它类型文件，详见Pandas基础
df = pd.read_csv('data/table_missing.csv')
df.head()

【output】

了解缺失信息

#对Series使用isna方法
df['Physics'].isna().head()

#对Series使用notna方法
df['Physics'].notna().head()

#对DataFrame使用isna方法
df.isna().head()

#对DataFrame使用notna方法
df.notna().head()

#求DataFrame每列的缺失值的数量
df.isna().sum()

#通过info函数查看缺失信息
df.info()

#查看缺失值所在行，以最后一列为例，挑出该列缺失值的行
df[df['Physics'].isna()]

#挑选出所有非缺失值的列
df[df.notna().all(1)]

三种缺失符号

Nullable类型与NA符号

Nullable整型：
对于该种类型，它与 $i n t$ 在符号上的差别在于首字母大写： $I n t$

s_original = pd.Series([1,2],dtype="int64")
s_original  
'''
输出：
0	1
1	2
dtype:int64
'''
s_new = pd.Series([1,2],dtype="Int64")
s_new
'''
输出：
0	1
1	2
dtype:Int64
'''

好处/优点：
前面提到的三种缺失值（np.na、None、NaT）都会被替换为统一的NA符号，且不改变数据类型。

s_original[1] = np.nan
s_original
'''
output:
0	1.0
1	NaN
dtype:float64
'''

s_new[1] = np.nan
s_new
'''
output:
0	1
1	
dtype:Int64
'''

s_new[1] = None
s_new
'''
output:
0	1
1	
dtype:Int64
'''

s_new[1] = pd.NaT
s_new
'''
output:
0	1
1	
dtype:Int64
'''

Nullable布尔型：
对于该种类型，符号为boolean，作用与上面类似。

s_original = pd.Series([1,0],dtype="bool")
s_original
'''
output:
0	True
1	False
dtype:bool
'''

s_new = pd.Series([1,0],dtype="boolean")
s_new  
'''
output:
0	True
1	False
dtype:boolean
'''

s_original[0] = np.nan
s_original
'''
output:
0	NaN
1	0.0
dtype:float64
'''

s_original = pd.Series([1,0],dtype="bool")
s_original[0] = None
s_original
'''
output:
0	False
1	False
dtype:bool
'''

s_new[0] = np.nan
s_new
'''
output:
0	
1	True
dtype:boolean
'''

s_new[0] = None
s_new
'''
output:
0	
1	True
dtype:boolean
'''

s_new[0] = pd.NaT
s_new
'''
output:
0	
1	True
dtype:boolean
'''

s = pd.Series(['dog','cat'])
s[s_new]
'''
output:
1	cat
dtype:object
'''

string类型：
【注意】：此处简要讲解，详见Pandas（七）
本质上属于Nullable类型，不会因为含有缺失而改变类型

s = pd.Series(['dog','cat'],dtype='string')
s
'''
output:
0	dog
1	cat
dtype:string
'''

s[0] = np.nan
#s[0] = None
#s[0] = pd.NaT
'''
output:
0	
1	cat
dtype:string
'''

【与object类型的区别】：
在调用字符方法后，string类型返回的是Nullable类型，object则会根据缺失类型和数据类型而改变

s = pd.Series(["a",None,"b"],dtype="string")
s.str.count('a')
'''
output:
0	1
1	
2	0
dtype:Int64
'''

s2 = pd.Series(["a",None,"b"],dtype="object")
s2.str.count("a")
'''
output:
0	1.0
1	NaN
2	0.0
dtype:float64
'''

s.str.isdigit()
'''
output:
0	False
1	
2	False
dtype:boolean
'''

s2.str.isdigit()
'''
output:
0	False
1	None
2 	False
dtype:object
'''

NA的特性：
- 逻辑运算
  只需看该逻辑运算的结果是否依赖pd.NA的取值，如果依赖，则结果还是NA，如果不依赖，则直接计算结果。
  取值不明，直接报错。
- 算数运算和比较运算
  只需记住除了以下两类情况，其它情况都是NA。

pd.NA ** 0
'''
output:1
'''

1 ** pd.NA
'''
output:1
'''

convert_dtypes方法
【函数功能】：在读取数据时，就把数据列转为Nullable类型。

缺失数据的运算与分组

加号与乘号规则

使用加法时，缺失值为0

s = pd.Series([2,3,np.nan,4])
s.sum()
'''
output:9.0
'''

使用乘法时，缺失值为1

s.prod()
'''
output:24.0
'''

使用累计函数时，缺失值自动略过

s.cumsum()
'''
output:
0	2.0
1	5.0
2	NaN
3	9.0
dtype:float64
'''

s.cumprod()
'''
output:
0	2.0
1	6.0
2	NaN
3	24.0
dtype:float64
'''

s.pct_change()
'''
output:
0	NaN
1	0.500000
2	0.000000
3	24.0
dtype:float64
'''

groupby方法中的缺失值

自动忽略为缺失值的组

df_g = pd.DataFrame({
     'one':['A','B','C','D',np.nan],'two':np.random.randon(5)})
df_g

【output】：

df_g.groupby('one').groups
'''
output:
{'A': Int64Index([0], dtype='int64'),
 'B': Int64Index([1], dtype='int64'),
 'C': Int64Index([2], dtype='int64'),
 'D': Int64Index([3], dtype='int64')}
'''

填充与剔除

fillna方法

值填充

df['Physics'].fillna('missing').head()
'''
output:
0         A+
1         B+
2         B+
3    missing
4         A-
Name: Physics, dtype: object
'''

前项填充(填充缺失值前一个项的值)

df['Physics'].fillna(method='ffill').head()
'''
output:
0    A+
1    B+
2    B+
3    B+
4    A-
Name: Physics, dtype: object
'''

后项填充(填充缺失值后一个项的值)

df['Physics'].fillna(method='backfill').head()
'''
output:
0    A+
1    B+
2    B+
3    A-
4    A-
Name: Physics, dtype: object
'''

填充中的对称性

df_f = pd.DataFrame({
     'A':[1,3,np.nan],'B':[2,4,np.nan],'C':[3,5,np.nan]})
df_f.fillna(df_f.mean())

[output]

返回的结果中没有C，根据对齐特点不会被填充

df_f.fillna(df_f.mean()[['A','B']])

[output]

dropna方法

df_d = pd.DataFrame({
     'A':[np.nan,np.nan,np.nan],'B':[np.nan,3,2],'C':[3,2,1]})
df_d

[output]

axis参数
(1)axis=0，删除存在缺失值的行

df_d.dropna(axis=0)

(2)axis=1，删除存在缺失值的列

df_d.dropna(axis=1)

how参数（可以选all或any）
(1)选择all，表示全为缺失去除。当某一行/列(由axis决定)的值全部都为缺失值的时候，才被删除。

df_d.dropna(axis=1,how='all')

(2)选择any，表示存在缺失去除。当某一行/列(由axis决定)的值至少有一个缺失值的时候，才被删除。
3. subset参数（即在某一组列范围中搜索缺失值）

df_d.dropna(axis=0,subset=['B','C'])

[output]

插值（interpolation）

线面插值

索引无关的线性插值
默认状态下，interpolate会对缺失的值进行线性插值。
此时的插值与索引无关

s = pd.Series([1,10,15,-5,-2,np.nan,np.nan,28])
s
'''
output:
0     1.0
1    10.0
2    15.0
3    -5.0
4    -2.0
5     NaN
6     NaN
7    28.0
dtype: float64
'''

s.interpolate()
'''
output:
0     1.0
1    10.0
2    15.0
3    -5.0
4    -2.0
5     8.0
6    18.0
7    28.0
dtype: float64
'''

s.index = np.sort(np.random.randint(50,300,8))
s.interpolate()
'''
值不变
output:
69      1.0
71     10.0
84     15.0
117    -5.0
119    -2.0
171     8.0
219    18.0
236    28.0
dtype: float64
'''

与索引有关的插值
method中的index和time选项可以使插值线性地依赖索引，即插值为索引的线性函数。
如果索引是时间，那么可以按照时间长短插值。

高级插值方法

此处的高级指的是与线性插值相比较，例如样条插值、多项式插值、阿基玛插值等。
此处属于数值分析的内容。

interpolate中的限制参数

limit表示最多插入多少个

s = pd.Series([1,np.nan,np.nan,np.nan,5])
s.interpolate(limit=2)
'''
output:
0    1.0
1    2.0
2    3.0
3    NaN
4    5.0
dtype: float64
'''

limit_direction表示插值方向，可选forward，backward，both，默认前向

s = pd.Series([np.nan,np.nan,1,np.nan,np.nan,np.nan,5,np.nan,np.nan,])
s.interpolate(limit_direction='backward')
'''
output:
0    1.0
1    1.0
2    1.0
3    2.0
4    3.0
5    4.0
6    5.0
7    NaN
8    NaN
dtype: float64
'''

limit_area表示插值区域，可选inside，outside，默认None

s = pd.Series([np.nan,np.nan,1,np.nan,np.nan,np.nan,5,np.nan,np.nan,])
s.interpolate(limit_area='inside')
'''
output:
0    NaN
1    NaN
2    1.0
3    2.0
4    3.0
5    4.0
6    5.0
7    NaN
8    NaN
dtype: float64
'''

s = pd.Series([np.nan,np.nan,1,np.nan,np.nan,np.nan,5,np.nan,np.nan,])
s.interpolate(limit_area='outside')
'''
0    NaN
1    NaN
2    1.0
3    NaN
4    NaN
5    NaN
6    5.0
7    5.0
8    5.0
dtype: float64
'''

机器学习课堂4线性回归模型+特征缩放木尘152132 机器学习线性回归 python
一、实验2-2，线性回归模型，计算模型在训练数据集和测试数据集上的均方根误差代码：#2-2线性回归模型importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt#参数设置iterations=3000#迭代次数learning_rate=0.0001#学习率m_train=3000#训练样本的数量flag_plot_lines=False
智见未来：多大模型协同的数据分析新范式一ge科研小菜菜人工智能大数据人工智能大数据
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着大语言模型（LLM）的快速发展，ChatGPT、DeepSeek、Grok等AI模型在数据分析和洞察生成方面展现出巨大潜力。利用多个LLM的协同能力，可以增强数据分析的多角度解读、减少单一模型的偏差，并优化洞察生成的深度和精准度。本文探讨如何结合多个LLM，在数据分析领域实现更可靠的洞察生成，并提供具体的策略、方法和应用场景。2.主要
Ceph数据恢复方案–分布式文件系统删除数据的恢复 San结构数据恢复数据恢复相关 ceph
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Ceph的三种存储结构二、Ceph中删除数据的恢复提取1.本次案例情况简介：2.数据分析：2.1：BlueStore架构2.2分布式存储中元数据概述2.3提取元数据2.3.2：获取meta_data2.3.4.元数据整理2.3.5.计算数据地址3.数据恢复提取总结前言什么是分布式文件系统分布式文件系统（Distribu
学习Python如何高效处理CSV文件的技巧！程序员总部 python python json
在Python中，处理CSV文件是一项非常常见的任务，特别是在数据分析和数据科学领域。CSV文件的全称是Comma-SeparatedValues，顾名思义，它以逗号为分隔符来存储表格数据。这种格式简单易读，也很方便进行数据的存储和交换。接下来就让我们一起探讨一下如何在Python中读取和写入CSV文件吧！CSV模块简介Python内置了一个非常强大的库，名为csv，这个库专门用于处理各种CSV文
玛哈特矫平机：引领制造业平整技术的新篇章玛哈特-小易制造校平机矫平机大数据微信公众平台
玛哈特矫平机：引领制造业平整技术的新篇章在制造业的广阔舞台上，材料的平整度是确保产品质量与精度的关键要素。玛哈特矫平机，凭借其出色的性能和前沿技术，正逐步成为推动制造业发展的重要驱动力。技术的飞跃与创新的引领玛哈特矫平机不仅代表了传统矫平技术的升级，更是一次技术的飞跃和创新的引领。它融合了先进的传感器网络、实时数据分析系统以及自动化控制平台，为材料矫平提供了智能化的解决方案。这种创新的技术组合，使
基于Wasm的边缘计算Pandas：突破端侧AI的最后一公里——让数据分析在手机、IoT设备上飞驰 Eqwaak00 Pandas 人工智能 wasm 边缘计算 pandas 架构深度学习
引言：边缘计算的算力觉醒在智能家居设备每秒产生数万条传感器数据、手机App需要实时分析用户行为的今天，传统云计算模式面临高延迟、隐私风险、带宽成本三大挑战。本文将揭示如何通过WebAssembly（Wasm）+Pandas的技术组合，在边缘设备上实现零云端依赖的实时数据分析，并通过智慧工厂设备预测性维护案例，展示从理论到工程的全链路实现。一、技术架构设计1.1边缘计算范式演进mermaid：gra
职场人必存！DeepSeek提示词大合集：周报速成、爆款文案、旅行攻略一键生成阳光永恒736 AI工具人工智能 deepseek AI提示词
引言：AI时代，为什么你的提示词总“词不达意”？“同样的AI工具，同事用DeepSeek半小时写完周报还附赠数据分析图，我却只会问‘帮我总结本周工作’？”这可能是多数职场人的真实写照。AI工具的能力边界早已超越基础问答，但90%的用户仍停留在“无效提问”阶段10。而真正拉开差距的，是一套精准的提示词指令库——它能将模糊需求转化为AI可执行的“操作指南”，让效率提升10倍不止。一、职场效率：从“加班
excel文件有两列，循环读取文件两列赋值到字典列表。字典的有两个key,分别为question和answer。将最终结果输出到json文件大霞上仙 python excel json python
importpandasaspdimportjson#1.读取Excel文件（假设列名为question和answer）try:df=pd.read_excel("input.xlsx",usecols=["question","answer"])#明确指定列exceptExceptionase:print(f"读取文件失败:{str(e)}")exit()#2.转换为字典列表result=[{"
StarRocks 主键（Primary Key）深度解析数据库数据分析主键缓存物化视图
一、StarRocks产品简介StarRocks是一款高性能分析型数据库，专为海量数据的实时分析而设计。作为新一代湖仓（Lakehouse）加速引擎，StarRocks融合了MPP架构和列式存储引擎的优势，能够支持亿级数据秒级查询响应。核心特性：全面的数据模型：支持明细模型、主键模型和聚合模型，满足多样化业务场景实时数据分析：提供高效的数据导入与更新能力，支持实时数据处理分布式架构：采用无共享（S
知识管理系统：构建企业智慧大脑 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
第一部分：知识管理概述与重要性第1章：知识管理的定义与基本概念1.1.1知识管理的起源与发展知识管理（KnowledgeManagement，KM）起源于20世纪80年代，当时企业在市场竞争中逐渐意识到知识作为一种战略资源的重要性。早期的知识管理实践主要集中在知识的收集、存储和传播上。随着信息技术的发展，知识管理逐渐融入了更先进的技术手段，如数据挖掘、人工智能和大数据分析，使其成为一个跨学科、多领
python读取excel数据和提取图片我就是全世界 python excel 开发语言
1.引言1.1日常工作中Excel的使用在现代办公环境中，Excel（电子表格软件）是数据管理和分析的重要工具之一。无论是财务报表、销售数据、项目管理还是日常报告，Excel都扮演着不可或缺的角色。其强大的数据处理能力、灵活的格式设置以及丰富的图表功能，使得Excel成为各行各业专业人士的首选工具。Excel的主要功能包括：数据录入与管理：用户可以轻松输入、编辑和管理大量数据。数据分析：通过内置的
MATLAB语言的编程竞赛苏墨瀚包罗万象 golang 开发语言后端
MATLAB语言的编程竞赛引言随着计算机科学的飞速发展，编程技能已成为现代社会中不可或缺的一部分。尤其是在科学计算、工程应用和数据分析领域，MATLAB（矩阵实验室）因其强大的数学计算能力和简洁的编程语法而备受青睐。在这一背景下，MATLAB编程竞赛应运而生。本文将围绕MATLAB编程竞赛的意义、内容、组织形式以及如何准备和参与等方面展开讨论，希望能够为参与者提供一些有价值的参考。一、MATLAB
MDX语言的软件工程苏墨瀚包罗万象 golang 开发语言后端
MDX语言的软件工程引言在现代软件开发中，技术的进步不断推动着开发流程的变化与优化。MDX（MultidimensionalExpressions）语言作为一种用于查询和操作多维数据集的表达式语言，已在数据分析、商业智能等领域得到了广泛应用。本文将探讨MDX语言在软件工程中的应用，包括其基本概念、工作原理、最佳实践以及在数据分析系统中的具体案例。1.MDX语言概述MDX最初由微软开发，通常用于访问
AI推动地理信息系统（GIS）软件的创新发展与应用拓展酥脆可口 facebook
摘要地理信息系统（GIS）软件作为空间数据处理与分析的核心工具，在城市规划、资源管理、环境监测等领域发挥着关键作用。本文深入探讨人工智能（AI）如何推动GIS软件的创新发展，分析AI技术在提升空间数据分析能力、优化地图制图、拓展应用场景等方面的重要作用，剖析面临的挑战，并对未来发展趋势进行展望，旨在为GIS行业借助AI实现升级提供理论与实践参考。一、引言传统GIS软件主要依赖基于规则的分析方法和人
如何做好性能测试测试
如何做好性能测试主要依靠测试策略规划、性能测试工具选择、数据分析优化**。其中测试策略规划尤为关键，通过制定详细的测试目标和场景，明确各阶段测试重点，有助于降低项目风险和优化系统性能。实践中，企业普遍发现，完善的测试策略可以使系统响应时间降低20%～30%，大大提升用户体验和业务稳定性。一、性能测试的基本概念与重要性性能测试是指通过模拟用户操作及系统负载，对软件系统的响应时间、吞吐量、资源利用率等
云牧场智能环境控制系统的设计与实现雲明
本文还有配套的精品资源，点击获取简介：本文详细探讨了基于云牧场的智能环境控制系统的构建、功能及实现原理。系统的硬件由传感器和执行器组成，软件平台负责数据分析处理与环境控制设备的自动调整。系统包括数据采集、实时监控、自动控制、预警与报警以及数据分析与决策支持等核心功能模块。此外，文章还分析了云计算与物联网技术的应用、系统安全性与可靠性，并通过实际案例说明了该系统对提高畜牧业生产效益的重要性。1.云牧
「Python数据分析」Pandas基础，筛选数据利器：布尔索引奕澄羽邦 python 数据分析 pandas
我们在处理数据的时候，数据筛选是一个重要的过程。利用布尔索引，我们可以选择需要的数据区间。布尔索引，是利用各种不等式，以及与或非操作，来对数据区间进行选择。在pandas中，与操作，对应的是&这个符号，表示选取两个数据集重合的部分。或操作，对应的是|这个符号，表示选择两个数据集中，只要在一个数据集中出现的部分。非操作，对应的是~这个符号，表示选取一个数据集中，相反的部分。我们下面通过具体的例子，来
【数学建模】灰色关联分析模型详解与应用烟锁池塘柳0 数学建模数学建模算法
灰色关联分析模型详解与应用文章目录灰色关联分析模型详解与应用引言灰色系统理论简介灰色关联分析基本原理灰色关联分析计算步骤1.确定分析序列2.数据无量纲化处理3.计算关联系数4.计算关联度灰色关联分析应用实例实例：某企业生产效率影响因素分析灰色关联分析在各领域的应用灰色关联分析的Python实现灰色关联分析的局限性结论引言在数据分析领域，我们经常面临样本量少、信息不完全、数据不确定性高的情况。传统的
数据分析_python进行数据筛选1_行筛选 Monkey*王 python 数据分析 pandas
以titanic的训练数据为例进行展示，为了简化取前十行为例首先导入模块，导入数据importpandasaspdimportnumpyasnpdf=pd.read_csv(r"C:\Users\admin\Desktop\train.csv")df=df.head(10)df.index=['a','b','c','d','e','f','g','h','i','g']筛选单行1.利用df[行索
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
互联网运营为何必须做好用户行为数据分析开源软件埋点数据分析
近年来互联网运营已经成为大多数企业不可或缺的一部分。随着互联网技术的不断发展和数字化转型的推进，越来越多的企业都在加速向互联网运营转型，而在这一过程当中，分析用户行为数据是至关重要的。接下来，我们就来探讨一下其中的原因。一、什么是用户行为数据？用户行为数据指的是在用户与产品、服务或平台交互过程中产生的各种数据。举个例子：某app中，某个用户在某个时间点在某个地方以某种方式完成了某个具体的操作。实际
SQL语言的散点图苏墨瀚包罗万象 golang 开发语言后端
SQL语言的散点图引言在数据科学和数据分析的领域中，数据可视化是一项重要的技能。有效的数据可视化可以帮助我们理解复杂的数据集，发现数据中的潜在规律，进而支持决策制定。散点图作为一种基本而有效的数据可视化形式，广泛应用于各种领域。本文将深入探讨散点图的概念、使用场景、SQL查询与散点图的结合，以及如何通过SQL语言生成散点图。散点图的定义与特点散点图是一种二维图形，用来展示两个变量之间的关系。每个点
打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归 OverlordDuke 聚类算法数据可视化爬虫线性回归算法
打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归利用数据实现全面分析数据分析与可视化功能创新的聚类分析功能结语在如今房地产市场日益复杂的背景下，对于投资者、购房者和市场分析师来说，了解市场动态并做出明智的决策至关重要。基于此，我们开发了一款基于Python的城市二手房分析与可视化系统，为用户提供了强大的工具，帮助他们深入了解当地房地产市场。利用数据实现全面分析我们的系统利用爬取的58同
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
电商API接口防爬虫实战：日均拦截千万级恶意请求的技术揭秘 lovelin+vI7809804594 python 人工智能 java 大数据数据库
在电子商务蓬勃发展的今天，API（应用程序编程接口）接口作为电商平台与外部系统交互的桥梁，承载着商品管理、订单处理、支付结算、用户管理、数据分析等重要功能。然而，这些功能也使电商API接口成为攻击者的目标，面临着来自多个方面的安全挑战。本文将深入探讨电商API接口防爬虫的策略与技术，揭秘日均拦截千万级恶意请求的实践过程。一、电商API接口的重要性与风险1.API接口的定义与作用API接口是一种定义
使用Java爬虫根据关键词获取Shopee商品列表？小爬虫程序猿 java 爬虫开发语言
在跨境电商领域，Shopee作为东南亚及中国台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，根据关键词获取Shopee商品列表都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Java爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Java爬虫根据关键词获取Shopee商品列表，并提供完整的代码示例
如何轻松爬取 TikTok 评论？手把手教你高效采集数据！ pzhyy 大数据数据分析数据挖掘内容运营新媒体运营
引言随着TikTok的全球火爆，越来越多的数据分析师、营销人员和研究人员希望获取TikTok视频评论，以分析用户反馈、市场趋势或热门内容。然而，手动整理TikTok评论既耗时又低效，因此，使用一款高效的TikTok采集器成为刚需。Tapicker是一款功能强大的TikTok采集软件，可以帮助用户自动爬取TikTok评论，省去繁琐的手工整理工作。本文将详细介绍如何使用Tapicker爬取TikTok
如何合法抓取TikTok视频信息和评论：完整Python爬虫教程 Python爬虫项目 2025年爬虫实战项目音视频 python 爬虫开发语言
一、引言TikTok是全球最受欢迎的短视频平台之一，每天吸引着数百万的用户上传和分享视频内容。作为内容创作者和数据分析师，抓取TikTok上的视频和评论可以帮助你分析社交趋势、受欢迎的内容类型和用户互动。然而，TikTok明确表示其平台的数据抓取行为受到限制，这也意味着我们不能直接通过常规的网络爬虫技术去抓取其数据。本文将介绍如何在合法的前提下进行TikTok数据抓取。我们将探索TikTok的AP
Rocky Linux安装部署Elasticsearch（ELK日志服务器）_rockylinux elk 2401_83739411 程序员服务器 linux elasticsearch
一、Elasticsearch的简介Elasticsearch是一个强大的开源搜索和分析引擎，可用于实时处理和查询大量数据。它具有高性能、可扩展性和分布式特性，支持全文搜索、聚合分析、地理空间搜索等功能，是构建实时应用和大规模数据分析平台的首选工具。二、RockyLinux系统安装链接：VMwareWorkstation下载安装（含秘钥）链接：VMwareWorkstation创建虚拟机链接：Ro
Julia语言的饼图尤宸翎包罗万象 golang 开发语言后端
Julia语言的饼图：全面剖析与实战指南引言在数据可视化的领域中，饼图作为一种经典的可视化工具，广泛用于展示各个分类在总体中的占比关系。尽管饼图在一些数据分析师中被视为相对简单和直观的图形，但它在实际运用中依然扮演着重要角色。本文将重点探讨如何使用Julia语言实现饼图的绘制，分析其背后的逻辑，并通过实例帮助读者掌握这一基本技能。Julia语言简介Julia是一种高性能、高级别的编程语言，适用于数
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息

Pandas（六）——缺失数据（Missing Data）