数据STUDIO

Python数据分析之数据探索分析(EDA)

探索性数据是一种态度，是对我们相信存在抑或不存在的事物保持灵活的审视。

---- EDA 之父 John Tukey

Exploratory data analysis is an attitude, a state of flexibility, a willingness to look for those things that we believe are not there, as well as those that we believe to be there.

何为EDA，何谓探索性数据分析？英文名为Exploratory Data Analysis，是在你拿到数据集后，并不能预知能从数据集中找到什么，但又需要了解数据的基本情况，为了后续更好地预处理数据、特征工程乃至模型建立。因此探索性数据分析，对了解数据集、了解变量之间对相互关系以及变量与预测值之间的关系尤其重要。

所谓EDA，在没有任何假设检验的前提下，通过检验数据集的数据质量、绘制图表、计算某些特征量等手段，对样本数据集的结构和规律进行分析的过程。探索性更像是侦探，需要对数据进行一次又一次地探索，寻求线索，并对结果保持开放心态。

本期Python数据分析实战将详细介绍日常工作中所常用的数据探索分析方法与技巧，将从数据质量分析和数据特征分析两大方面进行刨析。

数据质量分析

在做数据质量分析之前需要正确理解业务需要，从一定的渠道正确获取适量的数据。接下来利用Python进行数据分析时，需要根据所获得数据的具体特征，选用合适的数据读取方法和工具，数据获取三大招将帮助读者快速理解并选择合适并适合的方法，便于后续数据探索工作。

数据质量分析即检查原始数据中是否存在"脏数据"----缺失值、异常值、不一致的值、重复数据记忆含有特殊符号（如#、¥、*等）的数据。

缺失值分析

缺失值分析主要从缺失值类型、成因、影响等方面考虑。其方法包括但不限于统计缺失值数量，计算缺失值比例，matplotlib.pyplot 和 missingno 三方库对缺失值进行可视化分析，从而达到对缺失值详细对分析，并有针对性地定制缺失值处理策略，便于在后续数据预处理阶段更加高效处理。

关于缺失值处理详细内容，请移步至缺失值处理，此处不作详细介绍。

异常值分析

异常值分析是检验数据是否有录入错误以及含有不合常理的数据。忽视异常值的存在是十分危险的，不加剔除地把异常值包括进数据的计算分析过程中，会给结果带来不良影响。分析异常值常常成为发现问题进而改进决策的契机。异常值是指样本中个别值，其数量明显偏离其他的观测值。异常值也称为离群点，异常值的分析也称为离群点分析。

简单统计量分析----data.describe()

可以先对变量做一个描述性统计，进而查看哪些数据是不合理的。最常用的统计量是最大值和最小值，用来判断这个变量的取值是否超出了合理的范围。

原则----pd.mean()+/-3*pd.std()

如果数据服从正态分布，在原则下，异常值被定义为一组测定值与平均值的偏差超过3倍标准差的值。，属于极个别的小概率事件。如果数据不服从标准正态分布同样成立。

箱型图分析----data.boxplot()

提供识别异常值的标准：
小于或大于的值。
上四分位，下四分位，四分位间距。
没有任何限制下要求，真实直观地表现数据分布的本来面貌；箱形图判断异常值的标准以四分位数和四分位距为基础，四分位数具有一定的鲁棒性：多达25% 的数据可以任意元而不会扰动四分位数，所以异常值不能对这个标准施加影响。

例：

>>> data.loc[:, ['cityorders']].boxplot()

输出结果：

小提琴图查看异常值

小提琴图Violin Plot是用来展示多组数据的分布状态以及概率密度。这种图表结合了箱形图和密度图的特征，主要用来显示数据的分布形状。跟箱形图类似，但是在密度层面展示更好。在数据量非常大不方便一个一个展示的时候小提琴图特别适用。

小提琴图中间一条就是箱线图数据，25%，50%，75%位置，细线区间为95%置信区间。

代码：

# 小提琴图与箱型图对比
>>> plt.figure(figsize=(18,10), dpi=150)
>>> plt.subplot(2,2,1)
>>> sns.violinplot(np.log(data['lowestprice_pre']))
>>> plt.title('violinplot')
>>> plt.subplot(2,2,2)
>>> data.loc[:, ['lowestprice_pre']].boxplot(vert=False)
>>> plt.title('boxplot')
>>> plt.subplot(2,2,3)
>>> sns.violinplot(np.log(data['historyvisit_totalordernum']))
>>> plt.title('violinplot')
>>> plt.subplot(2,2,4)
>>> data.loc[:, ['historyvisit_totalordernum']].boxplot(vert=False)
>>> plt.title('boxplot')

输出结果：

其参数及例子详解可参见文档：https://seaborn.pydata.org/generated/seaborn.violinplot.html

一致性分析

数据不一致性是指数据的矛盾性、不相容性。直接对不一致的数据进行挖掘，可能会产生与实际相违背的挖掘结果。在数据挖掘过程中，不一致数据的产生主要发生在数据集成的过程中，可能是由被挖掘数据来自于不同的数据源、对于重复存放的数据未能进行一致性更新造成的。例如，两张表中都存储了用户的电话号码，但在用户的电话号码发生改变时只更新了一张表中的数据，那么这两张表中就有了不一致的数据。

数据特征分析

对数据进行质量分析后，通过绘制图表、计算某些特征量等手段进行数据的特征分析。

从五个角度出发，利用统计指标对定量数据进行统计描述。常用集中趋势和离散程度（离中趋势）

总体规模的描述 ---- 总量指标
分布形态的描述 ---- 偏态与峰态
对比关系的描述 ---- 相对指标
集中趋势的描述 ---- 平均指标
离散程度的描述 ---- 变异指标

1、总体规模的描述

总量指标：反映在一定时间、空间条件下某种现象的总体规模、总水平或总成果的统计指标。
分类：

按内容分：单位总量指标(人、物、…); 标志总量指标 (营业额、利润、…)
按时间不同分：时期指标、时点指标
按计量不同分：实物指标、价值指标、劳动量指标

2、分布分析

揭示数据分布特征和分布类型，可用于定量数据和定性数据的分析，且有着不同的分析策略。

定量数据等分布分析

预得到其分布形式是对称的还是非对称的、发现某些特大或特小的可疑值，可做频率分布表、频率分布直方图、绘制茎叶图进行直观分析。重点是选择"组数"和"组宽"。

有很多算法的前提假设是数据符合正态分布，例如线性回归里面最小二乘法。因此需要查看数据分布，目标变量是否符合高斯分布。

matplotlib.pyplot----hist

频率分布直方图代码：

>>> plt.hist(data, bins=30, normed=True, alpha=0.5, histtype='stepfilled',color='steelblue',edgecolor='none')

输出结果：

seaborn--kdeplot

seaborn中的kdeplot可用于使用核密度估计绘制单变量或双变量分布。

核密度估计(KDE)图是一种可视化数据集中观测分布的方法，与直方图呈正相关。KDE在一个或多个维度上使用连续的概率密度曲线表示数据。

相对于柱状图，KDE可以生成一个不那么杂乱且更具可解释性的图，特别是在绘制多个分布时。但是，如果底层分布是有界的或不平滑的，它就有可能导致扭曲。

代码：

>>> seaborn.kdeplot(data[col], shade=True)  # KDE

输出结果：

其参数及例子详解可参见文档：http://seaborn.pydata.org/generated/seaborn.kdeplot.html

seaborn--displot

用 distplot 可以让频次直方图与 KDE 结合起来。

代码：

>>> sns.displot(data[col])

输出结果：

其参数及例子详解可参见文档：

http://seaborn.pydata.org/generated/seaborn.displot.html

定性数据等分布分析

定性数据分析是用来描述事物的分类，可用饼图、直方图或帕累托图直观地显示其分布。如plt.bar(X,y)

分布形态的描述——偏态与峰态

偏态(skewness) 是指数据分布偏斜程度。使用偏态系数(SK)来测度数据的偏态。

偏态系数的计算:

未分组数据：

分组数据：

是否存在：

SK=0对称分布

SK>0右偏分布

SK<0左偏分布

偏态的程度：

低度偏态分布

中等偏态分布

高度偏态分布

偏态对众数、中位数和均值之间关系的影响:

对称分布：均值=中位数=众数

左偏分布：均值<中位数<众数

右偏分布：众数<中位数<均值

例：

>>> import pandas as pd
>>> import numpy as np
>>> data = list(np.random.randn(10000))
>>> pd.Series(data).skew()
-0.04896518936723592

>>> pd.Series(data).kurt()
0.05007456475593397

峰态(kurtosis) 是指数据分布的扁平程度。使用峰态系数(K)来测度数据的偏态。

偏态系数的计算:

未分组数据：

分组数据：

是否存在：

K=0扁平峰度适中

K > 0尖峰分布

K < 0扁平分布

偏态的程度：

低度尖峰分布

中等尖峰分布

高度尖峰分布

可视化:

>>> import numpy as np
>>> from scipy.stats import norm
>>> from matplotlib import pyplot as plt
>>> import seaborn as sns
>>> sns.set_style('darkgrid')
>>> plt.figure(figsize=(10,6))
>>> data =  list(np.random.randn(10000)) # 满足高斯分布的10000个数
>>> sns.distplot(data, fit=norm)
>>> (mu, sigma) = norm.fit(data)
>>> print( '\n mu = {:.2f} and sigma = {:.2f}\n'.format(mu, sigma))
>>> plt.legend(['Normal dist. ($\mu=$ {:.2f} and $\sigma=$ {:.2f} )'.format(mu, sigma)],loc='best')
>>> plt.ylabel('Frequency');

输出结果：

3、对比关系的描述

对比分析是把两个相互联系的指标进行比较，从数量上展示和说明研究对象规模的大、水平的高低、速度的快慢以及各种关系是否协调。

适合指标间的横纵向对比、时间序列的比较分析。

绝对数对比

绝对数比较分析法直接以数值进行比较，根据差异进行分析。绝对数比较分析法是指将反映企业某一方面的财务指标的绝对值进行对比和分析，通过分析来确定财务指标的增减变动情况。

相对数对比

两个有联系的指标对比计算，用以反映客观现象之间数量联系程度的综合对比。

结构相对数

将同一总体内的部分数值与全部数值进行对比求得比重——产品合格率
说明事物的性质、结构或质量
部分/总体

比例相对数

将同一总体内的不同部分的数值进行对比——人口性别比例、投资
表明总体内各部分的比例关系
一部分/另一部分

比较相对数

同一时期两个性质相同的指标数值进行对比——不同地区的商品价格对比
说明同类现象在不同空间条件下的数量对比关系
A的指标/B的相同指标

强度相对数

将两个性质不同但有一定联系的总量指标进行对比——人口密度（人/平方公里）
说明现象的强度、密度和普遍程度
某总量指标/另一性质不同但关联的总量指标

计划完成程度相对数

将某一时期实际完成数与计划完成数进行对比
说明计划的完成程度

动态相对数

将同一现象在不同时期的指标数值进行对比——发展速度
说明发展方向和变化速度
报告期/基期

4、统计分析

集中趋势的描述(Central tendency)
---- 一组数据向其中心值靠拢的趋势。

平均(mean)
----数是统计学中最常用的统计量，用来表明资料中各观测值相对集中较多的中心位置。

算术平均数
----数据的和与数据个数之比。

易受极端值的影响，受max的影响程度 > 受min的影响程度

简单算术平均：所有数据的平均值

加权算术平均数：反映均值中不同成分的重要程度

频率分布表组中值和频率：

调和平均数(harmonic mean)
----变量值倒数的算术平均数的倒数。

易受极端值的影响，受min的影响 > 受max的影响调和平均数总小于算术平均数有一项为0就无法计算H

简单调和平均：

加权调和平均数：

几何平均数(geometric mean)
----n个变量值乘积的 n 次方根。

易受极端值的影响，但受极端值的影响比算术平均数和调和平均数要小, 适用于对比率数据的平均, 主要用于计算平均增长率, 看作是均值的一种变形, 有一项为0就无法计算H

简单几何平均：

加权几何平均数：

幂平均数(power mean)
----是毕达哥拉斯平均（包含了算术、几何、调和平均）的一种抽象化。

是所有平均数的通式, k的递增函数

当时，是算术平均数；

当时，是调和平均数；

当时，是几何平均数。

例：

>>> import pandas as pd
>>> df = pd.DataFrame([1,2,3,4,5,6,7,8])
>>> df.mean()
0    4.5
dtype: float64

中位数(Median)
----又称中值，是按顺序排列的一组数据中居于中间位置的数，代表一个样本、种群或概率分布中的一个数值，其可将数值集合划分为相等的上下两部分。

将数据从小到大排列后

为奇数

众数(Mode)
----指在统计分布上具有明显集中趋势点的数值，代表数据的一般水平。也是一组数据中出现次数最多的数值，有时众数在一组数中有好几个。

离散程度的描述(Dispersion degree)

极差(Range)
----又称范围误差或全距，以R表示，是用来表示统计资料中的变异量数(measures of variation)，其最大值与最小值之间的差距，即最大值减最小值后所得之数据。

例：

>>> df.max()-df.min()
0    7
dtype: int64

方差(variance)
----统计中的方差（样本方差）是每个样本值与全体样本值的平均数之差的平方值的平均数。
标准差( standard deviation, std)
----是离均差平方的算术平均数的算术平方根，用σ表示。最常使用作为统计分布程度上的测量依据。

例：

>>> df.std()
0    2.44949
dtype: float64
>>> df.var()
0    6.0
dtype: float64

变异系数（coefficient of variation）
----又称“离散系数”，是概率分布离散程度的一个归一化量度，其定义为标准差与平均值之比。

标准差相对于均值离中趋势比较具有不同单位和不同波动幅度的数据集的离中趋势。

当需要比较两组数据离散程度大小的时候，如果两组数据的测量尺度相差太大，或者数据量纲的不同，直接使用标准差来进行比较不合适，此时就应当消除测量尺度和量纲的影响，而变异系数可以做到这一点，它是原始数据标准差与原始数据平均数的比。

例：

>>> df.std()/df.mean()
0    0.544331
dtype: float64

分位数(Quantile)
----亦称分位点，是指用分割点（cut point，分割点的数量比划分出的区间少1）将一个随机变量的概率分布范围分为几个具有相同概率的连续区间。

q-quantile是指将有限值集分为q个接近相同尺寸的子集。

分位数指的就是连续分布函数中的一个点，这个点对应概率p。

四分位数（Quartile）
----是统计学中分位数的一种，即把所有数值由小到大排列，然后按照总数量分成四等份，即每份中的数值的数量相同，处于三个分割点位置的数值就是四分位数。

第一四分位数：又称较小四分位数，等于该样本中所有数值由小到大排列后第25%的数字。

第二四分位数：又称中位数，等于该样本中所有数值由小到大排列后第50%的数字。

第三四分位数：又称较大四分位数，等于该样本中所有数值由小到大排列后第75%的数字。

四分位数间距（InterQuartile Range, IQR）
----第三四分位数与第一四分位数的差距，值越大说明变异程度越大。四分位距通常是用来构建箱形图，以及对概率分布)的简要图表概述。

例：

>>> import pandas as pd
>>> df = pd.DataFrame([1,2,3,4,5,6,7,8])
>>> df.describe()   # 描述统计
             0
count  8.00000
mean   4.50000
std    2.44949
min    1.00000
25%    2.75000
50%    4.50000
75%    6.25000
max    8.00000

例：

>>> df.quantile(0.25)
0    2.75
Name: 0.25, dtype: float64
>>> df.quantile(0.5)
0    4.5
Name: 0.5, dtype: float64
>>> import numpy as np
>>> np.percentile(df,50)
4.5

5、其他角度分析

周期性分析

探索某个变量是否随着时间的变化而呈现出某种周期变化趋势。

贡献度分析

利用帕累托法则（二八定律）的帕累托分析——同样的投入放在不同的地方会产生不同的效益。

相关性分析

分析连续变量之间是否具有线性相关关系最直观的方法是直接绘制散点图。

直接绘制散点图：

绘制点阵矩阵

例：

>>> penguins = sns.load_dataset("penguins")
>>> sns.pairplot(penguins)

其参数及例子详解可参见

http://seaborn.pydata.org/generated/seaborn.pairplot.html

输出结果：

计算相关系数
---- 更加准确地描述变量之间的线性相关程度。

Spearman 秩相关系数
斯皮尔曼等级相关系数，不服从正态分布的变量、分类或等级变量之间的关联性：

只有两个变量具有严格的单调的函数关系，就是完全相关。

Pearson （皮尔逊）相关系数
（X和Y的协方差）/（X的标准差*Y的标准差）
---- 要求连续变量的取值服从正态分布。
用以两个连续性变量之间的系数：
D.corr(method='pearson'),D1.corr(D2)

协方差用于衡量两个变量的总体误差=E[XY]-E[X]E[Y]。D.cov(),D[0].cov(D[1]

例：

>>> data.iloc[:,0:8].corr(method='pearson')

输出结果：

两者区别：

连续数据，正态分布，线性关系，用pearson相关系数是最恰当，当然用spearman相关系数也可以，效率没有pearson相关系数高。

上述任一条件不满足，就用spearman相关系数，不能用pearson相关系数。

两个定序测量数据（顺序变量）之间也用spearman相关系数，不能用pearson相关系数。

pearson相关系数的一个明显缺陷是，作为特征排序机制，他只对线性关系敏感。如果关系是非线性的，即便两个变量具有一一对应的关系，pearson相关性也可能会接近0。

判定系数
相关系数的平方 ——用来衡量回归方程对的解释程度
kendall相关系数（肯德尔相关性系数）
是一种秩相关系数，不过它所计算的对象是分类变量。

总结

本文内容包含了在数据竞赛中使用的大部分分析过程。另外，一般情况下使用EDA完成数据分析的过程如下：

读取并分析数据质量

探索性分析每个变量

变量是什么类型

变量是否有缺失值

变量是否有异常值

变量是否有重复值

变量是否均匀

变量是否需要转换

探索性分析变量与目标标签的关系

变量与标签是否存在相关性

变量与标签是否存在业务逻辑

探索性分析变量之间的关系

连续型变量

可视化：散点图、相关性热力图

皮尔逊系数、互信息

离散变量

可视化：柱状图、饼图、分组表

卡方检验

检查变量之间的正态性

直方图、箱线图、Quantile-Quantile (QQ图)

本文内容较多，建议收藏！

你可能感兴趣的:(机器学习,人工智能,数据分析,大数据,python)

2023年NOC大赛创客智慧编程赛项Python 复赛模拟题（二）青少儿编程课堂少儿编程资料大全付费专栏 python numpy 开发语言 noc大赛真题 noc试题
题目来自：NOC大赛创客智慧编程赛项Python复赛模拟题(二)NOC大赛创客智慧编程赛项Python复赛模拟题（二）第一题：编写一个成绩评价系统，当输入语文、数学和英语三门课程成绩时，输出三门课程总成绩及其等级。(1)程序提示用户输入三个数字，数字分别表示语文、数学、英语分数，对应的变量名称是Chinese、Math、English,并计算三个分数的和(score)进行输出。注：input()函
【RS】GEE(Python)：大规模分析与导出数据
在前面的章节中，我们探讨了如何在GoogleEarthEngine(GEE)上进行数据加载、处理、分析和可视化。现在，我们将进一步扩展，探索如何处理大规模的数据集和执行复杂的分析任务。通过GEE的云计算能力，用户可以在全球范围内执行大规模的时空分析，并高效地将处理结果导出为所需的格式。大规模分析的基本原则在GEE中，大规模分析是通过ImageCollection和FeatureCollection
【Python篇】Python基础——08day.面向对象编程中类和对象的基本概念及属性和方法的常见分类和使用场景 WXX_s python基础篇 python 分类开发语言学习
目录前言一、类和对象1.类→Class1.1概念1.2创建2.对象→Object2.1概念2.2创建二、属性和方法1.实例属性2.实例方法3.类属性4.类方法5.静态方法5.1综合应用6.构造方法7.初始化方法8.魔术方法8.1常用方法8.2案例参考总结前言这章讲的面向对象编程（Object-OrientedProgramming，简称OOP）是一种通过组织对象来设计程序的编程方法。为什么需要类和
【Python篇】Python基础——04day.Python中运算（简单部分，如果会的可以直接跳过）
文章目录前言一.运算符1.1算术运算符1.2比较运算符1.3逻辑运算符1.4赋值运算符1.5位运算符1.6身份运算符1.7成员运算符1.8三目运算符1.9优先级二.表达式2.1算术表达式2.2比较表达式2.3逻辑表达式2.4赋值表达式2.5成员表达式2.6身份表达式2.7三元表达式2.8函数调用表达式三.推导式3.1列表推导式3.2字典推导式3.3集合推导式总结前言这一章写的是在python中会用
Python 现代时间序列预测第二版（五）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/22eab741fce9c15dfad894ecf37bdd51译者：飞龙协议：CCBY-NC-SA4.0第十七章：概率预测及更多在整本书中，我们学习了生成预测的不同技术，包括一些经典方法，使用机器学习以及一些深度学习架构。但我们一直在关注一种典型的预测问题——为连续时间序列生成点预测，并且没有层级关系且历史数据足够丰富。我们之所以这样做，是因为这
自动化测试中，测试数据如何管理？鱼鱼说测试 java linux 服务器
今晚在某个测试群，看到有人问了一个问题：把测试数据放配置文件读取和放文件通过函数调用读取有什么区别？Python接口自动化测试零基础入门到精通（2025最新版）当时我下意识的这么回答：数据量越大，配置文件越臃肿，放在专门的数据文件（比如excel，csv），方便针对性的维护。乍看没毛病，但回头和人讨论这个问题的时候，就认真思考了一下这个问题，下面是我的一些思考和讨论的一些结果，仅供参考。。。自动化
基于selenium的pyse自动化测试框架鱼鱼说测试 selenium 测试工具
Python接口自动化测试零基础入门到精通（2025最新版）介绍：pyse基于selenium（webdriver）进行了简单的二次封装，比selenium所提供的方法操作更简洁。特点：默认使用CSS定位，同时支持多种定位方法（id\name\class\link_text\xpath\css）。本框架只是对selenium（webdriver）原生方法进行了简单的封装，精简为大约30个方法，这些
自动化测试准备鱼鱼说测试自动化测试
什么是自动化测？Python接口自动化测试零基础入门到精通（2025最新版）首先理清自动化测试的概念，广义上来讲，自动化包括一切通过工具（程序）的方式来代替或辅助手工测试的行为都可以看做自动化，包括性能测试工具（loadrunner、jmeter）,或自己所写的一段程序，用于生成1到100个测试数据。狭义上来讲，通工具记录或编写脚本的方式模拟手工测试的过程，通过回放或运行脚本来执行测试用例，从而代
重塑未来：AI如何重新定义全栈开发熊猫钓鱼>_> 人工智能
在传统认知中，全栈开发者被誉为技术界的“全能选手”。——他们需要精通前端界面构建（HTML/CSS/JavaScript）、后端业务逻辑实现（Python/Java/Node.js）、数据库设计优化（MySQL/MongoDB）以及服务器部署运维（Linux/Docker）。这种“一人包打天下”的能力模型长期被视为高效开发的黄金标准，尤其受到创业公司和小型团队的青睐，因为它能大幅减少沟通成本，加速
ChatGPT 之后的下一步是什么？四个迫在眉睫的进步 iCloudEnd
OpenAI的文本生成器ChatGPT进入公共领域已经两个半月了，该机器人令人印象深刻且深思熟虑的答案已经引起了1300万日常用户的注意，他们已经将其用于一般问题、开发想法和写作全长文章。尽管ChatGPT存在重大缺陷（例如一些事实不准确），但许多人担心这可能对劳动力、学校、新闻业等产生影响。然而，我们可能正处于一场巨大的人工智能革命的开端。OpenAI总裁兼联合创始人GregBrockman于1
OpenCV稠密光流法可直接运行的例程（python） indrrra opencv python 人工智能
#dense_optical_flow.pyimportcv2importnumpyasnpimportargparsedefdense_optical_flow(method,video_path,params=[],to_gray=False):#读取视频cap=cv2.VideoCapture(video_path)#读取第一帧ret,old_frame=cap.read()#创建HSV并使
分布式锁特点、以及用python3实现redis分布式锁数据知道 python3案例和总结分布式 redis 数据库 python
更多内容请见：python3案例和总结-专栏介绍和目录文章目录一、Redis分布式锁核心原理1.1Redis锁机制1.2锁释放二、基础实现代码2.1使用`redis-py`客户端2.2分布式锁类三、使用示例3.1基础锁操作3.2装饰器模式四、高级特性实现4.1Redlock算法（高可用方案）五、生产环境最佳实践5.1锁粒度控制5.2异常处理5.3监控与调试5.4重试机制六、测试代码6.1并发测试6
云服务器性能优化全攻略：CPU、内存、磁盘IO调优实战 Gloria歌洛莉亚 c语言数据库服务器 python 性能优化
在云计算时代，服务器性能直接影响应用响应速度、用户体验和运营成本。无论是高并发网站、实时数据分析还是机器学习训练，优化云服务器性能都是开发者必须掌握的核心技能。本攻略将从CPU调度、内存管理、磁盘IO三个维度，结合Linux系统特性和实际场景，提供可落地的优化方案。一、CPU性能调优：从调度策略到并行计算1.1CPU资源监控与瓶颈定位实时监控工具：top-c#动态查看进程CPU占用（按P键按CPU
php、go、python后端接口签名实现奇华智能后台开发 linux 签名接口安全
1.php实现/**生成签名，$args为请求参数，$key为私钥*/functionmakeSignature($args,$key){if(isset($args['sign'])){$oldSign=$args['sign'];unset($args['sign']);}else{$oldSign='';}ksort($args);$requestString='';foreach($arg
喜爱购有什么新消息？如何打造百城万店氧惠好物
自2020年10月起，西安喜爱购商贸商贸股份有限公司全力打造的“百城万店”新零售商业模式应运而生。在探索新零售的道路上,通过互联网、大数据、云计算、人工智能等新技术,重构“人、货、场”商业元素,秉持“舍利差赚服务”经营理念,在全国至少一百个城市的“一千户以上的中高端社区”,打造至少两万家“一区一店”社区生活超市。大家好！我是氧惠最大团队&联合创始人氧惠达人导师。氧惠佣金更高，模式更好，终端用户不流
AI 驱动自动化运维平台架构与实现大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 算法机器学习人工智能决策树大数据
摘要：随着云计算、容器化和大规模分布式系统的普及，传统人工运维方法已难以满足现代IT环境中海量指标、日志和拓扑关系的实时分析与故障响应需求。AI驱动的自动化运维（AIOps）平台通过融合机器学习、深度学习、图分析以及强化学习等多学科技术，实现对海量运维数据的智能感知、预测、诊断和自动化修复。本文深入探讨AI驱动自动化运维平台的整体架构设计与核心技术实现，涵盖数据采集与预处理、AI引擎设计、自动化执
python第一次作业
1.技术面试题（1）TCP与UDP的区别是什么？**答：1.TCP是面向连接的协议，而UDP是元连接的协议2.TCP协议传输是可靠的，而UDP协议的传输是“尽力而为3.TCP是可以实现流控，而UDP不行4.TCP可以实现分段，而UDP不行5.TCP的传输速率较慢，占用资源较大，UDP传输速率快，占用资源小。TCP/UDP的应用场景不同TCP适合可靠性高的效率要求低的，UDP可靠性低，效率高。（2）
python www_hhhhhhh python java 面试
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程：是操作系统进行资源分配的基本单位，拥有独立的地址空间、进程控制块，每个进程之间相互隔离。例如，打开一个终端窗口会启动一个bash进程。线程：是操作系统调度的基本单位，隶属于进程，共享进程的资源，但有独立的线程控制块和栈。线程切换开销远小于进程。例如，一个Web服务器的单个进程中，多个线程可同时处理不同客户
Python lambda表达式：匿名函数的适用场景与限制梦幻南瓜 python python 服务器 linux
目录1.Lambda表达式概述1.1Lambda表达式的基本语法1.2简单示例2.Lambda表达式的核心特点2.1匿名性2.2简洁性2.3即时性2.4函数式编程特性3.Lambda表达式的适用场景3.1作为高阶函数的参数3.2简单的数据转换3.3条件筛选3.4GUI编程中的回调函数3.5Pandas数据处理4.Lambda表达式的限制4.1只能包含单个表达式4.2没有语句4.3缺乏文档字符串4.
【python】 www_hhhhhhh python 面试职场和发展
1.技术面试题（1）TCP与UDP的区别是什么？答：TCP（传输控制协议）和UDP（用户数据报协议）是两种常见的传输层协议，主要区别在于连接方式和可靠性。TCP是面向连接的协议，传输数据前需建立连接，通过三次握手确保连接可靠，传输过程中有确认、重传和顺序控制机制，保证数据完整、按序到达，适用于网页浏览、文件传输等对可靠性要求高的场景。UDP是无连接的协议，无需建立连接即可发送数据，不保证数据可靠传
Python函数的返回值
1.返回值定义及案例：2.返回值与print的区别：print仅仅是打印在控制台，而return则是将return后面的部分作为返回值作为函数的输出，可以用变量接走，继续使用该返回值做其它事。3.保存函数的返回值如果一个函数return返回了一个数据，那么想要用这个数据，那么就需要保存.#定义函数defadd2num(a,b): returna+b#调用函数，顺便保存函数的返回值result=
python怎么把函数返回值_python函数怎么返回值
python函数使用return语句返回“返回值”，可以将其赋给其它变量作其它的用处。所有函数都有返回值，如果没有return语句，会隐式地调用returnNone作为返回值。python函数使用return语句返回"返回值"，可以将其赋给其它变量作其它的用处。所有函数都有返回值，如果没有return语句，会隐式地调用returnNone作为返回值。一个函数可以存在多条return语句，但只有一条
Python星球日记 - 第8天：函数基础 Code_流苏 Python星球日记 python 函数 def关键字函数参数返回值
引言：上一篇：Python星球日记-第7天：字典与集合名人说：路漫漫其修远兮，吾将上下而求索。——屈原《离骚》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）目录一、函数的定义与调用1.什么是函数？2.如何定义函数-`def`关键字3.函数调用方式二、参数与返回值1.函数参数类型2.如何传递参数3.返回值和`return`语句三、局部变量与全局变量1.变量作用域概念2.局部变
华为OD机试2025C卷 - 小明的幸运数 (C++ & Python & JAVA & JS & GO) 无限码力华为od 华为OD机试2025C卷华为OD2025C卷华为OD机考2025C卷
小明的幸运数华为OD机试真题目录点击查看:华为OD机试2025C卷真题题库目录｜机考题库+算法考点详解华为OD机试2025C卷100分题型题目描述小明在玩一个游戏，游戏规则如下：在游戏开始前，小明站在坐标轴原点处（坐标值为0）.给定一组指令和一个幸运数，每个指令都是一个整数，小明按照指令前进指定步数或者后退指定步数。前进代表朝坐标轴的正方向走，后退代表朝坐标轴的负方向走。幸运数为一个整数，如果某个
Python 函数返回值落花雨时 Python基础
#返回值，返回值就是函数执行以后返回的结果#可以通过return来指定函数的返回值#可以之间使用函数的返回值，也可以通过一个变量来接收函数的返回值defsum(*nums):#定义一个变量，来保存结果result=0#遍历元组，并将元组中的数进行累加forninnums:result+=nprint(result)#sum(123,456,789)#return后边跟什么值，函数就会返回什么值#r
存档python爬虫、Web学习资料
1python爬虫学习学习Python爬虫是个不错的选择，它能够帮你高效地获取网络数据。下面为你提供系统化的学习路径和建议：1.打好基础首先要掌握Python基础知识，这是学习爬虫的前提。比如：变量、数据类型、条件语句、循环等基础语法。列表、字典等常用数据结构的操作。函数、模块和包的使用方法。文件读写操作。推荐通过阅读《Python编程：从入门到实践》这本书或者在Codecademy、LeetCo
Python爬虫入门到实战（3）-对网页进行操作荼蘼爬虫
一.获取和操作网页元素1.获取网页中的指定元素tag_name()方法：获取元素名称。text()方法：获取元素文本内容。click()方法():点击此元素。submit()方法():提交表单。send_keys()方法：模拟输入信息。size()方法:获取元素的尺寸可进入selenium库文件夹下的webdriver\remote\webelement.py中查看更多的操作方法,2.在元素中输入
华为OD 机试 2025 B卷 - 周末爬山 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD2025B卷华为OD机考2025B卷华为OD机试2025B卷华为OD机试
周末爬山华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷200分题型题目描述周末小明准备去爬山锻炼，0代表平地，山的高度使用1到9来表示，小明每次爬山或下山高度只能相差k及k以内，每次只能上下左右一个方向上移动一格，小明从左上角(0,0)位置出发输入描述第一行输入mnk(空格分隔)。代表m*n的二维山地图，k为小明每次爬山或下山高度
Python,C++,Go开发芯片电路设计APP Geeker-2025 python c++golang
#芯片电路设计APP-Python/C++/Go综合开发方案##系统架构设计```mermaidgraphTDA[Web前端]-->B(Python设计界面)B-->C(GoAPI网关)C-->D[C++核心引擎]D-->E[硬件加速]F[数据库]-->CG[EDA工具链]-->DH[云服务]-->C```##技术栈分工|技术|应用领域|优势||------|----------|------||
冒充顺华文庭内部群胜天半子毛顺华就是骗子，中粮仓智慧农业虚拟盘及早远离切勿被套！昌龙律法
人到老年，就怕手头没钱。一些不法分子利用老年人信息闭塞、认知较弱等特点瞄准了老年人的“钱袋子”花样百出实施诈骗老年人损失财产的同时还饱受精神打击不能忍！这些套路，应该让爸妈知道智慧农业，低碳环保双探交易市场，数字体育，人工智能十选五就是骗局我们曾曝光了无数种金融骗局，不知道能有多少人看到，能帮一个是一个，再次曝光一种炒股诱导做慈善参加数字经济的骗局，相信作为股民，大家都会经常接到一下分析个股，或者
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam