珞沫

数据分析之描述性统计分析

描述性统计分析

1、概述
2、数据的集中趋势分析
- 2.1 定量数据：平均数
- 2.2 顺序数据：中位数和分位数
- 2.3 分类数据：众数
- 2.4 均值 vs 中位数 vs 众数
- 2.5 python实现
3、数据的离中趋势
- 3.1 极差
- 3.2 四分位差
- 3.3 平均差
- 3.4 方差与标准差
- 3.5 变异系数
- 3.6 总结
- 3.7 python 实现
4、数据分布的测度
- 4.1数据偏态及其测定
- 4.2 数据峰度及其测定
- 4.3 数据偏度和峰度的作用
- 4.4 python 实现
5、数据的展示——统计图
- 5.1 条形图与扇形图
- 5.2 折线图
- 5.3 茎叶图
- 5.4 箱线图
- 5.5 总结

1、概述

$\quad \quad$ 描述性统计分析（Description Statistics）是通过图表或数学方法，对数据资料进行整理、分析，并对数据的分布状态、数字特征和随机变量之间的关系进行估计和描述的方法。
$\quad \quad$ 描述性统计分析分为集中趋势分析和离中趋势分析和相关分析三大部分。

2、数据的集中趋势分析

$\quad \quad$ 集中趋势是指一组数据向某一中心值靠拢的程度，它反映了一组数据中心点的位置所在；集中趋势测度就是寻找数据水平的代表值或中心值。

2.1 定量数据：平均数

$\quad \quad$ 平均数可以描述定量数据的集中趋势，只适用于定量数据，而且受极值的影响较大，容易向极值附近移动。有以下几种平均数：

算数平均数： $\overline{x}= \frac{\sum_{i=1}^nx_i}{n}$

加权平均数： $\overline{x}= \frac{x_1f_1+x_2f_2+...+x_nf_n}{n}$

分组数据中，x表示各组水平值，f代表各组变量值出现的频数。

几何平均数： $\overline{x}= \sqrt{x_1x_2...x_n}$

这几种平均数的应用场景

算数平均数：日常生活中用到最多的平均数，比如计算一个班的平均成绩，平均身高
加权平均数：加权算术平均数一般用于分组数据。加权平均值是考虑每个值的重要性或权重的平均值。一个很好的例子是根据学生在各种不同的作业和测验中的表现来计算他们的最终成绩。通常，个人作业对期末成绩的重视程度不及期末考试的重要程度，例如测验，测试和期末考试的权重都不同。加权平均值计算为所有值的总和乘以其权重再除以所有权重的总和。
几何平均数：几何平均适用于对比率、指数等进行平均，主要用于平均增长（变化）率，对数正态分布。
几何平均数和算数平均数如何选择
（1）变量值之间的关系不同
$\quad \quad$ 如果被平均的各变量值之间是平行关系，相互无影响，则平均数用算数平均数求解。例如，求3人的平均年龄，用算数平均数。如求流水作业的3个车间平均合格率，由于被平均的3个车间合格率之间存在相互影响关系，即其中第一年合格率改变，必然造成第一车间合格品数量也即第二车间的投产数量的改变，最终造成第二车间合格率改变。
（2）表现形式不同
$\quad \quad$ 算数平均数求解的变量可以是绝对数、相对数或平均数，几何平均数求解的一般只是相对数。
（3）用途不同
$\quad \quad$ 几何平均数在社会经济统计中，主要解决属于流水作业的车间平均合格率问题、平均（本）利率问题和平均增长（发展）速度等问题，除此之外的平均问题基本上属于算数平均数问题。

2.2 顺序数据：中位数和分位数

$\quad \quad$ 将数据按大小排序后，处在数据中点位置的数值就是中位数，它将数据一分为二；分位数是特殊的中位数，比如四分位数就是用3个点将有序数据四等分。
$\quad \quad$ 中位数主要用于测试顺序数据的集中趋势，也适用于定量数据的集中趋势，但不适用于分类数据。中位数是一个位置代表值，其特点就是不受极端值影响。

2.3 分类数据：众数

$\quad \quad$ 众数是一组数据中出现次数最多的值，它不唯一，可能没有，可能不止一个。众数是描述分类数据的集中趋势，一般只有在数据量较大的情况下才有意义。

2.4 均值 vs 中位数 vs 众数

	优点	缺点
均值	充分利用所有数据，适用性强	容易受极端值影响
中位数	不受极端值影响	缺乏敏感性
众数	不受极端值影响；当数据具有明显的集中趋势时，代表性好	缺乏唯一性

2.5 python实现

import numpy as np
import stats as sts #统计模块
scores = [31, 24, 23, 25, 14, 25, 13, 12, 14, 23,
          32, 34, 43, 41, 21, 23, 26, 26, 34, 42,
          43, 25, 24, 23, 24, 44, 23, 14, 52,32,
          42, 44, 35, 28, 17, 21, 32, 42, 12, 34]
#集中趋势的度量
print('求和：',np.sum(scores))
print('个数：',len(scores))
print('平均值:',np.mean(scores))
print('中位数:',np.median(scores))
print('众数:',sts.mode(scores))
print('上四分位数',sts.quantile(scores,p=0.25))
print('下四分位数',sts.quantile(scores,p=0.75))

求和： 1137
个数： 40
平均值: 28.425
中位数: 25.5
众数: 23
上四分位数 23
下四分位数 34

3、数据的离中趋势

$\quad \quad$ 离中趋势是指一组数据向某一中心值分散的程度，它反映的是数据远离其中心点的程度，表示离中趋势的指标主要有极差、四分位距、平均差、方差、标准差和离散系数。

3.1 极差

$\quad \quad$ 极差也叫全距，展示了数据的整体跨度，是一个比较粗糙的离中趋势指标。极差越大，数据越分散。

$\quad \quad$ 极差 = 最大值 - 最小值

3.2 四分位差

$\quad \quad$ 四分位差（quartile deviation）,它是上四分位数（Q3，即位于75%）与下四分位数（Q1, 即位于25%）的差。

计算公式为： $Q = Q 3 - Q 1$

$\quad \quad$ 四分位数是将一组数据由小到大排序后，用3个点将全部数据分为4等份，与这3个点位置上相对应的数值称为四分位数，分别记为Q1（第一四分位数），说明数据中有25%的数据小于或等于Q1，Q2（第二四分位数，即中位数）说明数据中有50%的数据小于或等于Q2、Q3（第三四分位数）说明数据中有75%的数据小于或等于Q3。其中，Q3到Q1之间的距离的差的一半又称为分半四分位差，记为（Q3-Q1）/2。
$\quad \quad$ 分位差是对全距的一种改进，它剔除掉了两端的极值区域，常用的有四分位距、八分位距、十分位距等；它也是度量样本分散性的重要数字特征，特别对于具有异常值的数据，它作为分散性具有稳健性（见百分位数示意图）。四分位差放映了数据中间50%部分的离散程度，其数值越小表明数据越集中，数值越大表明数据越离散，同时由于中位数位于四分位数之间，故四分位差也放映出中位数对于数据样本的代表程度，越小代表程度越高，越大代表程度越低。四分位差主要用于测度顺序数据的离散程度。对于数值型数据也可以计算四分位差，但不适合分类数据。

3.3 平均差

$\quad \quad$ 平均差是数据组中各数据值与其算术平均数离差绝对值的算术平均数；

$M.D=\frac{ \sum_{}|x-\overline{x}|}{n}$

$\quad \quad$ 当变量数列是由没有分组的数组组成或分组后每组的次数相等的数据组成时采用。由于平均差是根据数列中所有的数值计算出来的，受极端值影响较小，所以对整个统计数列的离中趋势有较充分的代表性。

3.4 方差与标准差

$\quad \quad$ 方差是数据组中各数据值与其算术平均数离差平方的算术平均数，用 $\sigma^2$ 表示。实际工作中，总体均数难以得到时，应用样本统计量代替总体参数，经校正后，样本方差计算公式：
$\sigma^2=\frac{\sum_{i=1}^n{(x_i-\overline{x})^2}}{n-1}$

$\quad \quad$ 标准差是方差开根号。标准差（Standard Deviation)，是用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据，标准差未必相同。
统计学意义：

$\quad \quad$ 当数据分布比较分散（即数据在平均数附近波动较大）时，各个数据与平均数的差的平方和较大，方差就较大；当数据分布比较集中时，各个数据与平均数的差的平方和较小。因此方差越大，数据的波动越大；方差越小，数据的波动就越小

3.5 变异系数

$\quad \quad$ 极差、平均差、标准差评定的离中趋势与变量平均水平的高低有关，如果要比较数据平均水平不同的两组数据的离中程度的大小，我们需要计算它们的相对离中程度指标，即变异系数。

$\quad \quad$ 在概率论和统计学中，变异系数，又称“离散系数”（英文：coefficient of variation），是概率分布离散程度的一个归一化量度，其定义为标准差与平均值之比：
$CV=\frac{\sigma}{\overline{x}}$

是刻画数据相对分散性的一种度量。变异系数只在平均值不为零时有定义，而且一般适用于平均值大于零的情况。
当需要比较两组数据离散程度大小的时候，如果两组数据的测量尺度相差太大，或者数据量纲的不同，变异系数可以消除测量尺度和量纲的影响。

3.6 总结

$\quad \quad$ 一般比较数据的离中趋势时，我么首先计算两组数据的极差和四分位距，看看数据的大致跨度，然后计算算术平均数查看数据的大致中心位置，如果平均数相同，可以计算一下平均差或者标准差来查看，如果平均数不同则可计算标准差系数来查看离中趋势。

3.7 python 实现

import numpy as np
import stats as sts #统计模块
scores = [31, 24, 23, 25, 14, 25, 13, 12, 14, 23,
          32, 34, 43, 41, 21, 23, 26, 26, 34, 42,
          43, 25, 24, 23, 24, 44, 23, 14, 52,32,
          42, 44, 35, 28, 17, 21, 32, 42, 12, 34]
#离散趋势的度量
print('最大值:',np.max(scores))
print('最小值:',np.min(scores))
print('极差:',np.max(scores)-np.min(scores))
print('四分位差',sts.quantile(scores,p=0.75)-sts.quantile(scores,p=0.25))
print('标准差:',np.std(scores))
print('方差:',np.var(scores))
print('离散系数:',np.std(scores)/np.mean(scores))

最大值: 52
最小值: 12
极差: 40
四分位差 11
标准差: 10.312340907863742
方差: 106.34437499999999
离散系数: 0.3627912368641598

4、数据分布的测度

$\quad \quad$ 在描述性统计中，处理集中趋势和离中趋势，我们还可以用数据的分布形状来分析，数据分布形态主要以正态分布为标准进行衡量。

4.1数据偏态及其测定

$\quad \quad$ 数据分布的不对称性称作偏态。偏态是指数据分布的偏斜方向和程度。在对称分布的情况下，平均数、中位数和众数是相同的；但在偏态分布的情况下，他们是不同的。如果众数在左边，平均数在右边，这说明数据的极端值在右边，数据分布曲线向右延伸，这称为右向偏态（正向偏态）；如果众数在右边边，平均数在左边，这说明数据的极端值在左边，数据分布曲线向右延伸，这称为左向偏态（正向偏态）。

左偏分布：尾巴在左（极端值异常值在左）
右偏分布：尾巴在右（极端值异常值在右）

$\quad \quad$ 测定偏态的指标是偏态系数（SK），它说明了数据分布的不对称性（偏斜程度）程度。

SK = 0时，分布是对称的；SK < 0时，样本分布为左偏分布，并且值越小，负偏程度越高；SK > 0时，样本为右偏分布，并且值越大，正偏程度越高。

4.2 数据峰度及其测定

$\quad \quad$ 峰度是指数据分布的尖峭程度或峰凸程度。根据变量值的集中与分散程度，峰度一般可表现为三种形态：尖顶峰度、平顶峰度和标准峰度。但是这种形态的描述都是相对于正态分布曲线的标准峰度而言的。

$\quad \quad$ 测定峰度的指标是峰度系数（K）。峰度系数描述的是数据分布曲线上峰的尖峭程度。

K < 0，与正态分布相比该分布一般扁平、瘦尾、肩部较胖；

K > 0，与正态分布相比该分布一般尖峰、肥尾、肩部较瘦。

4.3 数据偏度和峰度的作用

$\quad \quad$ 在实际数据分析过程中，偏度和峰度的作用主要表现在以下两个方面：

一是将偏度和峰度结合起来用于检查样本的分布是否属于正态分布，以便判断总体的分布。例如，样本的偏度接近于0而峰度接近于3，可以推测总体分布接近于正态分布。
二是利用资料之间存在的偏度关系，对算术平均数、众数、中位数进行推断。一般情况下，不是正态分布时，他们有如下关系：

右偏：均值>中位数>众数

左偏：均值<中位数<众数

$\quad \quad$ 根据经验，一般在偏态适度时，不管是左偏还是右偏，三者的距离有近似的固定关系：中位数与算术平均数的距离约等于众数与算术平均数距离的1/3 。因此，有如下公式： $3 (均值 - 中位数） = 均值 - 众数$

4.4 python 实现

import numpy as np
import stats as sts #统计模块
scores = [31, 24, 23, 25, 14, 25, 13, 12, 14, 23,
          32, 34, 43, 41, 21, 23, 26, 26, 34, 42,
          43, 25, 24, 23, 24, 44, 23, 14, 52,32,
          42, 44, 35, 28, 17, 21, 32, 42, 12, 34]
#偏度与峰度的度量
print('偏度:',sts.skewness(scores))
print('峰度:',sts.kurtosis(scores))

偏度: 0.2688148840556402
峰度: -0.8771780901182544

5、数据的展示——统计图

5.1 条形图与扇形图

1、条形图可以清楚的表明各种数量的多少，比较数据之间的差别。

2、扇形图可以很清楚的表示出各部分数量同总数之间的关系。

3、条形图和扇形图在描述数据时，一次只能描述一个变量，通常用于较小的数据集分析。

5.2 折线图

$\quad \quad$ 折线图不仅可以表示数量的多少，而且还可以反映同一事物在不同的时间里发展变化的情况；主要用于显示时间数列的数据。

5.3 茎叶图

$\quad \quad$ 将数的大小基本不变的位作为茎，将变化较多的位作为叶，列在茎的后面，这样就可以清楚的看到每个主干后面的数有多少、是多少。

$\quad \quad$ 比如有一组两位数的数据，将十位作为茎，个位作为叶，相同茎共用，叶列在茎后面；

     十位（茎）     个位（叶）

               1             02446677789

               2             124467779

               4              22244444799999

5.4 箱线图

$\quad \quad$ 箱线图又称盒须图、盒式图或箱形图，用于显示一组数据的分散情况。它需要使用到六个数据节点：上边缘，上四分位数、中位数、下四分位数、下边缘、异常值。

5.5 总结

$\quad \quad$ 面对一组数据根据分析目的，选择合适的统计图来表明分析的目的。

数据分析大数据面试题大杂烩01 爱学习的菜鸟罢了大数据 flink 大数据面试 hive hadoop kafka
互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东)电信,银行统计营收和针对用户的个人画像:处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据通过埋点进行用户点击行为分析FLINK一般用来做实时SPARK一般用来做
海量数据查询加速：Presto、Trino、Apache Arrow 晴天彩虹雨 apache 大数据 hive 数据仓库
1.引言在大数据分析场景下，查询速度往往是影响业务决策效率的关键因素。随着数据量的增长，传统的行存储数据库难以满足低延迟的查询需求，因此，基于列式存储、向量化计算等技术的查询引擎应运而生。本篇文章将深入探讨Presto、Trino、ApacheArrow三种主流的查询优化工具，剖析其核心机制，并通过案例分析展示它们在实际业务中的应用。2.Presto：分布式SQL查询引擎2.1Presto介绍Pr
基础知识《Redis解析》 Hum8le redis 数据库缓存安全 web安全
Redis详细解析与介绍Redis（RemoteDictionaryServer）是一个开源的高性能键值对（Key-Value）数据库，支持多种数据结构（如字符串、哈希、列表、集合等），广泛应用于缓存、消息队列、实时数据分析等场景。核心特点：内存存储：数据主要存储在内存中，读写性能极高（10万+/秒QPS）。持久化支持：支持RDB（快照）和AOF（追加日志）两种持久化方式。多数据结构：支持字符串、
使用 Excel 实现绩效看板的自动化 chenchihwen 自动化运维
引言在日常工作中，团队的绩效监控和管理是确保项目顺利进行的重要环节。然而，面临着以下问题：数据分散：系统中的数据难以汇总，缺乏一个宏观的团队执行情况视图。看板缺失：系统本身可能无法提供合适的Dashboard，导致数据分析困难。手动操作繁琐：数据采集、汇总和分析过程繁琐且耗时。本文将介绍如何利用免费的软件和工具（如Python、MySQL、Excel等）实现绩效看板的自动化。通过邮件自动推送和接收
MATLAB 操作指南（结尾附实操案例） vvvae1234 信息可视化
一、MATLAB简介MATLAB（矩阵实验室）是一个高级技术计算语言和交互环境，它主要用于数值计算、数据分析、算法开发和可视化。MATLAB的核心功能是矩阵运算，它能够处理向量和矩阵为中心的数学问题，方便用户进行算法的开发和数据可视化。主要特点高效的数值计算：MATLAB内置了许多用于数学和工程计算的函数，用户可以轻松地进行数值运算。可视化功能：MATLAB提供了丰富的工具，用于生成各种类型的图形
该如何升级Tableau server呢？
在现代数据分析的世界中，Tableau作为一个强大的企业级数据可视化工具，受到众多公司喜爱。但是由于Tableau退出中国市场，如果仍在使用Tableau的企业，一定要做好TableauServer升级。随着技术的不断更新，升级TableauServer变得越来越重要，以确保您能够利用最新的功能和安全性。在这篇文章中，我们将详细探讨如何进行TableauServer升级，步骤、注意事项以及最佳实践
数据分析及人工智能框架汇总 xihuanyuye 机器学习
一、数据分析二、人工智能1、Tensorflow1、简介TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，其命名来源于本身的运行原理。Tensor（张量）意味着N维数组，Flow（流）意味着基于数据流图的计算，TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。Tenso
AI 之路——数据分析（1）Pandas小结与框架整理 Robin_Pi 机器学习之路数据分析数据分析 python 人工智能可视化
目录1.写在前面1.1AI之路：1.2工具/技能：2.数据分析2.1数据分析的流程2.2数据的基本操作方法2.2.1Pandas概览2.2.2使用Pandas操作数据的核心(1)选择数据(2)操作数据2.2.2数据详解3.写在最后1.写在前面主要是阶段性框架总结1.1AI之路：数据分析——机器学习——深度学习——CV/NLP1.2工具/技能：Python、NumPy、Pandas、Matplotl
AI 大模型应用数据中心的数据分析架构 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《AI大模型应用数据中心的数据分析架构》关键词：数据中心、AI大模型、数据分析、架构设计、应用实践摘要：本文深入探讨了AI大模型在数据中心数据分析架构中的应用，从数据中心背景、AI大模型架构与技术、数据处理与分析技术、AI大模型应用与实践等多个方面，全面解析了AI大模型如何助力数据中心实现高效数据分析和智能处理，为读者提供了系统的理论指导和实际案例分析。第一部分:数据中心背景与AI大模型概述第1章
极致出海友好，融云 IM 支持消息免打扰设置时区 im融云社交
归纳来看，业务全球化难题，其实是无数细微本地化挑战的叠加。时区差异就是应用出海的关键本地化挑战之一，需要在产品设计中充分考虑时间显示、通知推送、内容时效、用户互动、数据分析和团队协作等方面。在应用的社交模块，时区差异更是全球化产品必须考虑的核心要素。比如，若产品支持消息免打扰设置时段，就要针对不同时区进行相应的计算和实现。大多通信服务商提供的解决方案以UTC（世界标准时间）为准，需要业务根据目标市
百度官方！打造「大模型全开发周期系列课程」，AI应用开发入门课率先发布！（内含英雄帖）
在这个大模型技术日新月异的时代，AI的潜力正被无限释放，改变着我们的工作和生活方式。你是否渴望成为这场变革的参与者？你是否也想在这个大模型时代中抢占先机？那“学习AI”、“使用AI”、“入局AI”我们真的可以受益吗？学习辅助：将AI使用融入学习当中，依据当前学习情况，整理重点难点，让复习有的放矢，更高效掌握知识点。效率提升：帮助处理繁琐重复的工具，如数据分析师使用AI识别数据中的关键信息，自动整理
数据处理与图形绘制的多领域应用案例，学会了你也是高手！ A达峰绮经验分享数据处理图形绘制经典案例
一、引言在当今数字化时代，数据处理与图形绘制已成为各领域不可或缺的技术手段。从科学研究到商业分析，从工程设计到日常决策，海量的数据需要高效处理，而直观清晰的图形则能帮助人们迅速理解数据背后的信息。本教程将通过多个具体应用案例，涵盖多种编程语言，深入讲解数据处理与图形绘制的实践方法，助力学习者解决学习过程中的难题，提升相关技能。二、Python在数据处理与图形绘制中的应用（一）金融数据分析案例数据获
Python 爬虫实战：开放数据集抓取与大数据分析应用西攻城狮北 python 爬虫数据分析
引言在数据驱动的时代，开放数据集成为了各领域研究和应用的宝贵资源。通过抓取和分析开放数据集，我们可以挖掘出有价值的信息，为决策提供支持。本文将详细介绍如何使用Python爬虫技术抓取开放数据集，并进行大数据分析应用。一、项目背景与目标1.项目背景随着信息技术的飞速发展，越来越多的机构和组织开始开放其数据集，以促进创新和研究。这些开放数据集涵盖了各个领域，如气象、交通、医疗、金融等。通过抓取和分析这
Python 爬虫基础教程盛子涵666 python 爬虫开发语言
爬虫的背景与应用诞生爬虫（WebCrawling）是自动化程序，用于从互联网上获取信息。爬虫的基本任务是自动访问网站，通过抓取网页内容并提取有用数据来构建数据库、索引或者进行进一步的数据分析。爬虫通常会模拟浏览器的行为，以避免被服务器识别为机器人，并且能够在大规模范围内高效地抓取信息。爬虫技术最早由搜索引擎开发者提出，目的是自动收集网页信息并将其索引，便于用户搜索时快速检索相关内容。随着互联网的快
Python中Pandas常用函数及案例详解程序员爱技术 python pandas 开发语言数据分析大数据
Pandas是一个强大的Python数据分析工具库，它为Python提供了快速、灵活且表达能力强的数据结构，旨在使“关系”或“标签”数据的操作既简单又直观。Pandas的核心数据结构是DataFrame，它是一个二维标签化数据结构，可以看作是一个表格，其中可以存储不同类型的数据。下面是Pandas中一些关于导入、导出、查看、检查、选取、清理、合并、统计等常用函数的详解以及案例说明：第一、导入函数P
Hive高级SQL技巧及实际应用场景小技工丨大数据随笔 sql hive 数据仓库大数据
Hive高级SQL技巧及实际应用场景引言ApacheHive是一个建立在Hadoop之上的数据仓库基础设施，它提供了一个用于查询和管理分布式存储中的大型数据集的机制。通过使用类似于SQL（称为HiveQL）的语言，Hive使得数据分析变得更加简单和高效。本文将详细探讨一些Hive高级SQL技巧，并结合实际的应用场景进行说明。HiveSQL的高级使用技巧1.窗口函数描述：窗口函数允许我们在不使用GR
Python全栈开发爬虫+自动化办公+数据分析教程 jijihusong006 程序 python 爬虫自动化
以下是一份系统化的Python全栈开发综合教程，涵盖Web开发、网络爬虫、自动化办公和数据分析四大核心领域，采用模块化结构进行深度技术解析：Python全栈开发综合实战教程1、Python全栈开发教程、+爬虫+自动化办公+数据分析课程https://pan.quark.cn/s/9bbb9c39e9652、传送资料库查询https://link3.cc/aa99第一部分全栈开发体系1.1技术架构全
Python数据分析NumPy和pandas（十七、pandas 二进制格式文件处理） FreedomLeo1 Python数据分析 python 数据分析 pandas HDF5 PyTables h5py Excel
以二进制格式存储（或序列化）数据的一种简单方法是使用Python的内置pickle模块。同时，pandas构造的对象都有一个to_pickle方法，该方法以pickle格式将数据写入磁盘。我们先把之前示例用到的ex1.csv文件加载到pandas对象中，然后将数据以二进制pickle格式写入examples/frame_pickle文件中：importpandasaspdframe=pd.read
什么是营销自动化工具？简单的营销自动化流程如何设计？ part210 自动化运维
作为营销人，日常工作中有大量重复&琐碎的日常工作，比如社群发消息通知、多个社交媒体平台管理、营销策划方案中几个项目管理表的同步、营销日报数据管理、广告数据分析等等场景。营销自动化的意思，就是借助技术&营销自动化工具来把工作上部分流程固定的流程&工作，自动化的处理，不但可以大大提升营销人的工作效率，通过技术也可以真正的实现用户的千人千面营销，避免过多的垃圾信息干扰。国外主流的营销自动化工具&营销自动
Python深度学习033：Python、PyTorch、CUDA和显卡驱动之间的关系若北辰 Python深度学习 python 深度学习 pytorch
Python、PyTorch、CUDA和显卡驱动之间的关系相当紧密，它们共同构成了一个能够执行深度学习模型的高效计算环境。下面是它们之间关系的简要概述：PythonPython是一种编程语言，广泛用于科学计算、数据分析和机器学习。它是开发和运行PyTorch代码的基础环境。PyTorchPyTorch是一个开源的机器学习库，用于应用如自然语言处理和计算机视觉的深度学习模型。它提供了丰富的API，使
《SQL应用场景解析：如何通过SQL解决实际业务问题》
新手程序员如何用三个月成为SQL高手？万字自学指南带你弯道超车在数据为王的时代，掌握SQL已成为职场新人的必修课。你可能不知道，仅用三个月系统学习，一个零基础的小白就能完成从数据库萌新到SQL达人的蜕变。去年刚毕业的小王就是典型例子，通过本文的学习路线，他不仅成功转行数据分析师，薪资更是翻了两倍。本文将为你揭秘这条高效的学习路径，让你少走90%的弯路。[]()一、为什么每个职场新人都需要SQL这把
远程控制与数据分析：工业中台助力港口起重机智能化钡铼技术物联网关 linux 边缘计算
在现代化港口运营中，起重机作为核心设备，其运行效率和安全性直接影响到整个港口的吞吐能力和经济效益。然而，传统的起重机监控方式往往依赖于人工巡检和定期维护，不仅效率低下，而且难以实时掌握设备状态。随着工业物联网（IIoT）技术的快速发展，工业物联中台（IndustrialIoTPlatform）应运而生，为港口起重机的远程监控提供了全新的解决方案。工业物联中台，简称“工业中台”，是一种集数据采集、处
hive 数字转换字符串_Hive架构及Hive SQL的执行流程解读 weixin_39756416 hive 数字转换字符串
1、Hive产生背景MapReduce编程的不便性HDFS上的文件缺少Schema(表名，名称，ID等，为数据库对象的集合)2、Hive是什么Hive的使用场景是什么？基于Hadoop做一些数据清洗啊(ETL)、报表啊、数据分析可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。Hive是SQL解析引擎，它将SQL语句转译成M/RJob然后在Hadoop执行。由Facebook开源，
Python爬虫学习笔记_DAY_26_Python爬虫之requests库的安装与基本使用【Python爬虫】_requests库ip 苹果Android开发组程序员 python 爬虫学习
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
二级Python必考！一文吃透程序分支结构：单/双/多分支实战解析奕澄羽邦 python linux 开发语言
一、为什么分支结构是Python考试的"拦路虎"？根据近三年NCRE二级Python真题数据分析，程序流程控制类题目平均分仅为62.7分，主要痛点集中在：语法细节易错：缩进错误、条件符号混淆（=vs==）逻辑思维薄弱：无法正确绘制分支流程图实战应用脱节：熟悉基本语法却不会设计实际场景的条件判断以2023年6月考题为例：python#根据输入分数输出评价（含小数点后1位）score=float(in
深入了解京东商品详情API接口数据捕手19970108018 爬虫技能晋升路线 java 前端 python 大数据
一、接口概述京东商品详情API接口是京东开放平台为开发者提供的用于获取京东平台上商品详细信息的通道。通过调用该接口，开发者能够获取到丰富的商品相关数据，以满足各种业务需求，例如在电商应用、价格比较工具、数据分析平台等场景中展示商品信息、进行数据统计分析等。从数据层面来看，该接口可返回的信息涵盖多个方面。商品基本信息包括商品名称、商品编号、所属品牌、商品分类等；价格信息有当前售价、历史价格走势、促销
业务数据分析极简通用方法论人工智能取经人数据分析数据挖掘数据分析数据挖掘
近年来，数据分析师成为了热门高薪岗位，越来越多的朋友选择跨行数据分析师岗位。他们期待着自己能成为驱动业务的军师，“运筹帷幄，决胜千里之外”。但是现实中他们很多人却成为一个取数机器，每天有取不完的数，并且也渐渐发现，自己取数需求做得越多，分析能力就越得不到提升。而分析能力得不到提升，业务方和领导就越当你是取数工具人，于是又有更多的取数需求。此外，面对领导提出的业务问题，除了罗列业务数据、业务指标之外
《数据分析学习进阶：如何用Tableau和Power BI提升可视化能力？》
《从Excel民工到数据分析师：我的500小时逆袭实操手册》写在前面：被Excel支配的恐惧2019年寒冬，作为某互联网大厂HR的我，正在经历职业生涯最魔幻的场景——凌晨两点，会议室里飘着六盒冷掉的饺子，我和同事盯着满屏VLOOKUP公式的Excel表，试图从3万条招聘数据中找到“为什么技术岗离职率飙升42%”的答案。领导推门进来只说了一句话：“我要的是洞见，不是表格美容报告。”正是这次暴击，让我
ClickHouse 学习笔记金州饿霸 Big Data 分布式数据库 clickhouse 学习笔记
1.连接到ClickHouse服务器clickhouse-client--host=10.16.226.100--user=default--password2.在ClickHouse中，如果你想要单独删除一行记录，且使用的是Distributed表引擎（或者其他不支持ALTERTABLEDELETE的引擎），你将无法直接通过删除操作来实现这一目标。ClickHouse是为大规模数据分析设计的，它
DeepSeek在供热行业中的应用杨航 AI 人工智能深度学习 python 机器学习算法
目录引言1.1DeepSeek技术概述1.2供暖行业业务挑战1.3DeepSeek在供暖行业的应用前景DeepSeek技术基础2.1深度学习与机器学习2.2自然语言处理（NLP）2.3图像识别与处理2.4数据挖掘与分析供暖行业应用场景3.1设备监控与维护3.1.1设备状态监控3.1.2故障预测与诊断3.1.3维护计划优化3.2能源管理与优化3.2.1能耗数据分析3.2.2热负荷预测3.2.3节能优
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟