紫色沙

数据分析必知的统计知识——假设检验共八篇（其五）

5. 假设检验

久经考场的你肯定对于很多概念类题目里问到的 “区别和联系” 不陌生，与之类似，在统计领域要研究的是数据之间的区别和联系 ，也就是差异性分析和相关性分析。本节我们重点关注数据的差异性分析。

我们知道，比较两个数之间的大小，要么前后两者求差，要么求比。差值大于零说明前者大于后者。比值大于1说明分子大于分母。

那么如何比较两组数据的差异性呢？大道至简，其实和上面原理类似

我们先从简单的看起，先比较一组数和一个给定数的差异，即，单个总体的差异性分析：

单个总体的假设检验

常见的单个总体差异性的假设检验分为3个类型：均值、比例、方差

一个总体均值的假设检验 (指定值和样本均值)

顾名思义，就是检验指定值与样本均值的差异，按 $\sigma$ 是否已知可以分2种情况：

① $\sigma$ 已知的情况： $z$ 检验

接下来我们用代码举例实现一下你就明白怎么用了：

例5.1 检验一批厂家生产的红糖是否够标重

监督部门称了50包标重500g的红糖，均值是498.35g，少于所标的500g。对于厂家生产的这批红糖平均起来是否够份量，需要统计检验。

分析过程：
由于厂家声称每袋500g,因此原假设为总体均值等于500g(被怀疑对象总是放在零假设)。而且由于样本均值少于500g(这是怀疑的根据)，把备择假设设定为总体均值少于500g (上面这种备选假设为单向不等式的检验称为单侧检验,而备选假设为不等号“ $\neq =$ ”的称为双侧检验，后面会解释)

于是我们有了原假设和备择假设

$H_0:\mu = 500 \leftrightarrow H_1：\mu <500$ :

引入相关库、读取数据如下

from scipy import stats
import scipy.stats
import numpy as np
import pandas  as pd
import statsmodels.stats.weightstats

data = [493.01,498.83,494.16,500.39,497.63,499.72,493.41,498.97,501.94,503.45,497.47,494.19,500.99,495.81,499.63,494.91,498.90,502.43,491.34,497.50,505.95,496.56,501.66,492.02,497.68,493.48,505.40,499.21,505.84,499.41,505.65,500.51,489.53,496.55,492.26,498.91,496.65,496.38,497.16,498.91,490.98,499.97,501.21,502.85,494.35,502.96,506.21,497.66,504.66,492.11]

进行z检验：

z, pval = statsmodels.stats.weightstats.ztest(data, value=500,alternative = 'smaller')

# 'two-sided': 样本均值与给定的总体均值不同
# 'larger' :   样本均值小于给定总体均值
# 'smaller' :  样本均值大于给定总体均值
print(z,pval)
# -2.6961912076362085 0.0035068696715304876

结论： 选择显著性水平 0.05 的话，P=0.0035 < 0.05, 故应该拒绝原假设。具体来说就是该结果倾向于支持平均重量小于500g的备则假设。

② $\sigma$ 未知的情况： $t$ 检验

例5.2 检验汽车实际排放是否低于其声称的排放标准

汽车厂商声称其发动机排放标准的一个指标平均低于20个单位。在抽查了10台发动机之后,得到下面的排放数据:
17.0 21.7 17.9 22.9 20.7 22.4 17.3 21.8 24.2 25.4
该样本均值为21.13.究竟能否由此认为该指标均值超过20?

分析过程：由于厂家声称指标平均低于20个单位,因此原假设为总体均值等于20个单位(被怀疑对象总是放在零假设)。而且由于样本均值大于20(这是怀疑的根据)，把备择假设设定为总体均值大于20个单位

于是我们有了原假设和备择假设

$H_0:\mu = 20 \leftrightarrow H_1：\mu > 20$ :

读取数据如下

data = [17.0, 21.7, 17.9, 22.9, 20.7, 22.4, 17.3, 21.8, 24.2, 25.4]

进行t检验如下：

import scipy.stats
t, pval = scipy.stats.ttest_1samp(a = data, popmean=20,alternative = 'greater')
# 说明  
# a  为给定的样本数据
# popmean 为给定的总体均值
# alternative 定义备择假设。以下选项可用(默认为“two-sided”)：
# ‘two-sided’：样本均值与给定的总体均值(popmean)不同
# ‘less’：样本均值小于给定总体均值(popmean)
# ‘greater’：样本均值大于给定总体均值(popmean)

print(t, pval)

# '''
# P= 0.004793 < 5%, 拒绝原假设，接受备择假设样本
# '''

结论： 选择显著性水平 0.01 的话，P=0.1243 > 0.05, 故无法拒绝原假设。具体来说就是该结果无法支持指标均值超过20的备则假设。

一个总体比例的假设检验(指定比例和样本比例)

例5.3 检验高尔夫球场女性球员比例是否因促销活动而升高

某高尔夫球场去年打球‍的人当中有20%是女性，为了增加女性球员的比例，该球场推出了一项促销活动来吸引更多的女性参加高尔夫运动，在活动实施了1个月后，球场的研究者想通过统计分析研究确定高尔夫球场的女性球员比例是否上升，收集到了400个随机样本，其中有100是女性

分析过程：由于研究的是女性球员所占的比例是否上升，因此选择上侧检验比较合适,备择假设是比例大于20%

$H_0:p \leqslant 0.20 \leftrightarrow H_1：p > 0.20$ :

方法1：用statsmodels.stats.proportion里面的proportions_ztest函数计算（推荐）

import numpy as np
from statsmodels.stats.proportion import proportions_ztest

count = 100
nobs = 400
p_0 = 0.2


p_bar = count/nobs
p_0 = 0.2
n = 400

# 执行单一样本比例检验 statsmodels.stats.proportion.proportions_ztest
z_statistic, p_value = proportions_ztest(count, nobs, value = p_0,alternative='larger',prop_var = value)
# 注：statsmodels.stats.proportion.proportions_ztest 的函数有几个问题：讲在第八节之后说明，感兴趣的读者请持续关注

# 打印结果
print("z统计量：", z_statistic)
print("p值：", p_value)
#z统计量： 2.4999999999999996
#p值： 0.006209665325776138

方法2 用手动方式计算

count = 100
nobs = 400
p_0 = 0.2


p_bar = count/nobs
p_0 = 0.2
n = 400

def calc_z_score(p_bar, p_0, n):
    z = (p_bar - p_0) / (p_0 * (1 - p_0) / n)**0.5
    return z

z = calc_z_score(p_bar, p_0, n)
p = stats.norm.sf(z)


# 打印结果
print("z统计量：", z)
print("p值：", p)
# z统计量： 2.4999999999999996
# p值： 0.006209665325776138

结论： 选择显著性水平 0.05 的话，P=0.0062 < 0.05, 拒绝原假设。具体来说就是该结果支持特定的促销活动能够提升该球场女性运动员比例的备则假设。

一个总体方差的假设检验（指定方差和样本方差）

import numpy as np
from scipy import stats

def chi2test(sample_var, sample_num,sigma_square,side, alpha=0.05):
    '''
    参数：
    sample_var--样本方差
    sample_num--样本容量
    sigma_square--H0方差
    返回值：
    pval
    '''
    chi_square =((sample_num-1)*sample_var)/(sigma_square)
    p_value = None
    if side == 'two-sided':
        p = stats.chi2(df=sample_num-1).cdf(chi_square)
        p_value = 2*np.min([p, 1-p])
    elif side == 'less':
        p_value = stats.chi2(df=sample_num-1).cdf(chi_square)
    elif side == 'greater':
        p_value = stats.chi2(df=sample_num-1).sf(chi_square)
    return chi_square,p_value

例5.4 检验公交车到站时间的方差是否比规定标准大

某市中心车站为规范化提升市民对于公交车到站时间的满意度，对于公交车的到站时间管理做了规定，标准是到站时间的方差不超过4。为了检验时间的到站时间的方差是否过大，随机抽取了24辆公交车的到站时间组成一个样本，得到的样本方差是 $s^2=4.9$ ，假设到站时间的总体分布符合正态分布，请分析总体方差是否过大。

分析过程：由于研究的是方差是否过大，因此选择上侧检验比较合适,备择假设是方差大于4

于是我们有了原假设和备择假设

$H_0: \sigma^2 \leqslant 4 \leftrightarrow H_1：\sigma^2 > 4$ :

chi_square,p_value = chi2test(sample_var = 4.9, sample_num = 24, sigma_square = 4,side='greater')

print("p值：", p_value)
# p值： 0.2092362676676498

结论： 选择显著性水平 0.05 的话，P=0.2092 > 0.05, 无法拒绝原假设。具体来说就是该结果不支持方差变大的备则假设。

例5.5 检验某考试中心升级题库后考生分数的方差是否有显著变化

某数据分析师认证考试机构CDA考试中心，历史上的持证人考试分数的方差为 $\sigma^2=100$ ，现在升级了题库，该考试中心希望新型考题的方差保持在原有水平上，为了研究该问题，收集到了30份新考题的考分组成的样本，样本方差是 $\sigma^2=152$ ，在 $\alpha=0.05$ 的显著性水平下进行假设检验。

分析过程：由于目标是希望考试分数的方差保持原有水平，因此选择双侧检验

于是我们有了原假设和备择假设

$H_0: \sigma^2 =100 \leftrightarrow H_1：\sigma^2 \neq 100$ :

p_value = chi2test(sample_var = 162, sample_num = 30, sigma_square = 100,side='two-sided')

print("p值：", p_value)
# p值： 0.07213100536907469

结论： 选择显著性水平 0.05 的话，P=0.0721 > 0.05, 故无法拒绝原假设。具体来说就是不支持方差发生了变化的备则假设。

两个总体的假设检验

常见的两总体差异性的假设检验也分3个类型：均值、比例、方差

两总体均值之差的假设检验(独立样本)

例5.6（数据：drug.txt）检验某药物在实验组的指标是否低于对照组

为检测某种药物对情绪的影响，对实验组的100名服药者和对照组的150名非服药者进行心理测试，得到相应的某指标。需要检验实验组指标的总体均值 $\mu_1$ 是否大于对照组的指标的总体均值 $\mu_2$ 。这里假定两个总体独立地服从正态分布。相应的假设检验问题为:

分析过程：由于目标是检验实验组指标的总体均值 $\mu_1$ 是否大于对照组的指标的总体均值 $\mu_2$ ，因此选择上侧检验

于是我们有了原假设和备择假设

$H_0: \mu_1 \leqslant \mu_2 \leftrightarrow H_1：\mu_1 > \mu_2$ :

data = pd.read_table("./t-data/drug.txt",sep = ' ')
data.sample(5)

ah	id
4.4	2
6.8	2
9.6	2
4.8	2
13.2	1

a = data[data['id']==1]['ah']
b = data[data['id']==2]['ah']
'''
H0: 实验组的均值等于对照组
H1: 实验组的均值大于对照组

'''
t, pval = scipy.stats.ttest_ind(a,b,alternative = 'greater')
print(t,pval)
# 0.9109168350628888 0.18161186154576608

结论： 选择显著性水平 0.05 的话，p = 0.1816 > 0.05,无法拒绝H0，具体来说就是该结果无法支持实验组均值大于对照组的备则假设。

两总体均值之差的假设检验(配对样本)

例5.7(数据: diet.txt) 检验减肥前后的重量是否有显著性差异（是否有减肥效果）

这里有两列50对减肥数据。其中一列数据(变量名before)是减肥前的重量，另一列(变量名after)是减肥后的重量(单位: 公斤)，人们希望比较50个人在减肥前和减肥后的重量。

分析过程：这里不能用前面的独立样本均值差的检验，这是因为两个样本并不独立。每一个人减肥后的重量都和自己减肥前的重量有关，但不同人之间却是独立的，所以应该用配对样本检验。同时，由于研究的是减肥前后的重量变化，期望减肥前的重量大于减肥后的重量，所以备择假设是期望减肥前的重量大于减肥后的重量

于是我们有了原假设和备择假设：

$H_0: \mu_1 = \mu_2 \leftrightarrow H_1：\mu_1 > \mu_2$ :

data = pd.read_table("./t-data/diet.txt",sep = ' ')
data.sample(5)

before	after
58	50
76	71
69	65
68	76
81	75

a = data['before']
b = data['after']
stats.ttest_rel(a, b,alternative = 'greater')
# Ttest_relResult(statistic=3.3550474801424173, pvalue=0.000769424325484219)

结论选择显著性水平 0.05 的话，p = 0.0007 < 0.05,故应该拒绝原假设。具体来说就是该结果倾向支持减肥前后的重量之差大于零（即减肥前重量大于减肥后，也就是有减肥效果）的备则假设。

两总体比例之差的假设检验

import numpy as np
import scipy.stats as stats

def proportion_test(p1, p2, n1, n2, side='two-sided'):
    """
    参数：
    p1: 样本1的比例
    p2: 样本2的比例
    n1: 样本1的数量
    n2: 样本2的数量
    side: 假设检验的方向，可选'two-sided'（双侧检验，默认）, 'greater'（右侧检验）, 'less'（左侧检验）

    返回值：
    z_value: Z统计量的值
    p_value: 对应的p值
    """
    p = (p1 * n1 + p2 * n2) / (n1 + n2)
    se = np.sqrt(p * (1 - p) * (1 / n1 + 1 / n2))
    z_value = (p1 - p2) / se

    if side == 'two-sided':
        p_value = 2 * (1 - stats.norm.cdf(np.abs(z_value)))
    elif side == 'greater':
        p_value = 1 - stats.norm.cdf(z_value)
    elif side == 'less':
        p_value = stats.norm.cdf(z_value)
    else:
        raise ValueError("Invalid side value. Must be 'two-sided', 'greater', or 'less'.")

    return z_value, p_value

例5.8 检验不同保险客户的索赔率是否存在差异

某保险公司抽取了单身与已婚客户的样本，记录了他们在一段数据内的索赔次数，计算了索赔率，现在需要检验两种保险客户的索赔率是否存在差异

分析过程：由于目标比例是否有差异，因此选择比例之差的双侧检验

于是我们有了原假设和备择假设

$H_0: p_1 = p_2 \leftrightarrow H_1：p_1 \neq p_2$ :

p1 = 0.14
p2 = 0.09
n1 = 250
n2 = 300

z_value, p_value = proportion_test(p1, p2, n1, n2, side='two-sided')
# 选择双侧检验 alternative = 'two-sided'

print("Z_value:", z_value)
print("p_value:", p_value)
# Z_value: 1.846189280616294
# p_value: 0.0648647268570739

结论选择显著性水平 0.05 的话，p = 0.0648 > 0.05,故应该拒绝原假设。具体来说就是该结果倾向支持两种保险客户的索赔率存在差异的备则假设。

两总体方差之比的假设检验

import numpy as np
from scipy import stats

def f_test_by_s_square(n1, n2, s1_square,s2_square, side ='two-sided'):
    """
    参数
    n1 :样本1的数量
    n2 :样本2的数量
    s1_square:样本1的方差
    s2_square:样本2的方差
    # 
    # F_value :F统计量的值
    # p_value :对应的p值
    """
    F_value = s1_square/s2_square
    F = stats.f(dfn = n1-1, dfd = n2-1)
    if side=='two-sided':
        print("two-sided")
        p_value = 2*min(F.cdf(F_value), 1-F.cdf(F_value))
        return F_value,p_value
    elif  side=='greater':
        print("greater")
        p_value = 1-F.cdf(F_value)
        return F_value,p_value

例5.9 检验不同公交公司的校车到达时间的方差是否有差异

某学校的校车合同到期，先需要在A、B两个校车供应公司中选择一个，才有到达时间的方差作为衡量服务质量的标准，较低方差说明服务质量稳定且水平较高，如果方差相等，则会选择价格更低的公司，，如果方差不等，则优先考虑方差更低的公司。
现收集到了A公司的26次到达时间组成一个样本，方差68，B公司16次到达时间组成一个样本，方差是30，请检验AB两个公司的到达时间方差。

分析过程：由于目标是希望的方差保持原有水平，因此选择双侧检验。两总体方差之比用F检验,将方差较大的A视为总体1

于是我们有了原假设和备择假设

$H_0: \sigma_1 = \sigma_2 \leftrightarrow H_1： \sigma_1 \neq \sigma_2 $:

f_statistic , p_value= f_test_by_s_square(n1=26, n2=16,s1_square=78,s2_square=20,side='two-sided')
# 选择双侧检验所以side='two-sided'
# 打印检验结果
print("F statistic:", f_statistic)
print("p-value:", p_value)
#two-sided
#F statistic: 3.9
#p-value: 0.00834904415829052

结论选择显著性水平 0.05 的话，p = 0.0083 < 0.05,故拒绝原假设。结果倾向支持AB两个公司的到达时间方差存在差异的备则假设。

例5.10 检验修完Python课程的学生是否比修完数据库课程的学生考CDA的成绩方差更大

某高校数据科学专业的学生，修完一门数据库课程的41名学生考CDA的方差 $s^2=120$ ，修完Python课程的31名学生考CDA的方差是 $s^2=80$ ，这些数据是否表明，修完数据库的学生要比修完Python的学生CDA成绩的方差更大？

分析过程：由于目标是希望修完Python的学生CDA成绩的方差更大，因此选择上侧检验。两总体方差之比用F检验,将方差较大的数据库课程的考试成绩视为总体1

于是我们有了原假设和备择假设

$H_0: \sigma_1 < \sigma_2 \leftrightarrow H_1： \sigma_1 \geqslant \sigma_2 $:

f_statistic , p_value= f_test_by_s_square(n1=41, n2=31,s1_square=120,s2_square=80,side='greater')# 打印检验结果
# 选择上侧检验所以side='greater'
print("F statistic:", f_statistic)
print("p-value:", p_value)

结论选择显著性水平 0.05 的话，p = 0.1256 > 0.05，故无法原假设。结果无法支持修完数据库的学生要比修完Python的学生CDA成绩的方差更大的备则假设。

关于知识的学习，你会发现有很多相似的逻辑，抓住问题的本质去理解的话就没那么复杂了，比如概念题里面的 区别和联系 延伸到数据分析里的差异性和相关性；再比如计算机数据结构里的 树、森林、网络 到机器学习里面的决策树、随机森林、神经网络；再比如从 互联网、区块链到元宇宙，都是想通过技术的手段去刻画客观世界；算法应用里面的图像识别、语音识别，替代人的眼耳鼻舌身意中的前二者去感知世界。抓住了问题的本质不仅可以帮助我们理解知识，还可以将一个领域的知识或模型迁移到另一个领域加以创新和应用。

下期将为大家带来《统计学极简入门》之方差分析

点击下方链接，观看下期内容。
https://edu.cda.cn/goods/show/3386

MATLAB语言的数据库交互 Quantum&Coder 包罗万象 golang 开发语言后端
MATLAB语言的数据库交互引言在当今数据驱动的时代，掌握数据库的使用和管理是非常重要的。MATLAB作为一种强大的数值计算和数据分析工具，广泛应用于科学研究、工程设计和数据分析等领域。为了更有效地处理和分析数据，MATLAB提供了与各类数据库交互的功能。本文将探讨MATLAB语言如何与数据库进行交互，包括连接数据库、执行SQL查询、读取和写入数据等基本操作，并结合实例进行详细说明，以帮助读者理解
Python-玩转数据-数据分析之分析思维人猿宇宙数据分析 python big data
一、说明当下时代的社会生产发展，人们都开始习惯于用数据来说明某个观点和反映事物的内在规律或享用自动化和人工智能带来的便利。但这些轻松快捷的方便背后，都是相关工作者的专业流程作为源源不断的支撑。二、大数据思维自从几年前大数据开始兴起，大数据思维已经逐渐被更动的人接受，随着其进一步发展，产生了巨大的生产效果。三、数据驱动的生产力作为一个数据工程师，仅仅知道跑数据是不够的，还需要通过数据发现生产环节出现
一文了解数字孪生是什么？数字孪生赋能哪些行业应用场景橙子吖21 数字孪生区块链人工智能数学建模交互
导语数字孪生是物理系统向信息空间映射的关键技术，通过传感器和数据分析实现实时模拟和控制。与元宇宙不同，数字孪生强调物理对象的复现，是元宇宙的技术基础。NewIT技术支撑数字孪生的广泛应用，助力工业、城市等多领域实现虚拟与现实融合，促进经济社会创新发展。01什么是数字孪生？数字孪生，英文名为DiditalTwin(数字双胞胎)，也成为数字映射、数字镜像。它的官方定义非常复杂，是这么说的：是充分利用物
【数据分析（二）】初探 Pandas dandellion_ Python语法数据分析 pandas 数据挖掘
目录引言1.基本数据结构1.1.Series的初始化和简单操作1.2.DataFrame的初始化和简单操作1.2.1.初始化与持久化1.2.2.读取查看1.2.3.行操作1.2.4.列操作1.2.5.选中筛查2.数据预处理2.0.生成样例表2.1.缺失值处理2.2.类型转换和排序2.3.统计分析3.数据透视3.0.生成样例表3.1.生成透视表4.数据重塑4.1.层次化索引4.1.1.双层索引的Se
数字孪生：物联+数据打造洞察世界新视角 CServer_01 数字孪生模拟仿真工业软件
引言：数字孪生是物理系统向信息空间映射的关键技术，通过传感器、数据分析、物联网，实现实时模拟和控制。新一代信息技术支撑数字孪生的广泛应用，使其在工业、城市、交通、医疗、水利等多领域实现虚拟与现实融合，促进经济社会创新发展。如果，您可以打造任何物品、场景、城市的另一种表达形式。就如同打开上帝视角一样，可以随时随地及时监控物它的性能，预测物品的状况，并提高其效率。这种实时、持续的信息更新、交换，使得您
Python人工智能在气象中的应用，包括：天气预测、气候模拟、降雨量和降水预测、气象数据分析、气象预警系统 xiao5kou4chang6kai4 气象气候预报天气预测气候模拟.降雨量和降水预测气象数据分析气象预警系统 python
Python人工智能在气象中有多种应用，包括：天气预测、气候模拟、降雨量和降水预测、气象数据分析、气象预警系统Python是功能强大、免费、开源，实现面向对象的编程语言，在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能，这些优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Python将成为的主流编程语言之一。人工智
ChatGPT4.0最新功能和使用技巧，助力日常生活、学习与工作！ WangYan2022 教程人工智能 chatgpt 数据分析 ai绘画 AI写作
熟练掌握ChatGPT4.0在数据分析、自动生成代码等方面的强大功能，系统学习人工智能（包括传统机器学习、深度学习等）的基础理论知识，以及具体的代码实现方法，同时掌握ChatGPT4.0在科研工作中的各种使用方法与技巧，以及人工智能领域经典机器学习算法（BP神经网络、支持向量机、决策树、随机森林、变量降维与特征选择、群优化算法等）和热门深度学习方法（卷积神经网络、迁移学习、RNN与LSTM神经网络
体育比分网站搭建的常规流程参考教程翱翔的猪脑花信息可视化
一、项目策划与需求分析在启动体育比分直播网站搭建项目前，首要任务是对市场进行深入的研究与分析，考察现有竞品的优势Atlaslive与CAF与不足，找准目标用户群体的需求痛点。例如，用户可能关注实时比分更新的速度与精确度，全面的赛事覆盖范围，深度的数据分析，以及便利的社交互动功能等。基于此，明确网站的定位和特色，设计出包括实时比分直播、赛事前瞻与回顾、详尽数据分析、体育新闻报道、互动社区等在内的核心
构建高效GPU算力平台：挑战、策略与未来展望 Mr' 郑 gpu算力
引言随着深度学习、高性能计算和大数据分析等领域的快速发展，GPU（图形处理器）因其强大的并行计算能力和浮点运算速度而成为首选的计算平台。然而，随着模型规模的增长和技术的进步，构建高效稳定的GPU算力平台面临着新的挑战。本文旨在探讨这些挑战、应对策略以及对未来发展的展望。当前挑战算力分配与资源优化在多用户共享GPU集群的环境下，合理分配计算资源并确保每个任务能够高效运行是一项挑战。这不仅涉及到硬件资
数据分析及应用：经营分析中的综合指标解析与应用莫叫石榴姐收获不止一点大数据数据分析机器学习
目录1.市场份额（MarketShare）2.客户获取成本（CustomerAcquisitionCost,CAC）3.客户生命周期价值（CustomerLifetimeValue,CLV）4.客户留存率（CustomerRetentionRate,CRR）5.净推荐值（NetPromoterScore,NPS）6.转化率（ConversionRate）7.平均订单价值（AverageOrderV
全面解读 Databricks：从架构、引擎到优化策略克里斯蒂亚诺罗纳尔多阿维罗架构 spark 大数据
导语：Databricks是一家由ApacheSpark创始团队成员创立的公司，同时也是一个统一分析平台，帮助企业构建数据湖与数据仓库一体化（Lakehouse）的架构。在Databricks平台上，数据工程、数据科学与数据分析团队能够协作使用Spark、DeltaLake、MLflow等工具高效处理数据与构建机器学习应用。本文将深入介绍Databricks的平台概念、架构特点、优化机制、功能特性
无效数据，你会怎么处理？网络安全我来了 IT技术无效数据
如何处理无效数据？无效数据就像海洋中的漂流物，易被忽视，却可能对你的数据分析产生深远的影响。在这个瞬息万变的数字世界中，数据已经成为了决策的核心。但你是否曾想过，无效数据会如何悄然破坏你的洞察力？在这篇文章中，我们将深入探讨如何识别和处理无效数据，确保你的分析能够真正反映现实的情况。无效数据的定义与重要性什么是无效数据？无效数据是指在数据集中不符合预期的数据，它可能是错误的、不完整的、重复的，甚至
14-美妆数据分析 william_liu1 数据分析数据分析数据挖掘
前言美妆数据分析可以帮助企业更好地理解市场趋势、客户偏好和产品表现importpandasaspdimportnumpyasnp一、数据清洗data=pd.read_csv(r'C:\Users\B\Desktop\美妆数据.csv',encoding='gbk')data.head()data.info()data=data.drop_duplicates(inplace=False)data.
基于Python大数据的王者荣耀战队数据分析及可视化系统计算机学姐大数据精选实战项目源码 Python精选实战项目源码 Vue源码 1024程序员节 python 大数据数据分析数据挖掘 django vue.js
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示【2025最新】基于大数据+大屏可视化+Python+D
Apache Hive--排序函数解析大鳥 apache hive hadoop
在大数据处理与分析中，ApacheHive是一个至关重要的数据仓库工具。其丰富的函数库为数据处理提供了诸多便利，排序函数便是其中一类非常实用的工具。通过排序函数，我们能够在查询结果集中为每一行数据分配一个排名值，这对于数据分析、报表生成等工作具有重要意义。本文将深入探讨ApacheHive中的排序函数，通过具体的HQL代码和数据实例进行说明，并阐述它们之间的区别。0.排序函数：ORDER、SORT
第八讲 SCQL使用 huang8666 数据库 mysql
第八讲SCQL使用部署系统项目设置联合分析scql概念：project：多个参与方在协商一致后加入到同一个项目中进行安全数据分析参与方身份认证数据表管理：管理参与分析的数据表的schema信息权限信息管理：表字段的权限信息，特别是CCL信息SCDB包含的内容：database,user,table,privilege创建用户通过root账户，语法时间戳，签名公钥地址：防止伪造身份攻击创建项目创建表
数据入湖的前提条件：数据标准之数据质量评估 goTsHgo 开发技巧大数据大数据
数据质量评估是数据入湖前必须满足的核心标准之一，其目的是确保数据的准确性、完整性、一致性和可靠性。通过系统化评估，能够最大限度地提升数据的价值，降低数据问题对业务决策的负面影响。下面从底层原理、详细步骤及背后原因进行全面解析。1.为什么需要数据质量评估？1.1确保数据可靠性含义：数据质量直接影响分析结果和业务决策，低质量数据会导致错误的模型输出或策略失败。原因：如果入湖数据质量不佳，后续数据分析、
基于python的时空地理加权回归（GTWR）模型有梦想的Frank博士数据处理数据分析回归空间分析时空异质性
一、时空地理加权回归（GTWR）模型时空地理加权回归（GTWR）模型是由美国科罗拉多州立大学的AndyLiaw、StanleyA.Fiel和MichaelE.Bock于2008年提出的一种高级空间统计分析方法。它是在传统地理加权回归（GWR）模型的基础上发展起来的，通过结合时间和空间两个维度，提供了一种更为灵活和精确的时空数据分析手段。背景和发展传统的地理加权回归（GWR）模型主要关注地理空间上的
工业互联网架构 st20195114 架构
工业互联网架构详解引言工业互联网（IndustrialInternet）是工业领域与互联网技术深度融合的产物，它推动了智能制造和数字化转型的进程。工业互联网架构的设计不仅需要满足数据处理和通信的要求，还需考虑设备互联、数据分析和安全等多方面的因素。本文将对工业互联网架构进行详细阐述，帮助理解其关键组成部分及其功能。工业互联网架构概述工业互联网架构通常包括设备层、网络层、数据层和应用层四个主要部分。
北大数学校友胡懿娟归国任教！重回母校，专注于统计学、微生物学和遗传学的交叉领域量子位
关注前沿科技量子位又一科学家从美归国——北大数学系校友胡懿娟。援引人民日报消息，在北京大学北京国际数学研究中心发布的2024年工作回顾中显示，她于去年7月入职北大。回来之后，她将继续专注于统计学、微生物学和遗传学的交叉领域，致力于解决实际的生物医学数据分析问题。△北大官网截图网友纷纷为她点赞：能力与颜值并存！同时也感叹，越来越多的科学家选择回到祖国，为科学技术发展和人才培养添砖加瓦。北大数学校友胡
Python字典详解 2401_89224765 python 开发语言
print(dict4)需要注意的是：fromkeys方法只用来创建新字典，不负责保存。当通过一个字典来调用fromkeys方法时，如果需要后续使用一定记得给他复制给其他的变量。②访问字典：第一阶段：基操勿6！如果要想获取字典中某个键的值，可以通过访问键的方式来显示对应的值。上代码：dict={‘线代’:“99”,“数据分析”:“99”,“概率论”:“98”}#创建字典print(‘小红同学的线代
使用Python爬虫将抓取的数据保存到Excel文件 Python爬虫项目 2025年爬虫实战项目 python 爬虫 excel 测试工具开发语言信息可视化
在进行Python爬虫开发时，数据的存储是非常重要的一环。随着数据分析需求的不断增长，保存和管理大量的数据变得尤为重要。CSV（Comma-SeparatedValues）格式一直是一个常见的存储格式，但在许多应用场景下，Excel文件作为一种更直观、结构化的方式，具有更多的优势，尤其在数据分析与可视化方面。Excel文件不仅能够承载数据，还能进行复杂的数据操作、图表展示等，使其在数据科学、商业分
Python的Matplotlib库详解 pumpkin84514 python相关 python matplotlib 开发语言
Python的Matplotlib库详解Matplotlib是Python中功能强大的数据可视化库，广泛应用于科研、数据分析、报告生成等领域。它能创建各种类型的图表，帮助用户直观地展示数据。一、使用场景1.数据探索和分析：在数据科学领域，Matplotlib经常被用来绘制各种图表，如折线图、散点图、直方图等，以帮助分析和理解数据。2.报告生成：科研人员和数据分析师常用Matplotlib生成图表，
Python 爬虫入门教程：从零构建你的第一个网络爬虫 m0_66323401 python 爬虫开发语言
网络爬虫是一种自动化程序，用于从网站抓取数据。Python凭借其丰富的库和简单的语法，是构建网络爬虫的理想语言。本文将带你从零开始学习Python爬虫的基本知识，并实现一个简单的爬虫项目。1.什么是网络爬虫？网络爬虫（WebCrawler）是一种通过网络协议（如HTTP/HTTPS）获取网页内容，并提取其中有用信息的程序。常见的爬虫用途包括：收集商品价格和评价。抓取新闻或博客内容。统计数据分析。爬
Python数据分析高频面试题及答案闲人编程程序员面试 python 数据分析面试题核心
目录1.基础知识2.数据处理3.数据可视化4.机器学习模型5.进阶问题6.数据清洗与预处理7.数据转换与操作8.时间序列分析9.高级数据分析技术10.数据降维与特征选择11.模型评估与优化12.数据操作与转换13.数据筛选与分析14.数据可视化与报告15.数据统计与分析16.高级数据处理以下是一些Python数据分析的高频核心面试题及其答案，涵盖了基础知识、数据1.基础知识问1：Python中列表
数据分析思维幽兰的天空 combo box 数据仓库大数据
了解数据分析的本质是什么在数据中寻找解决问题的方法。使用大量的数据、统计分析、定量、定性分析和预测模型及基于事实的管理来推动决策过程和实现价值增生。数据分析思维1.一个思维模型：目标导向分析法2.做好分析准备：探索性数据分析数据分析的四个层级1.描述性分析2.诊断性分析3.预测性分析4.决策性分析
Python数据分析常见面试题和答案01-10 飞翔还哈哈6 Python数据分析 python pandas 数据分析
以下是一些Python数据分析常见面试题和答案：1.Python中的list和tuple的区别是什么？答：List是可变的，而元组（tuple）是不可变的。因此，使用list来存储需要频繁修改的数据，而使用元组来存储不能更改的数据项。2.解释NumPy中的数组？为什么numpy在数据分析中很重要？答：NumPy是Python中提供高性能科学计算和数据分析的包。NumPy数组是一种类似于列表的数据结
【数据分析岗】关于数据分析岗面试python的金典问题+解答，包含数据读取、数据清洗、数据分析、机器学习等内容摇光~ 数据分析面试 python
大家好，我是摇光~，用大白话讲解所有你难懂的知识点最近和几个大佬交流了，说了很多关于现在职场面试等问题，然后也找他们问了问他们基本面试的话都会提什么问题。所以我收集了很多关于python的面试题，希望对大家面试有用。类别1：数据读取与处理问题1：如何用Python从Excel文件中读取数据？答：在Python中，可以使用pandas库从Excel文件中读取数据。pandas提供了read_exce
Python 数据建模完整流程指南木觞清 3天入门Python python 开发语言
在数据科学和机器学习中，建模是一个至关重要的过程。通过有效的数据建模，我们能够从原始数据中提取有用的洞察，并为预测或分类任务提供支持。在本篇博客中，我们将通过Python展示数据建模的完整流程，包括数据准备、建模、评估和优化等步骤。1.导入必要的库在进行任何数据分析或建模之前，首先需要导入必需的Python库。这些库提供了各种工具和算法，帮助我们更高效地完成任务。importnumpyasnpim
MATLAB语言的计算机基础疯狂小小小码农包罗万象 golang 开发语言后端
MATLAB语言的计算机基础引言在当今信息技术飞速发展的时代，编程能力已成为当代人士必备的一项基本技能。MATLAB（矩阵实验室）作为一种高级编程语言和环境，广泛应用于数据分析、算法开发、模型创建、数字图像处理和计算机视觉等多个领域。MATLAB以其强大的矩阵运算和可视化能力，成为了科研人员和工程师的重要工具，尤其在数学、物理、工程等学科中，它的应用不可或缺。本文将从MATLAB的基本概念、环境搭
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {

数据分析必知的统计知识——假设检验共八篇（其五）

5. 假设检验

单个总体的假设检验

一个总体均值的假设检验 (指定值和样本均值)

① σ \sigma σ已知的情况： z z z 检验

② σ \sigma σ未知的情况： t t t 检验

一个总体比例的假设检验(指定比例和样本比例)

方法1：用statsmodels.stats.proportion里面的proportions_ztest函数计算（推荐）

方法2 用手动方式计算

一个总体方差的假设检验（指定方差和样本方差）

两个总体的假设检验

两总体均值之差的假设检验(独立样本)

两总体均值之差的假设检验(配对样本)

两总体比例之差的假设检验

两总体方差之比的假设检验

你可能感兴趣的:(数据分析,数据挖掘)

① $\sigma$ 已知的情况： $z$ 检验

② $\sigma$ 未知的情况： $t$ 检验