郑德帅

基于Python的大数据分析基础（九）--- 数据分析

8 数据分析

8.1 基本统计分析(描述性统计分析)

一般统计某个变量的最小值，第一个四分位值，中值，第三个四分位值，以及最大值

均值(Mean),中位数(Median)和众数(Mode)

其中均值和中位数用于定量的数据，众数用于定性的数据

对于定量数据（ Data ）来说，均值是总和除以总量 N，中位数是数值大小位于中间（奇偶总量处理不同）的值，均值相对中位位数来说，包含的信息量更大，但是容易受异常的影响。

描述性统计分析函数为 describe 。该函数返回值有均值、标准差、最大值、最小值、分位数等。括号中可以带一些参数，

size计数(此函数不需要括号),sum()求和，mean()平均值, var()方差，std()标准差，median()中位数,mode()众数

# -*- coding: UTF-8 -*-
'''
@Author ：Jason
数据分析中的一些特殊值,比如平均值，最大值，方差，标准差等等
'''
def BasicInfo():
    import pandas as pd
    df = pd.read_excel(r"./files/i_nuc.xls",sheet_name=6)
    #sheet_name可以写具体sheet名字符串，也可以写第几个，注意从0开始
    # print(df.head())
    # print(df["英语"].describe())
    '''
    count    20.000
    mean     72.550
    std       7.178
    min      60.000
    25%      66.000
    50%      73.500
    75%      76.250
    max      85.000
    Name: 英语, dtype: float64
    '''
    # print(df.describe()) #DF的各列相应的数据
    '''
           Unnamed: 0            学号            班级  ...         数分         高代         解几
        count    20.00000  2.000000e+01  2.000000e+01  ...  20.000000  20.000000  20.000000
        mean      9.50000  2.308024e+09  2.308024e+07  ...  62.850000  62.150000  69.650000
        std       5.91608  8.399160e+01  8.522416e-01  ...   9.582193  15.142394  10.643876
        min       0.00000  2.308024e+09  2.308024e+07  ...  40.000000  23.000000  44.000000
        25%       4.75000  2.308024e+09  2.308024e+07  ...  60.750000  56.750000  66.750000
        50%       9.50000  2.308024e+09  2.308024e+07  ...  63.500000  65.500000  71.000000
        75%      14.25000  2.308024e+09  2.308024e+07  ...  69.250000  71.250000  77.000000
        max      19.00000  2.308024e+09  2.308024e+07  ...  78.000000  90.000000  83.000000
    [8 rows x 9 columns]
    '''
    # print(df["解几"].size)   #这里的size 没有括号()
    # #20
    # print(df["解几"].var()) #最大值max()，最小值min()，和sum(),平均值mean(),var()方差，std()标准差

    #这里处理用mean()来算样本均值
    import numpy as np
    print(np.mean(df["数分"]),np.average(df["数分"]),df["数分"].mean()) #62.85 62.85 62.85

if __name__ == "__main__":
    BasicInfo()

8.2 分组分析

根据字段将分析对象分成不同的部分，以对比分析各组之间差异性的一种方法
    常用的统计指标: 计数，求和，平均值
    命令：
        df.groupby(by=["分类1","分类2",...])["被统计的列"].agg({列别名1:统计函数1,列别名:统计函数2,...})

其中agg最后不好写成字典格式 FutureWarning: using a dict with renaming is deprecated and will be removed

# -*- coding: UTF-8 -*-
'''
@Author ：Jason
df.groupby(by=["分类1","分类2",...])["被统计的列"].agg({列别名1:统计函数1,列别名:统计函数2,...})
    by 表示用于分组的列
    [] 表示用于统计的列
    .agg 表示统计别名显示统计值的名称,统计函数用于统计数据。常用size,sum,mean
    提示,agg好像会逐渐取消，所以还是一个个算比较好
'''
import pandas as pd
import numpy as np
class Groupby:
    def __init__(self):
        self.df = pd.read_excel(r'./files/i_nuc.xls',sheet_name=6)

    def printp(self):
        afterGbInfo1 = self.df.groupby(by="班级")["军训","英语","体育","性别"].mean()
        # print(afterGbInfo1)
        '''
                      军训        英语        体育
            班级                                       
            23080242  81.333333  70.833333  73.000000
            23080243  85.500000  71.000000  60.666667
            23080244  64.375000  75.000000  75.375000
        结合实例理解: 先根据班级分组，再算出指定科目的平均分
        '''
        afterGbInfo2 = self.df.groupby(by=["班级", "性别"])["军训", "英语", "体育"].mean()
        # print(afterGbInfo2)
        '''
                            军训         英语         体育
            班级      性别                                 
            23080242 女   83.500000  69.500000  89.500000
                     男   80.250000  71.500000  64.750000
            23080243 女   86.000000  69.333333  42.666667
                     男   85.000000  72.666667  78.666667
            23080244 女   46.500000  74.500000  77.000000
                     男   70.333333  75.166667  74.833333
        结合实例理解：先按班级分组，再按性别分组，再算指定列的平均值
        '''
        afterGbInfo3 = self.df.groupby(["班级", "性别"])["军训"].agg({"总分":np.sum,"人数":np.size})
        print(afterGbInfo3)
        '''
                      总分  人数
        班级       性别         
        23080242 女   167   2
                 男   321   4
        23080243 女   258   3
                 男   255   3
        23080244 女    93   2
                 男   422   6
        '''

        afterGbInfo4 = self.df.groupby(["班级", "性别"])["军训", "英语", "体育", "性别"].agg({"总分": np.sum, "人数": np.size})
        # print(afterGbInfo4)
        '''
                          总分           人数      
                  军训   英语   体育 体育 军训 英语
        班级       性别                        
        23080242 女   167  139  179  2  2  2
                 男   321  286  259  4  4  4
        23080243 女   258  208  128  3  3  3
                 男   255  218  236  3  3  3
        23080244 女    93  149  154  2  2  2
                 男   422  451  449  6  6  6
        数组这样太多反而更复杂了，
        '''



if __name__ == "__main__":
    GB = Groupby()
    GB.printp()

8.3 分布分析 cut==>分组最好理解
将数据(定量数据)进行等距或不等距的分组，研究各组分布规律的一种分析方法

# -*- coding: UTF-8 -*-
'''
@Author ：Jason
@Date   ：2019/11/17 16:56
@Desc   ：Crate By Jason
'''
import pandas as pd
import numpy

def Cut():
    df = pd.read_excel("./files/i_nuc.xls",sheet_name=6)
    df["total"] = df["英语"] + df["体育"] + df["军训"] + df["数分"] + df["高代"] + df["解几"]
    # print(df["total"].head())
    '''
        0     354
        1     370
        2     391
        3     400
        4     407
        Name: total, dtype: int64
    '''
    # print(df["total"].describe())
    '''
    count     20.000000
    mean     413.250000
    std       36.230076
    min      354.000000
    25%      386.000000
    50%      416.500000
    75%      446.250000
    max      457.000000
    Name: total, dtype: float64
    '''
    bins = [df["total"].min()-1,400,450,df["total"].max()+1]
    labels = ["及格","良好","优秀"]
    newDf = pd.cut(df["total"],bins=bins,labels = labels)
    df["等级"] = newDf
    # print(df.head())
    '''
   Unnamed: 0          学号        班级  姓名 性别  英语  体育  军训  数分  高代  解几  total  等级
    0           0  2308024241  23080242  成龙  男  76  78  77  40  23  60    354  及格
    1           1  2308024244  23080242  周怡  女  66  91  75  47  47  44    370  及格
    2           2  2308024251  23080242  张波  男  85  81  75  45  45  60    391  及格
    3           3  2308024249  23080242  朱浩  男  65  50  80  72  62  71    400  及格
    4           4  2308024219  23080242  封印  女  73  88  92  61  47  46    407  良好
    '''
    print(df.groupby(by = ["等级"])["total"].agg(numpy.size))
    '''
    等级
    及格    7
    良好    9
    优秀    4
    Name: total, dtype: int64
    '''
if __name__ == "__main__":
    Cut()

8.4 交叉分析
分析两个或者两个以上分组变量之间的关系，以交叉表形式进行变量间关系的对比分析，一般分为定量、定量分组交叉；
定量、定性分组分析；定性、定性分组交叉

# -*- coding: UTF-8 -*-
'''
@Author ：Jason
交叉分析
 分析两个或者两个以上分组变量之间的关系，以交叉表形式进行变量间关系的对比分析，一般分为定量、定量分组交叉；
        定量、定性分组分析；定性、定性分组交叉
pivot_table(values,index,colnums,aggfunc,fill_value)
    values 数据透视表中的值
    index 数据透视中的行
    colnums 数据透视表的列
    aggfunc 表示统计函数
    fill_value 表示NA缺失值的同一替换
  返回值：数据透视表的结果
注意：默认对所有的数据列进行透视，非数据列会自动删除，例如：性别
'''
from pandas import read_excel
from pandas import pivot_table
import numpy
import pandas as pd

def pivot_table_Exanple():
    df = read_excel(r'./files/i_nuc.xls',sheet_name=6)
    info1 = df.pivot_table(index=["班级","姓名"]) #透视所有数据列，性别列被自动删除
    # print(info1)
    '''
                Unnamed: 0    体育  军训    学号     数分  英语  解几  高代
    班级      姓名                                                 
    23080242 周怡            1  91  75  2308024244  47  66  44  47
             封印            4  88  92  2308024219  61  73  46  47
             张波            2  81  75  2308024251  45  85  60  45
             成龙            0  78  77  2308024241  40  76  60  23
             朱浩            3  50  80  2308024249  72  65  71  62
             迟培            5  50  89  2308024201  71  60  71  76
    23080243 余皓            8  67  85  2308024326  65  66  71  61
             李上初          10  90  84  2308024342  60  76  60  66
             李华            6  61  84  2308024347  61  67  78  65
             李嘉            9   0  90  2308024320  60  62  77  67
             郭窦           11  67  84  2308024310  64  79  79  64
             陈田            7  79  86  2308024307  69  76  69  40
    23080244 周路           14  80   0  2308024446  61  76  80  74
             姜毅涛          12  71   0  2308024435  61  77  76  73
             李侧通          17  96  91  2308024428  69  64  77  60
             李大强          16  76  77  2308024433  78  79  70  70
             李晓亮          19  60  85  2308024422  72  85  83  72
             林建祥          15  72  81  2308024421  63  72  75  90
             王慧           18  74  93  2308024402  70  73  75  71
             赵宇           13  74  88  2308024432  68  74  71  70
    '''
    info2 = df.pivot_table(["军训","英语","体育"],index=["班级","姓名"])
    # print(info2)
    '''
                  体育  军训  英语
    班级       姓名             
    23080242 周怡   91  75  66
             封印   88  92  73
             张波   81  75  85
             成龙   78  77  76
             朱浩   50  80  65
             迟培   50  89  60
    23080243 余皓   67  85  66
             李上初  90  84  76
             李华   61  84  67
             李嘉    0  90  62
             郭窦   67  84  79
             陈田   79  86  76
    23080244 周路   80   0  76
             姜毅涛  71   0  77
             李侧通  96  91  64
             李大强  76  77  79
             李晓亮  60  85  85
             林建祥  72  81  72
             王慧   74  93  73
             赵宇   74  88  74
    '''
    df["total"] = df["英语"] + df["体育"] + df["军训"] + df["数分"] + df["高代"] + df["解几"]
    df["等级"] = pd.cut(df["total"],bins=[df["total"].min()-1,400,450,df["total"].max()+1],labels = ["及格","良好","优秀"])
    info3 = df.pivot_table(values=["total"],index=["等级"],columns=["性别"],aggfunc=[numpy.size,numpy.mean])
    print(info3)
    '''
            size         mean            
            total        total            
    性别     女  男   女           男
    等级                                 
    及格     3  4  365.666667  375.750000
    良好     3  6  420.000000  430.333333
    优秀     1  3  456.000000  455.666667
    '''

if __name__ == "__main__":
    pivot_table_Exanple()

8.5 结构分析
在分组分析以及交叉分析的基础之上，计算各组成部分所占的比重，进而分析总体的内部特征的一种交叉分析方法
这里主要指定性分组，定性分组一般看结构，它的重点在于计算个组成部分占总体的比重.

# -*- coding: UTF-8 -*-
'''
@Author ：Jason
结构分析
'''
import numpy as np
import pandas as pd
from pandas import read_excel

def StructuralAnaly():
    df = read_excel(r'./files/i_nuc.xls',sheet_name="Sheet7")
    df["total"] = df["英语"] + df["体育"] + df["军训"] + df["数分"] + df["高代"] + df["解几"]
    df_pt = df.pivot_table(values=["total"],index=["班级"],columns=["性别"],aggfunc=[np.sum])
    # print(df_pt)
    '''
                sum      
                total      
    性别       女     男
    班级                  
    23080242   777  1562
    23080243  1209  1270
    23080244   827  2620
    '''
    # print(df_pt.sum())
    '''
                性别
    sum  total  女     2813
                男     5452
    dtype: int64
    '''
    # print(df_pt.sum(axis=1)) #按列统计
    '''
        班级
    23080242    2339
    23080243    2479
    23080244    3447
    dtype: int64
    '''
    # print(df_pt.div(df_pt.sum(axis=1),axis=0)) #按列占比
    '''
                   sum          
                   total          
    性别         女         男
    班级                          
    23080242  0.332193  0.667807
    23080243  0.487697  0.512303
    23080244  0.239919  0.760081
    '''
    print(df_pt.div(df_pt.sum(axis=0),axis=1)) #按行占比
    '''
                  sum          
                  total          
    性别        女         男
    班级                          
    23080242  0.276218  0.286500
    23080243  0.429790  0.232942
    23080244  0.293992  0.480558
    '''

if __name__ == "__main__":
   StructuralAnaly()

8.6 相关分析
是否存在某种依赖关系==> 是否线性相关 ==>

两个变量 ==> 散点图.看变量之间是否符合某个变化规律

多个变量间 ==> 散点矩阵图 + 各变量间的散点图

8.7 实际案例：电商数据分析

数据如图，对各产品之间的销售情况做相关分析

# -*- coding: UTF-8 -*-
'''
@Author ：Jason
数据分析电商案例
'''
from pandas import read_excel
import pandas as pd
import numpy as np
class ECommerce(object):
    def __init__(self):
        self.df = read_excel(r"./files/i_nuc.xls",sheet_name=0)

    def analy(self):
        df = self.df
        linerRelat = df.loc[:6].corr()
        # print(linerRelat)
        '''
                    优盘      电子表      电脑支架     插座     电池        音箱        鼠标     usb数据线     手机充电线     键盘  
        优盘       1.000000   -0.164718 -0.300081  0.823515  0.141810  0.348761  0.178440   -0.096369 -0.466076  0.537446
        电子表     -0.164718  1.000000  0.710849  0.032032 -0.072249  0.079744  0.523711   0.453210  0.178404 -0.227296  
        电脑支架   -0.300081  0.710849  1.000000  0.038194 -0.460049 -0.291185  0.190518   -0.221613 -0.236130 -0.530569  
        插座       0.823515  0.032032  0.038194  1.000000  0.345195  0.376368  0.449717   -0.227473 -0.501474  0.622129  
        电池       0.141810  -0.072249 -0.460049  0.345195  1.000000  0.672230  0.601558   0.357665  0.316784  0.845828  
        音箱       0.348761  0.079744  -0.291185  0.376368  0.672230  1.000000  0.809477   0.124411  0.147405  0.756389  
        鼠标       0.178440  0.523711   0.190518  0.449717  0.601558  0.809477  1.000000    0.160018  0.262633  0.624991  
        usb数据线  -0.096369  0.453210 -0.221613 -0.227473  0.357665  0.124411  0.160018    1.000000  0.483424  0.057932  
        手机充电线  -0.466076  0.178404 -0.236130 -0.501474  0.316784  0.147405  0.262633   0.483424  1.000000  0.174410 
        键盘       0.537446  -0.227296 -0.530569  0.622129  0.845828  0.756389  0.624991   0.057932  0.174410  1.000000
        '''

        #观察个数据之间的关系系数，寻找突破口
        #...没看出结论，案例说的是 键盘鼠标电池之间的关联比较大

if __name__ == "__main__":
    EC = ECommerce()
    EC.analy()

参照:《基于Python的大数据分析基础及实战》

MATLAB 操作指南（结尾附实操案例） vvvae1234 信息可视化
一、MATLAB简介MATLAB（矩阵实验室）是一个高级技术计算语言和交互环境，它主要用于数值计算、数据分析、算法开发和可视化。MATLAB的核心功能是矩阵运算，它能够处理向量和矩阵为中心的数学问题，方便用户进行算法的开发和数据可视化。主要特点高效的数值计算：MATLAB内置了许多用于数学和工程计算的函数，用户可以轻松地进行数值运算。可视化功能：MATLAB提供了丰富的工具，用于生成各种类型的图形
Python 实现的采集诸葛灵签老大白菜 python python 开发语言
Python实现的采集诸葛灵签项目介绍这是一个基于Python开发的诸葛灵签数据采集和展示项目。通过爬虫技术获取诸葛神签的签文和解签内容，并提供数据存储和查询功能。项目结构zhuge/├──zhuge_scraper.py#爬虫主程序├──zhuge_pages/#数据存储目录│├──all_signs.json#汇总数据│└──zhuge_sign_*.json#单个签文数据└──zhuge.m
Python爬虫实战：从青铜到王者的数据采集进化论 Loving_enjoy 实用技巧爬虫 python
#开篇：当你打开浏览器时，爬虫程序在暗处露出了姨母笑某日凌晨3点，程序员老张盯着满屏的404错误，突然领悟了爬虫的真谛——这哪里是数据采集，分明是与网站运维人员斗智斗勇的谍战游戏！本文将带你体验从"HelloWorld"式爬虫到工业级采集系统的奇幻漂流，全程高能预警，请系好安全带。---###第一章青铜时代：初学者的三板斧####1.1环境搭建：你的第一把手术刀安装Python就像选择武器库：``
python常用的第三方库下载方法 ZJ_star_1220 pycharm ide python
方法一：在windows系统中使用pip命令下载打开dos窗口输入命令“pipinstallselenium“后按回车键，看到successfully既安装成功。其他常用的命令：【pipinstallselenium==4.4.3】安装指定版本的库/包【pipinstallselenium】安装最新版本的库/包【pipshowselenium】查看库/包的安装路径、版本号【pipuninstall
PyWavelets（pywt）安装与使用指南贾雁冰
PyWavelets（pywt）安装与使用指南项目地址:https://gitcode.com/gh_mirrors/pyw/pywtPyWavelets是一个用于离散小波变换（DiscreteWaveletTransform,DWT）和连续小波变换（ContinuousWaveletTransform,CWT）的Python库。该库广泛应用于信号处理、图像分析以及数据压缩等领域。以下是基于提供的
python 开放的通讯系统高保密性张小秦命令模式算法 python
优点1.点对点（P2P）加密通信：•采用点对点通信模式，消息直接在客户端之间传输，无需通过中央服务器。•提高隐私性，避免中央服务器成为单点故障或攻击目标。•降低通信延迟，消息传输更高效。2.强大的加密机制：•使用AES（高级加密标准）对消息进行加密，确保通信内容的安全性。•每个会话生成唯一的加密密钥，确保密钥的安全性。•使用AES的EAX模式，支持加密和消息认证，防止消息被篡改。3.临时数据存储：
Python的pywt库的安装赵孝正 Python标准库使用 #python和pip安装 python 数据库开发语言
目录pywt库的全称是PyWavelets，https://pywavelets.readthedocs.io/en/latest/。安装pywt库：pipinstallPyWavelets而不是VS2017中默认的pipinstallpywt，真是坑啊。>>>importpywt>>>x=[3,7,1,1,-2,5,4,6]>>>cA,cD=pywt.dwt(x,‘db2′)>>>printcA
Python漂浮爱心代码 Want595 趣味编程 python 开发语言
目录系列文章前言小海龟漂浮爱心完整代码尾声系列文章序号直达链接表白系列1Python无法拒绝的表白界面（完整代码）_python玫瑰花雨编程-CSDN博客2Python满屏飘字表白代码（完整代码）_抖音同款满屏飘字表白代码(python版)-CSDN博客3Python无限弹窗满屏表白代码（完整代码）_python弹窗满屏幕-CSDN博客4Python李峋同款跳动的爱心（完整代码）_python绘制
VSCode 2025最新后端开发必备插件汇总（必备插件合集，Python、Java、Go等语言） Code_流苏实用软件与高效工具 vscode python java 后端开发必备插件合集
前言:作为微软推出的轻量级跨平台编辑器，VSCode凭借智能代码补全、远程开发、Git集成等核心功能，已成为后端开发者首选工具。其强大的插件生态更是覆盖了主流后端语言支持、代码质量优化、性能分析等全场景需求。名人说：博观而约取，厚积而薄发。——苏轼《稼说送张琥》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）目录一、语言支持类插件二、代码质量和格式化工具三、数据库工具四、AP
2025年Python后端开发指南：从基础到云原生实践 ctrl_cv工程师￥云原生 django flask pycharm
在2025年，Python后端开发已全面进入云原生与智能化时代。开发者不仅需要掌握传统后端技术栈，还需融合容器化、AI辅助编程等新兴技术。本文基于行业最新趋势与最佳实践，系统梳理Python后端开发的核心要点与进阶方向，涵盖开发环境、架构设计、性能优化等关键领域。一、开发环境与工具链1.环境配置标准化Python版本：推荐Python3.12+，支持模式匹配（PatternMatching）和更优
shell脚本重启python脚本 mzgong python
#!/bin/bashwhiletrue#循环检测脚本是否停止doprocnum=$(ps-ef|grep"run.py"|grep-vgrep|wc-l)#记录正在运行run.py的数量echo"ps-efgrepreturn:"${procnum}#信息输出if[[${procnum}==0]];then#如果run.py正在运行数量等于0，脚本中断，需要重启filename=$(date+%
使用Python的 multiprocessing 模块实现多进程并行计算（上完整代码）小码小李开发语言 python 数据库
使用Python的multiprocessing模块实现多进程并行计算的较为详细复杂的示例代码，用于计算一个较大范围内数字的平方，并将结果汇总。以下是一个更具体、复杂且详尽的多进程并行计算代码示例，用于分析多个大型文本文件中单词出现的频率：importmultiprocessingimporttimeimportrefromcollectionsimportCounter#函数用于读取单个文件内容
You are using pip version 10.0.1, however version 20.0.2 is available.的解决方案柒柒钏小知识点 python
在安装第三方库时出现以下提示：Youareusingpipversion10.0.1,howeverversion20.0.2isavailable.输入：python-mpipinstall--upgradepip结果：还是提示上述错误输入：python-mpipinstall--Upip结果：如下所示，更新完成之后继续安装第三库即可。
【Python】全局解释器锁（Global Interpreter Lock，GIL）彬彬侠 Python基础全局解释器锁 GIL CPython 多进程 C 扩展 python
全局解释器锁（GlobalInterpreterLock，简称GIL）是CPython（Python的标准实现）中的一个机制，它确保同一时刻只有一个线程在执行Python字节码。GIL的主要作用是保护Python内部的数据结构，避免多线程访问共享数据时发生竞争条件，导致数据损坏。GIL的工作原理在Python的多线程环境中，GIL会限制多个线程同时执行Python字节码。尽管操作系统可以调度多个线
C++调用Python程序方法超级大反派@_@ C++c++python 开发语言
前言：在之前做的一个项目中，要使用一段Python的代码。一般来讲可以将Python代码中的功能在C++项目中重构，但是如果Python项目太大，或者这部分是别人写的，自己不清楚整个项目的逻辑，这样重构起来就比较麻烦。这里给出了另外一种实现方法，即利用Python的API使得C++项目可以直接启动Python程序，快速在PC端验证代码功能。急性子可直接看：2.2C++调用python有参有返回值函
vscode中调试Python和C++的混合代码 destiny44123 vscode python c++
文章目录使用流程参考一些差异使用流程参考ExampledebuggingmixedPythonC++inVSCode一些差异这里假设的项目是通过python调用c++的相应共享库(so)文件。首先，新建文件夹.vscode，在其中添加文件配置launch.json.示例如下：{"version":"0.2.0","configurations":[{"name":"(gdb)附加","type":
Python一键搞定Word与PDF文档批量转换 Selina .a python教程 python word pdf
在日常工作中，我们经常需要将Word文档（.docx）转换为PDF格式，或者反过来操作。手动进行这种转换不仅费时费力，还容易出错。为此，我们可以利用Python编写一个批量转换工具，一键搞定Word与PDF文档的转换。本文将详细介绍如何实现这一目标，并提供源码和工具。所需库的安装首先，我们需要安装一些Python库来实现这个功能。推荐使用以下两个库：python-docx：用于处理Word文件内容
【Python】multiprocessing 模块：多进程并行计算彬彬侠 Python基础 multiprocessing 多进程 Process Pool Manager Lock python
Pythonmultiprocessing模块Python的multiprocessing模块用于多进程并行计算，可以充分利用多核CPU进行任务加速，突破PythonGIL（全局解释器锁）的限制，提高程序执行效率。1.为什么使用multiprocessing？Python默认的threading模块使用线程进行并发，但由于GIL（全局解释器锁）的存在，多线程无法真正实现CPU级别的并行计算，适用于
python语言写的一款pdf转word、word转pdf的免费工具典龙330 pdf word
Word与PDF文件转换工具这是一个简单的Web应用程序，允许用户将Word文档转换为PDF文件，或将PDF文件转换为Word文档。功能特点-Word(.docx)转换为PDF-PDF转换为Word(.docx)-简单易用的Web界面-即时转换和下载-详细的错误处理和日志记录安装要求-Python3.7或更高版本-依赖库（见requirements.txt）-对于Word到PDF的转换，建议安装L
python实现KNN算法的手写数字识别：深入解析与完整项目流程快撑死的鱼 Python算法精解算法
随着人工智能和机器学习的快速发展，图像识别技术在多个领域得到广泛应用。而手写数字识别作为图像识别的典型场景之一，已经成为研究者和开发者学习、应用机器学习算法的经典项目。本文将深入解析如何使用Python编程语言，结合KNN（K-最近邻）算法实现手写数字识别系统。文章不仅介绍了算法的核心原理，还从用户交互、图像处理、数据预处理等多个角度对整个项目进行了全方位的讲解。读者通过本文，可以全面掌握手写数字
python webdriver-manager 实现selenium 免下载安装webdriver 小马MT python selenium 爬虫
pythonwebdriver-manager实现selenium免下载安装webdriverselenium在自动化测试中，通常需要使用浏览器驱动来与浏览器进行交互。然而，手动下载、安装、以及管理这些驱动非常麻烦，尤其是当驱动版本频繁更新时。为此，webdriver-manager库提供了一个极简的方案，自动帮我们下载、更新和管理驱动，使Selenium代码更简洁优雅。webdriver-man
python tkinter控件位置_python tkinter组件摆放方式详解 weixin_39895995 python tkinter控件位置
1.最小界面组成#导入tkinter模块importtkinter#创建主窗口对象root=tkinter.Tk()#设置窗口大小(最小值：像素)root.minsize(300,300)#创建一个按钮组件btn=tkinter.Button(root,text='屠龙宝刀，点击送')btn.pack()#加入消息循环root.mainloop()设置初始化界面大小#设置初始化界面大小root.g
python表格控件_Python使用tkinter的Treeview组件实现表格功能 weixin_39619481 python表格控件
fromtkinterimportTk,Scrollbar,Framefromtkinter.ttkimportTreeview#创建tkinter应用程序窗口root=Tk()#设置窗口大小和位置root.geometry('500x300400300')#不允许改变窗口大小root.resizable(False,False)#设置窗口标题root.title('通信录管理系统')#使用Tre
该如何升级Tableau server呢？
在现代数据分析的世界中，Tableau作为一个强大的企业级数据可视化工具，受到众多公司喜爱。但是由于Tableau退出中国市场，如果仍在使用Tableau的企业，一定要做好TableauServer升级。随着技术的不断更新，升级TableauServer变得越来越重要，以确保您能够利用最新的功能和安全性。在这篇文章中，我们将详细探讨如何进行TableauServer升级，步骤、注意事项以及最佳实践
深入探究 Ryu REST API 漫谈网络网络技术进阶通途网络
Ryu4.34RESTAPI详细接口说明与示例Ryu4.34的RESTAPI提供了对SDN网络的核心管理功能，涵盖交换机、流表、端口、拓扑和QoS等操作。以下是详细的接口分类、功能说明及Python示例代码。1.交换机管理1.1获取所有交换机DPID端点:GET/stats/switches功能:返回当前连接到控制器的所有交换机的DPID（数据路径标识符）列表。示例:importrequestsR
python web开发pyramid库安装与使用范哥来了 python
为了在Python中使用Pyramid进行Web开发，你需要先安装Pyramid库。接着我会指导你如何安装它，并给出一个简单的示例来展示如何创建一个基本的Pyramid应用。安装Pyramid确保你的环境中已经安装了pip工具，然后可以通过以下命令安装Pyramid：pipinstallpyramid如果你想要开始一个新的Pyramid项目，推荐同时安装pyramid_starter模板，这可以帮
Python激活码 qq_36357944 Python
EB101IWSWD-eyJsaWNlbnNlSWQiOiJFQjEwMUlXU1dEIiwibGljZW5zZWVOYW1lIjoibGFuIHl1IiwiYXNzaWduZWVOYW1lIjoiIiwiYXNzaWduZWVFbWFpbCI6IiIsImxpY2Vuc2VSZXN0cmljdGlvbiI6IkZvciBlZHVjYXRpb25hbCB1c2Ugb25seSIsImNoZWNrQ
tksheet：强大的Python Tkinter表格组件江连日Silver
tksheet：强大的PythonTkinter表格组件tksheetPython3.6+tkintertablewidgetfordisplayingtabulardata项目地址:https://gitcode.com/gh_mirrors/tk/tksheet项目基础介绍与编程语言tksheet是一个基于Python的Tkinter库开发的高性能表格控件，专为展示和编辑大量的tabular数
tksheet: 强大的Python Tkinter表格控件柏珂卿
tksheet:强大的PythonTkinter表格控件项目地址:https://gitcode.com/gh_mirrors/tk/tksheet在探索Python的GUI库时，你会发现tksheet是一个引人注目的名字。它不仅仅是一款简单的表格插件；实际上，这是一个功能丰富且优化得当的数据管理工具，尤其适合那些依赖于Tkinter构建界面的应用开发者。项目介绍tksheet是基于Tkinter
【Python安装】2024年最新下载安装教程！详细步骤，有这一篇就够了！！！「已注销」 python 开发语言
（点击领取Python安装包+学习资料）Python安装说明1.访问Python官网首先，访问Python的官方网站：WelcometoPython.org。2.下载Python安装程序在官网首页，找到“Downloads”部分。根据你的操作系统（Windows,macOS,Linux等）选择合适的版本下载。对于大多数用户，推荐下载最新版本的Python3.x（例如Python3.9或更高版本）。
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多

基于Python的大数据分析基础（九）--- 数据分析

8 数据分析

8.1 基本统计分析(描述性统计分析)

size计数(此函数不需要括号),sum()求和，mean()平均值, var()方差，std()标准差，median()中位数,mode()众数

8.2 分组分析

8.3 分布分析 cut==>分组最好理解 将数据(定量数据)进行等距 或 不等距的分组，研究各组分布规律的一种分析方法

8.4 交叉分析 分析两个或者两个以上分组变量之间的关系，以交叉表形式进行变量间关系的对比分析，一般分为定量、定量分组交叉； 定量、定性分组分析；定性、定性分组交叉

8.5 结构分析 在分组分析以及交叉分析的基础之上，计算各组成部分所占的比重，进而分析总体的内部特征的一种交叉分析方法 这里主要指定性分组，定性分组一般看结构，它的重点在于计算个组成部分占总体的比重.

8.6 相关分析 是否存在某种依赖关系==> 是否线性相关 ==>

8.7 实际案例：电商数据分析

你可能感兴趣的:(Python,数据分析)

8.3 分布分析 cut==>分组最好理解
将数据(定量数据)进行等距或不等距的分组，研究各组分布规律的一种分析方法

8.4 交叉分析
分析两个或者两个以上分组变量之间的关系，以交叉表形式进行变量间关系的对比分析，一般分为定量、定量分组交叉；
定量、定性分组分析；定性、定性分组交叉

8.5 结构分析
在分组分析以及交叉分析的基础之上，计算各组成部分所占的比重，进而分析总体的内部特征的一种交叉分析方法
这里主要指定性分组，定性分组一般看结构，它的重点在于计算个组成部分占总体的比重.

8.6 相关分析
是否存在某种依赖关系==> 是否线性相关 ==>