sodaloveer

python利用pandas统计分析—groupby()函数的使用

文章目录

一、groupby使用场景
二、groupby基本原理
三、groupby分组运算
- 基础聚合操作：只能选择一种聚合操作
- agg 聚合操作：可以针对同列选择不同聚合方法
- transform
- apply
四、groupby分组后去重统计nunique()
五、groupby分组后重命名列名
- rename()
- 直接重新命名列名
- 重命名所有的列名：add_prefix() /add_suffix()

一、groupby使用场景

在日常数据分析中，经常需要将数据根据某个（多个）字段划分为不同群体（group）进行分析，如电商领域将全国的总销售额根据省份进行划分，分析各省销售额的变化情况，社交领域将用户根据画像（性别、年龄）进行细分，研究用户的使用情况和偏好，如电信诈骗领域，研究诈骗用户与非诈骗用户的语音通话行为等。在Pandas中，上述的数据处理操作主要运用groupby完成，这篇文章就介绍一下groupby的基本原理、对应的agg、transform和apply操作、groupby后的去重统计及重命名列名。

二、groupby基本原理

模拟的样本数据

import pandas as pd
import numpy as np
#主叫号码 
calling_nbr=["13389012374","13389012375","13389012376","13389012377","13389012379","13389012378","16758439532","16758439533","16758439534","16758439535","16758439536","16758439537"]   
#对端号码
called_nbr=["14374397533","14374397533","14374397533","15926372438","15926372439"] 
#通话时间
start_date=["20230404","20230406","20230408"]
data=pd.DataFrame({
"calling_nbr":[calling_nbr[x] for x in np.random.randint(0,len(calling_nbr),20)],
"called_nbr":[called_nbr[x] for x in np.random.randint(0,len(called_nbr),20)],
"calling_duration":np.random.randint(10,120,20),
"start_date":[start_date[x] for x in np.random.randint(0,len(start_date),20)]})

data

将上面的样本数据集按照start_date字段划分：

group=data.groupby(["start_date"])
group

会得到一个DataFrameGroupBy对象

如何理解DataFrameGroupBy？对data进行groupby后发生了什么，ipython所返回的结果是其内存地址，并不利于直观地理解，为了看看group内部究竟是什么，把group转为list的形式看看：

list(group)

转成列表的形式后，可以看到，列表由三个元组组成，每个元组中，第一元素是组别，这里是按时start_date进行分组，所以最后分为了20230404、20230406、20230408，第二个元素的是对应组别下的DataFrame。

总结：groupby的过程就是将原有的DataFrame按照groupby的字段（这里是start_date），划分为若干个分组DataFrame，被分为多少个组就有多少个分组DataFrame。所以说，在groupby之后的一系列操作（如agg、apply等），均是基于子DataFrame的操作。理解了这点，也就基本摸清了Pandas中的groupby操作的主要原理。

三、groupby分组运算

聚合操作是groupby后非常常见的操作，聚合操作可以用来求和、均值、最大值、最小值等，下面的表格列出了Pandas中常见的聚合操作。

函数	作用
min	最小值
max	最大值
sum	求和
mean	均值
median	中位数
std	标准差
var	方差
count	计数

基础聚合操作：只能选择一种聚合操作

单列分组

1、单组其他所有列
按calling_nbr分组（groupby），获取数据表其他所列的统计值。因为called_nbr和start_date不是数字类型，所以会自动忽略。

data.groupby('calling_nbr').mean()

2、单组单列
按calling_nbr分组（groupby），仅获取calling_duration的平均值。

data.groupby('calling_nbr')['calling_duration'].mean()

3、单组多列
按calling_nbr分组（groupby），获取calling_duration和calling_fee列的平均值。

data.groupby('calling_nbr')[['calling_duration','calling_fee']].mean()

多列分组
1、多组其他所有列
按calling_nbr和start_date分组（groupby)，获取数据表其他所列的统计值。只针对数字类型的列。

data.groupby(['calling_nbr','start_date']).mean()

2、多组单列
按calling_nbr和start_date分组（groupby)，仅获取calling_duration的平均值。

data.groupby(['calling_nbr','start_date'])['calling_duration'].mean()

3、多组多列
按calling_nbr和start_date分组（groupby)，获取calling_duration和calling_fee列的平均值。

data.groupby(['calling_nbr','start_date'])[['calling_duration','calling_fee']].mean()

agg 聚合操作：可以针对同列选择不同聚合方法

单列分组

1、单组单列

一种聚合方法，多种写法

比如求主叫号码通话时长的平均值

data.groupby('calling_nbr').agg({'calling_duration':'mean'})

data.groupby('calling_nbr')['calling_duration'].agg(['mean'])

多种聚合方法，多种写法

比如：求主叫号码通话时长的平均值，总和和标准差

data.groupby('calling_nbr').agg({'calling_duration':['mean','sum','std']})
data.groupby('calling_nbr').agg({'calling_duration':['mean',np.sum,'std']})

data.groupby('calling_nbr')['calling_duration'].agg([np.mean,np.sum,np.std])
data.groupby('calling_nbr')['calling_duration'].agg([np.mean,'sum',np.std])

2、单组多列

一种聚合方法，多种写法

data.groupby('calling_nbr').agg({'calling_duration':['mean'],'calling_fee':['sum']})

data.groupby('calling_nbr')[['calling_duration','calling_fee']].agg(['mean'])

多种聚合方法，多种写法

data.groupby('calling_nbr').agg({'calling_duration':['mean','sum','std'],'calling_fee':['mean','sum','std']})
data.groupby('calling_nbr').agg({'calling_duration':['mean',np.sum,'std'],'calling_fee':['mean',np.sum,'std']})

data.groupby('calling_nbr')[['calling_duration','calling_fee']].agg([np.mean,np.sum,np.std])
data.groupby('calling_nbr')[['calling_duration','calling_fee']].agg([np.mean,'sum',np.std])

多列分组

1、多组单列

一种聚合方法，多种写法

比如求主叫号码当天通话时长总和

data.groupby(['calling_nbr','start_date']).agg({'calling_duration':'sum'})

data.groupby(['calling_nbr','start_date'])['calling_duration'].agg(['sum'])

多种聚合方法，多种写法

data.groupby(['calling_nbr','start_date']).agg({'calling_duration':'sum','calling_duration':np.mean})

data.groupby(['calling_nbr','start_date'])['calling_duration'].agg(['sum',np.mean])

2、多组多列

一种聚合方法，多种写法

data.groupby(['calling_nbr','start_date']).agg({'calling_fee':'mean','calling_duration':'mean'})

data.groupby(['calling_nbr','start_date'])[['calling_duration','calling_fee']].agg(['mean'])

多种聚合方法，多种写法

比如求主叫号码不同天的主叫次数和平均通话时长，代码如下：

data.groupby(['calling_nbr','start_date']).agg({'calling_fee':'count','calling_duration':'mean'})

比如求主叫号码不同天的主叫次数与通话时长的总和、标准差和平均值

data.groupby(['calling_nbr','start_date']).agg({'calling_fee':['sum','count','mean'],'calling_duration':['sum','count','mean']})

data.groupby(['calling_nbr','start_date'])[['calling_duration','calling_fee']].agg(['sum','count','mean'])

注意：对于单组单列的分组来说，基础聚合操作与agg聚合操作，得到的对象有什么不同？？

基础聚合操作，由于只选择一列数据，所以生成的对象是Series数据结构。
agg聚合操作后生成的对象是DataFrame数据结构。

a=data.groupby('calling_nbr')['calling_duration'].mean()
print(type(a))

a=data.groupby('calling_nbr')['calling_duration'].agg(['mean'])
a=data.groupby('calling_nbr').agg({'calling_duration':'mean'})
print(type(a))

transform

在agg 聚合中，我们学会了如何求不同主叫号码同一天的平均通话时长，agg 聚合操作形成的新DataFrame，如果现在需要在原数据集中新增加一列avg_calling_duration，代表主叫号码同一天的平均通话时长（相同一天具有一样的平均通话时长）。

如何实现？

1、正常过程：先求得主叫号码不同天的平均通话时长，然后按照主叫号码和通话时间的对应关系填充到对应的位置

avg_calling_duration=data.groupby(['calling_nbr','start_date'])['calling_duration'].mean().rename("avg_calling_duration").reset_index()

data_1 = data.merge(mean_calling_duration) 
data_1

2、使用transform函数，仅需要一行代码

data['avg_calling_duration']=data.groupby(['calling_nbr','start_date'])['calling_duration'].transform('mean')

data

transform与agg对比：

对agg而言，会计算得到不同号码当天的通话时长的均值并直接返回。
对transform而言，则会对第每一条数据求得相应的结果，同一组内的样本会有相同的值，组内求完均值后会按照原索引的顺序返回结果。

可以看下图agg与transform过程图解：

apply

对于groupby后的apply，以分组后的子DataFrame作为参数传入指定函数的，基本操作单位是DataFrame。

如果现在需要获取当天主叫与同一个被叫号码的通话次数top1的数据，如何实现？

#统计主叫与同一个被叫号码的通话次数
data['calling_called_max']=data.groupby(['calling_nbr','called_nbr','start_date'])['calling_nbr'].transform('count')

#统计主叫与同一个被叫号码的通话次数top1
def get_max_calling_called_num(x):
	df=x.sort_values(by='calling_called_max',ascending=True)
	return df.iloc[-1:]

get_max_calling_called_num_data=data.groupby(['calling_nbr','called_nbr','start_date'],as_index=False).apply(get_max_calling_called_num)

注意：关于apply的使用，这里有个小建议，虽然说apply拥有更大的灵活性，但apply的运行效率会比agg和transform更慢。所以，groupby之后能用agg和transform解决的问题还是优先使用这两个方法，实在解决不了了才考虑使用apply进行操作。

四、groupby分组后去重统计nunique()

nunique()：统计groupby()分组后组内不同值的个数，比如适用于统计主叫号码拨打去重后的对端号码个数。

举例1
要求：统计主叫号码拨打去重后的对端号码个数。

#方法二选一。
data.groupby('calling_nbr')['called_nbr'].nunique()
data.groupby('calling_nbr').agg({ "called_nbr": pd.Series.nunique})

与unique()的区别：unique()方法返回的是去重之后的不同值。

data.groupby('calling_nbr')['called_nbr'].unique()

五、groupby分组后重命名列名

groupby分组后对某列进行聚合计算，需要对聚合计算后的新列进行重命名。

第一：先观察数据类型，要转变为DataFrame数据类型，再重命名。
第二：查看groupby后DataFrame.columns是什么格式。
第三：再选择合适的方法进行重命名。

rename()

rename()重命名，reset_index()将DataFrame的索引转成DataFrame的列。

1、对单列进行重命名。

举例1

data_1=data.groupby('calling_nbr').agg({'calling_duration':'mean'})
print(type(data_1)) #查看数据类型
print(data_1.colunms） #查看列名格式

我们可以看到，是DataFrame数据类型且DataFrame的列名格式是含单元素的列表，可以直接使用rename重命名。

data_1.rename(columns={'calling_duration':'calling_duration_avg'}).reset_index()

举例2

data_1=data.groupby('calling_nbr')['calling_duration'].mean()
print(type(data_1)) #查看数据类型

我们可以看到，对单列进行聚合得到是Series数据类型，因此先转换成DataFrame数据类型，再重命名。

data_1.to_frame() #将Series数据类型转成DataFrame数据类型。

data_1.rename(columns={'calling_duration':'calling_duration_avg'}).reset_index()

注意：如果是对单列进行聚合得到是Series数据类型，要先转换成DataFrame数据类型，再重命名。

2、对多列进行重命名

举例1

#两种常用的聚合方法，二选一。
data_1=data.groupby('calling_nbr')[['calling_duration','calling_fee']].mean()
data_1=data.groupby('calling_nbr').agg({'calling_duration':'mean','calling_fee':'mean'})

使用这两种方法都可以对多列进行聚合计算，groupby聚合计算后的数据情况如下。

print(type(data_1)) #查看数据类型

都是DataFrame数据类型。

print(data_1.columns) #查看列名格式

DataFrame的列名格式都是含单元素的列表。

我们可以看到，是DataFrame数据类型且DataFrame的列名格式是含单元素的列表，可以直接使用rename()重命名。

data_1.rename(columns={'calling_duration':'calling_duration_avg','calling_fee':'calling_fee_avg'})

举例2

data_1=data.groupby('calling_nbr')[['calling_duration','calling_fee']].agg(['mean'])
data_1

print(type(data_1)) #查看数据类型

是DataFrame数据类型。

print(data_1.columns) #查看列名格式

查看dataframe的列名格式，发现聚合后的列名是MultiIndex类型。此时，必须通过元组的复合索引方式，才能有效提取列的信息。

data_1.columns.values

查看列名的元素，我们可以看到每个列都是一个元组。通过下面两种方法都可以重命名：

方法一：通过遍历columns的方式，将MultiIndex的一级和二级索引拼接在一起，作为data的新列名。

data_1.columns=[i[0] + "_" + i[1] for i in data_1.columns]
data_1

方法二：只需要将元组拼接成字符串，然后替换原来的列名就可以了。

data_1.columns = ['_'.join(col).strip() for col in data_1.columns.values]
data_1

直接重新命名列名

使用"dataframe.columns=[‘新列名’]或dataframe.columns=pd.Series([‘新列名’])" 重命名。

1、要求：对单列进行重命名。

举例1

#对单列进行聚合计算的两种方式，二选一
data_1=data.groupby('calling_nbr').agg({'calling_duration':'mean'})

data_1=data.groupby('calling_nbr')['calling_duration'].mean()
data_1.to_frame()#生成是Series数据类型，因此使用to_frame()转换成DataFrame数据类型。

#直接重命名的两种方法，二选一。
data_1.columns = pd.Series(['calling_duration_avg'])
data_1.columns = ['calling_duration_avg']

#reset_index()将DataFrame的索引转成DataFrame的列。
data_1.reset_index(inplace=True)

2、要求：对多列进行重命名。

举例1

#对多列进行聚合计算的两种方式，二选一
data_1=data.groupby('calling_nbr')[['calling_duration','calling_fee']].mean()
data_1=data.groupby('calling_nbr').agg({'calling_duration':'mean','calling_fee':'mean'})

#直接重命名的两种方法，二选一。
data_1.columns = pd.Series(['calling_duration_avg','calling_fee_avg'])
data_1.columns = ['calling_duration_avg','calling_fee_avg']

#reset_index()将DataFrame的索引转成DataFrame的列。
data_1.reset_index(inplace=True)

举例2

data_1=data.groupby('calling_nbr')[['calling_duration','calling_fee']].agg(['mean'])

print(data_1.columns)  #查看列名格式

聚合后的列名是MultiIndex类型，不能使用"dataframe.columns=[‘新列名’]或dataframe.columns=pd.Series([‘新列名’])" 直接重命名。要多做一个步骤的处理，可以通过遍历columns的方式，先将MultiIndex的一级和二级索引拼接在一起，作为data的新列名或者先将元组拼接成字符串，再替换原来的列名就可以了。（具体例子见rename()目录下“对多列进行重命名”的举例2）

注意

对单列进行重命名，注意基础聚合方法：data_1=data.groupby(‘calling_nbr’)[‘calling_duration’].mean()生成的是Series数据类型。
对多列进行重命名，注意agg聚合方法写法：data_1=data.groupby(‘calling_nbr’)[[‘calling_duration’,‘calling_fee’]].agg([‘mean’])，生成的列名格式是MultiIndex类型，不能直接使用rename方法和"dataframe.columns=[‘新列名’]或dataframe.columns=pd.Series([‘新列名’])" 重命名。

重命名所有的列名：add_prefix() /add_suffix()

在处理大量dataframe数据时，我们可能对所有列名进行重命名操作。

pandas.DataFrame.add_prefix() 函数来修改列名的前缀，
pandas.DataFrame.add_suffix() 函数来修改列名的后缀。
聚合后的列名是MultiIndex类型，不能使用这种方法。

#三种方法达到效果是一致
data_1=data.groupby('calling_nbr').agg({'calling_duration':'mean','calling_fee':'mean'}).add_prefix('new_')

data_1=data.groupby('calling_nbr')[['calling_duration','calling_fee']].mean().add_prefix('new_')

data_1=data.groupby('calling_nbr').mean().add_prefix('new_')

参考文章：

https://zhuanlan.zhihu.com/p/101284491
https://blog.csdn.net/qq_39657585/article/details/114789396
https://blog.csdn.net/yeshang_lady/article/details/105345653
https://blog.csdn.net/weixin_43609275/article/details/86220907
https://blog.csdn.net/weixin_39923556/article/details/123002620
https://blog.csdn.net/pz789as/article/details/106059610
https://zhuanlan.zhihu.com/p/358006128

你可能感兴趣的:(python数据分析基础知识,python,pandas)

《Python Web 框架深度剖析：Django、Flask 与 FastAPI 的选择之道》清水白石008 课程教程学习笔记开发语言 python 前端 django
《PythonWeb框架深度剖析：Django、Flask与FastAPI的选择之道》开篇引入：从“胶水语言”到Web架构核心Python，自1991年由GuidovanRossum发布以来，凭借其简洁优雅的语法和强大的生态系统，逐渐成为全球最受欢迎的编程语言之一。它不仅在数据科学、人工智能、自动化脚本等领域大放异彩，更在Web开发领域构建起一套成熟的技术体系。作为一位长期从事Python开发与教
光缆弹性模量计算_光纤光缆布线基础知识及系统设计 weixin_39542111 光缆弹性模量计算
光纤作为高带宽、高安全的数据传输介质被广泛应用于各种大中型网络之中。由于线缆和设备造价昂贵，光纤大多只被用于网络主干，即应用于垂直主干子系统和建筑群子系统的系统布线，实现楼宇之间以及楼层之间的连接，目前也应用于对传输速率和安全性有较高要求的水平布线子系统。一、光纤1、光及其特性：1)光是一种电磁波可见光部分波长范围是：390~760nm(毫微米)。大于760nm部分是红外光，小于390nm部分是紫
binwalk 白天的我最菜错题本开发语言
windows使用这个命令时候发现要shift一直按住,右击打开cmd管理员运行才行pythonsetup.pyinstall否则没有作用自己安装python目录的Scripts文件夹里,参考如下https://www.cnblogs.com/0yst3r-2046/p/12218770.html
Python-Zstandard 使用教程
Python-Zstandard使用教程项目介绍Python-Zstandard是一个为Zstandard（zstd）压缩库提供Python绑定的开源项目。Zstandard是一种由Facebook开发的高性能数据压缩算法，旨在提供高压缩比和快速压缩解压速度。Python-Zstandard项目的目标是通过一个Pythonic的接口，提供对底层CAPI的丰富访问，同时不牺牲性能。项目地址：GitH
nodeJs笔记（一） a_xiaotaotao nodeJs 笔记前端
nodeJs笔记（一）基础知识什么是nodejs？nodejs的生态系统结构nodejs的工作原理V8JavaScript引擎：libuv：异步I/O与事件循环引擎：事件循环(EventLoop)的详细阶段：非阻塞I/O的工作流程(以fs.readFile为例)：单线程与高并发：核心依赖库：工作原理全景图关键点：node.js的优缺点核心优势(优点)高性能与高并发(I/O密集型场景)：核心原理：结
【自然语言处理】文本规范化 2401_84149564 自然语言处理自然语言处理人工智能文本规范化 python 分词词的规范化分句
目录一、引言二、分词三、词规范化四、分句五、文本规范化的Python代码实战六、总结一、引言在自然语言处理的许多任务中，第一步都离不开文本规范化。文本规范化的作用是将使用字符串表示的文本转化为更易于计算机处理的规范形式。文本规范化一般包括3个步骤：分词、词的规范化、分句。本文将分别介绍这3个步骤及Python代码实战。二、分词词是语言的基本单元，人类学习语言的过程也是从理解词开始的。显而易见，自然
Py-spy：优秀的 Python 程序性能监控、分析器
py-spy是用于Python程序的性能监控、分析器。它使你可以直观地看到Python程序花费的时间，而无需重新启动程序或以任何方式修改代码。py-spy的开销非常低：为了最大化提高速度，它是用Rust编写的，并且与配置的Python程序不在同一进程中运行。这意味着py-spy可以安全地用于生产环境的Python程序。py-spy可在Linux，OSX，Windows和FreeBSD上运行，并支持
python软件代码运行解析器出错是怎么问题_Py-Spy - Python程序的抽样分析器 weixin_39714307
Python部落(python.freelycode.com)组织翻译，禁止转载，欢迎转发。Py-Spy是Python程序的抽样分析器。它允许您可视化Python程序正花费时间在哪部分，而无需重新启动程序或以任何方式修改代码。Py-Spy的开销极低：它使用Rust语言编写，速度快，不会在与配置的Python程序相同的进程中运行，也不会以任何方式中断正在运行的程序。这意味着Py-Spy可以安全地用于
Python 包管理工具pip
pip是Python的包管理工具，用于安装和管理Python包（库或模块）。它是Python生态系统中最重要的工具之一，几乎所有第三方库都可以通过pip安装。以下是关于pip的详细讲解：1.pip是什么？pip是PythonPackageInstaller的缩写。它是一个命令行工具，用于从PythonPackageIndex(PyPI)下载和安装Python包。pip可以管理Python包的安装、
pip和conda 李星星BruceL pip conda
目录1使用Conda？你可能不需要Docker1.1Docker在开发环境中的应用1.2Python和Conda：跨平台逻辑，跨平台依赖1.3Conda作为生产环境中Docker的替代方案1.4避免使用Docker的一些限制2PipvsConda：深入比较Python的两种包管理系统2.1起点：哪种依赖？2.1.1Pip：仅限Python库2.1.2Conda：任何依赖都可以是Conda包（几乎）
探索Python性能优化的新里程：py-spy 施刚爽
探索Python性能优化的新里程：py-spy项目介绍py-spy是一个为Python程序设计的轻量级采样剖析器，它无需重启或修改你的代码就能让你看到程序运行时的时间分配情况。由于其采用Rust编写，因此在不影响目标程序运行的情况下，py-spy能安全地对生产环境中的Python代码进行剖析。该项目支持Linux、macOS、Windows和FreeBSD上的所有现代CPython解释器版本（从2
【python学习】使用魔塔社区的模型
前言魔塔社区有很多模型，但是怎么使用呢？刚开始学习python，简单的摸索一下一、新建项目1、创建虚拟环境condacreate-npaddlepython=3.102、激活虚拟环境condaactivatepaddle3、新建项目PyCharn新建一个项目，选择已创建的虚拟环境paddle项目新增models目录二、下载模型打开PyCharm的Terminal，命令行前面有一个(paddle)，
【基础】Python包及环境管理工具大盘点：pip、pipx、poetry、conda、pipenv、Pixi、uv、venv、virtualenv、pyenv 、Mamba、Hatch、PDM等正经教主程序基础 python python 开发语言包工具环境工具
前言工欲善其事，必先利其器，如今兵器各式各样，咱就盘点一下有哪些兵器，都有啥特点，供各位侠客参考，希望大家都能找到自己喜欢的。正经开始以下是针对Python环境中常用工具的特点、易用性对比及使用建议的详细总结：一、工具分类与核心功能根据功能定位，可将工具分为以下几类：虚拟环境管理：venv、virtualenv包管理与依赖解析：pip、pipx综合项目管理：poetry、pipenv、Hatch、
Python 并发调试工具（py-spy、GDB、pyperf）解析赛博社畜联盟 python 开发语言
```htmlPython并发调试工具（py-spy、GDB、pyperf）解析Python并发调试工具（py-spy、GDB、pyperf）解析在现代软件开发中，Python以其简洁的语法和强大的库支持，成为了许多开发者首选的语言。然而，随着程序复杂度的增加，尤其是涉及并发编程时，调试和性能优化变得尤为重要。本文将介绍三个常用的Python并发调试工具：py-spy、GDB和pyperf，并深入
Python 依赖管理的新动向：pip、Poetry 和 Conda 谁是未来的标准？
```htmlPython依赖管理的新动向：pip、Poetry和Conda谁是未来的标准？Python依赖管理的新动向：pip、Poetry和Conda谁是未来的标准？在Python生态系统中，依赖管理是一个至关重要的环节。无论是小型脚本还是大型企业级项目，依赖管理的好坏直接影响到项目的开发效率和稳定性。近年来，随着Python社区的快速发展，依赖管理工具也经历了显著的变化。本文将探讨三种主流的
深入理解XML与SOAP：构建面向服务的架构微尘-黄含驰
本文还有配套的精品资源，点击获取简介：本文详细讲解了XML和SOAP的基础知识，以及它们在实现面向服务的架构（SOA）中的关键作用。XML用于结构化数据描述和处理，而SOAP是一种基于XML的协议，用于Web上的数据交换。SOAP消息由Header、Body和Envelope组成，通过HTTP或其他传输协议提供可靠通信。SOA利用独立、可重用的服务和标准化接口，SOAP是实现这一目标的关键技术之一
Conda常用命令耘田 conda 人工智能
查看Conda的完整帮助文档conda-h显示当前安装的Conda版本号conda-V列出所有已创建的Conda虚拟环境（标记*表示当前激活的环境）。condaenvlist删除所有缓存文件（包括未使用的包、临时文件等），释放磁盘空间condaclean--all新建名为ai-knowledge-mgr的虚拟环境，并安装Python3.8版本condacreate-nai-knowledge-mg
主流编程语言全景图：从Python到Rust的深度解析万能小贤哥 python rust 开发语言
2024年编程语言生态报告显示，全球开发者使用的语言数量已达260+，但真正主导行业的不到20种。本文带你穿透技术迷雾，掌握8大核心语言的本质差异。一、选择编程语言的黄金标准图表代码二、八大主流语言对比解析1.Python-通用胶水语言特性：动态类型+缩进语法丰富的库生态（20万+包）GIL全局锁限制并发适用场景：python#机器学习示例（TensorFlow）importtensorflowa
使用Python实现的Excel像素画
简介：本项目主要使用python语言，将图片转为Excel，图片中的每一个像素转化为Excel中的每一个单元格。主要使用pillow和xlsxwriter这两个模块。项目使用一个python文件即可。一：项目功能和流程介绍项目的主要功能：就是将一张人脸图像，画在Excel表格上，图片的每一个像素点对应Excel的一个格子，俗称像素画。流程：创建Excel表，并设置行高和列宽打开图片遍历图片每一个像
python高并发web框架_Python3中tornado高并发框架 weixin_39788969 python高并发web框架
1.单线程tornado.web：基础web框架模块tornado.ioloop：核心IO循环模块，高效的基础。封装了:1.asyncio协程，异步处理2.epoll模型：水平触发（状态改变就询问，select(),poll()），边缘触发（一直询问，epoll()）3.poll模型：I/O多路复用技术4.BSD（UNIX操作系统中的一个分支的总称）的kqueue（kueue是在UNIX上比较高效
基于python的文字识别系统_基于Python的图片文本识别系统的研究 weixin_39683368 基于python的文字识别系统
龙源期刊网http://www.qikan.com.cn基于Python的图片文本识别系统的研究作者：韩琳来源：《科学与财富》2019年第20期近年来随着计算机技术的不断发展，OpticalCharacterRecognition（光学字符识别，简称“OCR”）应用的领域更加的广泛，而图片文字识别就是其中重要的一个。目前图片文字识别的准确率并没有达到100%，这也成为了图片文字识别发展领域的一大瓶
基于python的图像识别_基于PYTHON的图片文字识别
文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。一般包括以下几个过程：图像输入、图像前处理、预识别：1图像输入：对于不同的图像格式，有着不同的存储格式，不同的压缩方式，目前有OpenCV、CxImage等开源项目。2预处理：主要包括二值化，噪声去除，倾斜较正等。2.1二值化：对摄像头拍摄的图片，大多数是彩色图像，彩色图像所含信息量巨大，对于图片的内容，我们可以简单的分为前景与背景，为
超详细 Conda 指令详解---附有相应的示例
以下是所有conda指令的详细列表，并附有相应的示例超详细Conda指令详解环境管理命令condacreate：创建新环境condacreate--name[package_spec1package_spec2...]示例：condacreate--namemyenvnumpypandascondainstall：安装包到当前环境condainstall[--name][--file][--cha
【云原生】Helm来管理Kubernetes集群的详细使用方法与综合应用实战景天科技苑云原生K8S 零基础到进阶实战云原生 kubernetes 容器 Helm k8s k8s集群
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，linux，she
Python类中魔术方法(Magic Methods)完全指南：从入门到精通盛夏绽放 python 开发语言
文章目录Python类中魔术方法(MagicMethods)完全指南：从入门到精通一、魔术方法基础1.什么是魔术方法？2.魔术方法的特点二、常用魔术方法分类详解1.对象创建与初始化2.对象表示与字符串转换3.比较运算符重载4.算术运算符重载5.容器类型模拟6.上下文管理器7.可调用对象三、高级魔术方法1.属性访问控制2.描述符协议3.数值类型转换四、魔术方法最佳实践五、综合案例：自定义分数类Pyt
Python面向对象编程(OOP)详解：通俗易懂的全面指南盛夏绽放 python 开发语言有问必答
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。文章目录Python面向对象编程(OOP)详解：通俗易懂的全面指南一、OOP基本概念1.什么是面向对象编程？2.OOP的四大支柱3.核心概念对比表二、类和对象1.类(Class)vs对象(Object)2.类结构详解三、OOP三大特性详解1.封装(Encapsulation)2.继承(Inherita
〖Python 数据库开发实战 - Redis篇②〗- Linux系统下安装 Redis 数据库哈哥撩编程 #⑤ -数据库开发实战篇 Python全栈白宝书 python 数据库数据库开发实战 linux安装redis
订阅Python全栈白宝书-零基础入门篇可报销！白嫖入口-请点击我。推荐他人订阅，可获取扣除平台费用后的35%收益，文末名片加V！说明：该文属于Python全栈白宝书专栏，免费阶段订阅数量4300+，购买任意白宝书体系化专栏可加入TFS-CLUB私域社区。福利：加入社区的小伙伴们，除了可以获取博主所有付费专栏的阅读权限之外，还有机会加入星荐官共赢计划，详情请戳我。作者：不渴望力量的哈士奇(哈哥)，
python分布式爬虫打造搜索引擎--------scrapy实现 weixin_30515513 爬虫 python 开发工具
http://www.cnblogs.com/jinxiao-pu/p/6706319.html最近在网上学习一门关于scrapy爬虫的课程，觉得还不错，以下是目录还在更新中，我觉得有必要好好的做下笔记，研究研究。第1章课程介绍1-1python分布式爬虫打造搜索引擎简介07:23第2章windows下搭建开发环境2-1pycharm的安装和简单使用10:272-2mysql和navicat的安装
上传文件csv并解析list_基于PyQt5表格控件TableWidget的csv文件内容显示
(70后红太阳2020年4月写于成都)一、配置环境开发环境：Win7；开发工具：Python3.8.2IDLE，QtDesigner5.13.2；Python安装目录：D:python；文件保存目录：D:python基于PyQt5表格控件TableWidget的csv文件内容显示；路径配置：在cmd下，运行path=%path%;Dpythonpython38-32scripts;D:python
告别内存焦虑！用Dask打开Python大数据并行计算的“任意门“ 小张在编程 python 大数据开发语言
引言当你在Jupyter里用Pandas读取20GB的CSV文件，看到内存占用率从10%飙升到90%，最后弹出"MemoryError"时；当你想对亿级数据做分组聚合，却发现单线程计算要等上半小时——这些场景是不是像极了用小推车搬运万吨货物？Python生态中，Dask库就像一台"并行计算推土机"，能把大数据拆分成小块并行处理，让你的普通电脑也能拥有分布式计算的能力。本文将从原理到实战，带你掌握这
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring