share16

Pandas（二）—— 索引、分组

Python模块 —— Pandas

Pandas（二）—— 索引、分组
- 三、索引
- - 3.1 索引器
  - - 3.1.1 列索引、行索引
    - 3.1.2 loc索引器、iloc索引器
    - 3.1.3 query方法
    - 3.1.4 随机抽样
  - 3.2 多重索引
  - - 3.2.1 普通列设为索引
    - 3.2.2 多重索引的loc索引器
    - 3.2.3 其他
    - 3.2.4 索引的常用方法
  - 3.3 练习
  - - 3.3.1 公司员工数据集
    - 3.3.2 巧克力数据集
- 四、分组
- - 4.1 分组函数
  - 4.2 聚合函数
  - - 4.2.1 内置聚合函数
    - 4.2.2 agg/transform/apply方法
  - 4.3 变换和过滤
  - 4.4 练习
  - - 4.4.1 汽车数据集

Pandas（二）—— 索引、分组

大家可以关注知乎或微信公众号的share16，我们也会同步更新此文章。

三、索引

3.1 索引器

3.1.1 列索引、行索引

列索引是最常见的索引形式，一般通过[ ]来实现。

取某一列：通过[列名] 或 .列名，可以从DataFrame中取出相应的某一列，返回值为Series；
取某几列：通过[列名组成的列表]，可以从DataFrame中取出相应的某几列，其返回值为一个DataFrame；

行索引亦是最常见的索引形式，也能通过[ ]来实现。

以整数为索引的Series：取某一行(s[i])或某几行(s[[i,j]] 或 s[i:j](左闭右开))，用法与列表/字符串等索引用法一致；
以字符串为索引的Series：取某一行(s[i])或某几行(s[[i,j]] 或 s[i:j])，用法与列表/字符串等索引用法存在差异；若i/j是字符串，遵循左闭右闭；若i/j是整数，遵循左闭右开；
DataFrame的行索引，执行s[i]和s[[i,j]]会返回Error，执行s[i:j]会返回结果；若i/j是字符串，遵循左闭右闭；若i/j是整数，遵循左闭右开；

import pandas as pd
df = pd.read_excel('/xxx/公司员工.xlsx', parse_dates=['birthdate_key'])

# 列索引：DataFrame
print(df['city_name'], df.city_name, df[['city_name', 'department']], sep='\n\n')

# 行索引：以整数为索引的Series
s = df['job_title'].head()
print('取某一行 s[i] ：', s[1], type(s[1]))
print('\n')
print('取某几行 s[[i,j]] 或 s[i:j]：', s[[1,3]], type(s[[1,3]]), s[1:3], type(s[1:3]), sep='\n\n')

# 行索引：以字符串为索引的Series
s = pd.Series(range(5,10), index=['a','b','c','d','e'])
print('取某一行 s[i] ：', s['a'], type(s['a']))
print('\n')
print('取某几行 s[[i,j]] 或 s[i:j] ：', s[['a','c']], type(s[['a','c']]), s['a':'c'], type(s['a':'c']), sep='\n\n')
# 备注：s['a':'c'] 可以改成s[0:2],但其结果不一致

# 行索引：DataFrame
import numpy as np
import pandas as pd
a = pd.DataFrame(np.arange(10).reshape(5,2), index=list('abcde'),columns=['M','N'])
lst = ["a['a']", "a[['a','b']]", "a['a':'c']", "a[0:2]"]
for i in lst:
    try:
        print(eval(i), end='\n\n')
    except:
        print('执行错误\n')

3.1.2 loc索引器、iloc索引器

对于Series/DataFrame而言，有两种索引器，一种是基于‘index和columns的值(索引值可以是str或int)’的loc索引器，另一种是基于‘位置(取值只能是0,1,2,···，与索引值无关)’的iloc索引器。

loc索引器的一般形式是loc[行区域,列区域]，行区域不能省略，列区域是可以省略的。其行/列区域有五类合法对象，分别是：单个元素、元素列表、元素切片、布尔列表以及函数；
iloc索引器的一般形式是iloc[行区域,列区域]，用法与loc类似，只不过是针对位置进行筛选。

import numpy as np
import pandas as pd
a = pd.DataFrame(np.arange(20,35).reshape(5,3), index=list('abcde'), columns=['X','Y','Z'])
b = pd.DataFrame(np.arange(30,45).reshape(5,3), columns=['X','Y','Z'])
print(a, b, sep='\n\n')

# 行/列区域：是单个元素
lst = ["a.loc['a']", "a.loc['X']", "a.loc[0]", "a.loc['a','X']", "b.loc[1,'Z']", "b.loc[0]","b.iloc[1,2]", "b.iloc[0,'X']"]
for i in lst:
    try:
        print('{} 的运行结果：\n{}\n'.format(i, eval(i)))
    except:
        print('{} 的运行结果：\n{}\n'.format(i, '执行错误'))
# 运行结果见下图

# 行/列区域：是元素列表
lst = ["a.loc[['a','c'],['X']]", "a.loc[:,['X','Z']]", "b.loc[[0,2],'Z']", "a.iloc[[0,2],:]","b.iloc[[1,4],[0,2]]", "b.iloc[[1,4],['X','Y']]"]
for i in lst:
    try:
        print('{} 的运行结果：\n{}\n'.format(i, eval(i)))
    except:
        print('{} 的运行结果：\n{}\n'.format(i, '执行错误'))
# 运行结果见下图

# 行/列区域：是元素切片
lst = ["a.loc['a':'c' , 'X':'Y']", "b.loc[0:2 , 'X':'Y']", "b.loc[0:2 , 0:]", "a.iloc[0:2 , 0:]","b.iloc[0:2 , 1:3]", "b.iloc[0:2 , 'X':'Z']"]
for i in lst:
    try:
        print('{} 的运行结果：\n{}\n'.format(i, eval(i)))
    except:
        print('{} 的运行结果：\n{}\n'.format(i, '执行错误'))
# 运行结果见下图

# 行/列区域：是布尔列表
lst = ["a.loc[a.X > 30]", "b.loc[b.X.isin([42]),['X','Y']]", "a.iloc[a.X > 30]","a.iloc[(a.X > 30).values]"]
for i in lst:
    try:
        print('{} 的运行结果：\n{}\n'.format(i, eval(i)))
    except:
        print('{} 的运行结果：\n{}\n'.format(i, '执行错误'))
# 运行结果见下图

# 行/列区域：是函数
lst = ["a.loc[lambda x:'a',lambda x:'X']", "b.loc[lambda x:slice(0,2),lambda x:slice('X','Z')]", "b.iloc[lambda x: slice(1,4)]","b.iloc[lambda x: slice(1,4),1]"]
for i in lst:
    try:
        print('{} 的运行结果：\n{}\n'.format(i, eval(i)))
    except:
        print('{} 的运行结果：\n{}\n'.format(i, '执行错误'))
# 运行结果见下图

3.1.3 query方法

筛选查询数据：df.query(condition, inplace, **kwargs)

condition：默认str类型，里面可以使用（ ==、!=、|、&、～、or、and、or、in、not in等）运算符；若要引用外部变量，只需在变量名前加@符号；
inplace：默认False；若为True，返回结果会修改原数据；

low,high = 28,36
lst = ["X>X.mean()", "'X>X.mean()'", "'Y in [24,30,36]'","'Z.between(low,high)'", "'Z.between(@low,@high)'"]
for i in lst:
    try:
        print('a.query({}) 的运行结果：\n{}\n'.format(i, a.query(eval(i))))
    except:
        print('a.query({}) 的运行结果：\n{}\n'.format(i, '执行错误'))
# 运行结果见下图

3.1.4 随机抽样

若把 DataFrame 的每一行看作一个样本，或把每一列看作一个特征，再把整个 DataFrame 看作总体，想要对样本或特征进行随机抽样就可以用 sample函数，即
Series/df.sample(n,frac,replace,weights,random_state,axis,ignore_index)。

n：抽样数量；不能与frac一起使用，若frac=None，n则默认为1；
frac：抽样比例，默认为None，不能与n一起使用；如0.3表示从总体中抽出30%的样本；
replace：是否有放回抽样；默认False，即不放回抽样；若为True，则是有放回抽样；
weights：每个样本的抽样相对概率，默认为None；

3.2 多重索引

适用于所有 Series/DataFrame ：

查看所有行索引名和行索引值：df.index.names、df.index.values、df.index
查看所有列索引名和列索引值：df.columns.names、df.columns.values、df.columns
查看所有某一层索引：如df.index.get_level_values(0)

3.2.1 普通列设为索引

df.set_index(keys,drop,append,inplace,verify_integrity)

keys：某一列或某几列，用列表形式表示；
drop：默认为True，删除要用作新索引的列；
append：默认为 False，表示是否保留原来的索引，直接把新设定的索引添加到原索引的内层；
inplace：默认为 False，若为True，则修改原数据；
verify_integrity：默认为 False，检查新索引是否有重复项；

3.2.2 多重索引的loc索引器

df.loc[(level_0_list, level_1_list), cols]
df.swaplevel()：转换内外层索引
Python输出带颜色字体，如红色字体

import pandas as pd
df = pd.read_excel('/xxx/公司员工.xlsx', parse_dates=['birthdate_key'])
df = df.set_index(['city_name', 'department'])
df.set_index(['department', 'city_name'])
# 上面两个set_index语句的结果不一致

# 多重索引
print("\033[0;30;43m以 df.set_index(['city_name', 'department']) 的结果为例：\n\033[0m")
cols = ['EmployeeID', 'job_title']
lst1 = ['只索引city_name的某几个值：', '只索引department的某几个值：', '索引city_name和department的某一个值：', '索引city_name和department的某几个值：']
lst2 = [r"df.loc[['Terrace', 'Nanaimo'] , cols]", r"df.swaplevel().loc[['Store Management', 'Meats'], cols].swaplevel()", r"df.loc[('Terrace', 'Meats'), cols]", r"df.loc[(['Terrace','Vancouver'], ['Meats','Training']), cols]"]
for i,j in zip(lst1,lst2):
    try:
        print('\033[0;31;40m')
        print(i+j, '\n运行结果：') 
        print('\033[0m')
        print(eval(j))
    except:
        print('\033[0;31;40m')
        print(i+j, '\n运行结果：') 
        print('\033[0m')
        print('执行错误')

3.2.3 其他

Slice对象一共有两种形式，第一种为loc[idx[行区域,列区域]]型，第二种为loc[idx[行区域],idx[列区域]]型。(前提是：索引不重复的；使用 silce 对象，要先进行定义，即：idx = pd.IndexSlice。）

多级索引的构造：除了使用set_index之外，常用的有from_tuples、from_arrays、from_product三种方法，它们都是pd.MultiIndex对象下的函数。

from_tuples：根据传入由元组组成的列表进行构造；
from_arrays：根据传入列表中，对应层的列表进行构造；
from_product：根据给定多个列表的笛卡尔积进行构造；

3.2.4 索引的常用方法

如：swaplevel、reorder_levels、droplevel、rename_axis、rename、set_index、reset_index、reindex等。

3.3 练习

3.3.1 公司员工数据集

现有一份公司员工数据集点此下载

import pandas as pd
df = pd.read_csv('/xxx/02 公司员工.csv', parse_dates=['birth'])

#1. 分别只使用query和loc选出年龄不超过四十岁且工作部门为Dairy或Bakery的男性。
df.query(" (age <= 40)  and  (department in ['Dairy','Bakery'])  and  (gender == 'M') ")
df.loc[(df.age <= 40)  &  (df.department.isin(['Dairy','Bakery']))  &  (df.gender == 'M')]

#2. 选出员工ID号为奇数所在行的第1、第3和倒数第2列
df.query('id%2==1').iloc[:, [0,2,-2]]
df.iloc[(df.id%2==1).values, [0,2,-2]]

# 3. 按照以下步骤进行索引操作：
# 把后三列设为索引后交换内外两层，df.columns.tolist()把结果转换成列表
df1 = df.set_index(df.columns[-3:].tolist()).swaplevel(0,2)

# 恢复中间层索引
df1 = df1.reset_index(1)

# 修改外层索引名为Gender
df1 = df1.rename_axis(index={'gender':'Gender'})

# 用下划线合并两层行索引
df1.index = df1.index.map(lambda x : '_'.join(x))

# 把行索引拆分为原状态，若把tuple换成list，返回结果有问题
df1.index = df1.index.map(lambda x : tuple(x.split('_')))

# 修改索引名为原表名称
df1 = df1.rename_axis(index=['gender','department'])

# 恢复默认索引并将列保持为原表的相对位置
df1 = df1.reset_index().reindex(df.columns, axis=1)

df1.equals(df)

3.3.2 巧克力数据集

现有一份关于巧克力评价的数据集点此下载

import pandas as pd
df = pd.read_csv('/xxx/03 巧克力.csv', encoding='ISO-8859-1')
# 思路：查看cocoapercent数字类型，若是str，将其转换成float（df.cocoapercent.unique()有小数，所以是float）
df['cocoapercent'] = df.cocoapercent.map(lambda x : float(x[:-1])/100 )


# 选出2.75分及以下且可可含量 cocoapercent 高于中位数的样本
df.query(" (rating <= 2.75) and (cocoapercent > cocoapercent.median()) ")

# 将reviewdate和location设为索引，选出reviewdate在2012年之后且location不属于 France, Canada, Amsterdam, Belgium 的样本
df.set_index(['reviewdate','location']).query(" (reviewdate < 2012) and (location not in ['France', 'Canada', 'Amsterdam', 'Belgium']) ")

四、分组

4.1 分组函数

df.groupby(by,axis,level,as_index,sort,group_keys,squeeze,observed,dropna)

by：列名或列名列表； level：默认None，级别名称；
as_index：默认True，返回以组标签为索引的对象；
sort：默认True，对组键进行排序；
group_keys：默认True，调用 apply 时，将组键添加到索引以识别片段；
squeeze：默认False，若可能，减少返回类型的维数，否则返回一致的类型；
observed：默认False，这仅适用于任何 groupers 是分类的；若为True，仅显示分类分组的观察值；若为 False，显示分类分组的所有值；
dropna：默认True，且组键包含 NA 值，则 NA 值连同行/列将被删除；若为 False，NA 值也将被视为组中的键；

通过ngroups属性，可以返回分组个数；
通过groups属性，可以返回从组名映射到组索引列表的字典；
通过size属性，可以返回groupby对象上每个组的元素个数；
通过get_group属性，可以返回所在组对应的行(必须知道组的名字)；
通过list(df.groupby(···))属性，可以将DataFrameGroupBy类型转换成列表；

4.2 聚合函数

4.2.1 内置聚合函数

df.groupby(by=xxx)[列名组合].使用操作
使用操作/内置聚合函数：max/min/sum/count/std/median/mean/all/any/idxmax/idxmin/mad/unique/nunique/skew/quantile/sem/size/prod等；

4.2.2 agg/transform/apply方法

Series/df.agg(func,···)：在指定轴上使用一项或多项操作进行聚合；
Series/df.transform(func,···)：调用func生成转换后的值，且具有与Series/df相同的轴长的数据；
Series/df.apply(func,···)：调用func生成转换后的值；

import pandas as pd
df = pd.read_csv('/xxx/04 汽车.csv')
a = df.groupby('Country')

lst1 = ['使用一个函数：', '使用多个函数：', '对特定的列使用特定的聚合函数：', '对特定的列使用特定的聚合函数：', '使用自定义函数：', '聚合结果重命名(用元组表示，即(名字,函数))：']
lst2 = [r"a['Disp','HP'].agg('mean')", r"a['Disp','HP'].agg(['mean','std'])", r"a['Disp','HP'].agg({'Disp':'mean', 'HP':['mean','std']})", r"a['Disp','HP'].agg({'Disp':'mean', 'HP':'mean', 'HP':'std' })", r"a['Disp','HP'].agg(lambda x : x.max()-x.min())", r"a['Disp','HP'].agg([('my_max','max'), ('my_min','min')])"]
for i, j in zip(lst1,lst2):
    print('\033[0;30;43m')
    print(i+j, '\n') 
    print('\033[0m')
    print(eval(j))


''' agg/transform/apply的区别： ''' 
a['Price'].agg('mean') #返回各城市的平均价格；若使用多个函数，以列表形式表示；
a['Price'].transform('mean') #返回各城市的平均价格；不能使用多个函数；
a['Price'].apply('mean') #返回各城市的平均价格，其与df有相同的长度；不能使用多个函数；

备注：
对特定列使用特定函数时，需要使用{'列名' : [('重命名',func1), func2]}等，详见本文4.4.1版块的问题1。

4.3 变换和过滤

变换函数的返回值为同长度的序列，最常用的内置变换函数是累计函数： cumcount/cumsum/cumprod/cummax/cummin ，它们的使用方式和聚合函数类似，只不过完成的是组内累计操作。
组过滤(df.filter(func))作为行过滤的推广，指的是如果对一个组的全体所在行进行统计的结果，返回True则会被保留，False则该组会被过滤，最后把所有未被过滤的组其对应的所在行拼接起来作为DataFrame返回。

4.4 练习

4.4.1 汽车数据集

现有一份汽车数据集点此下载，其中Brand、Disp、HP，分别代表：汽车品牌、发动机蓄量、发动机输出；

问题：
1. 先剔除所属 Country 数不超过2的汽车，再按 Country 分组计算价格均值、价格变异系数、该 Country 的汽车数量，其中变异系数的计算方法是标准差除以均值，并在结果中把变异系数重命名为 Cov；

import pandas as pd
df = pd.read_csv('/xxx/04 汽车.csv')

# 剔除所属 Country 数不超过2的汽车
a = df.groupby('Country').filter(lambda x : x.shape[0] > 2)

a.groupby('Country').agg({'Price' : ['mean', ('Cov',lambda x : x.std()/x.mean()), 'count']})


# 2. 按照表中位置的前三分之一、中间三分之一和后三分之一分组，统计 Price 的均值;
n = int(df.shape[0]/3)
condition = ['Head']*n+['Mid']*n+['Tail']*n
df.groupby(condition)['Price'].mean()


# 3. 对类型 Type 分组，对 Price 和 HP 分别计算最大值和最小值，结果会产生多重索引，请用下划线把多重列索引合并为单层索引;
b = df.groupby('Type')['Price','HP'].agg({'Price':['max'], 'HP':['min']})
b.columns = b.columns.map(lambda x : '_'.join(x))
b


# 4. 对类型 Type 分组，对 HP 进行组内的 min-max 归一化;
df.groupby('Type').HP.transform(lambda x : ((x - x.min())/(x.max() - x.min())))


# 5. 对类型 Type 分组，计算 Disp 与 HP 的相关系数;
df.groupby('Type')['Disp','HP'].corr().swaplevel().loc['Disp','HP']
# 等价于
df.groupby('Type')[['HP', 'Disp']].apply(lambda x:np.corrcoef(x['HP'].values, x['Disp'].values)[0,1])

谢谢大家

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

Pandas（二）—— 索引、分组

Python模块 —— Pandas

Pandas（二）—— 索引、分组

三、索引

3.1 索引器

3.1.1 列索引、行索引

3.1.2 loc索引器、iloc索引器

3.1.3 query方法

3.1.4 随机抽样

3.2 多重索引

3.2.1 普通列设为索引

3.2.2 多重索引的loc索引器

3.2.3 其他

3.2.4 索引的常用方法

3.3 练习

3.3.1 公司员工数据集

3.3.2 巧克力数据集

四、分组

4.1 分组函数

4.2 聚合函数

4.2.1 内置聚合函数

4.2.2 agg/transform/apply方法

4.3 变换和过滤

4.4 练习

4.4.1 汽车数据集

你可能感兴趣的:(Python,#,python模块,python)