耳森Paulson

【2019.05】Python 教程系列 4 - Pandas (上)

0 引言

本文是 Python 系列的第六篇

Pandas 是 Python 为解决数据分析而创建的，详情看官网 (https://pandas.pydata.org/)。在使用 pandas 之前，需要引进它，语法如下：

import pandas

这样你就可以用 pandas 里面所有的内置方法 (build-in methods) 了，比如创建一维的 Series 和二维的 DataFrame。

pandas.Series()
pandas.DataFrame()

但是每次写 pandas 字数有点多，通常我们给 pandas 起个别名 pd，用以下语法，这样所有出现 pandas 的地方都可以用 pd 替代。

import pandas as pd

Pandas 里面的数据结构是「多维数据表」，学习它可以类比这 NumPy 里的「多维数组」。1/2/3 维的「多维数据表」分别叫做 Series (系列), DataFrame (数据帧) 和 Panel (面板)，和1/2/3 维的「多维数组」的类比关系如下。

由于「系列」、「数据帧」和「面板」这些直译过来的中文名词听起来有些奇怪，在本帖还是直接用 Series, DataFrame 和 Panel。

对比 NumPy (np) 和 Pandas (pd) 每个维度下的数据结构，不难看出
pd 多维数据表 = np 多维数组 + 描述

其中

Series = 1darray + index
DataFrame = 2darray + index + columns
Panel = 3darray + index + columns + item

每个维度上的「索引」使得「多维数据表」比「多维数组」涵盖更多的信息，如下图，左边的 2d array 仅仅储存了一组数值 (具体代表什么意思却不知道)，而右边的 DataFrame 一看就知道这是平安银行和茅台从 2018-1-3 到 2019-1-3 的价格。

和学习 numpy 一样，学习 pandas 还是遵循的 Python 里「万物皆对象」的原则，既然把数据表当对象，我们就按着数据表的创建、数据表的存载、数据表的获取、数据表的合并和连接、数据表的重塑和透视、和数据表的分组和整合来盘一盘 Pandas，目录如下：

由于篇幅原因，Pandas 系列分两贴，上贴讲前三节的内容，下帖讲后三节的内容。

1 数据表的创建

数据表有三大类型

Series: 一维数据，类似于 python 中的基本数据的 list 或 NumPy 中的 1D array。Pandas 里最基本的数据结构
DataFrame: 二维数据，类似于 R 中的 data.frame 或 Matlab 中的 Tables。DataFrame 是 Series 的容器
Panel：三维数据。Panel 是 DataFrame 的容器

DataFrame 可理解成是 Series 的容器，每一列都是一个 Series，或者 Series 是只有一列的 DataFrame。

Panel 可理解成是 DataFrame 的容器。

接下来我们用代码来创建 pandas 数据表，有两种方式：

按步就班的用 pd.Series(), pd.DataFrame() 和 pd.Panel()
一步登天的用万矿里面的 WindPy API 读取

2.1 按部就班法

一维 Series

创建 Series 只需要下面一行代码
pd.Series(x, index=idx)
其中 x 可以是：

列表
numpy数组（ndarray）
字典

回顾在〖Python 入门篇 (下)〗讲的函数里可以设定不同参数，那么

x 是位置参数
index 是默认参数，默认值为 idx = range(0, len(x))

用列表

s = pd.Series([27.2, 27.65, 27.70, 28])
s

0    27.20
1    27.65
2    27.70
3    28.00
dtype: float64

打印出来并不仅仅是列表里面的浮点数，每个浮点数前面还有一个索引，在本例中是 0, 1, 2, 3。

因此在创建 Series 时，如果不显性设定 index，那么 Python 给定一个默认从 0 到 N-1 的值，其中 N 是 x 的长度。

Series s 也是一个对象，用 dir(s) 可看出关于 Series 所有的属性和内置函数，其中最重要的是

用 s.values 打印 s 中的元素
用 s.index 打印 s 中的元素对应的索引

s.values

array([27.2 , 27.65, 27.7 , 28.  ])

s.index

RangeIndex(start=0, stop=4, step=1)

不难发现，以上创建的 Series 和 numpy 数组比多了「索引」，但这种 0,1,2,3 的索引是在没有什么描述意义。实际上我们定义的 s 是海底捞在 2019 年 4 月 1 日到 2019 年 4 月 4 日的股价，那么用日期来当索引是不是更好些？

dates = pd.date_range('20190501', periods=4)
s2 = pd.Series( [27.2, 27.65, 27.70, 28], index=dates )
s2

2019-05-01    27.20
2019-05-02    27.65
2019-05-03    27.70
2019-05-04    28.00
Freq: D, dtype: float64

显然，s2 比 s 包含的信息更多，这是 s2 的索引是一组日期对象，数据类型是 datetime64，频率是 D (天)。

s2.index

DatetimeIndex(['2019-05-01', '2019-05-02', '2019-05-03', '2019-05-04'], dtype='datetime64[ns]', freq='D')

你甚至还可以给 s2 命名，就叫海底捞股价如何？

s2.name = '海底捞股价'
s2

2019-05-01    27.20
2019-05-02    27.65
2019-05-03    27.70
2019-05-04    28.00
Freq: D, Name: 海底捞股价, dtype: float64

用 numpy 数组

除了用列表，我们还可以用 numpy 数组来生成 Series。在下例中，我们加入缺失值 np.nan，并分析一下 Series 中另外 5 个属性或内置函数的用法：

len: s 里的元素个数
shape: s 的形状 (用元组表示)
count: s 里不含 nan 的元素个数
unique: 返回 s 里不重复的元素
value_counts: 统计 s 里非 nan 元素的出现次数

对照上面函数的用法，下面的输出一看就懂了吧。

import numpy as np
s = pd.Series(np.array([27.2, 27.65, 27.70, 28, 28, np.nan]))
print( 'The length is', len(s) )
print( 'The shape is', s.shape )
print( 'The count is', s.count() )

The length is 6
The shape is (6,)
The count is 5

s.unique()

array([27.2 , 27.65, 27.7 , 28.  ,   nan])

s.value_counts()

28.00    2
27.70    1
27.65    1
27.20    1
dtype: int64

用字典

创建 Series 还可以用字典。字典的「键值对」的「键」自动变成了 Series 的索引 (index)，而「值」自动变成了Series 的值 (values)。代码如下 (下列用 name 参数来对 s3 命名)

data_dict = { 'BABA': 187.07, 'PDD': 21.83, 'JD': 30.79, 'BIDU': 184.77 }

s3 = pd.Series(data_dict, name='中概股')
s3.index.name = '股票代号'
s3

股票代号
BABA    187.07
PDD      21.83
JD       30.79
BIDU    184.77
Name: 中概股, dtype: float64

给 s3 起名中概股是因为阿里巴巴 (BABA)、拼多多 (PDD)、京东 (JD) 和百度 (BIDU) 都是中国公司但在美国上市的。此外还可以给 index 命名为 ‘股票代号’。

现在假设我们的股票代号为

stock = ['FB', 'BABA', 'PDD', 'JD']
s4 = pd.Series( data_dict, index=stock )
s4

FB         NaN
BABA    187.07
PDD      21.83
JD       30.79
dtype: float64

代号里多加了脸书 (FB)，而 sdata 字典中没有 FB 这个键，因此生成的 s4 在 FB 索引下对应的值为 NaN。再者，代号里没有百度 (BIDU)，因此 s4 里面没有 BIDU 对应的值 (即便 sdata 里面有)。

当两个 Series 进行某种操作时，比如相加，Python 会自动对齐不同 Series 的 index，如下面代码所示：

s3 + s4

BABA    374.14
BIDU       NaN
FB         NaN
JD       61.58
PDD      43.66
dtype: float64

二维 DataFrame

创建 DataFrame 只需用下面一行代码

pd.DataFrame( x, index=idx, columns=col )

其中 x 可以是

二维列表 (list)
二维 numpy 数组 (ndarray)
字典 (dict)，其值是一维列表、numpy 数组或 Series
另外一个 DataFrame

回顾在〖Python 入门篇 (下)〗讲的函数里可以设定不同参数，那么

x 是位置参数
index 是默认参数，默认值为 idx = range(0, x.shape[0])
columns 是默认参数，默认值为 col = range(0, x.shape[1])

用列表或 numpy 数组

df0 = pd.DataFrame([[1, 2, 3], [4, 5, 6]])
df1 = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6]]))
print(df0)
# print(df1)
df1

   0  1  2
0  1  2  3
1  4  5  6

	0	1	2
0	1	2	3
1	4	5	6

在创建 DataFrame 时，如果不显性设定 index 和 columns 时，那么Python 给它们默认值，其中

index = 0 到 r-1，r 是 x 的行数
colmns = 0 到 c-1，c 是 x 的列数

用对象为列表的字典

symbol = ['BABA', 'JD', 'AAPL', 'MS', 'GS', 'WMT']
data = {'行业': ['电商', '电商', '科技', '金融', '金融', '零售'],
        '价格': [176.92, 25.95, 172.97, 41.79, 196.00, 99.55],
        '交易量': [16175610, 27113291, 18913154, 10132145, 2626634, 8086946],
        '雇员': [101550, 175336, 100000, 60348, 36600, 2200000]}
df2 = pd.DataFrame( data, index=symbol )
df2.name = '美股'
df2.index.name = '代号'

df2

	行业	价格	交易量	雇员
代号
BABA	电商	176.92	16175610	101550
JD	电商	25.95	27113291	175336
AAPL	科技	172.97	18913154	100000
MS	金融	41.79	10132145	60348
GS	金融	196.00	2626634	36600
WMT	零售	99.55	8086946	2200000

字典的「键值对」的「键」自动变成了 DataFrame 的栏 (columns)，而「值」自动变成了 DataFrame 的值 (values)，而其索引 (index) 需要另外定义。

分别来看 df2 的 values, columns 和 index。

df2.values

array([['电商', 176.92, 16175610, 101550],
       ['电商', 25.95, 27113291, 175336],
       ['科技', 172.97, 18913154, 100000],
       ['金融', 41.79, 10132145, 60348],
       ['金融', 196.0, 2626634, 36600],
       ['零售', 99.55, 8086946, 2200000]], dtype=object)

df2.columns

Index(['行业', '价格', '交易量', '雇员'], dtype='object')

df2.index

Index(['BABA', 'JD', 'AAPL', 'MS', 'GS', 'WMT'], dtype='object', name='代号')

A 查看 DataFrame

我们可以从头或从尾部查看 DataFrame 的 n 行，分别用 df2.head() 和 df2.tail(n)，如果没有设定 n，默认值为 5 行。

df2.head()

	行业	价格	交易量	雇员
代号
BABA	电商	176.92	16175610	101550
JD	电商	25.95	27113291	175336
AAPL	科技	172.97	18913154	100000
MS	金融	41.79	10132145	60348
GS	金融	196.00	2626634	36600

df2.tail(3)

	行业	价格	交易量	雇员
代号
MS	金融	41.79	10132145	60348
GS	金融	196.00	2626634	36600
WMT	零售	99.55	8086946	2200000

B 统计 DataFrame

我们用 df2.describe() 还可以看看 DataFrame 每栏的统计数据。

df2.describe()

	价格	交易量	雇员
count	6.000000	6.000000e+00	6.000000e+00
mean	118.863333	1.384130e+07	4.456390e+05
std	73.748714	8.717312e+06	8.607522e+05
min	25.950000	2.626634e+06	3.660000e+04
25%	56.230000	8.598246e+06	7.026100e+04
50%	136.260000	1.315388e+07	1.007750e+05
75%	175.932500	1.822877e+07	1.568895e+05
max	196.000000	2.711329e+07	2.200000e+06

函数 describe() 只对「数值型变量」有用 (没有对「字符型变量」行业栏做统计)，统计量分别包括个数、均值、标准差、最小值，25-50-75 百分数值，最大值。一般做数据分析第一步会用这个表大概看看

数据是否有缺失值 (每个栏下的 count 是否相等)？
数据是否有异常值 (最小值 min 和最大值 max 是否太极端)？

C 升维 DataFrame

我们用 MultiIndex.from_tuples() 还可以赋予 DataFrame 多层索引 (实际上增加了维度，多层索引的 DataFrame 实际上是三维数据)。

df2.index = pd.MultiIndex.from_tuples( 
            [('中国公司','BABA'), ('中国公司','JD'), 
             ('美国公司','AAPL'), ('美国公司','MS'), 
             ('美国公司','GS'), ('美国公司','WMT')] )
df2

		行业	价格	交易量	雇员
中国公司	BABA	电商	176.92	16175610	101550
中国公司	JD	电商	25.95	27113291	175336
美国公司	AAPL	科技	172.97	18913154	100000
	MS	金融	41.79	10132145	60348
	GS	金融	196.00	2626634	36600
	WMT	零售	99.55	8086946	2200000

在 MultiIndex.from_tuples() 中传递一个「元组的列表」，每个元组，比如 (‘中国公司’, ‘BABA’)，第一个元素中国公司是第一层 index，第二个元素BABA是第二层 index。

DataFrame 是 Series 的容器，那什么是 DataFrame 的容器？Panel!

三维 Panel

首先需要指出的是 Panel 在未来版本中会被废除，因此不想花时间看的同学可跳过。

创建 Panel 只需用下面一行代码

pd.Panel( x, item=itm, major_axis=n1, minor_axis=n2 )

其中 x 可以是

三维列表 (list)
三维 numpy 数组 (ndarray)
字典 (dict)，其值是 DataFrame

回顾在〖Python 入门篇 (下)〗讲的函数里可以设定不同参数，那么

x 是位置参数
items 是默认参数 (axis 0)，默认值为 itm = range(0, number of DataFrame)
major_axis 是默认参数 (axis 1)，默认值和 DataFrame 的默认 index 一样
minor_axis 是默认参数 (axis 2)，默认值和 DataFrame 的默认 columns 一样

用 numpy 数组

pn = pd.Panel(np.random.randn(2, 5, 4))
pn

C:\Anaconda3\lib\site-packages\IPython\core\interactiveshell.py:2961: FutureWarning: 
Panel is deprecated and will be removed in a future version.
The recommended way to represent these types of 3-dimensional data are with a MultiIndex on a DataFrame, via the Panel.to_frame() method
Alternatively, you can use the xarray package http://xarray.pydata.org/en/stable/.
Pandas provides a `.to_xarray()` method to help automate this conversion.

  exec(code_obj, self.user_global_ns, self.user_ns)






Dimensions: 2 (items) x 5 (major_axis) x 4 (minor_axis)
Items axis: 0 to 1
Major_axis axis: 0 to 4
Minor_axis axis: 0 to 3

Panel pn 含有 2 个 DataFrame，items 为 0, 1；每个 DataFrame 有 5 行 4 列，因此 major_axis 为 0,1,2,3,4，而 minor_axis 为 0,1,2,3。

用对象为 DataFrame 的字典


dates = pd.date_range('20190401',periods=4)

data = {'开盘价': [27.2, 27.65, 27.70, 28],
        '收盘价': [27.1, 27.55, 27.45, 28.1]}
df1 = pd.DataFrame( data, index=dates )

data = {'开盘价': [367, 369.8, 378.2, 380.6],
        '收盘价': [369.5, 370.1, 380, 382.1]}
df2 = pd.DataFrame( data, index=dates )

p_data = {'海底捞' : df1, '腾讯' : df2}
pn = pd.Panel(p_data)
pn

C:\Anaconda3\lib\site-packages\IPython\core\interactiveshell.py:2961: FutureWarning: 
Panel is deprecated and will be removed in a future version.
The recommended way to represent these types of 3-dimensional data are with a MultiIndex on a DataFrame, via the Panel.to_frame() method
Alternatively, you can use the xarray package http://xarray.pydata.org/en/stable/.
Pandas provides a `.to_xarray()` method to help automate this conversion.

  exec(code_obj, self.user_global_ns, self.user_ns)






Dimensions: 2 (items) x 4 (major_axis) x 2 (minor_axis)
Items axis: 海底捞 to 腾讯
Major_axis axis: 2019-04-01 00:00:00 to 2019-04-04 00:00:00
Minor_axis axis: 开盘价 to 收盘价

分析上面的 Panel pn

有 2 个 DataFrame，items 为 ‘海底捞’ 和 ‘腾讯’

每个 DataFrame 有 4 行 2 列
major_axis 从 2019-04-01 到 2019-04-04
minor_axis 为 ‘开盘价’ 和 ‘收盘价’

让我们来查看两个 DataFrame 的内容

pn['海底捞']

	开盘价	收盘价
2019-04-01	27.20	27.10
2019-04-02	27.65	27.55
2019-04-03	27.70	27.45
2019-04-04	28.00	28.10

pn['腾讯']

	开盘价	收盘价
2019-04-01	367.0	369.5
2019-04-02	369.8	370.1
2019-04-03	378.2	380.0
2019-04-04	380.6	382.1

上面这种 Panel 类型的数据在量化投资中还蛮常见，比如我们需要 10 个股票在 1 年时期的 OHLC 价格 (Open, High, Low, Close)，Panel 的 Items, Major_axis 和 Minor_axis 正好可以存储这样的三维数据。如果 Panel 要废掉，那用什么容器来储存三维数据呢？

用多层索引 (Multi-index) 的 DataFrame！

df = pd.concat([df1, df2])
code = ['海底捞', '腾讯']
midx = [(c, d) for c in code for d in dates]
df.index = pd.MultiIndex.from_tuples(midx)
df

		开盘价	收盘价
海底捞	2019-04-01	27.20	27.10
	2019-04-02	27.65	27.55
	2019-04-03	27.70	27.45
	2019-04-04	28.00	28.10
腾讯	2019-04-01	367.00	369.50
	2019-04-02	369.80	370.10
	2019-04-03	378.20	380.00
	2019-04-04	380.60	382.10

首先用 concat() 函数 (下帖的内容) 将 df1 和 df2 连接起来；再用「列表解析法」生成 midx，它是一个元组的列表，c 是股票代码，d 是日期；最后放入 MultiIndex.from_tuples() 生成有多层索引的 DataFrame。

2 数据表的存载

本节讲数据表的「保存」和「加载」，在 NumPy 一贴已经提到过，数据的存载没什么技术含量

保存只是为了下次再用处理好的 DataFrame
加载可以不用重新再定义 DataFrame

DataFrame 可以被保存为 Excel, csv, SQL 和 HDF5 格式，其语句一看就懂，用 to_数据格式，具体如下：

to_excel()
to_csv()
to_sql()
to_hdf()

如果要加载某种格式的数据到 DataFrame 里，用 read_数据格式，具体如下：

read_excel()
read_csv()
read_sql()
read_hdf()

我们只用 excel 和 csv 格式举例。

Excel 格式

用 pd.to_excel 函数将 DataFrame 保存为 .xlsx 格式，并保存到 ‘Sheet1’ 中，具体写法如下：

pd.to_excel( '文件名'，'表名' )

df = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6]]))
df.to_excel('pd_excel.xlsx', sheet_name='Sheet1')

用 pd.read_excel( ‘文件名’，‘表名’ ) 即可加载该文件并存成 DataFrame 形式

df1 = pd.read_excel('pd_excel.xlsx', sheet_name='Sheet1')
df1

	0	1	2
0	1	2	3
1	4	5	6

csv 格式

用 pd.to_csv 函数将 DataFrame 保存为 .csv 格式，注意如果 index 没有特意设定，最后不要把 index 值存到 csv 文件中。具体写法如下：

pd.to_csv( '文件名'，index=False )

data = {'Code': ['BABA', '00700.HK', 'AAPL', '600519.SH'],
        'Name': ['阿里巴巴', '腾讯', '苹果', '茅台'],
        'Market': ['US', 'HK', 'US', 'SH'],
        'Price': [185.35, 380.2, 197, 900.2],
        'Currency': ['USD', 'HKD', 'USD', 'CNY']}
df = pd.DataFrame(data)
df.to_csv('pd_csv.csv', index=False)

用 pd.read_csv( ‘文件名’ ) 即可加载该文件并存成 DataFrame 形式

df2 = pd.read_csv('pd_csv.csv')
df2

	Code	Name	Market	Price	Currency
0	BABA	阿里巴巴	US	185.35	USD
1	00700.HK	腾讯	HK	380.20	HKD
2	AAPL	苹果	US	197.00	USD
3	600519.SH	茅台	SH	900.20	CNY

如果一开始储存 df 的时候用 index=True，你会发现加载完后的 df2 是以下的样子。

df2 里面第一栏是 df 的 index，由于没有具体的 columns 名称，系统给它一个 “Unamed: 0”。因此在存储 df 的时候，如果 df.index 没有特意设定，记住要在 to_csv() 中把 index 设置为 False。

3 数据表的索引和切片

由于索引/切片 Series 跟 numpy 数组很类似，由于 Panel 在未来会被废掉，因此本节只专注于对 DataFrame 做索引和切片。本节以下面 df 为例做展示。

symbol = ['BABA', 'JD', 'AAPL', 'MS', 'GS', 'WMT']
data = {'行业': ['电商', '电商', '科技', '金融', '金融', '零售'],
        '价格': [176.92, 25.95, 172.97, 41.79, 196.00, 99.55],
        '交易量': [16175610, 27113291, 18913154, 10132145, 2626634, 8086946],
        '雇员': [101550, 175336, 100000, 60348, 36600, 2200000]}
df = pd.DataFrame( data, index=symbol )
df.name='美股'
df.index.name = '代号'
df

	行业	价格	交易量	雇员
代号
BABA	电商	176.92	16175610	101550
JD	电商	25.95	27113291	175336
AAPL	科技	172.97	18913154	100000
MS	金融	41.79	10132145	60348
GS	金融	196.00	2626634	36600
WMT	零售	99.55	8086946	2200000

用不同颜色标注了 df 的 index, columns 和 values，可视图如下：

DataFrame 的索引或切片可以基于标签 (label-based) ，也可以基于位置 (position-based)，不像 numpy 数组的索引或切片只基于位置。

DataFrame 的索引或切片有四大类：

索引单元素：
- 基于标签的 at
- 基于位置的 iat
切片 columns：
- 用 . 来切片单列
- 用 [] 来切片单列或多列
- 基于标签的 loc
- 基于位置的 iloc
切片 index：
- 用 [] 来切片单行或多行
- 基于标签的 loc
- 基于位置的 iloc
切片 index 和 columns：
- 基于标签的 loc
- 基于位置的 iloc

总体规律，基于标签就用 at 和 loc，基于位置就用 iat 和 iloc。下面我们来一类类分析：

3.1 索引单元素

两种方法来索引单元素，情况 1 基于标签 at，情况 2 基于位置 iat。
* 情况 1 - df.at[‘idx_i’, ‘attr_j’]
* 情况 2 - df.iat[i, j]

Python 里的中括号 [] 会代表很多意思，比如单元素索引，多元素切片，布尔索引等等，因此让 Python 猜你用的 [] 意图会很低效。如果你想索引单元素，明明白白的用 at 和 iat 效率最高。

情况1

df.at['AAPL', '价格']

172.97

用 at 获取「行标签」为 ‘AAPL’ 和「列标签」为 ‘价格’ 对应的元素。

情况 2

df.iat[2,1]

172.97

用 iat 获取第 3 行第 2 列对应的元素。

索引单元素的总结图：

3.2 切片 columns

切片单个 columns

切片单个 columns 会返回一个 Series，有以下四种情况。情况 1 用点 .；情况 2 用中括号 []；情况 3 基于标签 loc，情况 4 基于位置 iloc。

* 情况 1 - df.attr_i
* 情况 2 - df['attr_i']
* 情况 3 - df.loc[:, 'attr_i']
* 情况 4 - df.iloc[:, i]

情况 1 记住就可以了，没什么可说的。

情况 2 非常像二维 numpy 数组 arr 的切片，用 arr[i] 就能获取 arr 在「轴 0」上的第 i 个元素 (一个 1darray)，同理 df[‘attr_i’] 也能获取 df 的第 i 个 Series。

情况 3 和 4 的 loc 和 iloc 可类比于上面的 at 和 iat。带 i 的基于位置 (位置用整数表示，i 也泛指整数)，不带 i 的基于标签。里面的冒号 : 代表所有的 index (和 numpy 数组里的冒号意思相同)。

个人建议，如果追求简洁和方便，用 . 和 []；如果追求一致和清晰，用 loc 和 iloc。

df.价格

代号
BABA    176.92
JD       25.95
AAPL    172.97
MS       41.79
GS      196.00
WMT      99.55
Name: 价格, dtype: float64

df['价格']

代号
BABA    176.92
JD       25.95
AAPL    172.97
MS       41.79
GS      196.00
WMT      99.55
Name: 价格, dtype: float64

df.loc[:, '价格']

代号
BABA    176.92
JD       25.95
AAPL    172.97
MS       41.79
GS      196.00
WMT      99.55
Name: 价格, dtype: float64

df.iloc[:, 1]

代号
BABA    176.92
JD       25.95
AAPL    172.97
MS       41.79
GS      196.00
WMT      99.55
Name: 价格, dtype: float64

3.3 切片 index

切片单个index

切片单个 index 有时会返回一个 Series，有以下两种情况。情况 1 基于标签 loc，情况 2 基于位置 iloc。

情况 1 - df.loc[‘idx_i’, :]
情况 2 - df.iloc[i, :]

切片单个 index 有时会返回一个只有一行的 DataFrame，有以下两种情况。情况 3 用中括号 [] 加「位置」，情况 4 用中括号 [] 加「标签」。

情况 3 - df[i:i+1]
情况 4 - df[‘idx_i’:‘idx_i’]

情况 1 和 2 的 loc 和 iloc 可类比于上面的 at 和 iat。带 i 的基于位置 (位置用整数表示，i 也泛指整数)，不带 i 的基于标签。里面的冒号 : 代表所有的 columns (和 numpy 数组里的冒号意思相同)。

情况 3 用中括号 [] 加「位置」，位置 i:i+1 有前闭后开的性质。如果要获取第 i+1 行，需要用 i:i+1。

情况 4 用中括号 [] 加「标签」，标签没有前闭后开的性质。如果要获取标签 i，只需要用 ‘idx_i’:‘idx_i’。为什么不能只用 ‘idx_i’ 呢？原因是 Python 会把 df[‘idx_i’] 当成切片 columns，然后发现属性中没有 ‘idx_i’ 这一个字符，会报错的。

个人建议，只用 loc 和 iloc。情况 3 太麻烦，获取一行还要用 i:i+1。情况 4 的 df[‘idx_i’] 很容易和切片 columns 中的语句 df[‘attr_j’] 混淆。

df.loc['GS', :]

行业          金融
价格         196
交易量    2626634
雇员       36600
Name: GS, dtype: object

df.iloc[3, :]

行业           金融
价格        41.79
交易量    10132145
雇员        60348
Name: MS, dtype: object

df[1:2]

	行业	价格	交易量	雇员
代号
JD	电商	25.95	27113291	175336

df[‘JD’:‘JD’]

df['JD':'JD']

	行业	价格	交易量	雇员
代号
JD	电商	25.95	27113291	175336

切片多个index

切片多个 index 会返回一个 sub-DataFrame，有以下四种情况。情况 1 用中括号 [] 加「位置」，情况 2 用中括号 [] 加「标签」，情况 3 基于标签 loc，情况 4 基于位置 iloc。

情况 1 - df[i:j]
情况 2 - df[‘idx_i’:‘idx_j’]
情况 3 - df.loc[‘idx_i’:‘idx_j’, :]
情况 4 - df.iloc[i:j, :]

和切片单个 index 相比：

情况 1 用 [i:j] 来获取行 i+1 到行 j 的 sub-DataFrame
情况 2 用 [‘idx_i’:‘idx_j’] 来获取标签 i 到标签 j 的 sub-DataFrame
情况 3 用 loc 加 ‘idx_i’:‘idx_j’ 来获取从标签 i 到标签 j 的 sub-DataFrame
情况 4 用 iloc 加 i:j 来获取从行 i+1 到行 j 的 sub-DataFrame

个人建议，只用 loc 和 iloc。情况 1 和 2 的 df[] 很容易混淆中括号 [] 里的到底是切片 index 还是 columns。

df[1: 4]

	行业	价格	交易量	雇员
代号
JD	电商	25.95	27113291	175336
AAPL	科技	172.97	18913154	100000
MS	金融	41.79	10132145	60348

df['GS': 'WMT']

	行业	价格	交易量	雇员
代号
GS	金融	196.00	2626634	36600
WMT	零售	99.55	8086946	2200000

df.loc[ 'MS':'GS', : ]

	行业	价格	交易量	雇员
代号
MS	金融	41.79	10132145	60348
GS	金融	196.00	2626634	36600

df.iloc[ 1:3, : ]

	行业	价格	交易量	雇员
代号
JD	电商	25.95	27113291	175336
AAPL	科技	172.97	18913154	100000

3.4 切片 index 和 columns

切片多个 index 和 columns 会返回一个 sub-DataFrame，有以下两种情况。情况 1 基于标签 loc，情况 2 基于位置 iloc。

情况 1 - df.loc[‘idx_i’:‘idx_j’, ‘attr_k’:‘attr_l’]
情况 2 - df.iloc[i:j, k:l]

清清楚楚，明明白白，用 loc 和 iloc。


df.loc[ 'GS':'WMT', '价格':]

	价格	交易量	雇员
代号
GS	196.00	2626634	36600
WMT	99.55	8086946	2200000

df.iloc[ :2, 1:3 ]

	价格	交易量
代号
BABA	176.92	16175610
JD	25.95	27113291

3.5 高级索引

高级索引 (advanced indexing) 可以用布尔索引 (boolean indexing) 和调用函数 (callable function) 来实现，两种方法都返回一组“正确”的索引，而且可以和 loc , iloc , [] 一起套用，具体形式有以下常见几种：

df.loc[布尔索引, :]
df.iloc[布尔索引, :]
df[布尔索引]
df.loc[调用函数, :]
df.iloc[调用函数, :]
df[调用函数]

还有以下罕见几种：

df.loc[:, 布尔索引]
df.iloc[:, 布尔索引]
df.loc[:, 调用函数]
df.iloc[:, 调用函数]

读者可以想一想为什么第一组形式「常见」而第二组形式「罕见」呢？(Hint: 看看两组里冒号 : 在不同位置，再想想 DataFrame 每一行和每一列中数据的特点)

布尔索引

在〖数组计算之 NumPy (上)〗提过，布尔索引就是用一个由布尔类型值组成的数组来选择元素的方法。

当我们要过滤掉雇员小于 100,000 人的公司，我们可以用 loc 加上布尔索引。

print(df.雇员 >= 100000)
df.loc[df.雇员 >= 100000]

代号
BABA     True
JD       True
AAPL     True
MS      False
GS      False
WMT      True
Name: 雇员, dtype: bool

	行业	价格	交易量	雇员
代号
BABA	电商	176.92	16175610	101550
JD	电商	25.95	27113291	175336
AAPL	科技	172.97	18913154	100000
WMT	零售	99.55	8086946	2200000

一种更简便的表达形式是用 df[]，但是我个人不喜欢 []，总觉得会引起「到底在切片 index 还是 columns」的歧义。


df[ df.雇员 >= 100000 ]

	行业	价格	交易量	雇员
代号
BABA	电商	176.92	16175610	101550
JD	电商	25.95	27113291	175336
AAPL	科技	172.97	18913154	100000
WMT	零售	99.55	8086946	2200000

现在来看一个「罕见」例子，假如我们想找到所有值为整数型的 columns


print( df.dtypes == 'int64' )
df.loc[ :, df.dtypes == 'int64' ]

行业     False
价格     False
交易量     True
雇员      True
dtype: bool

	交易量	雇员
代号
BABA	16175610	101550
JD	27113291	175336
AAPL	18913154	100000
MS	10132145	60348
GS	2626634	36600
WMT	8086946	2200000

调用函数

调用函数是只能有一个参数 (DataFrame, Series) 并返回一组索引的函数。因为调用函数定义在 loc , iloc , [] 里面，因此它就像在〖Python 入门篇 (下)〗提过的匿名函数。

当我们要找出交易量大于平均交易量的所有公司，我们可以用 loc 加上匿名函数 (这里 x 代表 df)。

df.loc[lambda x: x.交易量 > x.交易量.mean(), :]

	行业	价格	交易量	雇员
代号
BABA	电商	176.92	16175610	101550
JD	电商	25.95	27113291	175336
AAPL	科技	172.97	18913154	100000

在上面基础上再加一个条件 – 价格要在 100 之上 (这里 x 还是代表 df)

df.loc[lambda x: (x.交易量 > x.交易量.mean()) & (x.价格 > 100),: ]

	行业	价格	交易量	雇员
代号
BABA	电商	176.92	16175610	101550
AAPL	科技	172.97	18913154	100000

最后来看看价格大于 100 的股票 (注意这里 x 代表 df.价格)

df.价格.loc[lambda x: x>100]

代号
BABA    176.92
AAPL    172.97
GS      196.00
Name: 价格, dtype: float64

3.6 多层索引

在 Panel 那节已经提到过，多层索引可以将「低维数据」升维到「高维数据」，此外，多层索引还可以。。。。

多层索引 Series

首先定义一个 Series，注意它的 index 是一个二维列表，列表第一行 dates 作为第一层索引，第二行 codes 作为第二层索引。

price = [190,32,196,192,200,189,31,30,199]
dates = ['2019-04-01']*3 + ['2019-04-02']*2 + ['2019-04-03']*2 + ['2019-04-04']*2
codes = ['BABA','JD','GS','BABA','GS','BABA','JD','JD','GS']

data = pd.Series( price,
                  index=[ dates, codes ])
data

2019-04-01  BABA    190
            JD       32
            GS      196
2019-04-02  BABA    192
            GS      200
2019-04-03  BABA    189
            JD       31
2019-04-04  JD       30
            GS      199
dtype: int64

这个 Series 存储了四天里若干股票的价格，2019-04-01 储存了阿里巴巴、京东和高盛的股价，2019-04-04 只储存了京东和高盛的股价。试想，如果不用多层索引的 Series，我们需要用一个 DataFrame 来存储在这样的数据，把 index 设置成 dates，把 colums 设置成 codes。

让我们看看 Series 的多层 index 是如何表示的

data.index

MultiIndex(levels=[['2019-04-01', '2019-04-02', '2019-04-03', '2019-04-04'], ['BABA', 'GS', 'JD']],
           labels=[[0, 0, 0, 1, 1, 2, 2, 3, 3], [0, 2, 1, 0, 1, 0, 2, 2, 1]])

输出是一个 MultiIndex 的对象，里面有 levels 和 labels 二类信息。

知识点
索引既然分多层，那么肯定分「内层」和「外层」把，levels 就是描述层的先后的。levels 是一个二维列表，每一行只存储着「唯一」的索引信息：

dates 是第一层索引，有 4 个「唯一」元素
codes 是第二层索引，有 3 个「唯一」元素

但是 data 里面有九行啊，4 个 dates 和 3 个 codes 怎么能描述这九行信息呢？这就需要 labels 了。labels 也是一个二维列表：

第一行储存 dates 每个元素在 data 里的位置索引
第二行储存 codes 每个元素在 data 里的位置索引

data['2019-04-02']

BABA    192
GS      200
dtype: int64

同理，用 loc 加第一层索引也可以切片获取第一层信息。

data.loc['2019-04-02':'2019-04-04']

2019-04-02  BABA    192
            GS      200
2019-04-03  BABA    189
            JD       31
2019-04-04  JD       30
            GS      199
dtype: int64

此外，切片还可以在不同层上进行，下面 loc 中的冒号 : 表示第一层所有元素，‘GS’ 表示第二层标签为 ‘GS’。


data.loc[ :, 'GS' ]

2019-04-01    196
2019-04-02    200
2019-04-04    199
dtype: int64

多层索引 DataFrame

Series 只有 index，上面刚介绍完多层 index，DataFrame 有 index 和 columns，它们可以设置成多层吗？下面代码用 MultiIndex 函数创建「多层 index 」midx 和「多层columns」mcol。

midx 和 mcol 都是对象，各种都有 levels, labels, names 等性质。

data = [ ['电商', 101550, 176.92, 16175610], 
         ['电商', 175336, 25.95, 27113291], 
         ['金融', 60348, 41.79, 10132145], 
         ['金融', 36600, 196.00, 2626634] ]

midx = pd.MultiIndex( 
          levels=[['中国','美国'],
                  ['BABA', 'JD', 'GS', 'MS']], 
          labels=[[0,0,1,1],[0,1,2,3]],
          names=['地区', '代号'])

mcol = pd.MultiIndex( 
          levels=[['公司数据','交易数据'],
                  ['行业','雇员','价格','交易量']], 
          labels=[[0,0,1,1],[0,1,2,3]],
          names=['概括','细分'])

df = pd.DataFrame(data, index=midx, columns=mcol)
df

	概括	公司数据		交易数据
	细分	行业	雇员	价格	交易量
地区	代号
中国	BABA	电商	101550	176.92	16175610
中国	JD	电商	175336	25.95	27113291
美国	GS	金融	60348	41.79	10132145
美国	MS	金融	36600	196.00	2626634

这个 DataFrame 的 index 和 columns 都有两层，严格来说是个四维数据。下面看看如何进行「多层索引」的操作吧。

在第一层 columns 的 ‘公司数据’ 和第二层 columns 的 ‘行业’ 做索引，得到一个含两层 index 的 Series。

df['公司数据','行业']

地区  代号  
中国  BABA    电商
    JD      电商
美国  GS      金融
    MS      金融
Name: (公司数据, 行业), dtype: object

在第一层 index 的 ‘中国’ 做切片，得到一个含两层 columns 的 DataFrame。

df.loc['中国'].loc['BABA':'JD']

概括	公司数据		交易数据
细分	行业	雇员	价格	交易量
代号
BABA	电商	101550	176.92	16175610
JD	电商	175336	25.95	27113291

调位 level

如果你不喜欢 index level 的顺序，可用 swaplevel 将它们调位。


df.swaplevel('地区', '代号')

	概括	公司数据		交易数据
	细分	行业	雇员	价格	交易量
代号	地区
BABA	中国	电商	101550	176.92	16175610
JD	中国	电商	175336	25.95	27113291
GS	美国	金融	60348	41.79	10132145
MS	美国	金融	36600	196.00	2626634

如果你不喜欢 columns level 的顺序，也可用 swaplevel 将它们调位。

df.columns = df.columns.swaplevel(0,1)
df

	细分	行业	雇员	价格	交易量
	概括	公司数据	公司数据	交易数据	交易数据
地区	代号
中国	BABA	电商	101550	176.92	16175610
中国	JD	电商	175336	25.95	27113291
美国	GS	金融	60348	41.79	10132145
美国	MS	金融	36600	196.00	2626634

重设 index

有时候，一个 DataFrame 的一个或者多个 columns 适合做 index，这时可用 set_index 将它们设置为 index，如果要将 index 还原成 columns，那么用 reset_index 。

看下面这个例子。

data = {'地区': ['中国', '中国', '美国', '美国'],
        '代号': ['BABA', 'JD', 'MS', 'GS'],
        '行业': ['电商', '电商', '金融', '金融'],
        '价格': [176.92, 25.95, 41.79, 196.00],
        '交易量': [16175610, 27113291, 10132145, 2626634],
        '雇员': [101550, 175336, 60348, 36600] }
df = pd.DataFrame( data )
df

	地区	代号	行业	价格	交易量	雇员
0	中国	BABA	电商	176.92	16175610	101550
1	中国	JD	电商	25.95	27113291	175336
2	美国	MS	金融	41.79	10132145	60348
3	美国	GS	金融	196.00	2626634	36600

将「地区」和「代号」设置为第一层 index 和第二层 index。

df2 = df.set_index( ['地区','代号'] )
df2

		行业	价格	交易量	雇员
地区	代号
中国	BABA	电商	176.92	16175610	101550
中国	JD	电商	25.95	27113291	175336
美国	MS	金融	41.79	10132145	60348
美国	GS	金融	196.00	2626634	36600

将所有 index 变成 columns。

df2.reset_index()

	地区	代号	行业	价格	交易量	雇员
0	中国	BABA	电商	176.92	16175610	101550
1	中国	JD	电商	25.95	27113291	175336
2	美国	MS	金融	41.79	10132145	60348
3	美国	GS	金融	196.00	2626634	36600

4 总结

Pandas 里面的数据结构是多维数据表，细化为一维的 Series，二维的 DataFrame，三维的 Panel。

多维数据表 = 多维数组 + 描述

其中

Series = 1darray + index
DataFrame = 2darray + index + columns
Panel = 3darray + index + columns + item

pd 多维数据表和 np 多维数组之间的类比关系如下图所示。

【创建数据表】创建 Series, DataFrame, Panel 用下面语句

pd.Series(x, index=idx)
pd.DataFrame(x, index=idx, columns=col)
pd.Panel(x, item=itm, major_axis=n1, minor_axis=n2)

DataFrame 由多个 Series 组成，Panel 有多个 DataFrame 组成。Series 非常类似于一维的 DataFrame，Panel 未来会被废掉，因此学 Pandas 把注意力放在 DataFrame 上即可。

【索引和切片数据表】在索引或切片 DataFrame，有很多种方法。最好记的而不易出错的是用基于位置的 at 和 loc，和基于标签的 iat 和 iloc，具体来说，索引用 at 和 iat，切片用 loc 和 iloc。带 i 的基于位置，不带 i 的基于标签。

用 MultiIndex 可以创建多层索引的对象，获取 DataFrame df 的信息可用

df.loc[1st].loc[2nd]
df.loc[1st].iloc[2nd]
df.iloc[1st].loc[2nd]
df.iloc[1st].iloc[2nd]

要调换 level 可用

df.index.swaplevel(0,1)
df.columns.swaplevel(0,1)

要设置和重设 index 可用

df.set_index( columns )
df.reset_index

下篇讨论 Pandas 系列的后三节，分别是

「数据表的合并和连接」
「数据表的重塑和透视」
「数据表的分组和整合」

你可能感兴趣的:(python3,学习路上,python教程系列,python教程,pandas)

python构造函数 yimaoyingbi python学习 python 构造函数
classEmployee:def__init__(self,name,age):self.name=nameself.__age=ageprint("您好")def__work(self):print("疫情严重，在家学习")print("年龄：{0}".format(self.__age))e=Employee("gaoqi",18)e._Employee__work()构造函数和普通函数的区
chatgpt赋能python：Python构造函数详解 www_xuhss_com ChatGpt chatgpt 计算机
Python构造函数详解在Python中，构造函数是一种特殊的函数，用于创建类的实例并初始化其属性。Python构造函数的名称为__init__，它在创建类的实例时自动调用。本篇文章将全面介绍Python构造函数的重要性及其使用方法。为什么需要构造函数？当我们创建一个类的实例时，通常需要初始化它的一些属性。如果没有构造函数，我们必须手动初始化每一个属性变量，这显然会很麻烦，并且容易出现错误。所以，
python中的构造函数 weixin_30770495 python
python中构造函数可以这样写classclassname（）：def——init——（self）：#构造函数函数体转载于:https://www.cnblogs.com/begoogatprogram/p/4649076.html
python类重载构造函数_Python：重载构造方法炒锅电解氯化钠 python类重载构造函数
对于使用过C++的人来说，构造函数与析构函数不会陌生。构造函数在对象创建时被调用，析构函数在对象被销毁时被调用。而Python中也有类似的特殊函数：__new__，__init__，__del__。其中__new__与__init__共同构成了C++中的构造函数，__del__为析构函数。__new__在对象被创建时被调用，而__init__在对象被初始化时被调用。__new__的第一个参数是对象
FDTD：基于Python的电磁场模拟开源库教程邱进斌Olivia
FDTD：基于Python的电磁场模拟开源库教程项目地址:https://gitcode.com/gh_mirrors/fd/fdtd项目介绍FDTD（Finite-DifferenceTime-Domain）是一个致力于电磁场仿真的开源项目，由flaport维护。此项目基于Python语言，提供了一套灵活且强大的工具集，用于解决各种电磁学问题，包括但不限于光学、射频以及微波工程中的传播、散射等问
【Python进阶】Python字典添加元素的两种方法。{附带源码+案例} 「已注销」 python 开发语言
引言在Python中，字典（Dictionary）是一种可变的容器模型，且可存储任意类型对象。字典的每个元素都是一个键值对（key-valuepair），其中键（key）必须是唯一的，而值（value）则不必。向字典中添加元素可以通过几种方式实现，但最常用的是通过直接赋值或使用update()方法。直接赋值这是向字典中添加元素最简单直接的方法。如果键已存在，则更新其对应的值；如果键不存在，则添加新
【Python配置环境变量】2024最新版Python安装教程（附带详细步骤）！！！「已注销」 python 开发语言
一、Python安装1、访问官网打开浏览器，访问Python官网。2、下载Python安装包2.1、在官网首页，找到并点击“Downloads”按钮。2.2、根据您的操作系统（Windows、macOS、Linux等）选择合适的版本。对于Windows用户，通常会看到“Windowsx86-64executableinstaller”（64位）和“Windowsx86executableinsta
python：构造函数听海边涛声 python 开发语言
Python构造函数是类中的一个实例方法，每当创建该类的新对象时，它都会被自动调用。构造函数的作用是在对象被声明时立即为实例变量赋值。Python使用一个特殊的方法__init__()来初始化对象实例变量，该方法在对象被声明时立即调用。创建构造函数__init__()方法充当构造函数。它需要一个强制性的参数，名为self，这是对对象的引用，其格式为：def__init__(self,参数,参数,.
python 读取内存_python内存读写 weixin_39981360 python 读取内存
广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！也就是说，所有的解释器可以同时读写数据，在一个解释器中对数据做出的修改会自动反映到其他解释器上。虽然还需要一些额外的步骤来处理同步问题，但是有时候可以使用这种方法作为通过管道或者socket传输数据的替代方案。以上这篇python内存映射文件读写方式就是小编分享给大家的全部内容了，希望
基于Python的智能决策支持系统：实现智能化决策的关键要素 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录基于Python的智能决策支持系统：实现智能化决策的关键要素11.背景介绍2.核心概念与联系数据收集与预处理模型构建与训练决策规则生成与优化决策结果评估与反馈3.核心算法原理具体操作步骤数据挖掘算法机器学习算法优化算法4.数学模型和公式详细讲解举例说明线性回归模型最小二乘法5.项目实践：代码实例和详细解释说明6.实际应用场景金融领域医疗领域供应链管理智能制造7.工具和资源推荐编程语言和开发
python 读取配置文件 Pure Ven python 编程语言 python
Python读取配置文件并打印文件信息配置文件field_len.conf内容为：[ddl_max_len]NUMBER_MAX_LEN=10VARCHAR2_MAX_LEN=1024[dml_max_len]NUMBER_MAX_LEN=10VARCHAR2_MAX_LEN=1024BLOB_MAX_LEN=500MFLOAT_MAX_LEN=P20S8DATE=12TIMESTAMP(6)=1
python爬虫之scrapy框架入门，万字教学，从零开始到实战演练，超详细！！！（21）盲敲代码的阿豪 python之爬虫系统教学 python 爬虫 scrapy
文章目录前言1、scrapy的概念和流程1.1学习目标1.2scrapy的概念1.3scrapy框架的作用1.4scrapy的工作流程1.5总结2、scrapy的入门使用2.1学习目标2.2安装scrapy框架2.3scrapy项目开发流程2.4创建项目2.5创建爬虫文件2.6scrapy项目文件说明2.7案例演示2.8实战案例（抓取链家租房信息，存入本地）2.8.1修改items.py文件，在这
【ai】mocap：conda 安装python3.8+ cuda+ pytorch+torchaudio、torchvision 等风来不如迎风去 AI入门与实战人工智能 ubuntu conda
MotionCapubuntu18.04不知道为啥会依赖于ffmpeg、xorg渲染？安装pytorch就是会带上cudacudnn啥的pytorch【ai】tx2nx：安装torch、torchvisionforyolov5这里就发现pytorch和torchvision有依赖关系的，还涉及到rapidjson所以python的环境隔离很重要。核心库-cudatoolkit=11.3-pytor
python 数据可视化matplotib库安装与使用范哥来了信息可视化 python 开发语言
要使用matplotlib库进行数据可视化，首先你需要确保已经安装了该库。如果你还没有安装，可以通过Python的包管理器pip来安装它。在你的命令行工具中运行以下命令来安装matplotlib：pipinstallmatplotlib安装完成后，你就可以开始使用matplotlib来创建图表了。下面是一个简单的例子，演示如何使用matplotlib绘制一个基本的折线图。这个例子可以被添加到你当前
python读取配置参数的多种方式 WYRM_GOLD python
使用多个配置文件：根据不同的环境（如开发、测试、生产）使用不同的配置文件。使用环境变量：利用操作系统的环境变量来获取参数。使用命令行参数：根据传入的命令行参数选择配置。使用JSON或YAML文件：配置文件可以使用JSON或YAML格式，支持多种环境的变量。方法1、使用多个配置文件假设有两个配置文件：config_dev.ini和config_prod.ini。config_dev.ini:[DEF
python 数据可视化TVTK库安装与使用范哥来了信息可视化 python 开发语言
TVTK（Traits-basedVisualizationToolKit）是一个基于Python的可视化库，它为VTK（VisualizationToolkit）提供了一个更易于使用的接口。VTK本身是非常强大的可视化工具，但使用起来可能稍微复杂一些，而TVTK通过简化API来提高易用性。下面我将指导您如何安装TVTK以及一个简单的示例来展示其基本用法。安装TVTKTVTK可以通过pip轻松安装
python web开发flask库安装与使用范哥来了 python 前端 flask
要在Python中使用Flask进行Web开发，首先需要安装Flask库。Flask是一个轻量级的Web框架，它使开发者能够快速构建网站或web服务。下面是安装Flask和创建一个简单的Flask应用程序的基本步骤。安装Flask确保您的环境中已经安装了Python（推荐版本3.7或更高）。接着，您可以通过pip来安装Flask。打开命令行工具（如终端或命令提示符），然后执行以下命令：pipins
Pytorch使用手册—扩展 TorchScript 使用自定义 C++ 操作符（专题五十三） AI专题精讲 Pytorch入门到精通 pytorch c++人工智能
提示本教程自PyTorch2.4起已弃用。有关PyTorch自定义操作符的最新指南，请参阅PyTorch自定义操作符。PyTorch1.0版本引入了一种名为TorchScript的新编程模型。TorchScript是Python编程语言的一个子集，可以被TorchScript编译器解析、编译和优化。此外，编译后的TorchScript模型可以选择序列化为磁盘文件格式，随后你可以从纯C++（以及Py
基于Wasm的边缘计算Pandas：突破端侧AI的最后一公里——让数据分析在手机、IoT设备上飞驰 Eqwaak00 Pandas 人工智能 wasm 边缘计算 pandas 架构深度学习
引言：边缘计算的算力觉醒在智能家居设备每秒产生数万条传感器数据、手机App需要实时分析用户行为的今天，传统云计算模式面临高延迟、隐私风险、带宽成本三大挑战。本文将揭示如何通过WebAssembly（Wasm）+Pandas的技术组合，在边缘设备上实现零云端依赖的实时数据分析，并通过智慧工厂设备预测性维护案例，展示从理论到工程的全链路实现。一、技术架构设计1.1边缘计算范式演进mermaid：gra
Pybind11教程：从零开始打造 Python 的 C++ 小帮手 Yc9801 c++开发语言
参考官网文档：https://pybind11.readthedocs.io/en/stable/index.html一、Pybind11是什么？想象你在Python里写了个计算器，但跑得太慢，想用C++提速，又不想完全抛弃Python。Pybind11就像一座桥，把C++的高性能代码“嫁接”到Python里。你可以用Python调用C++函数，就像请了个跑得飞快的帮手来干活。主要功能：绑定函数：
python自定义函数的参数有多种类型_python自定义函数的参数之四种表现形式 weixin_39860755
(1)defa(x,y):printx,y这是最常见的定义方式，调用该函数，a(1,2)则x取1，y取2，形参与实参相对应，如果a(1)或者a(1,2,3)则会报错(2)defa(x,y=3):printx,y提供了默认值，调用该函数，a(1,2)同样还是x取1，y取2，但是如果a(1)，则不会报错了。上面这俩种方式，还可以更换参数位置，比如a(y=4,x=3)用这种形式也是可以的如果是defa(
Python文件操作红虾程序员 Python python
在Python中文件操作是一项基础且重要的功能，它主要包括打开、读写、关闭等操作。1.打开文件使用open()函数来打开文件，其基本语法如下： f=open(file_path,mode,encoding=None)f：是open函数的文件对象，拥有属性和方法。file_path：文件的路径，可以是相对路径或绝对路径。mode：打开文件的模式，常见的模式有：r：以只读模式打开文件，文件指针会放在文
Windows使用Browser Use笔记人工智能ai开发
相关文档：https://docs.browser-use.com/quickstart首先安装UV命令行cmdpowershell-ExecutionPolicyByPass-c"irmhttps://astral.sh/uv/install.ps1|iex"设置环境变量setPath=C:\xx\.local\bin;%Path%查看版本uv-V查看可用和已安装的Python版本uvpytho
excel文件有两列，循环读取文件两列赋值到字典列表。字典的有两个key,分别为question和answer。将最终结果输出到json文件大霞上仙 python excel json python
importpandasaspdimportjson#1.读取Excel文件（假设列名为question和answer）try:df=pd.read_excel("input.xlsx",usecols=["question","answer"])#明确指定列exceptExceptionase:print(f"读取文件失败:{str(e)}")exit()#2.转换为字典列表result=[{"
查看 CUDA cudnn 版本查看Navicat GPU版本 FergusJ 备份 python 开发语言
查看显卡型号：lspci|grepVGA（lspci是linux查看硬件信息的命令），屏幕会打印出主机的集显几独显信息python中查看显卡型号fromtensorflow.python.clientimportdevice_libdevice_lib.list_local_devices()
python函数的多种参数使用形式红虾程序员 Python python 开发语言 pycharm
目录1.位置参数（PositionalArguments）2.关键字参数（KeywordArguments）3.默认参数（DefaultArguments）4.可变参数（VariablePositionalArguments）5.关键字可变参数（VariableKeywordArguments）6.特殊用法：传递列表或字典作为参数Python中函数的参数使用形式非常灵活，主要包括以下几种类型：位置
【附JS、Python、C++题解】Leetcode面试150题（7） moz与京 leetcode整理 javascript python c++
一、题目167.两数之和II-输入有序数组给你一个下标从1开始的整数数组numbers，该数组已按非递减顺序排列，请你从数组中找出满足相加之和等于目标数target的两个数。如果设这两个数分别是numbers[index1]和numbers[index2]，则1targetIndex(vectornums,inttarget){intlength=nums.size();if(length<2){
量化交易api有哪些类型？如何选择适合自己的量化交易api？股票程序化交易接口量化交易股票API接口 Python股票量化交易区块链量化交易 api类型选择数据获取股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>量化交易API的主要类型量化交易依赖大量数据，数据获取型API就显得尤为重要。这种类型的API能够连接到各种数据源，如股票市场数据、期货数据等。它可以为交易者提供实时价格数据、历史数据等。一些API能从各大证券交易所获取股票的最新成交
python读取excel数据和提取图片我就是全世界 python excel 开发语言
1.引言1.1日常工作中Excel的使用在现代办公环境中，Excel（电子表格软件）是数据管理和分析的重要工具之一。无论是财务报表、销售数据、项目管理还是日常报告，Excel都扮演着不可或缺的角色。其强大的数据处理能力、灵活的格式设置以及丰富的图表功能，使得Excel成为各行各业专业人士的首选工具。Excel的主要功能包括：数据录入与管理：用户可以轻松输入、编辑和管理大量数据。数据分析：通过内置的
从 0 开始使用 cursor 开发一个移动端跨平台应用程序沐怡旸 react native
1.安装必要的工具和环境在开始之前，确保你的开发环境已经安装了以下工具：a.安装Node.js和npmReactNative依赖Node.js和npm（NodePackageManager）。你可以从Node.js官网下载并安装最新版本。b.安装PythonReactNative的Android开发需要Python。确保你已经安装了Python2.7或Python3.x。c.安装Java环境Rea
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {