Dragon Wu

Pandas 基础知识

第二章 pandas基础

一、文件的读取和写入

1. 文件读取

2. 数据写入

二、基本数据结构

1. Series

2. DataFrame

三、常用基本函数

1. 汇总函数

2. 特征统计函数

3. 唯一值函数

4. 替换函数

5. 排序函数

6. apply方法

四、窗口对象

1. 滑窗对象

2. 扩张窗口

五、练习

Ex1：口袋妖怪数据集

Ex2：指数加权窗口

第二章 pandas基础

import numpy as np

import pandas as pd

在开始学习前，请保证pandas的版本号不低于如下所示的版本，否则请务必升级！请确认已经安装了xlrd, xlwt, openpyxl这三个包，其中xlrd版本不得高于2.0.0。

pd.__version__

[2]:

'1.1.5'

一、文件的读取和写入

1. 文件读取

pandas可以读取的文件格式有很多，这里主要介绍读取csv, excel, txt文件。

df_csv = pd.read_csv('../data/my_csv.csv')

df_csv

[3]:

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

	col1	col2	col3	col4	col5
0	2	a	1.4	apple	2020/1/1
1	3	b	3.4	banana	2020/1/2
2	6	c	2.5	orange	2020/1/5
3	5	d	3.2	lemon	2020/1/7

df_txt = pd.read_table('../data/my_table.txt')

df_txt

[4]:

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

	col1	col2	col3	col4
0	2	a	1.4	apple 2020/1/1
1	3	b	3.4	banana 2020/1/2
2	6	c	2.5	orange 2020/1/5
3	5	d	3.2	lemon 2020/1/7

df_excel = pd.read_excel('../data/my_excel.xlsx')

df_excel

[5]:

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

	col1	col2	col3	col4	col5
0	2	a	1.4	apple	2020/1/1
1	3	b	3.4	banana	2020/1/2
2	6	c	2.5	orange	2020/1/5
3	5	d	3.2	lemon	2020/1/7

这里有一些常用的公共参数，header=None表示第一行不作为列名，index_col表示把某一列或几列作为索引，索引的内容将会在第三章进行详述，usecols表示读取列的集合，默认读取所有的列，parse_dates表示需要转化为时间的列，关于时间序列的有关内容将在第十章讲解，nrows表示读取的数据行数。上面这些参数在上述的三个函数里都可以使用。

pd.read_table('../data/my_table.txt', header=None)

[6]:

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

	0	1	2	3
0	col1	col2	col3	col4
1	2	a	1.4	apple 2020/1/1
2	3	b	3.4	banana 2020/1/2
3	6	c	2.5	orange 2020/1/5
4	5	d	3.2	lemon 2020/1/7

pd.read_csv('../data/my_csv.csv', index_col=['col1', 'col2'])

[7]:

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

		col3	col4	col5
col1	col2
2	a	1.4	apple	2020/1/1
3	b	3.4	banana	2020/1/2
6	c	2.5	orange	2020/1/5
5	d	3.2	lemon	2020/1/7

pd.read_table('../data/my_table.txt', usecols=['col1', 'col2'])

[8]:

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

	col1	col2
0	2	a
1	3	b
2	6	c
3	5	d

pd.read_csv('../data/my_csv.csv', parse_dates=['col5'])

[9]:

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

	col1	col2	col3	col4	col5
0	2	a	1.4	apple	2020-01-01
1	3	b	3.4	banana	2020-01-02
2	6	c	2.5	orange	2020-01-05
3	5	d	3.2	lemon	2020-01-07

pd.read_excel('../data/my_excel.xlsx', nrows=2)

[10]:

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

	col1	col2	col3	col4	col5
0	2	a	1.4	apple	2020/1/1
1	3	b	3.4	banana	2020/1/2

在读取txt文件时，经常遇到分隔符非空格的情况，read_table有一个分割参数sep，它使得用户可以自定义分割符号，进行txt数据的读取。例如，下面的读取的表以||||为分割：

pd.read_table('../data/my_table_special_sep.txt')

[11]:

, , , , , , , , , , , , , , , , , , , , , , , , , , ,

	col1 \|\|\|\| col2
0	TS \|\|\|\| This is an apple.
1	GQ \|\|\|\| My name is Bob.
2	WT \|\|\|\| Well done!
3	PT \|\|\|\| May I help you?

上面的结果显然不是理想的，这时可以使用sep，同时需要指定引擎为python：

pd.read_table('../data/my_table_special_sep.txt', sep=' \|\|\|\| ', engine='python')

[12]:

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

	col1	col2
0	TS	This is an apple.
1	GQ	My name is Bob.
2	WT	Well done!
3	PT	May I help you?

【WARNING】sep是正则参数

在使用read_table的时候需要注意，参数sep中使用的是正则表达式，因此需要对|进行转义变成\|，否则无法读取到正确的结果。有关正则表达式的基本内容可以参考第八章或者其他相关资料。

【END】

2. 数据写入

一般在数据写入中，最常用的操作是把index设置为False，特别当索引没有特殊意义的时候，这样的行为能把索引在保存的时候去除。

df_csv.to_csv('../data/my_csv_saved.csv', index=False)

df_excel.to_excel('../data/my_excel_saved.xlsx', index=False)

pandas中没有定义to_table函数，但是to_csv可以保存为txt文件，并且允许自定义分隔符，常用制表符\t分割：

df_txt.to_csv('../data/my_txt_saved.txt', sep='\t', index=False)

如果想要把表格快速转换为markdown和latex语言，可以使用to_markdown和to_latex函数，此处需要安装tabulate包。

print(df_csv.to_markdown())

|    |   col1 | col2   |   col3 | col4   | col5     |

|---:|-------:|:-------|-------:|:-------|:---------|

|  0 |      2 | a      |    1.4 | apple  | 2020/1/1 |

|  1 |      3 | b      |    3.4 | banana | 2020/1/2 |

|  2 |      6 | c      |    2.5 | orange | 2020/1/5 |

|  3 |      5 | d      |    3.2 | lemon  | 2020/1/7 |

print(df_csv.to_latex())

\begin{tabular}{lrlrll}

\toprule

{} &  col1 & col2 &  col3 &    col4 &      col5 \\

\midrule

0 &     2 &    a &   1.4 &   apple &  2020/1/1 \\

1 &     3 &    b &   3.4 &  banana &  2020/1/2 \\

2 &     6 &    c &   2.5 &  orange &  2020/1/5 \\

3 &     5 &    d &   3.2 &   lemon &  2020/1/7 \\

\bottomrule

\end{tabular}

二、基本数据结构

pandas中具有两种基本的数据存储结构，存储一维values的Series和存储二维values的DataFrame，在这两种结构上定义了很多的属性和方法。

1. Series

Series一般由四个部分组成，分别是序列的值data、索引index、存储类型dtype、序列的名字name。其中，索引也可以指定它的名字，默认为空。

s = pd.Series(data = [100, 'a', {'dic1':5}],

              index = pd.Index(['id1', 20, 'third'], name='my_idx'),

              dtype = 'object',

              name = 'my_name')

[17]:

my_idx
,id1              100
,20                 a
,third    {'dic1': 5}
,Name: my_name, dtype: object

【NOTE】object类型

object代表了一种混合类型，正如上面的例子中存储了整数、字符串以及Python的字典数据结构。此外，目前pandas把纯字符串序列也默认认为是一种object类型的序列，但它也可以用string类型存储，文本序列的内容会在第八章中讨论。

【END】

对于这些属性，可以通过 . 的方式来获取：

s.values

[18]:

array([100, 'a', {'dic1': 5}], dtype=object)

s.index

[19]:

Index(['id1', 20, 'third'], dtype='object', name='my_idx')

s.dtype

[20]:

dtype('O')

s.name

[21]:

'my_name'

利用.shape可以获取序列的长度：

s.shape

[22]:

(3,)

索引是pandas中最重要的概念之一，它将在第三章中被详细地讨论。如果想要取出单个索引对应的值，可以通过[index_item]可以取出。

2. DataFrame

DataFrame在Series的基础上增加了列索引，一个数据框可以由二维的data与行列索引来构造：

data = [[1, 'a', 1.2], [2, 'b', 2.2], [3, 'c', 3.2]]

df = pd.DataFrame(data = data,

                  index = ['row_%d'%i for i in range(3)],

                  columns=['col_0', 'col_1', 'col_2'])

df

[23]:

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

	col_0	col_1	col_2
row_0	1	a	1.2
row_1	2	b	2.2
row_2	3	c	3.2

但一般而言，更多的时候会采用从列索引名到数据的映射来构造数据框，同时再加上行索引：

df = pd.DataFrame(data = {'col_0': [1,2,3],

                          'col_1':list('abc'),

                          'col_2': [1.2, 2.2, 3.2]},

                  index = ['row_%d'%i for i in range(3)])

df

[24]:

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

	col_0	col_1	col_2
row_0	1	a	1.2
row_1	2	b	2.2
row_2	3	c	3.2

由于这种映射关系，在DataFrame中可以用[col_name]与[col_list]来取出相应的列与由多个列组成的表，结果分别为Series和DataFrame：

df['col_0']

[25]:

row_0    1
,row_1    2
,row_2    3
,Name: col_0, dtype: int64

df[['col_0', 'col_1']]

[26]:

, , , , , , , , , , , , , , , , , , , , , , , , , , ,

	col_0	col_1
row_0	1	a
row_1	2	b
row_2	3	c

与Series类似，在数据框中同样可以取出相应的属性：

df.values

[27]:

array([[1, 'a', 1.2],
,       [2, 'b', 2.2],
,       [3, 'c', 3.2]], dtype=object)

df.index

[28]:

Index(['row_0', 'row_1', 'row_2'], dtype='object')

df.columns

[29]:

Index(['col_0', 'col_1', 'col_2'], dtype='object')

df.dtypes # 返回的是值为相应列数据类型的Series

[30]:

col_0      int64
,col_1     object
,col_2    float64
,dtype: object

df.shape

[31]:

(3, 3)

通过.T可以把DataFrame进行转置：

df.T

[32]:

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

	row_0	row_1	row_2
col_0	1	2	3
col_1	a	b	c
col_2	1.2	2.2	3.2

三、常用基本函数

为了进行举例说明，在接下来的部分和其余章节都将会使用一份learn_pandas.csv的虚拟数据集，它记录了四所学校学生的体测个人信息。

df = pd.read_csv('../data/learn_pandas.csv')

df.columns

[33]:

Index(['School', 'Grade', 'Name', 'Gender', 'Height', 'Weight', 'Transfer',
,       'Test_Number', 'Test_Date', 'Time_Record'],
,      dtype='object')

上述列名依次代表学校、年级、姓名、性别、身高、体重、是否为转系生、体测场次、测试时间、1000米成绩，本章只需使用其中的前七列。

df = df[df.columns[:7]]

1. 汇总函数

head, tail函数分别表示返回表或者序列的前n行和后n行，其中n默认为5：

df.head(2)

[35]:

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

	School	Grade	Name	Gender	Height	Weight	Transfer
0	Shanghai Jiao Tong University	Freshman	Gaopeng Yang	Female	158.9	46.0	N
1	Peking University	Freshman	Changqiang You	Male	166.5	70.0	N

df.tail(3)

[36]:

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

	School	Grade	Name	Gender	Height	Weight	Transfer
197	Shanghai Jiao Tong University	Senior	Chengqiang Chu	Female	153.9	45.0	N
198	Shanghai Jiao Tong University	Senior	Chengmei Shen	Male	175.3	71.0	N
199	Tsinghua University	Sophomore	Chunpeng Lv	Male	155.7	51.0	N

info, describe分别返回表的信息概况和表中数值列对应的主要统计量：

df.info()



RangeIndex: 200 entries, 0 to 199

Data columns (total 7 columns):

 #   Column    Non-Null Count  Dtype  

---  ------    --------------  -----  

 0   School    200 non-null    object 

 1   Grade     200 non-null    object 

 2   Name      200 non-null    object 

 3   Gender    200 non-null    object 

 4   Height    183 non-null    float64

 5   Weight    189 non-null    float64

 6   Transfer  188 non-null    object 

dtypes: float64(2), object(5)

memory usage: 11.1+ KB

df.describe()

[38]:

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

	Height	Weight
count	183.000000	189.000000
mean	163.218033	55.015873
std	8.608879	12.824294
min	145.400000	34.000000
25%	157.150000	46.000000
50%	161.900000	51.000000
75%	167.500000	65.000000
max	193.900000	89.000000

【NOTE】更全面的数据汇总

info, describe只能实现较少信息的展示，如果想要对一份数据集进行全面且有效的观察，特别是在列较多的情况下，推荐使用pandas-profiling包，它将在第十一章被再次提到。

【END】

2. 特征统计函数

在Series和DataFrame上定义了许多统计函数，最常见的是sum, mean, median, var, std, max, min。例如，选出身高和体重列进行演示：

df_demo = df[['Height', 'Weight']]

df_demo.mean()

[39]:

Height    163.218033
,Weight     55.015873
,dtype: float64

df_demo.max()

[40]:

Height    193.9
,Weight     89.0
,dtype: float64

此外，需要介绍的是quantile, count, idxmax这三个函数，它们分别返回的是分位数、非缺失值个数、最大值对应的索引：

df_demo.quantile(0.75)

[41]:

Height    167.5
,Weight     65.0
,Name: 0.75, dtype: float64

df_demo.count()

[42]:

Height    183
,Weight    189
,dtype: int64

df_demo.idxmax() # idxmin是对应的函数

[43]:

Height    193
,Weight      2
,dtype: int64

上面这些所有的函数，由于操作后返回的是标量，所以又称为聚合函数，它们有一个公共参数axis，默认为0代表逐列聚合，如果设置为1则表示逐行聚合：

df_demo.mean(axis=1).head() # 在这个数据集上体重和身高的均值并没有意义

[44]:

0    102.45
,1    118.25
,2    138.95
,3     41.00
,4    124.00
,dtype: float64

3. 唯一值函数

对序列使用unique和nunique可以分别得到其唯一值组成的列表和唯一值的个数：

df['School'].unique()

[45]:

array(['Shanghai Jiao Tong University', 'Peking University',
,       'Fudan University', 'Tsinghua University'], dtype=object)

df['School'].nunique()

[46]:

value_counts可以得到唯一值和其对应出现的频数：

df['School'].value_counts()

[47]:

Tsinghua University              69
,Shanghai Jiao Tong University    57
,Fudan University                 40
,Peking University                34
,Name: School, dtype: int64

如果想要观察多个列组合的唯一值，可以使用drop_duplicates。其中的关键参数是keep，默认值first表示每个组合保留第一次出现的所在行，last表示保留最后一次出现的所在行，False表示把所有重复组合所在的行剔除。

df_demo = df[['Gender','Transfer','Name']]

df_demo.drop_duplicates(['Gender', 'Transfer'])

[48]:

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

	Gender	Transfer	Name
0	Female	N	Gaopeng Yang
1	Male	N	Changqiang You
12	Female	NaN	Peng You
21	Male	NaN	Xiaopeng Shen
36	Male	Y	Xiaojuan Qin
43	Female	Y	Gaoli Feng

df_demo.drop_duplicates(['Gender', 'Transfer'], keep='last')

[49]:

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

	Gender	Transfer	Name
147	Male	NaN	Juan You
150	Male	Y	Chengpeng You
169	Female	Y	Chengquan Qin
194	Female	NaN	Yanmei Qian
197	Female	N	Chengqiang Chu
199	Male	N	Chunpeng Lv

df_demo.drop_duplicates(['Name', 'Gender'], keep=False).head() # 保留只出现过一次的性别和姓名组合

[50]:

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

	Gender	Transfer	Name
0	Female	N	Gaopeng Yang
1	Male	N	Changqiang You
2	Male	N	Mei Sun
4	Male	N	Gaojuan You
5	Female	N	Xiaoli Qian

df['School'].drop_duplicates() # 在Series上也可以使用

[51]:

0    Shanghai Jiao Tong University
,1                Peking University
,3                 Fudan University
,5              Tsinghua University
,Name: School, dtype: object

此外，duplicated和drop_duplicates的功能类似，但前者返回了是否为唯一值的布尔列表，其keep参数与后者一致。其返回的序列，把重复元素设为True，否则为False。 drop_duplicates等价于把duplicated为True的对应行剔除。

df_demo.duplicated(['Gender', 'Transfer']).head()

[52]:

0    False
,1    False
,2     True
,3     True
,4     True
,dtype: bool

df['School'].duplicated().head() # 在Series上也可以使用

[53]:

0    False
,1    False
,2     True
,3    False
,4     True
,Name: School, dtype: bool

4. 替换函数

一般而言，替换操作是针对某一个列进行的，因此下面的例子都以Series举例。pandas中的替换函数可以归纳为三类：映射替换、逻辑替换、数值替换。其中映射替换包含replace方法、第八章中的str.replace方法以及第九章中的cat.codes方法，此处介绍replace的用法。

在replace中，可以通过字典构造，或者传入两个列表来进行替换：

df['Gender'].replace({'Female':0, 'Male':1}).head()

[54]:

0    0
,1    1
,2    1
,3    0
,4    1
,Name: Gender, dtype: int64

df['Gender'].replace(['Female', 'Male'], [0, 1]).head()

[55]:

0    0
,1    1
,2    1
,3    0
,4    1
,Name: Gender, dtype: int64

另外，replace还有一种特殊的方向替换，指定method参数为ffill则为用前面一个最近的未被替换的值进行替换，bfill则使用后面最近的未被替换的值进行替换。从下面的例子可以看到，它们的结果是不同的：

s = pd.Series(['a', 1, 'b', 2, 1, 1, 'a'])

s.replace([1, 2], method='ffill')

[56]:

0    a
,1    a
,2    b
,3    b
,4    b
,5    b
,6    a
,dtype: object

s.replace([1, 2], method='bfill')

[57]:

0    a
,1    b
,2    b
,3    a
,4    a
,5    a
,6    a
,dtype: object

【WARNING】正则替换请使用str.replace

虽然对于replace而言可以使用正则替换，但是当前版本下对于string类型的正则替换还存在bug，因此如有此需求，请选择str.replace进行替换操作，具体的方式将在第八章中讲解。

【END】

逻辑替换包括了where和mask，这两个函数是完全对称的：where函数在传入条件为False的对应行进行替换，而mask在传入条件为True的对应行进行替换，当不指定替换值时，替换为缺失值。

s = pd.Series([-1, 1.2345, 100, -50])

s.where(s<0)

[58]:

0    -1.0
,1     NaN
,2     NaN
,3   -50.0
,dtype: float64

s.where(s<0, 100)

[59]:

0     -1.0
,1    100.0
,2    100.0
,3    -50.0
,dtype: float64

s.mask(s<0)

[60]:

0         NaN
,1      1.2345
,2    100.0000
,3         NaN
,dtype: float64

s.mask(s<0, -50)

[61]:

0    -50.0000
,1      1.2345
,2    100.0000
,3    -50.0000
,dtype: float64

需要注意的是，传入的条件只需是与被调用的Series索引一致的布尔序列即可：

s_condition= pd.Series([True,False,False,True],index=s.index)

s.mask(s_condition, -50)

[62]:

0    -50.0000
,1      1.2345
,2    100.0000
,3    -50.0000
,dtype: float64

数值替换包含了round, abs, clip方法，它们分别表示按照给定精度四舍五入、取绝对值和截断：

s = pd.Series([-1, 1.2345, 100, -50])

s.round(2)

[63]:

0     -1.00
,1      1.23
,2    100.00
,3    -50.00
,dtype: float64

s.abs()

[64]:

0      1.0000
,1      1.2345
,2    100.0000
,3     50.0000
,dtype: float64

s.clip(0, 2) # 前两个数分别表示上下截断边界

[65]:

0    0.0000
,1    1.2345
,2    2.0000
,3    0.0000
,dtype: float64

【练一练】

在 clip 中，超过边界的只能截断为边界值，如果要把超出边界的替换为自定义的值，应当如何做？

【END】

5. 排序函数

排序共有两种方式，其一为值排序，其二为索引排序，对应的函数是sort_values和sort_index。

为了演示排序函数，下面先利用set_index方法把年级和姓名两列作为索引，多级索引的内容和索引设置的方法将在第三章进行详细讲解。

df_demo = df[['Grade', 'Name', 'Height', 'Weight']].set_index(['Grade','Name'])

df_demo.head(3)

[66]:

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

		Height	Weight
Grade	Name
Freshman	Gaopeng Yang	158.9	46.0
Freshman	Changqiang You	166.5	70.0
Senior	Mei Sun	188.9	89.0

对身高进行排序，默认参数ascending=True为升序：

df_demo.sort_values('Height').head()

[67]:

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

		Height	Weight
Grade	Name
Junior	Xiaoli Chu	145.4	34.0
Senior	Gaomei Lv	147.3	34.0
Sophomore	Peng Han	147.8	34.0
Senior	Changli Lv	148.7	41.0
Sophomore	Changjuan You	150.5	40.0

df_demo.sort_values('Height', ascending=False).head()

[68]:

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

		Height	Weight
Grade	Name
Senior	Xiaoqiang Qin	193.9	79.0
	Mei Sun	188.9	89.0
	Gaoli Zhao	186.5	83.0
Freshman	Qiang Han	185.3	87.0
Senior	Qiang Zheng	183.9	87.0

在排序中，经常遇到多列排序的问题，比如在体重相同的情况下，对身高进行排序，并且保持身高降序排列，体重升序排列：

df_demo.sort_values(['Weight','Height'],ascending=[True,False]).head()

[69]:

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

		Height	Weight
Grade	Name
Sophomore	Peng Han	147.8	34.0
Senior	Gaomei Lv	147.3	34.0
Junior	Xiaoli Chu	145.4	34.0
Sophomore	Qiang Zhou	150.5	36.0
Freshman	Yanqiang Xu	152.4	38.0

索引排序的用法和值排序完全一致，只不过元素的值在索引中，此时需要指定索引层的名字或者层号，用参数level表示。另外，需要注意的是字符串的排列顺序由字母顺序决定。

df_demo.sort_index(level=['Grade','Name'],ascending=[True,False]).head()

[70]:

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

		Height	Weight
Grade	Name
Freshman	Yanquan Wang	163.5	55.0
	Yanqiang Xu	152.4	38.0
	Yanqiang Feng	162.3	51.0
	Yanpeng Lv	NaN	65.0
	Yanli Zhang	165.1	52.0

6. apply方法

apply方法常用于DataFrame的行迭代或者列迭代，它的axis含义与第2小节中的统计聚合函数一致，apply的参数往往是一个以序列为输入的函数。例如对于.mean()，使用apply可以如下地写出：

df_demo = df[['Height', 'Weight']]

def my_mean(x):

     res = x.mean()

     return res

df_demo.apply(my_mean)

[71]:

Height    163.218033
,Weight     55.015873
,dtype: float64

同样的，可以利用lambda表达式使得书写简洁，这里的x就指代被调用的df_demo表中逐个输入的序列：

df_demo.apply(lambda x:x.mean())

[72]:

Height    163.218033
,Weight     55.015873
,dtype: float64

若指定axis=1，那么每次传入函数的就是行元素组成的Series，其结果与之前的逐行均值结果一致。

df_demo.apply(lambda x:x.mean(), axis=1).head()

[73]:

0    102.45
,1    118.25
,2    138.95
,3     41.00
,4    124.00
,dtype: float64

这里再举一个例子：mad函数返回的是一个序列中偏离该序列均值的绝对值大小的均值，例如序列1,3,7,10中，均值为5.25，每一个元素偏离的绝对值为4.25,2.25,1.75,4.75，这个偏离序列的均值为3.25。现在利用apply计算升高和体重的mad指标：

df_demo.apply(lambda x:(x-x.mean()).abs().mean())

[74]:

Height     6.707229
,Weight    10.391870
,dtype: float64

这与使用内置的mad函数计算结果一致：

df_demo.mad()

[75]:

Height     6.707229
,Weight    10.391870
,dtype: float64

【WARNING】谨慎使用apply

得益于传入自定义函数的处理，apply的自由度很高，但这是以性能为代价的。一般而言，使用pandas的内置函数处理和apply来处理同一个任务，其速度会相差较多，因此只有在确实存在自定义需求的情境下才考虑使用apply。

【END】

四、窗口对象

pandas中有3类窗口，分别是滑动窗口rolling、扩张窗口expanding以及指数加权窗口ewm。需要说明的是，以日期偏置为窗口大小的滑动窗口将在第十章讨论，指数加权窗口见本章练习。

1. 滑窗对象

要使用滑窗函数，就必须先要对一个序列使用.rolling得到滑窗对象，其最重要的参数为窗口大小window。

s = pd.Series([1,2,3,4,5])

roller = s.rolling(window = 3)

roller

[76]:

Rolling [window=3,center=False,axis=0]

在得到了滑窗对象后，能够使用相应的聚合函数进行计算，需要注意的是窗口包含当前行所在的元素，例如在第四个位置进行均值运算时，应当计算(2+3+4)/3，而不是(1+2+3)/3：

roller.mean()

[77]:

0    NaN
,1    NaN
,2    2.0
,3    3.0
,4    4.0
,dtype: float64

roller.sum()

[78]:

0     NaN
,1     NaN
,2     6.0
,3     9.0
,4    12.0
,dtype: float64

对于滑动相关系数或滑动协方差的计算，可以如下写出：

s2 = pd.Series([1,2,6,16,30])

roller.cov(s2)

[79]:

0     NaN
,1     NaN
,2     2.5
,3     7.0
,4    12.0
,dtype: float64

roller.corr(s2)

[80]:

0         NaN
,1         NaN
,2    0.944911
,3    0.970725
,4    0.995402
,dtype: float64

此外，还支持使用apply传入自定义函数，其传入值是对应窗口的Series，例如上述的均值函数可以等效表示：

roller.apply(lambda x:x.mean())

[81]:

0    NaN
,1    NaN
,2    2.0
,3    3.0
,4    4.0
,dtype: float64

shift, diff, pct_change是一组类滑窗函数，它们的公共参数为periods=n，默认为1，分别表示取向前第n个元素的值、与向前第n个元素做差（与Numpy中不同，后者表示n阶差分）、与向前第n个元素相比计算增长率。这里的n可以为负，表示反方向的类似操作。

s = pd.Series([1,3,6,10,15])

s.shift(2)

[82]:

0    NaN
,1    NaN
,2    1.0
,3    3.0
,4    6.0
,dtype: float64

s.diff(3)

[83]:

0     NaN
,1     NaN
,2     NaN
,3     9.0
,4    12.0
,dtype: float64

s.pct_change()

[84]:

0         NaN
,1    2.000000
,2    1.000000
,3    0.666667
,4    0.500000
,dtype: float64

s.shift(-1)

[85]:

0     3.0
,1     6.0
,2    10.0
,3    15.0
,4     NaN
,dtype: float64

s.diff(-2)

[86]:

0   -5.0
,1   -7.0
,2   -9.0
,3    NaN
,4    NaN
,dtype: float64

将其视作类滑窗函数的原因是，它们的功能可以用窗口大小为n+1的rolling方法等价代替：

s.rolling(3).apply(lambda x:list(x)[0]) # s.shift(2)

[87]:

0    NaN
,1    NaN
,2    1.0
,3    3.0
,4    6.0
,dtype: float64

 s.rolling(4).apply(lambda x:list(x)[-1]-list(x)[0]) # s.diff(3)

[88]:

0     NaN
,1     NaN
,2     NaN
,3     9.0
,4    12.0
,dtype: float64

def my_pct(x):

     L = list(x)

     return L[-1]/L[0]-1

s.rolling(2).apply(my_pct) # s.pct_change()

[89]:

0         NaN
,1    2.000000
,2    1.000000
,3    0.666667
,4    0.500000
,dtype: float64

【练一练】

rolling对象的默认窗口方向都是向前的，某些情况下用户需要向后的窗口，例如对1,2,3设定向后窗口为2的sum操作，结果为3,5,NaN，此时应该如何实现向后的滑窗操作？

【END】

2. 扩张窗口

扩张窗口又称累计窗口，可以理解为一个动态长度的窗口，其窗口的大小就是从序列开始处到具体操作的对应位置，其使用的聚合函数会作用于这些逐步扩张的窗口上。具体地说，设序列为a1, a2, a3, a4，则其每个位置对应的窗口即[a1]、[a1, a2]、[a1, a2, a3]、[a1, a2, a3, a4]。

s = pd.Series([1, 3, 6, 10])

s.expanding().mean()

[90]:

0    1.000000
,1    2.000000
,2    3.333333
,3    5.000000
,dtype: float64

【练一练】

cummax, cumsum, cumprod函数是典型的类扩张窗口函数，请使用expanding对象依次实现它们。

【END】

五、练习

Ex1：口袋妖怪数据集

现有一份口袋妖怪的数据集，下面进行一些背景说明：

#代表全国图鉴编号，不同行存在相同数字则表示为该妖怪的不同状态
妖怪具有单属性和双属性两种，对于单属性的妖怪，Type 2为缺失值
Total, HP, Attack, Defense, Sp. Atk, Sp. Def, Speed分别代表种族值、体力、物攻、防御、特攻、特防、速度，其中种族值为后6项之和

df = pd.read_csv('../data/pokemon.csv')

df.head(3)

[91]:

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

	#	Name	Type 1	Type 2	Total	HP	Attack	Defense	Sp. Atk	Sp. Def	Speed
0	1	Bulbasaur	Grass	Poison	318	45	49	49	65	65	45
1	2	Ivysaur	Grass	Poison	405	60	62	63	80	80	60
2	3	Venusaur	Grass	Poison	525	80	82	83	100	100	80

对HP, Attack, Defense, Sp. Atk, Sp. Def, Speed进行加总，验证是否为Total值。
对于#重复的妖怪只保留第一条记录，解决以下问题：
求第一属性的种类数量和前三多数量对应的种类
求第一属性和第二属性的组合种类
求尚未出现过的属性组合
按照下述要求，构造Series：
取出物攻，超过120的替换为high，不足50的替换为low，否则设为mid
取出第一属性，分别用replace和apply替换所有字母为大写
求每个妖怪六项能力的离差，即所有能力中偏离中位数最大的值，添加到df并从大到小排序

Ex2：指数加权窗口

作为扩张窗口的ewm窗口

在扩张窗口中，用户可以使用各类函数进行历史的累计指标统计，但这些内置的统计函数往往把窗口中的所有元素赋予了同样的权重。事实上，可以给出不同的权重来赋给窗口中的元素，指数加权窗口就是这样一种特殊的扩张窗口。

其中，最重要的参数是alpha，它决定了默认情况下的窗口权重为wi=(1−α)i,i∈{0,1,...,t}wi=(1−α)i,i∈{0,1,...,t}，其中i=ti=t表示当前元素，i=0i=0表示序列的第一个元素。

从权重公式可以看出，离开当前值越远则权重越小，若记原序列为xx，更新后的当前元素为ytyt，此时通过加权公式归一化后可知：

yt=∑ti=0wixt−i∑ti=0wi=xt+(1−α)xt−1+(1−α)2xt−2+...+(1−α)tx01+(1−α)+(1−α)2+...+(1−α)tyt=∑i=0twixt−i∑i=0twi=xt+(1−α)xt−1+(1−α)2xt−2+...+(1−α)tx01+(1−α)+(1−α)2+...+(1−α)t

对于Series而言，可以用ewm对象如下计算指数平滑后的序列：

np.random.seed(0)

s = pd.Series(np.random.randint(-1,2,30).cumsum())

s.head()

[92]:

0   -1
,1   -1
,2   -2
,3   -2
,4   -2
,dtype: int32

s.ewm(alpha=0.2).mean().head()

[93]:

0   -1.000000
,1   -1.000000
,2   -1.409836
,3   -1.609756
,4   -1.725845
,dtype: float64

请用expanding窗口实现。

作为滑动窗口的ewm窗口

从第1问中可以看到，ewm作为一种扩张窗口的特例，只能从序列的第一个元素开始加权。现在希望给定一个限制窗口n，只对包含自身的最近的n个元素作为窗口进行滑动加权平滑。请根据滑窗函数，给出新的wi与yt的更新公式，并通过rolling窗口实现这一功能。

你可能感兴趣的:(数据挖掘,python,数据分析)

量子计算如何颠覆能源优化领域：从理论到实践 Echo_Wish 人工智能前沿技术量子计算能源
量子计算如何颠覆能源优化领域：从理论到实践大家好，我是Echo_Wish，一个热爱探索前沿技术的人工智能与Python领域的技术分享者。今天，我们将深入探讨一个激动人心的话题——量子计算在能源优化中的应用。这不仅是科技领域的全新趋势，也可能为全人类的能源利用效率带来革命性突破。从理论模型到实际应用，量子计算已经在一些能源相关领域崭露头角，例如电网优化、可再生能源分配和物流节能规划。以下，让我们一步
黑马程序员-接口测试-四天学习接口测试-第二天-接口用例设计，测试点，功能测试，安全测试，性能测试，单接口测试，业务场景测试用例，postman简介，安装学习记录wanxiaowan postman 学习功能测试
今日学习目标分析接口文档，设计编写接口测试用例使用Postman设置请求方法、URL、请求头、请求体，向接口发送http请求，并查看响应数据分析接口文档，设计接口测试用例使用postman设置请求方法，url请求头，请求体，查看响应数据3接口用例设计为什么写防止测试点漏测。条理清晰方便分配工作，评估工作量和时间面试时使用！接口测试的测试点测试点称之为测试维度。5功能测试单接口功能：手工测试中的单个
Kibana 单机与集群部署教程闲人编程大数据集群部署教程大数据集群单机部署 Kibana 日志分析数据可视化
目录Kibana单机与集群部署教程第一部分：Kibana概述第二部分：Kibana单机部署教程1.安装Kibana1.1安装依赖项1.2下载和安装Kibana1.3启动Kibana2.单机案例代码实现（Python）3.常见问题及解决方法3.1无法启动Kibana服务3.2Kibana无法连接到Elasticsearch第三部分：Kibana集群部署教程1.配置集群节点1.1配置Elasticse
Elasticsearch（ES）详解：从入门到实践坚持蛊 elasticsearch jenkins 大数据
引言简介：Elasticsearch是一个基于Lucene的分布式搜索引擎，具有高效的全文搜索功能，广泛应用于日志分析、搜索引擎、实时数据处理等领域。本文目标：介绍Elasticsearch的基本概念、架构设计、配置优化、常见应用以及实际案例，帮助开发者掌握ES1.Elasticsearch概述Elasticsearch的背景和发展历程核心功能：全文检索、分布式搜索、实时数据分析主要应用场景：日志
INCA二次开发GUI实例化智海行舟 python 个人开发
【摘要】本文基于ETASINCA二次开发实践，深入探讨如何构建完整的自动化测试GUI系统。通过Python语言结合COM接口技术，实现从软件架构设计到功能模块开发的完整闭环，为汽车电子领域工程师提供可复用的开发范式。一、INCA二次开发技术背景1.1行业应用需求在汽车电子开发领域，ETASINCA作为行业标准标定工具，其自动化测试需求日益增长。传统的手动操作模式存在以下痛点：重复性操作耗时严重（单
如何通过API用Python获取北向资金流向数据？量化问财量化软件 QMT 量化交易 Python 量化炒股 PTrade QMT 量化交易量化软件 deepseek
推荐阅读：《【最全攻略】免费的量化软件有哪些？券商的交易接口怎么获取？》如何通过API用Python获取北向资金流向数据？北向资金指的是通过沪港通和深港通渠道，从香港市场流入A股市场的资金。对于投资者来说，了解北向资金流向对于把握市场趋势和投资决策具有重要意义。本文将介绍如何通过API用Python获取北向资金流向数据。理解北向资金流向数据北向资金流向数据主要包括以下几个方面：资金流入量：指通过沪
go执行java -jar 完成DSA私钥解析并签名 DavidSoCool java jar golang
起因，最近使用go对接百度联盟api需要使用到DSA私钥完成签名过程，在百度提供的代码示例里面没有go代码的支持，示例中仅有php、python2和3、java的代码，网上找了半天发现go中对DSA私钥解析支持不友好，然后决定使用在java中完成签名计算过程，生成可执行jar后由外部传入参数获取签名数据。百度联盟api文档说明：1）权限开通后，登录百度联盟媒体平台（union.baidu.com）
【30天玩转python】项目实战：从零开始开发一个Python项目爱技术的小伙子 30天玩转python linux 运维服务器
项目实战：从零开始开发一个Python项目在学习Python的过程中，开发一个完整的项目是非常重要的实战练习。它不仅能够帮助你巩固所学的知识，还能提高实际编程能力。本文将带领你从零开始开发一个Python项目，介绍从项目规划、环境搭建、代码实现到项目发布的完整过程。我们将以一个简单的“任务管理系统”为例，逐步讲解如何构建、测试和优化这个项目。1.项目规划1.1项目简介我们将开发一个基于命令行的任务
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
python递推法_如何使用Python递归函数中的递推？热茶走 python递推法
我们大家都知道，一个函数可能存在多种不同的用法，很少是有函数只针对一个方式，那么基于一种函数，我们肯定要了解多个方式，今日针对递归函数里的递推内容给大家介绍哦~递归是什么？是指函数/过程/子程序在运行过程序中直接或间接调用自身而产生的重入现象。下面是个人理解：递归就是在函数内部调用自己的函数被称之为递归。实例：#直接调用自己：deffunc:print('fromfunc')funcFunc#间接
python递推式_Python 递推式构造列表(List Comprehensions) man One python递推式
你需要构造一个新的列表,列表中的元素是从一个已知列表中的元素计算而得到的.比如你要创建一个列表,里面的元素是另一个列表中的元素加23后得到的.使用递推式构造列表是最理想的方法:thenewlist=[x+23forxintheoldlist]如果你希望用一个列表中大于5的元素构造一个新的列表,使用递推式也是很方便的:thenewlist=[xforxintheoldlistifx>5]如果你希望将
Dash 简介 tankusa dash
Dash是一个基于Python的开源框架，专门用于构建数据分析和数据可视化的Web应用程序。Dash由Plotly团队开发，旨在帮助数据分析师、数据科学家和开发人员快速创建交互式的、基于数据的Web应用，而无需深入掌握前端技术（如HTML、CSS和JavaScript）。Dash的核心优势在于其简单易用性和强大的功能。通过Dash，用户可以使用纯Python代码来构建复杂的Web应用，而无需编写繁
视频下载插件：yt-dlp 小怪兽长大啦 python
Yt-dlp插件使用下载方法方法一：Python插件下载使用pip工具安装即可:pipinstallyt-dlp.Python已经配置过环境变量，下载yt-dlp时不需要配置。方法二：直接下载EXE可执行文件网上下载yt-dlp应用程序：https://github.com/yt-dlp/yt-dlp/releases配置环境变量。常用使用命令（配置好环境变量后，控制台下输入命令即可）直接下载视频
Python __init__.py 模块详解鱼丸丶粗面 Python __init__.py
文章目录1概述2导入演示2.1执行顺序：先父后子2.2导入所有模块（含子模块）1概述1.工具:Pycharm场景:在创建一个PythonPackage时，会默认在该包下生成一个'__init__.py'文件2.目的:'进行一些初始化操作'(1)当importpackage时，"自动"执行'__init__.py'文件中的内容(2)常用于导入模块2导入演示2.1执行顺序：先父后子目录结构：目录结构简
Python __init__.py 愚昧之山绝望之谷开悟之坡 python init
Python__init__.py作用详解尼古拉苏关注12018.06.1012:57:34字数745阅读45,278转载于：https://www.cnblogs.com/tp1226/p/8453854.html__init__.py该文件的作用就是相当于把自身整个文件夹当作一个包来管理，每当有外部import的时候，就会自动执行里面的函数。1.标识该目录是一个python的模块包（modul
利用Java爬虫获取衣联网商品详情：实战指南 Jason-河山 java 爬虫开发语言
在电商领域，获取商品详情是数据分析和市场研究的重要环节。衣联网作为知名的电商平台，提供了丰富的服装商品资源。本文将详细介绍如何利用Java编写爬虫程序，通过商品ID获取衣联网商品详情。一、准备工作（一）环境搭建Java安装：确保已安装Java开发环境，推荐使用JDK11或更高版本。开发工具配置：使用IntelliJIDEA或Eclipse等Java开发工具，创建一个新的Maven项目。依赖库添加：
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
有趣的学习Python-第十篇：Python的“魔法宝库”：标准库之旅王盼达有趣的学习Python 学习 python 开发语言
Python不仅是一门强大的编程语言，更像是一座充满宝藏的“魔法宝库”，里面装满了各种各样的“魔法工具”（标准库）。这些“魔法工具”可以帮助你轻松地完成各种任务，从文件操作到网络编程，从数据处理到性能优化。接下来，让我们一起探索Python的“魔法宝库”，看看这些“魔法工具”到底有多神奇！10.1操作系统接口：与“魔法世界”互动os模块就像是一个“魔法接口”，可以帮助你与操作系统进行互动。你可以用
有趣的学习Python-第八篇：Python的“魔法盾牌”：错误与异常处理王盼达有趣的学习Python 学习 python 开发语言
在Python的魔法世界里，即使是经验丰富的魔法师也可能遇到一些“魔法失误”。这些失误分为两种：语法错误和异常。别担心，Python为你准备了一面强大的“魔法盾牌”，帮助你应对这些挑战。8.1语法错误：魔法咒语写错了语法错误就像是你在念魔法咒语时，不小心说错了单词。这是学习Python过程中最常见的问题。比如，你可能忘记在while循环后面加上冒号：whileTrueprint('Hellowor
Python字符串操作 weixin_30871905 python
转自http://blog.chinaunix.net/u/19742/showart_382176.html#Python字符串操作'''1.复制字符串'''#strcpy(sStr1,sStr2)sStr1='strcpy'sStr2=sStr1sStr1='strcpy2'printsStr2'''2.连接字符串'''#strcat(sStr1,sStr2)sStr1='strcat'sSt
零基础必看！CCF-GESP Python一级考点全解析：运算符这样学就对了奕澄羽邦 python 开发语言
第一章编程世界的基础工具：运算符三剑客在Python编程语言中，运算符如同魔法咒语般神奇。对于CCF-GESPPython一级考生而言，正确掌握比较运算符、算术运算符和逻辑运算符这三大基础工具，就相当于打开了数字世界的大门。这三个运算符家族共同构成了程序逻辑的核心骨架，其灵活组合能实现从简单计算到复杂判断的多样功能。1.1运算符分类图谱算术运算符：负责数字间的数学运算（+-*/%）比较运算符：用于
Python 字符串操作 iteye_13776 Python Python C C++C#
Python截取字符串使用变量[头下标:尾下标]，就可以截取相应的字符串，其中下标是从0开始算起，可以是正数或负数，下标可以为空表示取到头或尾。#例1：字符串截取str='12345678'printstr[0:1]>>1#输出str位置0开始到位置1以前的字符printstr[1:6]>>23456#输出str位置1开始到位置6以前的字符num=18str='0000'+str(num)#合并字
关联规则算法：揭秘数据中的隐藏关系，从理论到实战秋声studio 机器学习算法详解关联规则算法数据挖掘 Apriori算法 FP-Growth算法大数据优化数据预处理增量式更新
引言在当今数据驱动的时代，如何从海量数据中挖掘出有价值的信息成为了各行各业的核心挑战。关联规则算法作为数据挖掘领域的重要工具，能够帮助我们发现数据中隐藏的关联关系，从而为决策提供支持。无论是电商平台的商品推荐，还是医疗领域的疾病诊断，关联规则算法都展现出了强大的应用潜力。本文将从基础概念出发，逐步深入探讨关联规则算法的核心原理、经典算法及其优化策略。无论你是数据挖掘的初学者，还是希望进一步了解关联
一文理清：阿里系数据中台-数据治理工具集(傻傻也能分清楚） Debug_Snail Hadoop Big Data 技术工具人工智能 hadoop 数据仓库
阿里云提供的大数据与数据分析产品种类较多，各产品的定位和核心功能有所不同。以下是对DataWorks、MaxCompute、Dataphin、AnalyticDBforMySQL（ADB）、QuickBI、EMR的详细梳理。一、核心产品定位与功能DataWorks定位：一站式大数据开发治理平台，提供数据集成、开发、调度、治理、服务等全链路能力。核心功能：数据集成：支持异构数据源（如数据库、OSS、
【Python 第五篇章】数据类型蜗牛 | ICU Python 专栏 python windows 开发语言
一、列表详解list.append(x)在列表末尾添加一个元素。list.extend(iterable)用可迭代对象的元素扩展列表。list.insert(i,x)在指定位置插入元素，第一个参数是插入元素的索引，第二个是值。list.remove(x)从列表中删除第一个值为x的元素。list.pop([i])移除列表中给定位置的条目，并返回该条目。如果未指定索引号，则a.pop()将移除并返回列
python catia catalog文件_Python封装的获取文件目录的函数卢新生 python catia catalog文件
获取指定文件夹中文件的函数，网上学习时东拼西凑的结果。注意，其中文件名如1.txt，文件路径如D:\文件夹\1.txt；direct为第一层子级importos#filePath输入文件夹全路径#mode#1递归获取所有文件名;#2递归获取所有文件路径;#3获取direct文件名;#4获取direct文件路径;#5获取direct文件名和direct子文件夹名;#6获取direct文件路径和dir
Python：每日一题之错误票据努力的敲码工蓝桥杯每日一题 python 蓝桥杯
题目描述某涉密单位下发了某种票据，并要在年终全部收回。每张票据有唯一的ID号。全年所有票据的ID号是连续的，但ID的开始数码是随机选定的。因为工作人员疏忽，在录入ID号的时候发生了一处错误，造成了某个ID断号，另外一个ID重号。你的任务是通过编程，找出断号的ID和重号的ID。假设断号不可能发生在最大和最小号。输入描述输入描述要求程序首先输入一个整数N(N<100)表示后面数据行数。接着读入N行数据
Python控制批量插入Catia文件并修改文件定义及PN 一盘红烧肉 python
改了两天，总算初步摸清楚了Catia中的文件结构，实现了使用Python控制批量修改文件名及定义使用Pycatia在Product中插入Part并改名及定义
PySide2是 Qt 库的 Python 绑定之一 WwwwwH_PLUS #Qt qt python 开发语言
PySide2是Qt库的Python绑定之一，它为Python程序员提供了创建跨平台桌面应用程序的工具和功能。PySide2是Qt5.x系列的Python绑定，而Qt本身是一个跨平台的图形用户界面（GUI）框架，广泛用于开发各种类型的桌面应用程序，包括多种平台（Windows、Linux、macOS）的应用。主要特点跨平台支持：PySide2可以在Windows、Linux和macOS上运行，允许
Python学习第十一天 Leo来编程 Python学习 python
疑惑：有很多人不知道是不是也分不清什么是单核？什么是多核？什么是时间片？进程？线程？那么在讲进程和线程前我先举个例子更好理解这些概念。单核例子：比如你是一个厨师（计算机）在一个厨房（CPU）里需要同时做3个菜（进程）、每个菜需要准备不同的调料以及协作（线程），那么这个厨师需要不断地切换时间（时间片）来达到同时在一个时间将三个菜做完。多核的话其实对应的例子就是多个厨师，这样的例子太多了因为万物皆对象
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

	col1 \|\|\|\| col2
0	TS \|\|\|\| This is an apple.
1	GQ \|\|\|\| My name is Bob.
2	WT \|\|\|\| Well done!
3	PT \|\|\|\| May I help you?