膜众dalao的小仙女

task02_01

import numpy as np
import pandas as pd
pd.__version__

'1.1.5'

2.1.1

df_csv = pd.read_csv('my_csv.csv')
df_csv

	col1	col2	col3	col4	col5
0	2	a	1.4	apple	2020/1/1
1	3	b	3.4	banana	2020/1/2
2	6	c	2.5	orange	2020/1/5
3	5	d	3.2	lemon	2020/1/7

df_txt = pd.read_table('my_table.txt')
df_txt

	col1	col2	col3	col4
0	2	a	1.4	apple 2020/1/1
1	3	b	3.4	banana 2020/1/2
2	6	c	2.5	orange 2020/1/5
3	5	d	3.2	lemon 2020/1/7

df_excel = pd.read_excel('my_excel.xlsx')
df_excel

	col1	col2	col3	col4	col5
0	2	a	1.4	apple	2020/1/1
1	3	b	3.4	banana	2020/1/2
2	6	c	2.5	orange	2020/1/5
3	5	d	3.2	lemon	2020/1/7

# header = None表示第一行不作为列名，相当于新增一行标识列号
pd.read_table('my_table.txt', header=None)

	0	1	2	3
0	col1	col2	col3	col4
1	2	a	1.4	apple 2020/1/1
2	3	b	3.4	banana 2020/1/2
3	6	c	2.5	orange 2020/1/5
4	5	d	3.2	lemon 2020/1/7

# index_col 表示把某一列或几列作为索引
# 理解是做group by？把['col2', 'col4']及对应的值当做一组，放到最左侧
# 然后用\n将这一组和其他的分开
pd.read_csv('my_csv.csv', index_col=['col2', 'col4'])

		col1	col3	col5
col2	col4
a	apple	2	1.4	2020/1/1
b	banana	3	3.4	2020/1/2
c	orange	6	2.5	2020/1/5
d	lemon	5	3.2	2020/1/7

# usecols 表示读取列的集合，默认读取所有的列
# 可以理解为，只有col1和col2的列is_use=True，所以不设定第二个参数时，所有列都会展示
pd.read_table('my_table.txt', usecols=['col1', 'col2'])

	col1	col2
0	2	a
1	3	b
2	6	c
3	5	d

# parse_dates 表示需要转化为时间的列
# 原列时间格式为2020/1/1，现在转为时间格式为2020-01-01
# 对于其他列的值，无法解析成时间格式
pd.read_csv('my_csv.csv', parse_dates=['col5'])

	col1	col2	col3	col4	col5
0	2	a	1.4	apple	2020-01-01
1	3	b	3.4	banana	2020-01-02
2	6	c	2.5	orange	2020-01-05
3	5	d	3.2	lemon	2020-01-07

# nrows 表示读取的数据行
# 默认从第0行开始读取
pd.read_excel('my_excel.xlsx', nrows=2)

	col1	col2	col3	col4	col5
0	2	a	1.4	apple	2020/1/1
1	3	b	3.4	banana	2020/1/2

在读取 txt 文件时，经常遇到分隔符非空格的情况，read_table 有一个分割参数 sep ，它使得用户可以自定义分割符号，进行 txt 数据的读取。

# 读取的表以 |||| 为分割
pd.read_table('my_table_special_sep.txt')

	col1 \|\|\|\| col2
0	TS \|\|\|\| This is an apple.
1	GQ \|\|\|\| My name is Bob.
2	WT \|\|\|\| Well done!
3	PT \|\|\|\| May I help you?

# 可以使用 sep ，同时需要指定引擎为 python 
# 在使用 read_table 的时候需要注意，参数 sep 中使用的是正则表达式，因此需要对 | 进行转义 变成 \| ，否则无法读取到正确的结果
# sep定义的直接是正则式的内容，匹配到该正则式的内容，则出去
pd.read_table('my_table_special_sep.txt',sep=' \|\|\|\| ',engine='python')

	col1	col2
0	TS	This is an apple.
1	GQ	My name is Bob.
2	WT	Well done!
3	PT	May I help you?

2.1.2 数据写入

# 把 index 设置为 False，特别当索引没有特殊意义的时候，这样的行为 能把索引在保存的时候去除。
df_csv.to_csv('my_csv_saved.csv', index=False)

df_excel.to_excel('my_excel_saved.xlsx', index=False)

pandas 中没有定义 to_table 函数，但是 to_csv 可以保存为 txt 文件，并且允许自定义分隔符，常用制表符 \t 分割

df_txt.to_csv('my_txt_saved.txt', sep='\t', index=False)

# 把表格转换为markdown格式
print(df_csv.to_markdown())

|    |   col1 | col2   |   col3 | col4   | col5     |
|---:|-------:|:-------|-------:|:-------|:---------|
|  0 |      2 | a      |    1.4 | apple  | 2020/1/1 |
|  1 |      3 | b      |    3.4 | banana | 2020/1/2 |
|  2 |      6 | c      |    2.5 | orange | 2020/1/5 |
|  3 |      5 | d      |    3.2 | lemon  | 2020/1/7 |

# 把表格转换为latex格式
print(df_csv.to_latex())

\begin{tabular}{lrlrll}
\toprule
{} &  col1 & col2 &  col3 &    col4 &      col5 \\
\midrule
0 &     2 &    a &   1.4 &   apple &  2020/1/1 \\
1 &     3 &    b &   3.4 &  banana &  2020/1/2 \\
2 &     6 &    c &   2.5 &  orange &  2020/1/5 \\
3 &     5 &    d &   3.2 &   lemon &  2020/1/7 \\
\bottomrule
\end{tabular}

2.2 基本数据结构
pandas中具有两种基本的数据存储结构，存储一维values的Series和存储二维values的DataFrame
Series一般由四个部分组成，分别是序列的值data，索引index，存储类型dtype，序列的名字name
其中，索引也可以指定它的名字，默认为空。

a = pd.Series(data = [100, 'a', {'dict1':5}], 
              index = pd.Index(['id1',20,'third'], name='my_idx'),
              dtype = 'object',
              name = 'my_name')
a

my_idx
id1               100
20                  a
third    {'dict1': 5}
Name: my_name, dtype: object

object 类型 object代表了一种混合类型，正如上面的例子中存储了整数、字符串以及Python的字典数据结构。
此外，目前pandas把纯字符串序列也默认认为是一种object类型的序列，但它也可以用string类型存储。

# 属性可以通过.的方式来获取
# 返回array类型的结果，类型是混合类型object
a.values

array([100, 'a', {'dict1': 5}], dtype=object)

# index会返回索引，object类型和序列名字
a.index

Index(['id1', 20, 'third'], dtype='object', name='my_idx')

# 表示是一个python对象
a.dtype

dtype('O')

a.name

'my_name'

# (3,)表示第一维是3，第二个参数缺省
# 获取序列的长度
a.shape

(3,)

# 取出单个索引对应的值，[]中是索引
a['third']

{'dict1': 5}

DataFrame在Series 的基础上增加了列索引，一个数据框可以由二维的data与行列索引来构造

# 在字符串中用%d，类似于.format的用法，就是规定字符串中的数可以由变量来表示
# 字符串中 %d规定输出的是数字，字符串外层也用%i来表示变量
# 另一种是用枚举方式表示列值
data = [[1, 'a', 1.2], [2, 'b', 2.2], [3, 'c', 3.2]]
df = pd.DataFrame(data = data,
                  index = ['row_%d'%i for i in range(3)],
                  columns = ['col_0', 'col_1', 'col_2'])
df

	col_0	col_1	col_2
row_0	1	a	1.2
row_1	2	b	2.2
row_2	3	c	3.2

但一般而言，更多的时候会采用从列索引名到数据的映射来构造数据框，同时再加上行索引

df = pd.DataFrame(data = {'col_0':[1,2,3],'col_1':list('abc'),'col_2':[1.2,2.2,3.2]},
                  index = ['row_%d' %i for i in range(3)])
df

	col_0	col_1	col_2
row_0	1	a	1.2
row_1	2	b	2.2
row_2	3	c	3.2

在DataFrame中可以用[col_name]与[col_list]来取出相应的列与由多个列组成的表,结果分别为 Series和DataFrame

# 相当于只取col_0这一列的值
df['col_0']

row_0    1
row_1    2
row_2    3
Name: col_0, dtype: int64

# 用list表示取多列的值
df[['col_0','col_2']]

	col_0	col_2
row_0	1	1.2
row_1	2	2.2
row_2	3	3.2

df.values

array([[1, 'a', 1.2],
       [2, 'b', 2.2],
       [3, 'c', 3.2]], dtype=object)

df.index

Index(['row_0', 'row_1', 'row_2'], dtype='object')

df.columns

Index(['col_0', 'col_1', 'col_2'], dtype='object')

# 返回的是值为相应列数据类型的 Series
df.dtypes

col_0      int64
col_1     object
col_2    float64
dtype: object

# 可以把DataFrame进行转置
df.T

	row_0	row_1	row_2
col_0	1	2	3
col_1	a	b	c
col_2	1.2	2.2	3.2

2.3 常用基本函数

df = pd.read_csv('learn_pandas.csv')
# 上述列名依次代表学校、年级、姓名、性别、身高、体重、是否为转系生、体测场次、测试时间、1000 米成绩
df.columns

Index(['School', 'Grade', 'Name', 'Gender', 'Height', 'Weight', 'Transfer',
       'Test_Number', 'Test_Date', 'Time_Record'],
      dtype='object')

# df整张表中，取表的前7列
df = df[df.columns[:7]]
df

	School	Grade	Name	Gender	Height	Weight	Transfer
0	Shanghai Jiao Tong University	Freshman	Gaopeng Yang	Female	158.9	46.0	N
1	Peking University	Freshman	Changqiang You	Male	166.5	70.0	N
2	Shanghai Jiao Tong University	Senior	Mei Sun	Male	188.9	89.0	N
3	Fudan University	Sophomore	Xiaojuan Sun	Female	NaN	41.0	N
4	Fudan University	Sophomore	Gaojuan You	Male	174.0	74.0	N
...	...	...	...	...	...	...	...
195	Fudan University	Junior	Xiaojuan Sun	Female	153.9	46.0	N
196	Tsinghua University	Senior	Li Zhao	Female	160.9	50.0	N
197	Shanghai Jiao Tong University	Senior	Chengqiang Chu	Female	153.9	45.0	N
198	Shanghai Jiao Tong University	Senior	Chengmei Shen	Male	175.3	71.0	N
199	Tsinghua University	Sophomore	Chunpeng Lv	Male	155.7	51.0	N

200 rows × 7 columns

2.3.1 汇总函数

# head,tail函数分别表示返回表或者序列的前n行和后n行，其中n默认为 5
df.head(4)

	School	Grade	Name	Gender	Height	Weight	Transfer
0	Shanghai Jiao Tong University	Freshman	Gaopeng Yang	Female	158.9	46.0	N
1	Peking University	Freshman	Changqiang You	Male	166.5	70.0	N
2	Shanghai Jiao Tong University	Senior	Mei Sun	Male	188.9	89.0	N
3	Fudan University	Sophomore	Xiaojuan Sun	Female	NaN	41.0	N

df.tail(4)

	School	Grade	Name	Gender	Height	Weight	Transfer
196	Tsinghua University	Senior	Li Zhao	Female	160.9	50.0	N
197	Shanghai Jiao Tong University	Senior	Chengqiang Chu	Female	153.9	45.0	N
198	Shanghai Jiao Tong University	Senior	Chengmei Shen	Male	175.3	71.0	N
199	Tsinghua University	Sophomore	Chunpeng Lv	Male	155.7	51.0	N

# info返回表的信息概况
# info主要展示列的信息， 统计每列有多少非空，以及数据类型
df.info()


RangeIndex: 200 entries, 0 to 199
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   School    200 non-null    object 
 1   Grade     200 non-null    object 
 2   Name      200 non-null    object 
 3   Gender    200 non-null    object 
 4   Height    183 non-null    float64
 5   Weight    189 non-null    float64
 6   Transfer  188 non-null    object 
dtypes: float64(2), object(5)
memory usage: 11.1+ KB

# describe返回的是表中数值列对应的主要统计量
# 计数，平均值，标准差，最小值，最大值以及较低的百分位数和50。默认情况下，较低的百分位数为25，较高的百分位数为75.50百分位数与中位数相同
df.describe()

	Height	Weight
count	183.000000	189.000000
mean	163.218033	55.015873
std	8.608879	12.824294
min	145.400000	34.000000
25%	157.150000	46.000000
50%	161.900000	51.000000
75%	167.500000	65.000000
max	193.900000	89.000000

# 这个参数默认是只计算数值型特征的统计量，当输入include=['O']，会计算离散型变量的统计特征
# 直接给出了非空数量count，唯一值种类unique，出现最多的类型top和出现次数freq
df.describe(include = ['O'])

	School	Grade	Name	Gender	Transfer
count	200	200	200	200	188
unique	4	4	170	2	2
top	Tsinghua University	Junior	Xiaoqiang Qin	Female	N
freq	69	59	3	141	181

2.3.2 特征统计函数
操作后返回的是标量，所以又称为聚合函数，它们有一个公共参数axis
默认0代表逐列聚合，设为则表示逐行聚合

df_stat = df[['Height','Weight']]
# mean()求平均
df_stat.mean()

Height    163.218033
Weight     55.015873
dtype: float64

# max()求最大值
df_stat.max()

Height    193.9
Weight     89.0
dtype: float64

# 分位数，分位数指的就是连续分布函数中的一个点，这个点对应概率p
df_stat.quantile(0.75)

Height    167.5
Weight     65.0
Name: 0.75, dtype: float64

# 非缺失值个数，统计有值的函数
df_stat.count()

Height    183
Weight    189
dtype: int64

# 最大值对应的索引！是索引，不是数值 
df_stat.idxmax()

Height    193
Weight      2
dtype: int64

# 最小值对应的索引
df_stat.idxmin()

Height    143
Weight     49
dtype: int64

# 但在这个数据集上求行（体重和身高）的均值，没有太大意义
df_stat.mean(axis=1).head()

0    102.45
1    118.25
2    138.95
3     41.00
4    124.00
dtype: float64

2.3.3 唯一值函数

# 对序列使用unique可以得到其唯一值组成的列表
df['School'].unique()

array(['Shanghai Jiao Tong University', 'Peking University',
       'Fudan University', 'Tsinghua University'], dtype=object)

# 对序列使用nunique可以得到唯一值的个数
df['School'].nunique()

# value_counts可以得到某一列的唯一值和其对应出现的频数
df['School'].value_counts()

Tsinghua University              69
Shanghai Jiao Tong University    57
Fudan University                 40
Peking University                34
Name: School, dtype: int64

#  drop_duplicates可以观察多个列组合的唯一值
# keep参数，默认值first表示每个组合保留第一次出现的所在行
# last表示保留最后一次出现的所在行
# false表示把所有重复组合所在的行剔除
# drop_duplicates返回了唯一值的布尔列表
df_stat = df[['Gender','Transfer','Name']]
df_stat.drop_duplicates(['Gender','Transfer'])

	Gender	Transfer	Name
0	Female	N	Gaopeng Yang
1	Male	N	Changqiang You
12	Female	NaN	Peng You
21	Male	NaN	Xiaopeng Shen
36	Male	Y	Xiaojuan Qin
43	Female	Y	Gaoli Feng

df_stat.drop_duplicates(['Gender','Transfer'], keep='last')

	Gender	Transfer	Name
147	Male	NaN	Juan You
150	Male	Y	Chengpeng You
169	Female	Y	Chengquan Qin
194	Female	NaN	Yanmei Qian
197	Female	N	Chengqiang Chu
199	Male	N	Chunpeng Lv

# 保留只出现过一次的性别和姓名的组合
df_stat.drop_duplicates(['Name','Gender'], keep=False).head()

	Gender	Transfer	Name
0	Female	N	Gaopeng Yang
1	Male	N	Changqiang You
2	Male	N	Mei Sun
4	Male	N	Gaojuan You
5	Female	N	Xiaoli Qian

df['School'].drop_duplicates()

0    Shanghai Jiao Tong University
1                Peking University
3                 Fudan University
5              Tsinghua University
Name: School, dtype: object

df_stat.duplicated(['Gender', 'Transfer']).head()

0    False
1    False
2     True
3     True
4     True
dtype: bool

# duplicate把重复元素设为True，否则为False
# drop_duplicates等价于把 duplicated为True 的对应行剔除
# 有重复值是True，没重复值是False
# 筛选Gender和Transfer的组合种类
df_stat.duplicated(['Gender','Transfer']).head()

0    False
1    False
2     True
3     True
4     True
dtype: bool

df['School'].duplicated().head()

0    False
1    False
2     True
3    False
4     True
Name: School, dtype: bool

2.3.4 替换函数
替换操作是针对某一个列进行的
映射替换、逻辑替换、数值替换

# 在 replace 中，可以通过字典构造，或者传入两个列表来进行替换
df['Gender'].replace({'Female':0, 'Male':1}).head()

0    0
1    1
2    1
3    0
4    1
Name: Gender, dtype: int64

# replace中的参数相当于，第一个参数列表是字典的 key，第二个参数列表是字典的value
df['Gender'].replace(['Female','Male'],[0,1]).head()

0    0
1    1
2    1
3    0
4    1
Name: Gender, dtype: int64

replace还有一种特殊的方向替换，指定method参数为ffill，则为用前面一个最近的未被替换的值进行替换；bfill则使用后面最近的未被替换的值进行替换

# 把1和2替换成前面的值
a = pd.Series(['a',1,'b',2,1,1,'a'])
a.replace([1,2], method='ffill')

0    a
1    a
2    b
3    b
4    b
5    b
6    a
dtype: object

# 把1,2替换成后面的值
a.replace([1,2], method='bfill')

0    a
1    b
2    b
3    a
4    a
5    a
6    a
dtype: object

正则替换需使用str.replace

逻辑替换包括了where和mask，这两个函数是完全对称的
where函数在传入条件为False的对应行进行替换，而mask在传入条件为True的对应行进行替换
当不指定替换行时，替换为缺失值

a = pd.Series([-1,1.2345,100,-50])
# where传入不小于0时，进行替换，不指定替换行时，替换为缺失值NaN
a.where(a<0)

0    -1.0
1     NaN
2     NaN
3   -50.0
dtype: float64

# mask传入值小于0时，进行替换，不指定替换行时，替换为缺失值NaN
a.mask(a<0)

0         NaN
1      1.2345
2    100.0000
3         NaN
dtype: float64

# mask传入值小于0时，进行替换，指定替换内容为-50，替换为-50.0000
a.mask(a<0, -50)

0    -50.0000
1      1.2345
2    100.0000
3    -50.0000
dtype: float64

# 传入的条件只需是与被调用的Series索引一直的布尔序列即可
# mask函数为True时，替换第二个参数的值
a_condition = pd.Series([True,False,False,True], index=a.index)
a.mask(a_condition, -50)

0    -50.0000
1      1.2345
2    100.0000
3    -50.0000
dtype: float64

数值替换包含了round，abs，clip方法，分别表示取整，取绝对值和截断

# round可以用参数指定保留小数点后几位数字
a =pd.Series([-1,1.2345,100,-50])
a.round(2)

0     -1.00
1      1.23
2    100.00
3    -50.00
dtype: float64

# abs()取绝对值
a.abs()

0      1.0000
1      1.2345
2    100.0000
3     50.0000
dtype: float64

# 两个数表示上下截断边界
# 如，第一个数-1.00，小于下边界数0，则返回下边界数0
# 第二个数在[0,2]，所以保留原数
# 第三个数为100，高于上边界数2，则返回上边界数2
a.clip(0,2)

0    0.0000
1    1.2345
2    2.0000
3    0.0000
dtype: float64

2.3.5排序函数
1.值排序sort_values
2.索引排序sort_index

# set_index方法把年级和姓名两列作为索引
df_index = df[['Grade','Name','Height','Weight']].set_index(['Grade','Name'])
df_index

		Height	Weight
Grade	Name
Freshman	Gaopeng Yang	158.9	46.0
Freshman	Changqiang You	166.5	70.0
Senior	Mei Sun	188.9	89.0
Sophomore	Xiaojuan Sun	NaN	41.0
Sophomore	Gaojuan You	174.0	74.0
...	...	...	...
Junior	Xiaojuan Sun	153.9	46.0
Senior	Li Zhao	160.9	50.0
	Chengqiang Chu	153.9	45.0
	Chengmei Shen	175.3	71.0
Sophomore	Chunpeng Lv	155.7	51.0

200 rows × 2 columns

# 对身高进行排序，默认参数ascending=True为升序
df_index.sort_values('Height').head()

		Height	Weight
Grade	Name
Junior	Xiaoli Chu	145.4	34.0
Senior	Gaomei Lv	147.3	34.0
Sophomore	Peng Han	147.8	34.0
Senior	Changli Lv	148.7	41.0
Sophomore	Changjuan You	150.5	40.0

# 降序
df_index.sort_values('Height',ascending=False).head()

		Height	Weight
Grade	Name
Senior	Xiaoqiang Qin	193.9	79.0
	Mei Sun	188.9	89.0
	Gaoli Zhao	186.5	83.0
Freshman	Qiang Han	185.3	87.0
Senior	Qiang Zheng	183.9	87.0

# 在体重相同的情况下，对身高进行排序，并且保持身高降序排列，体重升序排列
df_index.sort_values(['Weight','Height'],ascending=[True,False]).head()

		Height	Weight
Grade	Name
Sophomore	Peng Han	147.8	34.0
Senior	Gaomei Lv	147.3	34.0
Junior	Xiaoli Chu	145.4	34.0
Sophomore	Qiang Zhou	150.5	36.0
Freshman	Yanqiang Xu	152.4	38.0

# 索引排序，元素的值在索引中，需要指定索引层的名字或者层号，用参数level表示
# 这里通过指定索引层的名字来表示，字符串的排列顺序是由字母顺序决定的
#  所以Grade是从F开始排序，Name是从Y开头的词排序
df_index.sort_index(level=['Grade','Name'],ascending=[True,False]).head()

		Height	Weight
Grade	Name
Freshman	Yanquan Wang	163.5	55.0
	Yanqiang Xu	152.4	38.0
	Yanqiang Feng	162.3	51.0
	Yanpeng Lv	NaN	65.0
	Yanli Zhang	165.1	52.0

# level用层号表示，同样的结果
df_index.sort_index(level=[0,1],ascending=[True,False]).head()

		Height	Weight
Grade	Name
Freshman	Yanquan Wang	163.5	55.0
	Yanqiang Xu	152.4	38.0
	Yanqiang Feng	162.3	51.0
	Yanpeng Lv	NaN	65.0
	Yanli Zhang	165.1	52.0

2.3.6 apply方法
apply常用于DataFrame的行迭代和列迭代
apply的参数往往是一个以序列为输入的函数

df_apply = df[['Height','Weight']]
def my_mean(x):
    res = x.mean()
    return res
# 对Height和Weight进行迭代
df_apply.apply(my_mean)

163.21803278688526
55.01587301587302





Height    163.218033
Weight     55.015873
dtype: float64

# 简单的函数可以转换成一行的隐形函数lambda表示
df_apply.apply(lambda x:x.mean())

Height    163.218033
Weight     55.015873
dtype: float64

# 指定axis=1，那么每次传入函数的就是行元素组成的Series
# 同逐行均值结果一致
df_apply.apply(lambda x:x.mean(),axis=1).head()

0    102.45
1    118.25
2    138.95
3     41.00
4    124.00
dtype: float64

# mad函数返回的是一个序列中偏离该序列均值的绝对值大小的均值
# 序列1,3,7,10中，均值为5.25，每一个元素偏离的绝对值为4.25,2.25,1.75,4.75，这个偏离序列的均值为3.25
# mad的解释示例：
df_apply.apply(lambda x:(x-x.mean()).abs().mean())

Height     6.707229
Weight    10.391870
dtype: float64

# mad直接调用方法，返回结果和上述一致
df_apply.mad()

Height     6.707229
Weight    10.391870
dtype: float64

note
使用pandas的内置函数处理和apply来处理同一个任务，速度会相差很多，所以要谨慎使用apply。2.4 窗口对象
pandas有3类窗口
滑动窗口rolling、扩张窗口expanding、指数加权窗口ewm要使用滑动窗口，就必须先要对一个序列使用.rolling得到滑窗对象
最重要的参数为窗口大小window

a=pd.Series([1,2,3,4,5])
roller=a.rolling(window=3)
roller

Rolling [window=3,center=False,axis=0]

得到滑窗对象后，能够使用相应的聚合函数进行计算
窗口包含当前行所在的元素
如，在第4个位置进行均值计算时，应当计算(2+3+4)/3,而不是(1+2+3)/3

# nan,nan,1->nan
# nan,1,2->nan
# 1,2,3->2.0
# 2,3,4->3.0
# 3,4,5->4.0
# 总结：有nan的时候返回nan
roller.mean()

0    NaN
1    NaN
2    2.0
3    3.0
4    4.0
dtype: float64

roller.sum()

0     NaN
1     NaN
2     6.0
3     9.0
4    12.0
dtype: float64

# 滑动相关系数的计算
s = pd.Series([1,2,6,16,30])
roller.cov(s)

0     NaN
1     NaN
2     2.5
3     7.0
4    12.0
dtype: float64

# 滑动协方差的计算
roller.corr(s)

0         NaN
1         NaN
2    0.944911
3    0.970725
4    0.995402
dtype: float64

# 支持使用apply传入自定义函数，其传入值是对应窗口的Series
roller.apply(lambda x:x.mean())

0    NaN
1    NaN
2    2.0
3    3.0
4    4.0
dtype: float64

shift,diff,pct_change是一组类滑窗函数，它们的公共参数为perids=n，默认为1，分别表示取向前第n个元素的值、与向前第n个元素做差（n阶差分）、与向前第n个元素相比计算增长率。这里的n可以为负，表示反方向的类似操作

a=pd.Series([1,3,6,10,15])
# 取向前第n个元素的值
# 1,3,6,10,15
# 每个位置向左数两个数：nan,nan,1,3,6
a.shift(2)

0    NaN
1    NaN
2    1.0
3    3.0
4    6.0
dtype: float64

# 与向前第n个元素做差（n阶差分）
# 1,3,6,10,15
# 1-nan->nan,3-nan->nan, 6-nan->nan, 10-1->9, 15-3->12
a.diff(3)

0     NaN
1     NaN
2     NaN
3     9.0
4    12.0
dtype: float64

# 与向前第n个元素相比计算增长率
# 1,3,6,10,15
# (1-nan)/nan->nan, (3-1)/1->2, (6-3)/3->1, (10-6)/6->0.66,(15-10)/6->0.5
a.pct_change()

0         NaN
1    2.000000
2    1.000000
3    0.666667
4    0.500000
dtype: float64

# 1,3,6,10,15
# 每个位置向后数一个数：3,6,10,15，nan
a.shift(-1)

0     3.0
1     6.0
2    10.0
3    15.0
4     NaN
dtype: float64

# 与向后第n个元素做差（n阶差分）
# 1,3,6,10,15
# 1-6->-5, 3-10->-7, 6-15->-9, 10-nan->nan, 15-nan->nan
a.diff(-2)

0   -5.0
1   -7.0
2   -9.0
3    NaN
4    NaN
dtype: float64

结合上面滑动窗口rolling，有没有发现它们的功能可以用窗口大小为n+1的rolling方法等价代替呢

# a.shift(2)
# 如果隐式函数不加list(x)[0]，会报错cannot convert the series to 
s.rolling(3).apply(lambda x:list(x)[0])

0    NaN
1    NaN
2    1.0
3    2.0
4    6.0
dtype: float64

# s.diff
s.rolling(4).apply(lambda x:list(x)[-1]-list(x)[0])

0     NaN
1     NaN
2     NaN
3    15.0
4    28.0
dtype: float64

# s.pct_change()
def my_pct(x):
    L = list(x)
    return L[-1]/L[0]-1
s.rolling(2).apply(my_pct)

0         NaN
1    1.000000
2    2.000000
3    1.666667
4    0.875000
dtype: float64

思考题：
rolling对象的默认窗口方向都是向前的，某些情况下用户需要向后的窗口，例如对 1,2,3设定向后窗口为 2 的 sum 操作，结果为 3,5,NaN，此时应该如何实现向后的滑窗操作？（提示：使用shift ）
感谢群里大佬提供思路！

# 群里的思路
# 相当于当前值+后面的值
# 1+2->3, 2+3->5, 3+nan->nan
t=pd.Series([1,2,3])
t+t.shift(-1)

0    3.0
1    5.0
2    NaN
dtype: float64

# 群里提供的解法
# 3,2,1
# 3,2,1->nan,3,2
# 累加：nan,5,3
# 逆序 3,5，nan
(t[::-1]+t[::-1].shift(1))[::-1]

0    3.0
1    5.0
2    NaN
dtype: float64

2.4.2 扩张窗口
累计窗口，可以理解为一个动态长度的窗口，其窗口的大小就是从序列开始处，到具体操作的对应位置
其使用的聚合函数会作用于这些逐步扩张的窗口上

设序列为a1,a2,a3,a4，则其每个位置对应的窗口即[a1]、[a1,a2]、[a1,a2,a3]、[a1,a2,a3,a4]

# 1->1,(1+3)/2->2,(1+3+6)/3>3.33,(1+3+6+10)/4->5
a = pd.Series([1,3,6,10])
a.expanding().mean()

0    1.000000
1    2.000000
2    3.333333
3    5.000000
dtype: float64

task01

df = pd.read_csv('pokemon.csv')
df.head(3)

	#	Name	Type 1	Type 2	Total	HP	Attack	Defense	Sp. Atk	Sp. Def	Speed
0	1	Bulbasaur	Grass	Poison	318	45	49	49	65	65	45
1	2	Ivysaur	Grass	Poison	405	60	62	63	80	80	60
2	3	Venusaur	Grass	Poison	525	80	82	83	100	100	80

# 对HP,ATTACK,DEFENSE,SP,ATK,SP.Def，SPEED进行加总，验证是否为Total值
# 注意，用索引判断的话，需要将末尾列+1，相当于原本是5,6,7,8,9,10行，但是右括号是开区间，[5,11)
# 否则结果是1.0
# 用mean的话返回0.0，用max和min的话返回的是False
df = pd.read_csv('pokemon.csv')
(df[df.columns[5:11]].sum(axis=1) != df[df.columns[4]]).max()

False

# 答案
(df[['HP', 'Attack', 'Defense', 'Sp. Atk', 'Sp. Def', 'Speed'
 ]].sum(1)!=df['Total']).mean()

0.0

对于# 重复的妖怪值保留第一条记录
2.a 求第一属性的种类数量和前三多数量对应的种类

df = pd.read_csv('pokemon.csv')
df['Type 1'].value_counts().head(3)

Water     112
Normal     98
Grass      70
Name: Type 1, dtype: int64

# 对于# 重复的妖怪值保留第一条记录
df_dup = df.drop_duplicates('#', keep='first')
df_dup

	#	Name	Type 1	Type 2	Total	HP	Attack	Defense	Sp. Atk	Sp. Def	Speed
0	1	Bulbasaur	Grass	Poison	318	45	49	49	65	65	45
1	2	Ivysaur	Grass	Poison	405	60	62	63	80	80	60
2	3	Venusaur	Grass	Poison	525	80	82	83	100	100	80
4	4	Charmander	Fire	NaN	309	39	52	43	60	50	65
5	5	Charmeleon	Fire	NaN	405	58	64	58	80	65	80
...	...	...	...	...	...	...	...	...	...	...	...
793	717	Yveltal	Dark	Flying	680	126	131	95	131	98	99
794	718	Zygarde50% Forme	Dragon	Ground	600	108	100	121	81	95	95
795	719	Diancie	Rock	Fairy	600	50	100	150	100	150	50
797	720	HoopaHoopa Confined	Psychic	Ghost	600	80	110	60	150	130	70
799	721	Volcanion	Fire	Water	600	80	110	120	130	90	70

721 rows × 11 columns

# 求第一属性的种类数量
# nunique得到唯一值的个数
df_dup['Type 1'].nunique()

# 前三多数量对应的种类
df_dup['Type 1'].value_counts().head(3)

Water     105
Normal     93
Grass      66
Name: Type 1, dtype: int64

# 答案
df_dup['Type 1'].value_counts().index[:3]

Index(['Water', 'Normal', 'Grass'], dtype='object')

求第一属性和第二属性的组合种类

# shape获取序列的长度，.shape结果是(143,11)，11是原本的列数，只需取143，即为行数
df_attr = df_dup.drop_duplicates(['Type 1','Type 2'])
df_attr.shape[0]

求尚未出现过的属性组合
我的思路：找到Type 1和Type 2的组合，将所有出现过Type 1和Type 2排列组合，然后将组合数减去已有的组合

# 答案给的思路
# 之后还要再想一想
pd_full = [' '.join([i,j]) if i!=j else i for j in df_dup['Type 1'].unique() for i in df_dup['Type 1'].unique()]
pd_part = [' '.join([i,j]) if type(j)!=float else i for i,j in zip(df_attr['Type 1'], df_attr['Type 2'])]
result = set(pd_full).difference(set(pd_part))
len(result)

取出物攻，超过120的替换为high，不足50的替换为low，否则为mid

df['Attack'].mask(df['Attack']>120,'high').mask(df['Attack']<50,'low').mask((df['Attack']>=50)&(df['Attack']<=120), 'mid')

0       low
1       mid
2       mid
3       mid
4       mid
       ... 
795     mid
796    high
797     mid
798    high
799     mid
Name: Attack, Length: 800, dtype: object

取出第一属性，分别用replace和apply替换所有字母为大写

# 换成大写查到了str.upper的用法
df['Type 1'].replace({i:str.upper(i) for i in df['Type 1']})

0        GRASS
1        GRASS
2        GRASS
3        GRASS
4         FIRE
        ...   
795       ROCK
796       ROCK
797    PSYCHIC
798    PSYCHIC
799       FIRE
Name: Type 1, Length: 800, dtype: object

df['Type 1'].apply(lambda x:str.upper(x))

0        GRASS
1        GRASS
2        GRASS
3        GRASS
4         FIRE
        ...   
795       ROCK
796       ROCK
797    PSYCHIC
798    PSYCHIC
799       FIRE
Name: Type 1, Length: 800, dtype: object

求每个妖怪六项能力的离差，即所有能力中偏离中位数最大的值，添加到df并从大到小排序

# 求所有能力中位数,变成array
# 遍历每一行，对每一行的每一个值和中位数做差，因为是求偏离的最大值，所以应该为差的绝对值
# apply第二个参数axis应设为1，以行遍历
df['Dev']=df[df.columns[5:11]].apply(lambda x:  np.max((x-x.median()).abs()), axis=1)
df.sort_values('Dev',ascending=False)

	#	Name	Type 1	Type 2	Total	HP	Attack	Defense	Sp. Atk	Sp. Def	Speed	Deviation	Dev
230	213	Shuckle	Bug	Rock	505	20	10	230	10	230	5	215.0	215.0
121	113	Chansey	Normal	NaN	450	250	5	5	35	105	50	207.5	207.5
261	242	Blissey	Normal	NaN	540	255	10	10	75	135	55	190.0	190.0
333	306	AggronMega Aggron	Steel	NaN	630	70	140	230	60	80	50	155.0	155.0
224	208	SteelixMega Steelix	Steel	Ground	610	75	125	230	55	95	30	145.0	145.0
...	...	...	...	...	...	...	...	...	...	...	...	...	...
143	132	Ditto	Normal	NaN	288	48	48	48	48	48	48	0.0	0.0
165	151	Mew	Psychic	NaN	600	100	100	100	100	100	100	0.0	0.0
255	236	Tyrogue	Fighting	NaN	210	35	35	35	35	35	35	0.0	0.0
206	191	Sunkern	Grass	NaN	180	30	30	30	30	30	30	0.0	0.0
271	251	Celebi	Psychic	Grass	600	100	100	100	100	100	100	0.0	0.0

800 rows × 13 columns

# 答案
df['Deviation'] = df[['HP', 'Attack', 'Defense', 'Sp. Atk','Sp. Def', 'Speed']].apply(lambda x:
 np.max((x-x.median()).abs()), 1)
df.sort_values('Deviation', ascending=False).head()

	#	Name	Type 1	Type 2	Total	HP	Attack	Defense	Sp. Atk	Sp. Def	Speed	Deviation
230	213	Shuckle	Bug	Rock	505	20	10	230	10	230	5	215.0
121	113	Chansey	Normal	NaN	450	250	5	5	35	105	50	207.5
261	242	Blissey	Normal	NaN	540	255	10	10	75	135	55	190.0
333	306	AggronMega Aggron	Steel	NaN	630	70	140	230	60	80	50	155.0
224	208	SteelixMega Steelix	Steel	Ground	610	75	125	230	55	95	30	145.0

2.5.2 指数加权窗口

# 题目
np.random.seed(0)
s = pd.Series(np.random.randint(-1,2,30).cumsum()).head()
s.ewm(alpha = 0.2).mean().head()

0   -1.000000
1   -1.000000
2   -1.409836
3   -1.609756
4   -1.725845
dtype: float64

# 套用公式
alpha = 0.2
s.expanding().apply(lambda x: ((1-alpha)**np.arange(x.shape[0])*x[::-1]).sum()
                                    / ((1-alpha) ** np.arange(shape[0])).sum())

0   -1.000000
1   -1.000000
2   -1.409836
3   -1.609756
4   -1.725845
dtype: float64

给定一个限制窗口n，只对包含自身最近的n个窗口进行滑动加权平均，给出新的wi和yt的更新公式，并通过rolling窗口实现这一功能
我的思路：和上一问一样，只是加了窗口限定的数值n，假设取n为3

alpha = 0.2
s.rolling(window=3).apply(lambda x: ((1-alpha)**np.arange(3)*x[::-1]).sum()
                                    / ((1-alpha) ** np.arange(3)).sum())

0         NaN
1         NaN
2   -1.409836
3   -1.737705
4   -2.000000
dtype: float64

你可能感兴趣的:(python初学笔记,pandas)

源码篇：python生成《蔬菜店销售数据分析报告》案例 IT小本本 python python 数据分析开发语言
本文将通过Python实现一个完整的蔬菜销售数据分析项目，涵盖数据生成、清洗、分析及可视化全流程。我们将利用模拟数据生成技术创建90天的销售记录，通过Pandas进行数据处理，结合Matplotlib和Seaborn实现多样化的可视化图表，并最终生成动态交互报告。一、数据生成：模拟真实销售场景为了模拟真实的蔬菜销售数据，我们设计了包含10种蔬菜（白菜、土豆、西红柿等）的90天销售记录。数据生成逻辑
Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
机器学习课堂4线性回归模型+特征缩放木尘152132 机器学习线性回归 python
一、实验2-2，线性回归模型，计算模型在训练数据集和测试数据集上的均方根误差代码：#2-2线性回归模型importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt#参数设置iterations=3000#迭代次数learning_rate=0.0001#学习率m_train=3000#训练样本的数量flag_plot_lines=False
基于Wasm的边缘计算Pandas：突破端侧AI的最后一公里——让数据分析在手机、IoT设备上飞驰 Eqwaak00 Pandas 人工智能 wasm 边缘计算 pandas 架构深度学习
引言：边缘计算的算力觉醒在智能家居设备每秒产生数万条传感器数据、手机App需要实时分析用户行为的今天，传统云计算模式面临高延迟、隐私风险、带宽成本三大挑战。本文将揭示如何通过WebAssembly（Wasm）+Pandas的技术组合，在边缘设备上实现零云端依赖的实时数据分析，并通过智慧工厂设备预测性维护案例，展示从理论到工程的全链路实现。一、技术架构设计1.1边缘计算范式演进mermaid：gra
excel文件有两列，循环读取文件两列赋值到字典列表。字典的有两个key,分别为question和answer。将最终结果输出到json文件大霞上仙 python excel json python
importpandasaspdimportjson#1.读取Excel文件（假设列名为question和answer）try:df=pd.read_excel("input.xlsx",usecols=["question","answer"])#明确指定列exceptExceptionase:print(f"读取文件失败:{str(e)}")exit()#2.转换为字典列表result=[{"
「Python数据分析」Pandas基础，筛选数据利器：布尔索引奕澄羽邦 python 数据分析 pandas
我们在处理数据的时候，数据筛选是一个重要的过程。利用布尔索引，我们可以选择需要的数据区间。布尔索引，是利用各种不等式，以及与或非操作，来对数据区间进行选择。在pandas中，与操作，对应的是&这个符号，表示选取两个数据集重合的部分。或操作，对应的是|这个符号，表示选择两个数据集中，只要在一个数据集中出现的部分。非操作，对应的是~这个符号，表示选取一个数据集中，相反的部分。我们下面通过具体的例子，来
数据分析_python进行数据筛选1_行筛选 Monkey*王 python 数据分析 pandas
以titanic的训练数据为例进行展示，为了简化取前十行为例首先导入模块，导入数据importpandasaspdimportnumpyasnpdf=pd.read_csv(r"C:\Users\admin\Desktop\train.csv")df=df.head(10)df.index=['a','b','c','d','e','f','g','h','i','g']筛选单行1.利用df[行索
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
python pandas 读取excel单元门公式值_Python pandas对excel的操作实现示例 weixin_39585761 python pandas 读取excel单元门公式值
最近经常看到各平台里都有Python的广告，都是对excel的操作，这里明哥收集整理了一下pandas对excel的操作方法和使用过程。本篇介绍pandas的DataFrame对列(Column)的处理方法。示例数据请通过明哥的gitee进行下载。增加计算列pandas的DataFrame，每一行或每一列都是一个序列(Series)。比如：importpandasaspddf1=pd.read_e
pandas整表写入excel指定位置_pandas操作Excel的常用场景及问题那个吴小明
很多场景下使用pandas就能够胜任手上的excel处理任务，之前写的用python操作具体到excel单元格的方法参考：贺霆：python操作Excel实现自动化报表zhuanlan.zhihu.com现在主要介绍使用pandas读取excel的几种常用场景：一、常规读取importpandasaspdfrompandasimportDataFrame,Seriesimportosos.chdi
pandas 读取某一单元格的值_07-Pandas Excel新建/读取/填充（一）扇贝编程 pandas 读取某一单元格的值
Excel是微软的经典之作，几乎可以满足我们日常工作的所有需求，但是在处理海量数据时，Excel在效率及性能方面就显得很吃力。正因为Pandas在数据处理方面有着独特的优势，所有掌握pandas库处理excel格式的数据就显得十分必要。目录excel文档新建读取excel文档行列操作空值自动填充行列函数运算excel数据排序excel数据按条件筛选#1.创建excel文件在jupyter中导入pa
如何用Python批量将CSV文件编码转换为UTF-8并转为Excel格式？字节王德发 python python excel 开发语言
在处理数据时，CSV文件格式常常用作数据的交换格式。不过，很多情况下我们会遇到编码问题，特别是当文件不是UTF-8编码时。为了更好地处理这些文件，可能需要将它们转换为UTF-8编码，并且将其转换为Excel格式，这样可以方便后续的数据分析和使用。今天就来聊聊如何用Python实现这一过程。准备工作：安装必要的库我们需要确保安装了所需的Python库。主要用到的库有pandas和openpyxl。p
Pandas完全指南：数据处理与分析从入门到实战 xiaoyu❅ python python pandas 开发语言
目录引言一、Pandas环境配置与核心概念1.1安装Pandas1.2导入惯例1.3核心数据结构二、数据结构详解2.1Series创建与操作2.2DataFrame创建三、数据查看与基本操作3.1数据预览3.2索引与选择3.3数据排序四、数据清洗实战4.1处理缺失值4.2处理重复值4.3数据类型转换4.4字符串处理五、数据处理进阶5.1数据筛选5.2列操作5.3应用函数六、数据分组与聚合6.1基础
焊接性能分析代码（Python）骑蜗牛上月亮 python 开发语言
welding_performance_data.xls数据文件。welding_strengthtoughness5001052012480855015490953013510115401447075601690018600121500139111578115importpandasaspdimportmatplotlib.pyplotaspltimporttkinterastkfrommatp
Python常用的库讲解（易懂版）不辉放弃 python 开发语言
NumPy：用于科学计算的基础库，提供多维数组对象、各种派生对象和对数组执行操作的工具。importnumpyasnp#创建一个numpy数组arr=np.array([1,2,3,4,5])print(arr)Pandas：数据处理库，提供数据结构和数据分析工具，特别适合处理结构化数据。importpandasaspd#创建一个Pandas数据帧df=pd.DataFrame({'A':[1,2
基于Geopandas的地理空间数据可视化与分析方法研究一键难忘信息可视化 Geopandas python
地理空间数据可视化是数据科学中重要的应用之一。通过有效地展示地理信息，我们能够深入理解空间数据的分布和模式。Python的Geopandas库为地理空间数据处理和可视化提供了强大的支持，它基于pandas并集成了shapely、fiona等多个库，能够方便地进行地理数据的读取、处理和展示。本文将介绍如何使用Geopandas进行地理空间数据可视化，示范数据处理的基本流程，并通过具体的代码实例，深入
如何用python做一个小程序进行炒股？大懒猫软件 python 小程序开发语言
使用Python分析股票的完整程序以下是一个完整的Python程序，展示如何获取股票数据、进行数据清洗、计算技术指标、并进行简单的价格走势分析。1.安装必要的库首先，确保安装了必要的库：bash复制pipinstallrequestspandasmatplotlibyfinance2.获取股票数据使用yfinance库获取股票数据。yfinance是一个流行的库，可以方便地从雅虎财经获取股票数据。
批量将将xlsx转为csv，将csv转为csv utf-8 Znnjcidmslz 数据 python pandas
csv转换为csvutf-8将csv格式文件批量转换为csvutf-8格式文件，以下为使用Python处理的代码：importosimportpandasaspd#存有文件的路径current_path=os.getcwd()#current_path=os.path.dirname('G:/weather_output2')#转换之后存放的路径为“UTF8”，会检查当前路径是否有，没有就创建ut
csv转为utf8编码_中文的csv文件的编码改成utf8的方法 John Sheppard csv转为utf8编码
直奔主题：把包含中文的csv文件的编码改成utf-8的方法：啰嗦几句：在用pandas读取hive导出的csv文件时，经常会遇到类似UnicodeDecodeError:'gbk'codeccan'tdecodebyte0xa3inposition12这样的问题，这种问题是因为导出的csv文件包含中文，且这些中文的编码不是gbk，直接用excel打开这些文件还会出现乱码，但用记事本打开这些csv则
1.4使用pandas读取和写入Excel文件的基本操作林伽一 python处理excel pandas excel python
读取和写入Excel文件是使用Python处理Excel的基本操作。在Python中，可以使用不同的库来实现这些操作，例如pandas、openpyxl等。以下是读取和写入Excel文件的基本操作示例：读取Excel文件使用pandas库读取Excel文件非常方便。下面的示例演示了如何使用pandas读取Excel文件：importpandasaspd#读取Excel文件df=pd.read_ex
【Python】爬取高校数据（名字，院校特色，所在地，性质）。可用于判断高校是否为双一流，本科/专科等分析 llzcxdb Python python 开发语言爬虫
源网站：http://college.gaokao.com/schlist/p1利用Python的lxml库进行html解析，源代码：importrequestsfromlxmlimportetreeimportpandasaspdimportcsv#请求URLurl='http://college.gaokao.com/schlist/p'#构建请求头headers={'User-Agent':
机器学习Pandas_learn4 XW-ABAP 机器学习机器学习 pandas 人工智能
importpandasaspddefcalculate_goods_covariance():#定义商品销售数据字典goods_sales_data={"时期":["一期","二期","三期","四期"],"苹果":[15,16,3,2],"橘子":[12,14,16,18],"石榴":[11,8,7,1]}#将字典转换为DataFrame对象goods_dataframe=pd.DataFra
如何使用Python对Excel、CSV文件完成数据清洗与预处理？ Python 集中营 python数据分析应用 python excel 开发语言
在数据分析和机器学习项目中，数据清洗与预处理是不可或缺的重要环节。现实世界中的数据往往是不完整、不一致且含有噪声的，这些问题会严重影响数据分析的质量和机器学习模型的性能。Python作为一门强大的编程语言，提供了多种库和工具来帮助我们高效地完成数据清洗与预处理任务，其中最常用的库包括Pandas、NumPy、SciPy等。本文将详细介绍如何使用Python对Excel和CSV格式的数据文件进行清洗
Pandas与PySpark混合计算实战：突破单机极限的智能数据处理方案 Eqwaak00 Pandas pandas 学习 python 科技开发语言
引言：大数据时代的混合计算革命当数据规模突破十亿级时，传统单机Pandas面临内存溢出、计算缓慢等瓶颈。PySpark虽能处理PB级数据，但在开发效率和局部计算灵活性上存在不足。本文将揭示如何构建Pandas+PySpark混合计算管道，在保留Pandas便捷性的同时，借助Spark分布式引擎实现百倍性能提升，并通过真实电商用户画像案例演示全流程实现。一、混合架构设计原理1.1技术栈优势分析维度P
pandas 根据给定的条件动态筛选 Aa123456789_55 pandas pandas python
defdynamic_filter(df,conditions):"""根据给定的条件动态筛选DataFrame。:paramdf:pandasDataFrame:paramconditions:字典，键为列名，值为筛选条件（单个值、列表或其他布尔表达式）:return:筛选后的DataFrame"""mask=pd.Series(True,index=df.index)#初始化全True的mas
机器学习Pandas_learn3 XW-ABAP 机器学习 pandas
frompandasimportDataFrameimportnumpypaints={"车名":["奥迪Q5L","哈弗H6","奔驰GLC"],"最低报价":[numpy.nan,9.80,numpy.nan],"最高报价":[49.80,23.10,58.78]}goods_in=DataFrame(paints,index=[1,2,3])print(goods_in)goods_in_n
python绘制密度散点图龟速前进 anaconda 可视化 python
头大，外行人做个图咋这么难，趋势线还没有研究出来怎么加上去，哎importmatplotlib.pyplotaspltfromscipy.statsimportgaussian_kdefrommpl_toolkits.axes_grid1importmake_axes_locatableimportnumpyasnpimportpandasaspdfromdbfreadimportDBFdata=
pandas 读写excel jimox_ai pandas
在Python中，使用Pandas库读写Excel文件是一个常见的操作。Pandas提供了`read_excel`和`to_excel`方法来分别实现读取和写入Excel文件的功能。以下是一些基本的示例：###读取Excel文件```pythonimportpandasaspd#读取Excel文件df=pd.read_excel('path_to_your_excel_file.xlsx')#显示
大话 Python：python 操作 excel 系列 -- pandas 读取、分析、保存 2401_84140734 程序员 python excel pandas
read_excel()直接读取excel文件df=pd.read_excel(‘C:/test.xlsx’)4，读取当前字段计算后生成新字段获取原有字段paymount值paymount=df[‘paymount’]业务计算（金额-10）paymount_new=paymount-10添加新字段paymount_newdf[‘paymount_new’]=paymount_new这个步骤可以加入
pandas寻找四分位数及判断离群点 SXxtyz python
importpandasaspdtrain_df=pd.read_csv("train.csv")q1,q3=train_df['price'].quantile([0.25,0.75])iqr=q3-
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla

	col1 \|\|\|\| col2
0	TS \|\|\|\| This is an apple.
1	GQ \|\|\|\| My name is Bob.
2	WT \|\|\|\| Well done!
3	PT \|\|\|\| May I help you?