Nicole_Liang

10 Minutes to pandas（pandas官方网站的翻译）

本文主要参考官方网站对pandas的介绍，加上自己的理解，有不对的地方多多包涵哈！！！

pandas模块介绍

##通常会加载以下模块
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

一、创建对象

1.通过列表的值创建Series

  Series是pandas提供的以为数组，它类似于numpy中的Array,pandas默认会创建一个整数的索引，但也可以是字符型的索引

s = pd.Series([1,3,5,np.nan,6,8])

s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

s = pd.Series([1,3,5,np.nan,6,8],[1:6])   #Series只能是一维的数组，当维数大于1时将会报错

  File "", line 1
    s = pd.Series([1,3,5,np.nan,6,8],[1:6])   #Series只能是一维的数组，当维数大于1时将会报错
                                       ^
SyntaxError: invalid syntax

2.通过numpy array 创建DataFrame,并带有日期索引和列标签

在pandas中有一个非常常用的函数date_range，尤其是在处理时间序列数据时，这个函数的作用就是产生一个DatetimeIndex，就是时间序列数据的索引。
函数原型pandas.date_range(start=None, end=None, periods=None, freq=’D’, tz=None, normalize=False, name=None, closed=None, **kwargs)

参数：（1）start：string或datetime-like，默认值是None，表示日期的起点。
（2）end：string或datetime-like，默认值是None，表示日期的终点。
（3）periods：integer或None，默认值是None，表示你要从这个函数产生多少个日期索引值；如果是None的话，那么start和end必须不能为None。
（4）freq：string或DateOffset，默认值是’D’，表示以自然日为单位，这个参数用来指定计时单位，比如’5H’表示每隔5个小时计算一次。
（5）tz：string或None，表示时区，例如：’Asia/Hong_Kong’。
（6）normalize：bool，默认值为False，如果为True的话，那么在产生时间索引值之前会先把start和end都转化为当日的午夜0点。
（7）name：str，默认值为None，给返回的时间索引指定一个名字。
（8）closed：string或者None，默认值为None，表示start和end这个区间端点是否包含在区间内，可以有三个值，’left’表示左闭右开区间，’right’表示左开右闭区间，None表示两边都是闭区间。

返回值：DatetimeIndex

pd.date_range(start="20130104",end="20130110")  #产生时间序列数据的索引

dates = pd.date_range('20130101', periods=6)  #产生6个时间序列数据的索引
dates

DatetimeIndex(['2013-01-04', '2013-01-05', '2013-01-06', '2013-01-07',
               '2013-01-08', '2013-01-09', '2013-01-10'],
              dtype='datetime64[ns]', freq='D')

df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD')) #dataframe是一个类似表的结构，由多个Series组成，而Series在dataframe中叫做columns
df

	A	B	C	D
2013-01-01	0.765232	0.692670	1.141776	2.540531
2013-01-02	-0.898543	-0.659491	-0.430778	0.570982
2013-01-03	-0.025247	0.015063	-1.915272	0.372160
2013-01-04	-0.139174	1.516186	-1.151047	-0.389001
2013-01-05	0.663521	-0.280017	-0.995703	3.404915
2013-01-06	-0.203886	0.695235	1.311637	0.568774

3.通过dict的对象来创建想series一样的Dataframe

  Dataframe的行为索引index，列为labels

df2 = pd.DataFrame({ 'A' : 1.,
                    'B' : pd.Timestamp('20130102'),
                    'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                    'D' : np.array([3] * 4,dtype='int32'),
                    'E' : pd.Categorical(["test","train","test","train"]),
                    'F' : 'foo' })
df2

	A	B	C	D	E	F
0	1.0	2013-01-02	1.0	3	test	foo
1	1.0	2013-01-02	1.0	3	train	foo
2	1.0	2013-01-02	1.0	3	test	foo
3	1.0	2013-01-02	1.0	3	train	foo

df2.dtypes  #查看dataframe中每一列的类型

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

df2.<TAB> #如果你用的是IPython，输入df2.按下tab键会显示以下的可选属性
# df2.A                  df2.bool
# df2.abs                df2.boxplot
# df2.add                df2.C
# df2.add_prefix         df2.clip
# df2.add_suffix         df2.clip_lower
# df2.align              df2.clip_upper
# df2.all                df2.columns
# df2.any                df2.combine
# df2.append             df2.combine_first
# df2.apply              df2.compound
# df2.applymap           df2.consolidate
# df2.D

  File "", line 1
    df2.
        ^
SyntaxError: invalid syntax

二、查看数据

1.查看数据框中的top & bottom行

df.head()  #默认是查看数据框中的前5行

	A	B	C	D
2013-01-01	-0.087393	0.872594	0.251184	1.149018
2013-01-02	1.655268	0.616169	-0.379986	1.327039
2013-01-03	0.042210	1.488178	-0.983630	0.323413
2013-01-04	0.271114	-0.088969	0.567894	0.928066
2013-01-05	2.147626	0.291387	0.489159	0.445913

df.head(6) #可指定查看的行数

	A	B	C	D
2013-01-01	-0.087393	0.872594	0.251184	1.149018
2013-01-02	1.655268	0.616169	-0.379986	1.327039
2013-01-03	0.042210	1.488178	-0.983630	0.323413
2013-01-04	0.271114	-0.088969	0.567894	0.928066
2013-01-05	2.147626	0.291387	0.489159	0.445913
2013-01-06	0.131625	0.264920	-1.441035	-1.163547

df.tail(3) #查看数据框中的后3行

	A	B	C	D
2013-01-04	0.271114	-0.088969	0.567894	0.928066
2013-01-05	2.147626	0.291387	0.489159	0.445913
2013-01-06	0.131625	0.264920	-1.441035	-1.163547

2.查看index,colums和底层的数据

df.index  #查看数据框中的索引

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

df.columns  #查看数据框中的每一列

Index(['A', 'B', 'C', 'D'], dtype='object')

df.values #查看df中的值

array([[-0.0873935 ,  0.87259398,  0.25118408,  1.14901843],
       [ 1.65526787,  0.61616926, -0.37998566,  1.32703857],
       [ 0.04220978,  1.48817811, -0.98362978,  0.32341307],
       [ 0.27111352, -0.08896946,  0.56789422,  0.92806564],
       [ 2.14762554,  0.29138675,  0.48915928,  0.44591301],
       [ 0.13162548,  0.2649196 , -1.44103542, -1.16354691]])

df.describe() #统计每一列的统计量，包括计数，均值，标准差，最小值，25%分位数，75%分位数，50%中位数，最大值

	A	B	C	D
count	6.000000	6.000000	6.000000	6.000000
mean	0.693408	0.574046	-0.249402	0.501650
std	0.955779	0.555263	0.829478	0.904427
min	-0.087393	-0.088969	-1.441035	-1.163547
25%	0.064564	0.271536	-0.832719	0.354038
50%	0.201369	0.453778	-0.064401	0.686989
75%	1.309229	0.808488	0.429665	1.093780
max	2.147626	1.488178	0.567894	1.327039

 df.T #转置数据框

	2013-01-01 00:00:00	2013-01-02 00:00:00	2013-01-03 00:00:00	2013-01-04 00:00:00	2013-01-05 00:00:00	2013-01-06 00:00:00
A	-0.087393	1.655268	0.042210	0.271114	2.147626	0.131625
B	0.872594	0.616169	1.488178	-0.088969	0.291387	0.264920
C	0.251184	-0.379986	-0.983630	0.567894	0.489159	-1.441035
D	1.149018	1.327039	0.323413	0.928066	0.445913	-1.163547

3.排序

（1）索引排序

 df.sort_index() #索引排序，默认axis=0,ascending=True,升序排序

	A	B	C	D
2013-01-01	-0.087393	0.872594	0.251184	1.149018
2013-01-02	1.655268	0.616169	-0.379986	1.327039
2013-01-03	0.042210	1.488178	-0.983630	0.323413
2013-01-04	0.271114	-0.088969	0.567894	0.928066
2013-01-05	2.147626	0.291387	0.489159	0.445913
2013-01-06	0.131625	0.264920	-1.441035	-1.163547

df.sort_index(axis=1, ascending=False)# 对列进行排序，ascending=False 降序

	D	C	B	A
2013-01-01	1.149018	0.251184	0.872594	-0.087393
2013-01-02	1.327039	-0.379986	0.616169	1.655268
2013-01-03	0.323413	-0.983630	1.488178	0.042210
2013-01-04	0.928066	0.567894	-0.088969	0.271114
2013-01-05	0.445913	0.489159	0.291387	2.147626
2013-01-06	-1.163547	-1.441035	0.264920	0.131625

（2）值排序

df.sort_values(by='B') #按列B的值从小排列到大,默认是升序

	A	B	C	D
2013-01-02	-0.898543	-0.659491	-0.430778	0.570982
2013-01-05	0.663521	-0.280017	-0.995703	3.404915
2013-01-03	-0.025247	0.015063	-1.915272	0.372160
2013-01-01	0.765232	0.692670	1.141776	2.540531
2013-01-06	-0.203886	0.695235	1.311637	0.568774
2013-01-04	-0.139174	1.516186	-1.151047	-0.389001

df.sort_values(by='B',ascending=False)   #按B列的值从大排列到小

	A	B	C	D
2013-01-04	-0.139174	1.516186	-1.151047	-0.389001
2013-01-06	-0.203886	0.695235	1.311637	0.568774
2013-01-01	0.765232	0.692670	1.141776	2.540531
2013-01-03	-0.025247	0.015063	-1.915272	0.372160
2013-01-05	0.663521	-0.280017	-0.995703	3.404915
2013-01-02	-0.898543	-0.659491	-0.430778	0.570982

df.sort_values(by=["A","C"]) #按A,C列的值排列

	A	B	C	D
2013-01-01	-0.087393	0.872594	0.251184	1.149018
2013-01-03	0.042210	1.488178	-0.983630	0.323413
2013-01-06	0.131625	0.264920	-1.441035	-1.163547
2013-01-04	0.271114	-0.088969	0.567894	0.928066
2013-01-02	1.655268	0.616169	-0.379986	1.327039
2013-01-05	2.147626	0.291387	0.489159	0.445913

三.选择数据

1.通过索引index

df['A']  #选择单列，结果产生一个Series，等价于df.A

2013-01-01   -0.087393
2013-01-02    1.655268
2013-01-03    0.042210
2013-01-04    0.271114
2013-01-05    2.147626
2013-01-06    0.131625
Freq: D, Name: A, dtype: float64

df[0:3] #通过[]，对行进行切片，选择前3行.

	A	B	C	D
2013-01-01	-0.087393	0.872594	0.251184	1.149018
2013-01-02	1.655268	0.616169	-0.379986	1.327039
2013-01-03	0.042210	1.488178	-0.983630	0.323413

df['20130102':'20130104'] #通过索引进行切片

	A	B	C	D
2013-01-02	1.655268	0.616169	-0.379986	1.327039
2013-01-03	0.042210	1.488178	-0.983630	0.323413
2013-01-04	0.271114	-0.088969	0.567894	0.928066

2.通过具体标签label选取列，使用datafram.loc。

有以下三种形式，
df.loc[行标签,列标签]
df.loc['a':'b'] #选取ab两行数据
df.loc[:,'one'] #选取one列的数据 df.loc的第一个参数是行标签，第二个参数为列标签（可选参数，默认为所有列标签），两个参数既可以是列表也可以是单个字符，如果两个参数都为列表则返回的是DataFrame，否则，则为Series。

dates = pd.date_range('20130101', periods=6)
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

dates[0]  #选择dates中的第一条记录

Timestamp('2013-01-01 00:00:00', freq='D')

df.loc[dates[0]] #显示行索引等于2013-01-01的记录

A   -0.087393
B    0.872594
C    0.251184
D    1.149018
Name: 2013-01-01 00:00:00, dtype: float64

df.loc[:,['A','B']]  #选取标签为A,B的列，并且选完类型还是dataframe

	A	B
2013-01-01	-0.087393	0.872594
2013-01-02	1.655268	0.616169
2013-01-03	0.042210	1.488178
2013-01-04	0.271114	-0.088969
2013-01-05	2.147626	0.291387
2013-01-06	0.131625	0.264920

df.loc['20130102',['A','B']]   #显示等于20130102的A,B数据

A    1.655268
B    0.616169
Name: 2013-01-02 00:00:00, dtype: float64

df.loc[dates[0],'A'] #为了得到第一行第一列的值，为了得到一个标量值

-0.08739349829740166

3.通过位置索引来选择数据集--iloc

df.iloc[3]  #通过传递数值进行位置选择，选择的是行

A    0.271114
B   -0.088969
C    0.567894
D    0.928066
Name: 2013-01-04 00:00:00, dtype: float64

df.iloc[3:5,0:2] #使用整数切片，作用与numpy/python中的情况类似

	A	B
2013-01-04	0.271114	-0.088969
2013-01-05	2.147626	0.291387

df.iloc[[1,2,4],[0,2]] #使用整数位置列表，作用和numpy/python中的情况类似

	A	C
2013-01-02	1.655268	-0.379986
2013-01-03	0.042210	-0.983630
2013-01-05	2.147626	0.489159

df.iloc[1:3,:] #对行进行切片，后面的：可以省略

	A	B	C	D
2013-01-02	1.655268	0.616169	-0.379986	1.327039
2013-01-03	0.042210	1.488178	-0.983630	0.323413

df.iloc[1:3,]  #省略后面的冒号

	A	B	C	D
2013-01-02	1.655268	0.616169	-0.379986	1.327039
2013-01-03	0.042210	1.488178	-0.983630	0.323413

df.iloc[:,1:3]  #对列进行切片

	B	C
2013-01-01	0.872594	0.251184
2013-01-02	0.616169	-0.379986
2013-01-03	1.488178	-0.983630
2013-01-04	-0.088969	0.567894
2013-01-05	0.291387	0.489159
2013-01-06	0.264920	-1.441035

df.iloc[,1:3]   #不可以省略前面的：

  File "", line 1
    df.iloc[,1:3]
            ^
SyntaxError: invalid syntax

df.iloc[1,1] #获取特定的值

0.6161692607864357

df.iat[1,1] #快速获取一个值，和前面的方法是等价的

0.6161692607864357

4.布尔值索引（boolean Indexing）

df[df.A>0]   #使用一个单列的值选择数据

	A	B	C	D
2013-01-02	1.655268	0.616169	-0.379986	1.327039
2013-01-03	0.042210	1.488178	-0.983630	0.323413
2013-01-04	0.271114	-0.088969	0.567894	0.928066
2013-01-05	2.147626	0.291387	0.489159	0.445913
2013-01-06	0.131625	0.264920	-1.441035	-1.163547

df[df>0]  #从一个dataframe中选择数据，当布尔值为真时，不满足条件的值自动显示为NaN

	A	B	C	D
2013-01-01	NaN	0.872594	0.251184	1.149018
2013-01-02	1.655268	0.616169	NaN	1.327039
2013-01-03	0.042210	1.488178	NaN	0.323413
2013-01-04	0.271114	NaN	0.567894	0.928066
2013-01-05	2.147626	0.291387	0.489159	0.445913
2013-01-06	0.131625	0.264920	NaN	NaN

df2 = df.copy()# 使用isin()方法来过滤数据

df2['E'] = ['one','one','two','three','four','three']

df2

	A	B	C	D	E
2013-01-01	-0.087393	0.872594	0.251184	1.149018	one
2013-01-02	1.655268	0.616169	-0.379986	1.327039	one
2013-01-03	0.042210	1.488178	-0.983630	0.323413	two
2013-01-04	0.271114	-0.088969	0.567894	0.928066	three
2013-01-05	2.147626	0.291387	0.489159	0.445913	four
2013-01-06	0.131625	0.264920	-1.441035	-1.163547	three

df2[df2['E'].isin(['two','four'])] #选取E列中为'two','four'的数据

	A	B	C	D	E
2013-01-03	0.042210	1.488178	-0.983630	0.323413	two
2013-01-05	2.147626	0.291387	0.489159	0.445913	four

df2['E'].isin(['two','four'])  #返回一列的布尔值

2013-01-01    False
2013-01-02    False
2013-01-03     True
2013-01-04    False
2013-01-05     True
2013-01-06    False
Freq: D, Name: E, dtype: bool

5.设置（setting）

(1)设置一个新列会自动将数据和索引对齐.
Series是pandas模块提供的一种一维的数组，它类似numpy中的Array，但是有一些特殊的功能。pandas的数据结构都会包含索引。索引可以是数字，也可以是字符

s1 = pd.Series([1,2,3,4,5,6],index = pd.date_range('20130102',periods=6))

s1     #创建一个Series

2013-01-02    1
2013-01-03    2
2013-01-04    3
2013-01-05    4
2013-01-06    5
2013-01-07    6
Freq: D, dtype: int64

df['F'] = s1 #将s1赋值给df中的F列

df

	A	B	C	D	F
2013-01-01	-0.087393	0.872594	0.251184	1.149018	NaN
2013-01-02	1.655268	0.616169	-0.379986	1.327039	1.0
2013-01-03	0.042210	1.488178	-0.983630	0.323413	2.0
2013-01-04	0.271114	-0.088969	0.567894	0.928066	3.0
2013-01-05	2.147626	0.291387	0.489159	0.445913	4.0
2013-01-06	0.131625	0.264920	-1.441035	-1.163547	5.0

（2）通过标签来设置值

df.at[dates[0],'A'] = 0  #将df中的第一行第一列的值设置为0

df

	A	B	C	D	F
2013-01-01	0.000000	0.872594	0.251184	1.149018	NaN
2013-01-02	1.655268	0.616169	-0.379986	1.327039	1.0
2013-01-03	0.042210	1.488178	-0.983630	0.323413	2.0
2013-01-04	0.271114	-0.088969	0.567894	0.928066	3.0
2013-01-05	2.147626	0.291387	0.489159	0.445913	4.0
2013-01-06	0.131625	0.264920	-1.441035	-1.163547	5.0

（3）通过numpy array重新给一列赋值

df.loc[:,'D'] = np.array([5]*len(df)) #将D列的值全部赋值为5

df

	A	B	C	D	F
2013-01-01	0.000000	0.872594	0.251184	5	NaN
2013-01-02	1.655268	0.616169	-0.379986	5	1.0
2013-01-03	0.042210	1.488178	-0.983630	5	2.0
2013-01-04	0.271114	-0.088969	0.567894	5	3.0
2013-01-05	2.147626	0.291387	0.489159	5	4.0
2013-01-06	0.131625	0.264920	-1.441035	5	5.0

（4）通过where操作来设置新值

df2 = df.copy()

df2[df2>0] = -df2  #在所有大于0的值前面加上负号

df2

	A	B	C	D	F
2013-01-01	0.000000	-0.872594	-0.251184	-5	NaN
2013-01-02	-1.655268	-0.616169	-0.379986	-5	-1.0
2013-01-03	-0.042210	-1.488178	-0.983630	-5	-2.0
2013-01-04	-0.271114	-0.088969	-0.567894	-5	-3.0
2013-01-05	-2.147626	-0.291387	-0.489159	-5	-4.0
2013-01-06	-0.131625	-0.264920	-1.441035	-5	-5.0

四、缺失数据（Missing Data）

pandas主要是使用值np.nan来代替缺失数据，默认情况下是不包含在计算中。

1. reindex()方法可以对指定轴上的索引进行改变/增加/删除操作，这将返回原始数据的一个拷贝

df1 = df.reindex(index=dates[0:4],columns=list(df.columns)+['E'])

df1

	A	B	C	D	F	E
2013-01-01	0.000000	0.872594	0.251184	5	NaN	NaN
2013-01-02	1.655268	0.616169	-0.379986	5	1.0	NaN
2013-01-03	0.042210	1.488178	-0.983630	5	2.0	NaN
2013-01-04	0.271114	-0.088969	0.567894	5	3.0	NaN

df1.loc[dates[0]:dates[1],'E'] = 1

df1

	A	B	C	D	F	E
2013-01-01	0.000000	0.872594	0.251184	5	NaN	1.0
2013-01-02	1.655268	0.616169	-0.379986	5	1.0	1.0
2013-01-03	0.042210	1.488178	-0.983630	5	2.0	NaN
2013-01-04	0.271114	-0.088969	0.567894	5	3.0	NaN

2.删除带有缺失值的行

df1.dropna(how='any')  #删除任何有缺失值的行

	A	B	C	D	F	E
2013-01-02	1.655268	0.616169	-0.379986	5	1.0	1.0

df1.fillna(value=5)  #用5来代替所有的缺失值

	A	B	C	D	F	E
2013-01-01	0.000000	0.872594	0.251184	5	5.0	1.0
2013-01-02	1.655268	0.616169	-0.379986	5	1.0	1.0
2013-01-03	0.042210	1.488178	-0.983630	5	2.0	5.0
2013-01-04	0.271114	-0.088969	0.567894	5	3.0	5.0

3.当值为nan时返回布尔值TRUE，否则返回FALSE

pd.isna(df1)

	A	B	C	D	F	E
2013-01-01	False	False	False	False	True	False
2013-01-02	False	False	False	False	False	False
2013-01-03	False	False	False	False	False	True
2013-01-04	False	False	False	False	False	True

五、相关的操作（operation）

1.统计（stats）

操作一般不包括缺失值

（1）进行描述性统计

df.mean()  #求每一列的均值，参数为轴，可选0或1，默认情况下为0，即按照列运算

A    0.707974
B    0.574046
C   -0.249402
D    5.000000
F    3.000000
dtype: float64

（2）对另一轴进行同样的操作

df.mean(1) #对每一行求均值

2013-01-01    1.530945
2013-01-02    1.578290
2013-01-03    1.509352
2013-01-04    1.750008
2013-01-05    2.385634
2013-01-06    1.791102
Freq: D, dtype: float64

（3）对具有不同维度的对象进行操作需要对齐。此外，pandas会对指定的对象自动broadcasts

s = pd.Series([1,3,5,np.nan,6,8],index=dates).shift(-2) #shift函数用来控制值前移还是后移，当小于0时表示前移

2013-01-01    5.0
2013-01-02    NaN
2013-01-03    6.0
2013-01-04    8.0
2013-01-05    NaN
2013-01-06    NaN
Freq: D, dtype: float64

s = pd.Series([1,3,5,np.nan,6,8],index=dates).shift(2) #表示将值向后移动2个单位，缺少的值用NAN填充

2013-01-01    NaN
2013-01-02    NaN
2013-01-03    1.0
2013-01-04    3.0
2013-01-05    5.0
2013-01-06    NaN
Freq: D, dtype: float64

df.sub(s,axis='index')

	A	B	C	D	F
2013-01-01	NaN	NaN	NaN	NaN	NaN
2013-01-02	NaN	NaN	NaN	NaN	NaN
2013-01-03	-0.957790	0.488178	-1.983630	4.0	1.0
2013-01-04	-2.728886	-3.088969	-2.432106	2.0	0.0
2013-01-05	-2.852374	-4.708613	-4.510841	0.0	-1.0
2013-01-06	NaN	NaN	NaN	NaN	NaN

2.Apply

对数据应用函数

df

	A	B	C	D	F
2013-01-01	0.000000	0.872594	0.251184	5	NaN
2013-01-02	1.655268	0.616169	-0.379986	5	1.0
2013-01-03	0.042210	1.488178	-0.983630	5	2.0
2013-01-04	0.271114	-0.088969	0.567894	5	3.0
2013-01-05	2.147626	0.291387	0.489159	5	4.0
2013-01-06	0.131625	0.264920	-1.441035	5	5.0

df.apply(np.cumsum)  #对df数据框中的每一列累计求和

	A	B	C	D	F
2013-01-01	0.000000	0.872594	0.251184	5	NaN
2013-01-02	1.655268	1.488763	-0.128802	10	1.0
2013-01-03	1.697478	2.976941	-1.112431	15	3.0
2013-01-04	1.968591	2.887972	-0.544537	20	6.0
2013-01-05	4.116217	3.179359	-0.055378	25	10.0
2013-01-06	4.247842	3.444278	-1.496413	30	15.0

df.apply(lambda x:x.max()-x.min()) #lambda语句中，冒号前是参数，可以有多个，用逗号隔开，冒号右边的返回值。

A    2.147626
B    1.577148
C    2.008930
D    0.000000
F    4.000000
dtype: float64

3.直方图（Histogramming）

s = pd.Series(np.random.randint(0,7,size=10))  #从0到7中随机抽取10个整数

0    5
1    6
2    5
3    3
4    0
5    2
6    3
7    6
8    4
9    0
dtype: int32

s.value_counts()  #对s中的值计数

6    2
5    2
3    2
0    2
4    1
2    1
dtype: int64

4.字符串方法

Series在str属性中配置了一系列的字符串处理方法，使得其更加容易对数组中的每一个元素进行操作

s = pd.Series(['A','B','C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])

s.str.lower() #对s中的字符串全部转换为小写

0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

六、合并（Merge）

pandas提供了各种各样的设施，使得可以很容易组合Series，Dataframe和pandas对象

1.Concat

df = pd.DataFrame(np.random.randn(10,4))  #创建10行4列的dataframe

df

	0	1	2	3
0	0.943826	-0.051977	-2.032401	-0.287685
1	-1.176138	-0.978212	-1.072027	-0.627176
2	-1.099693	0.850744	0.659844	0.172439
3	-0.288210	0.289878	0.252331	0.833933
4	0.541648	-2.114519	0.211821	0.277398
5	2.538557	-1.699267	-0.454330	-0.490725
6	1.042810	-0.078370	0.274850	-1.200096
7	0.365216	0.187428	-0.469872	0.046218
8	-0.525191	-0.998904	0.156138	-0.797593
9	0.771242	-0.763656	-0.822907	0.409141

pieces = [df[:3],df[3:7],df[7:]] #break it into pieces

pieces

[          0         1         2         3
 0  0.943826 -0.051977 -2.032401 -0.287685
 1 -1.176138 -0.978212 -1.072027 -0.627176
 2 -1.099693  0.850744  0.659844  0.172439,
           0         1         2         3
 3 -0.288210  0.289878  0.252331  0.833933
 4  0.541648 -2.114519  0.211821  0.277398
 5  2.538557 -1.699267 -0.454330 -0.490725
 6  1.042810 -0.078370  0.274850 -1.200096,
           0         1         2         3
 7  0.365216  0.187428 -0.469872  0.046218
 8 -0.525191 -0.998904  0.156138 -0.797593
 9  0.771242 -0.763656 -0.822907  0.409141]

pd.concat(pieces)  #合并个列

	0	1	2	3
0	0.943826	-0.051977	-2.032401	-0.287685
1	-1.176138	-0.978212	-1.072027	-0.627176
2	-1.099693	0.850744	0.659844	0.172439
3	-0.288210	0.289878	0.252331	0.833933
4	0.541648	-2.114519	0.211821	0.277398
5	2.538557	-1.699267	-0.454330	-0.490725
6	1.042810	-0.078370	0.274850	-1.200096
7	0.365216	0.187428	-0.469872	0.046218
8	-0.525191	-0.998904	0.156138	-0.797593
9	0.771242	-0.763656	-0.822907	0.409141

2.Join

（1）类似SQL风格的合并

left = pd.DataFrame({'key':['foo','foo'],'lval':[1,2]})

right = pd.DataFrame({'key':['foo','foo'],'rval':[4,5]})

left

	key	lval
0	foo	1
1	foo	2

right

	key	rval
0	foo	4
1	foo	5

pd.merge(left,right,on='key') #根据key关键词合并数据,一个key有多个值

	key	lval	rval
0	foo	1	4
1	foo	1	5
2	foo	2	4
3	foo	2	5

（2）另外的一个实例

 left = pd.DataFrame({'key': ['foo', 'bar'], 'lval': [1, 2]})

right = pd.DataFrame({'key': ['foo', 'bar'], 'rval': [4, 5]})

left

	key	lval
0	foo	1
1	bar	2

right

	key	rval
0	foo	4
1	bar	5

pd.merge(left, right, on='key')

	key	lval	rval
0	foo	1	4
1	bar	2	5

3.Append

 将行追加到数据框中

df = pd.DataFrame(np.random.randn(8, 4), columns=['A','B','C','D'])

df

	A	B	C	D
0	-0.207538	0.571509	-0.017933	-0.439429
1	1.151596	-1.270133	0.173458	1.943956
2	0.358885	0.405927	0.178656	1.300998
3	-1.430587	-0.713583	1.068798	0.615146
4	0.829949	-0.737999	0.445106	-1.736728
5	0.333546	-0.333385	-0.190337	-0.719699
6	0.311432	0.031742	0.132947	1.233933
7	-1.584257	1.283583	-1.006611	0.643552

 s = df.iloc[3]  #选择dataframe中索引为3的行

A   -1.430587
B   -0.713583
C    1.068798
D    0.615146
Name: 3, dtype: float64

df.append(s, ignore_index=True)   #将s插入到df中的尾部，忽略本身的索引

	A	B	C	D
0	-0.207538	0.571509	-0.017933	-0.439429
1	1.151596	-1.270133	0.173458	1.943956
2	0.358885	0.405927	0.178656	1.300998
3	-1.430587	-0.713583	1.068798	0.615146
4	0.829949	-0.737999	0.445106	-1.736728
5	0.333546	-0.333385	-0.190337	-0.719699
6	0.311432	0.031742	0.132947	1.233933
7	-1.584257	1.283583	-1.006611	0.643552
8	-1.430587	-0.713583	1.068798	0.615146

df.append(s, ignore_index=False)  #使用本身的索引

	A	B	C	D
0	-0.207538	0.571509	-0.017933	-0.439429
1	1.151596	-1.270133	0.173458	1.943956
2	0.358885	0.405927	0.178656	1.300998
3	-1.430587	-0.713583	1.068798	0.615146
4	0.829949	-0.737999	0.445106	-1.736728
5	0.333546	-0.333385	-0.190337	-0.719699
6	0.311432	0.031742	0.132947	1.233933
7	-1.584257	1.283583	-1.006611	0.643552
3	-1.430587	-0.713583	1.068798	0.615146

七、分组（Grouping）

对于”group by”操作，我们通常是指以下一个或多个操作步骤：

（Splitting）按照一些规则将数据分为不同的组；

（Applying）对于每组数据分别执行一个函数；

（Combining）将结果组合到一个数据结构中；

 df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
   ....:                           'foo', 'bar', 'foo', 'foo'],
   ....:                    'B' : ['one', 'one', 'two', 'three',
   ....:                           'two', 'two', 'one', 'three'],
   ....:                    'C' : np.random.randn(8),
   ....:                    'D' : np.random.randn(8)})

df

	A	B	C	D
0	foo	one	0.034416	-0.343473
1	bar	one	1.332412	-0.627173
2	foo	two	0.525722	2.446132
3	bar	three	-1.877499	1.777156
4	foo	two	-0.210871	-0.358429
5	bar	two	1.045275	-0.873375
6	foo	one	0.333061	0.951301
7	foo	three	0.412129	0.125475

1.分组，然后将函数sum应用到每一组的数据中

df.groupby('A').sum()  #根据A组的取值分组，然后对每一组求平均值

	C	D
A
bar	0.500188	0.276609
foo	1.094456	2.821007

2.对多列进行分组形成一个层次索引，然后执行函数

df.groupby(['A','B']).sum()

		C	D
A	B
bar	one	1.332412	-0.627173
	three	-1.877499	1.777156
	two	1.045275	-0.873375
foo	one	0.367477	0.607829
	three	0.412129	0.125475
	two	0.314851	2.087703

八、Reshaping（重新修整）

1.stack

zip() 函数用于将可迭代的对象作为参数，将对象中对应的元素打包成一个个元组，然后返回由这些元组组成的列表。如果各个迭代器的元素个数不一致，则返回列表长度与最短的对象相同，利用 * 号操作符，可以将元组解压为列表。

a = [1,2,3]

b = [4,5,6]

c = [4,5,6,7,8]

zipped = zip(a,b)

list(zipped)  #将对象中对应的元素打包成一个个元组，

[(1, 4), (2, 5), (3, 6)]

list(zip(a,c))  #如果各个迭代器的元素个数不一致，则返回的列表与最短的对象相同

[(1, 4), (2, 5), (3, 6)]

zip(*zipped)  ## 与 zip 相反，可理解为解压，返回二维矩阵式

for i in zipped
    print i

  File "", line 1
    for i in zipped
                   ^
SyntaxError: invalid syntax

tuples = list(zip(*[['bar', 'bar', 'baz', 'baz',
   ....:                      'foo', 'foo', 'qux', 'qux'],
   ....:                     ['one', 'two', 'one', 'two',
   ....:                      'one', 'two', 'one', 'two']]))  #将两列合并

tuples #显示合并后的数据

[('bar', 'one'),
 ('bar', 'two'),
 ('baz', 'one'),
 ('baz', 'two'),
 ('foo', 'one'),
 ('foo', 'two'),
 ('qux', 'one'),
 ('qux', 'two')]

 index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second']) #运用MultiIndex.from_tuples可以生成对应的索引和水平位置

 index

MultiIndex(levels=[['bar', 'baz', 'foo', 'qux'], ['one', 'two']],
           labels=[[0, 0, 1, 1, 2, 2, 3, 3], [0, 1, 0, 1, 0, 1, 0, 1]],
           names=['first', 'second'])

df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])

df

		A	B
first	second
bar	one	0.339034	0.414004
bar	two	-0.518862	1.997310
baz	one	-0.730239	-0.277486
baz	two	-0.139502	-1.313450
foo	one	0.759715	1.829978
foo	two	-0.257618	-0.189971
qux	one	-0.520739	2.427057
qux	two	0.887668	0.852152

df2 = df[:4]

df2

		A	B
first	second
bar	one	0.339034	0.414004
bar	two	-0.518862	1.997310
baz	one	-0.730239	-0.277486
baz	two	-0.139502	-1.313450

（1）stack()方法用列标签新增一列水平

stacked = df2.stack()

stacked

first  second   
bar    one     A    0.339034
               B    0.414004
       two     A   -0.518862
               B    1.997310
baz    one     A   -0.730239
               B   -0.277486
       two     A   -0.139502
               B   -1.313450
dtype: float64

(2)stack()方法的逆操作为unstack(),默认是解压最后一层

stacked.unstack()#解压最后一层

		A	B
first	second
bar	one	0.339034	0.414004
bar	two	-0.518862	1.997310
baz	one	-0.730239	-0.277486
baz	two	-0.139502	-1.313450

 stacked.unstack(1)#解压第二层

	second	one	two
first
bar	A	0.339034	-0.518862
bar	B	0.414004	1.997310
baz	A	-0.730239	-0.139502
baz	B	-0.277486	-1.313450

  stacked.unstack(2) #解压第3层

		A	B
first	second
bar	one	0.339034	0.414004
bar	two	-0.518862	1.997310
baz	one	-0.730239	-0.277486
baz	two	-0.139502	-1.313450

stacked.unstack(0)#解压第一层

	first	bar	baz
second
one	A	0.339034	-0.730239
one	B	0.414004	-0.277486
two	A	-0.518862	-0.139502
two	B	1.997310	-1.313450

2.透视表（Pivot Table）

 df = pd.DataFrame({'A' : ['one', 'one', 'two', 'three'] * 3,
   .....:                    'B' : ['A', 'B', 'C'] * 4,
   .....:                    'C' : ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,
   .....:                    'D' : np.random.randn(12),
   .....:                    'E' : np.random.randn(12)})

df

	A	B	C	D	E
0	one	A	foo	1.004031	0.301297
1	one	B	foo	0.343626	1.474257
2	two	C	foo	-0.273272	0.164824
3	three	A	bar	1.621494	-0.127404
4	one	B	bar	-0.485918	-0.441188
5	one	C	bar	1.384366	0.495152
6	two	A	foo	-0.756043	-1.061713
7	three	B	foo	0.948366	-0.006379
8	one	C	foo	-0.985923	1.927168
9	one	A	bar	-0.941727	0.728585
10	two	B	bar	-0.638742	-0.710529
11	three	C	bar	0.566670	0.896022

pd.pivot_table(df,values='D',index=['A','B'],columns=['C']) #索引为A,B，列为C，选用D中的值

	C	bar	foo
A	B
one	A	-0.941727	1.004031
	B	-0.485918	0.343626
	C	1.384366	-0.985923
three	A	1.621494	NaN
	B	NaN	0.948366
	C	0.566670	NaN
two	A	NaN	-0.756043
	B	-0.638742	NaN
	C	NaN	-0.273272

九、时间序列（Time Series）

pandas 拥有简单，强大，高效的函数用来处理频率转换中的重采样问题（例如将秒数据转换为5分钟数据）

 rng = pd.date_range('1/1/2012', periods=100, freq='S')

ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng)

ts.resample('5Min').sum()

2012-01-01    26372
Freq: 5T, dtype: int32

1.时区表示

 rng = pd.date_range('3/6/2012 00:00', periods=5, freq='D')

ts = pd.Series(np.random.randn(len(rng)), rng)

ts

2012-03-06   -0.028910
2012-03-07    0.482453
2012-03-08   -0.936729
2012-03-09   -0.027259
2012-03-10    1.124380
Freq: D, dtype: float64

ts_utc = ts.tz_localize('UTC')

ts_utc

2012-03-06 00:00:00+00:00   -0.028910
2012-03-07 00:00:00+00:00    0.482453
2012-03-08 00:00:00+00:00   -0.936729
2012-03-09 00:00:00+00:00   -0.027259
2012-03-10 00:00:00+00:00    1.124380
Freq: D, dtype: float64

2.转换时区

ts_utc.tz_convert('US/Eastern')

2012-03-05 19:00:00-05:00   -0.028910
2012-03-06 19:00:00-05:00    0.482453
2012-03-07 19:00:00-05:00   -0.936729
2012-03-08 19:00:00-05:00   -0.027259
2012-03-09 19:00:00-05:00    1.124380
Freq: D, dtype: float64

3.时区跨度转换

rng = pd.date_range('1/1/2012', periods=5, freq='M')

ts = pd.Series(np.random.randn(len(rng)), index=rng)

ts

2012-01-31    0.899926
2012-02-29    0.865466
2012-03-31   -0.323191
2012-04-30    0.694425
2012-05-31   -1.996379
Freq: M, dtype: float64

ps = ts.to_period()

ps

2012-01    0.899926
2012-02    0.865466
2012-03   -0.323191
2012-04    0.694425
2012-05   -1.996379
Freq: M, dtype: float64

 ps.to_timestamp()

2012-01-01    0.899926
2012-02-01    0.865466
2012-03-01   -0.323191
2012-04-01    0.694425
2012-05-01   -1.996379
Freq: MS, dtype: float64

4.period和timestamp之间的转换让某些算术函数应用起来非常方便。下面的例子将一个quarterly frequency with year ending in November 转化成 9am of the end of the month following the quarter end:

prng = pd.period_range('1990Q1', '2000Q4', freq='Q-NOV')

ts = pd.Series(np.random.randn(len(prng)), prng)

ts.index = (prng.asfreq('M', 'e') + 1).asfreq('H', 's') + 9

ts.head()

1990-03-01 09:00   -0.496062
1990-06-01 09:00   -0.197552
1990-09-01 09:00    0.301589
1990-12-01 09:00   -0.236359
1991-03-01 09:00   -0.647946
Freq: H, dtype: float64

十、分类（Categoricals）

pandas的dataframe可以包含categorical类型的数据

df = pd.DataFrame({"id":[1,2,3,4,5,6], "raw_grade":['a', 'b', 'b', 'a', 'a', 'e']})

df

	id	raw_grade
0	1	a
1	2	b
2	3	b
3	4	a
4	5	a
5	6	e

df['grade'] = df['raw_grade'].astype('category') #将数据转换成分类数据

df['grade']

0    a
1    b
2    b
3    a
4    a
5    e
Name: grade, dtype: category
Categories (3, object): [a, b, e]

1.重命名类别（to more meaning names）

df['grade'].cat.categories = ['very good','good','very bad'] #给grade中的值重命名

df

	id	raw_grade	grade
0	1	a	very good
1	2	b	good
2	3	b	good
3	4	a	very good
4	5	a	very good
5	6	e	very bad

2.重命名类别并添加缺失数据

df["grade"] = df["grade"].cat.set_categories(["very bad", "bad", "medium", "good", "very good"])

df["grade"]

0    very good
1         good
2         good
3    very good
4    very good
5     very bad
Name: grade, dtype: category
Categories (5, object): [very bad, bad, medium, good, very good]

3.按照类别排序，而不是根据原有的顺序

df.sort_values(by='grade')

	id	raw_grade	grade
5	6	e	very bad
1	2	b	good
2	3	b	good
0	1	a	very good
3	4	a	very good
4	5	a	very good

4.根据类别列分组（包含空的类别）

df.groupby('grade').size()

grade
very bad     1
bad          0
medium       0
good         2
very good    3
dtype: int64

十一、画图（plotting）

ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))

ts = ts.cumsum()

ts.plot()

df = pd.DataFrame(np.random.randn(1000, 4), index=ts.index,
   .....:                   columns=['A', 'B', 'C', 'D'])

df = df.cumsum()

plt.figure(); df.plot(); plt.legend(loc='best')

十二、Getting Data In/Out

1.CSV文件

（1）将数据写入一个csv文件

df.to_csv('foo.csv') #df为存储数据的源文件，foo为读出的csv文件的命名

（2）读取csv数据文件

foo = pd.read_csv('foo.csv') #从电脑中读入一个csv文件

foo.head(6) #查看foo文件中的前6行

	Unnamed: 0	A	B	C	D
0	2000-01-01	-2.086601	-1.177304	1.121419	-0.685302
1	2000-01-02	-1.780664	-0.778726	1.859689	-0.426140
2	2000-01-03	-1.043800	0.331660	2.781106	0.173191
3	2000-01-04	-1.785721	0.553241	3.027602	-0.776087
4	2000-01-05	-2.017765	1.972538	3.681418	-1.735131
5	2000-01-06	-2.058775	2.031710	3.448706	-1.738626

2.HDF5

（1）写入HDF5

df.to_hdf('foo.h5','df')

（2）读取HDF5文件

foo= pd.read_hdf('foo.h5','df')

foo.head()

	A	B	C	D
2000-01-01	-2.086601	-1.177304	1.121419	-0.685302
2000-01-02	-1.780664	-0.778726	1.859689	-0.426140
2000-01-03	-1.043800	0.331660	2.781106	0.173191
2000-01-04	-1.785721	0.553241	3.027602	-0.776087
2000-01-05	-2.017765	1.972538	3.681418	-1.735131

3.Excel

(1)写入Excel

df.to_excel('foo.xlsx', sheet_name='Sheet1') #foo为工作簿名，Sheet1为表名称

（2）读取Excel

foo = pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA'])

foo.head()

	A	B	C	D
2000-01-01	-2.086601	-1.177304	1.121419	-0.685302
2000-01-02	-1.780664	-0.778726	1.859689	-0.426140
2000-01-03	-1.043800	0.331660	2.781106	0.173191
2000-01-04	-1.785721	0.553241	3.027602	-0.776087
2000-01-05	-2.017765	1.972538	3.681418	-1.735131

你可能感兴趣的:(python,数据处理)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p