gf_lvah

pandas学习整理(一)

十分钟搞定pandas

习惯上导入包的方式:

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

一、创建对象

import pandas as pd


# 通过传递一个list对象来创建一个Series,pandas会默认创建整形索引;
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s


    0    1.0
    1    3.0
    2    5.0
    3    NaN
    4    6.0
    5    8.0
    dtype: float64

import pandas as pd


# 通过传递一个numpy array，时间索引以及列标签来创建一个DataFrame;
dates = pd.date_range('20170101', periods=6)
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
df

	A	B	C	D
2017-01-01	-0.338806	-1.343308	1.196353	1.414468
2017-01-02	-0.506825	1.152511	0.972928	-0.154819
2017-01-03	1.446093	0.083599	0.068672	-0.217771
2017-01-04	-0.312771	-0.635625	-2.005167	0.233515
2017-01-05	0.955924	-0.131035	0.473385	-0.827717
2017-01-06	0.455371	-0.079677	1.030877	-0.276262

import pandas as pd

# 通过传递一个能够被转换成类似序列结构的字典对象来创建一个DataFrame;
# mydic = {
#     'A' : 1.,
#     'B' : 2.
# }

df2 = pd.DataFrame({
    'A' : 1.,
    'B' : pd.Timestamp('20130102'), 
    'C' : pd.Series(1, index=range(4), dtype='float32'),
    'D' : np.array([3]*4, dtype='int32'),
    'E' : pd.Categorical(['test1', 'test2', 'test3', 'test4']),
    'F' : 'foo'
})

df2

	A	B	C	D	E	F
0	1.0	2013-01-02	1.0	3	test1	foo
1	1.0	2013-01-02	1.0	3	test2	foo
2	1.0	2013-01-02	1.0	3	test3	foo
3	1.0	2013-01-02	1.0	3	test4	foo

# 查看不同列的数据类型
df2.dtypes



    A           float64
    B    datetime64[ns]
    C           float32
    D             int32
    E          category
    F            object
    dtype: object

二、查看数据

查看DataFrame头部和尾部的行

# 不添加参数默认显示前5行；
df.head(1)

	A	B	C	D
2017-01-01	-0.338806	-1.343308	1.196353	1.414468

#  不添加参数默认显示后5行；
df.tail(3)

	A	B	C	D
2017-01-04	-0.312771	-0.635625	-2.005167	0.233515
2017-01-05	0.955924	-0.131035	0.473385	-0.827717
2017-01-06	0.455371	-0.079677	1.030877	-0.276262

显示索引、列和底层的numpy数据

print "显示索引:"
print df.index

print "\n显示列:"
print df.columns

print "\n显示底层numpy数据:"
print df.values

运行结果如下：

    显示索引:
    DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04',
                   '2017-01-05', '2017-01-06'],
                  dtype='datetime64[ns]', freq='D')

    显示列:
    Index([u'A', u'B', u'C', u'D'], dtype='object')

    显示底层numpy数据:
    [[-0.33880624 -1.34330788  1.19635337  1.41446846]
     [-0.50682548  1.15251089  0.97292792 -0.15481877]
     [ 1.4460934   0.08359888  0.06867169 -0.21777067]
     [-0.3127707  -0.63562542 -2.00516672  0.23351479]
     [ 0.95592407 -0.13103515  0.47338504 -0.82771723]
     [ 0.45537138 -0.07967712  1.03087708 -0.27626179]]

数据的快速统计汇总describe函数

df.describe()

	A	B	C	D
count	6.000000	6.000000	6.000000	6.000000
mean	0.283164	-0.158923	0.289508	0.028569
std	0.800092	0.826528	1.198930	0.759366
min	-0.506825	-1.343308	-2.005167	-0.827717
25%	-0.332297	-0.509478	0.169850	-0.261639
50%	0.071300	-0.105356	0.723156	-0.186295
75%	0.830786	0.042780	1.016390	0.136431
max	1.446093	1.152511	1.196353	1.414468

数据的转置

df.T

	2017-01-01 00:00:00	2017-01-02 00:00:00	2017-01-03 00:00:00	2017-01-04 00:00:00	2017-01-05 00:00:00	2017-01-06 00:00:00
A	-0.338806	-0.506825	1.446093	-0.312771	0.955924	0.455371
B	-1.343308	1.152511	0.083599	-0.635625	-0.131035	-0.079677
C	1.196353	0.972928	0.068672	-2.005167	0.473385	1.030877
D	1.414468	-0.154819	-0.217771	0.233515	-0.827717	-0.276262

按轴进行排序

df.sort_index(axis=1, ascending=False)

	D	C	B	A
2017-01-01	1.414468	1.196353	-1.343308	-0.338806
2017-01-02	-0.154819	0.972928	1.152511	-0.506825
2017-01-03	-0.217771	0.068672	0.083599	1.446093
2017-01-04	0.233515	-2.005167	-0.635625	-0.312771
2017-01-05	-0.827717	0.473385	-0.131035	0.955924
2017-01-06	-0.276262	1.030877	-0.079677	0.455371

按值进行排序

df.sort_values(by='A')

	A	B	C	D
2017-01-02	-0.506825	1.152511	0.972928	-0.154819
2017-01-01	-0.338806	-1.343308	1.196353	1.414468
2017-01-04	-0.312771	-0.635625	-2.005167	0.233515
2017-01-06	0.455371	-0.079677	1.030877	-0.276262
2017-01-05	0.955924	-0.131035	0.473385	-0.827717
2017-01-03	1.446093	0.083599	0.068672	-0.217771

三、选择

标准的python/numpy的选择和设置表达式都能够直接派上用场，但是作为工程中使用的代码，
推荐使用经过优化的pandas数据访问方式：.at, .iat, .loc, .iloc和.ix。

获取

# 1. 选择一个单独的列，将返回一个Series，等同于df.A
df['A']

# 2. 通过切片操作进行选择
df[0:3]
df['20170101':'20170104']

	A	B	C	D
2017-01-01	-0.338806	-1.343308	1.196353	1.414468
2017-01-02	-0.506825	1.152511	0.972928	-0.154819
2017-01-03	1.446093	0.083599	0.068672	-0.217771
2017-01-04	-0.312771	-0.635625	-2.005167	0.233515

通过标签选择

# 1. 使用标签获取一个交叉的区域
df.loc[dates[0]]


# 2. 
df.loc[:, ['A', 'B']]

# 3. 
df.loc['20170102':'20170104',['A','B']]


# 4. 
df.loc['20170102', ['A', 'B']]

# 5. 
df.loc[dates[0], 'A']

# 6. 
df.at[dates[0], 'A']

-0.338806236660884

通过位置进行选择

# 1. 
df.iloc[3]

A -0.312771 B -0.635625 C -2.005167 D 0.233515 Name: 2017-01-04 00:00:00, dtype: float64

# 2. 
df.iloc[3:5, 0:2]

	A	B
2017-01-04	-0.312771	-0.635625
2017-01-05	0.955924	-0.131035

# 3. 
df.iloc[[1,2,4], [0,2]]

	A	C
2017-01-02	-0.506825	0.972928
2017-01-03	1.446093	0.068672
2017-01-05	0.955924	0.473385

# 4. 
df.iloc[1:3, :]

	A	B	C	D
2017-01-02	-0.506825	1.152511	0.972928	-0.154819
2017-01-03	1.446093	0.083599	0.068672	-0.217771

# 5. 
df.iloc[:, 1:3]

	B	C
2017-01-01	-1.343308	1.196353
2017-01-02	1.152511	0.972928
2017-01-03	0.083599	0.068672
2017-01-04	-0.635625	-2.005167
2017-01-05	-0.131035	0.473385
2017-01-06	-0.079677	1.030877

# 6. 获取特定的值
df.iloc[1,1]

1.1525108922362974

# 等价6的操作，快速访问特定的值
df.iat[1,1]

1.1525108922362974

布尔索引

# 1. 
df[df.A > 0]

	A	B	C	D
2017-01-03	1.446093	0.083599	0.068672	-0.217771
2017-01-05	0.955924	-0.131035	0.473385	-0.827717
2017-01-06	0.455371	-0.079677	1.030877	-0.276262

# 2. 使用where操作来选择数据
df[df > 0]

	A	B	C	D
2017-01-01	NaN	NaN	1.196353	1.414468
2017-01-02	NaN	1.152511	0.972928	NaN
2017-01-03	1.446093	0.083599	0.068672	NaN
2017-01-04	NaN	NaN	NaN	0.233515
2017-01-05	0.955924	NaN	0.473385	NaN
2017-01-06	0.455371	NaN	1.030877	NaN

# 3. isin方法过滤

df2 = df.copy()
df2['E'] = ['one', 'one', 'two', 'three', 'four', 'three']
df2[df2['E'].isin(['two', 'four'])]

	A	B	C	D	E
2017-01-03	1.446093	0.083599	0.068672	-0.217771	two
2017-01-05	0.955924	-0.131035	0.473385	-0.827717	four

设置

# 1. 
s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range('20170102', periods=6))
df['F']=s1
df

	A	B	C	D	F
2017-01-01	-0.338806	-1.343308	1.196353	1.414468	NaN
2017-01-02	-0.506825	1.152511	0.972928	-0.154819	1.0
2017-01-03	1.446093	0.083599	0.068672	-0.217771	2.0
2017-01-04	-0.312771	-0.635625	-2.005167	0.233515	3.0
2017-01-05	0.955924	-0.131035	0.473385	-0.827717	4.0
2017-01-06	0.455371	-0.079677	1.030877	-0.276262	5.0

# 2. 通过标签设置新的值

df.at[dates[0], 'A'] = 0
df

	A	B	C	D	F
2017-01-01	0.000000	-1.343308	1.196353	1.414468	NaN
2017-01-02	-0.506825	1.152511	0.972928	-0.154819	1.0
2017-01-03	1.446093	0.083599	0.068672	-0.217771	2.0
2017-01-04	-0.312771	-0.635625	-2.005167	0.233515	3.0
2017-01-05	0.955924	-0.131035	0.473385	-0.827717	4.0
2017-01-06	0.455371	-0.079677	1.030877	-0.276262	5.0

# 3. 通过位置设置新的值
df.iat[0,1] = 0
df

	A	B	C	D	F
2017-01-01	0.000000	0.000000	1.196353	1.414468	NaN
2017-01-02	-0.506825	1.152511	0.972928	-0.154819	1.0
2017-01-03	1.446093	0.083599	0.068672	-0.217771	2.0
2017-01-04	-0.312771	-0.635625	-2.005167	0.233515	3.0
2017-01-05	0.955924	-0.131035	0.473385	-0.827717	4.0
2017-01-06	0.455371	-0.079677	1.030877	-0.276262	5.0

# 4. 通过numpy数组设置一组新值
df.loc[:, 'D'] = np.array([5] * len(df))
df

	A	B	C	D	F
2017-01-01	0.000000	0.000000	1.196353	5	NaN
2017-01-02	-0.506825	1.152511	0.972928	5	1.0
2017-01-03	1.446093	0.083599	0.068672	5	2.0
2017-01-04	-0.312771	-0.635625	-2.005167	5	3.0
2017-01-05	0.955924	-0.131035	0.473385	5	4.0
2017-01-06	0.455371	-0.079677	1.030877	5	5.0

# 5. 通过where操作来设置新的值
df2 = df.copy()

df2[df2<0]  = -df2
df2

	A	B	C	D	F
2017-01-01	0.000000	0.000000	1.196353	5	NaN
2017-01-02	0.506825	1.152511	0.972928	5	1.0
2017-01-03	1.446093	0.083599	0.068672	5	2.0
2017-01-04	0.312771	0.635625	2.005167	5	3.0
2017-01-05	0.955924	0.131035	0.473385	5	4.0
2017-01-06	0.455371	0.079677	1.030877	5	5.0

四、缺失值处理

在pandas中，使用np.nan来代替缺失值，这些值默认不会包含在计算中。

# 1. reindex()可以对指定轴上的索引进行改变，增加，删除操作，这将返回原始数据的一个拷贝；

df1 = df.reindex(index=dates[0:4], columns=list(df.columns)+['E'])
df1.loc[dates[0]:dates[1], 'E'] = 1
df1

	A	B	C	D	F	E
2017-01-01	0.000000	0.000000	1.196353	5	NaN	1.0
2017-01-02	-0.506825	1.152511	0.972928	5	1.0	1.0
2017-01-03	1.446093	0.083599	0.068672	5	2.0	NaN
2017-01-04	-0.312771	-0.635625	-2.005167	5	3.0	NaN

# 2. 去掉包含缺失值的行
df1.dropna(how='any')

	A	B	C	D	F	E
2017-01-02	-0.506825	1.152511	0.972928	5	1.0	1.0

# 3. 对缺失值进行填充
df1.fillna(value=3)

	A	B	C	D	F	E
2017-01-01	0.000000	0.000000	1.196353	5	3.0	1.0
2017-01-02	-0.506825	1.152511	0.972928	5	1.0	1.0
2017-01-03	1.446093	0.083599	0.068672	5	2.0	3.0
2017-01-04	-0.312771	-0.635625	-2.005167	5	3.0	3.0

# 4. 对数据进行布尔填充
pd.isnull(df1)

	A	B	C	D	F	E
2017-01-01	False	False	False	False	True	False
2017-01-02	False	False	False	False	False	False
2017-01-03	False	False	False	False	False	True
2017-01-04	False	False	False	False	False	True

五、相关操作

统计

# 1. 执行描述性统计
df.mean()

运行结果如下：


    A    0.339632
    B    0.064962
    C    0.289508
    D    5.000000
    F    3.000000
    dtype: float64

# 2. 在其他轴上进行相同的操作;
df.mean(1)

运行结果如下：

    2017-01-01    1.549088
    2017-01-02    1.523723
    2017-01-03    1.719673
    2017-01-04    1.009287
    2017-01-05    2.059655
    2017-01-06    2.281314
    Freq: D, dtype: float64

# 3. 对于拥有不同维度，需要对齐的对象进行操作，pandas会自动沿着指定的维度进行广播;
s = pd.Series([1, 3, 5, np.nan, 6, 8], index=dates).shift(2)
print s

df.sub(s, axis='index')

运行结果如下：

    2017-01-01    NaN
    2017-01-02    NaN
    2017-01-03    1.0
    2017-01-04    3.0
    2017-01-05    5.0
    2017-01-06    NaN
    Freq: D, dtype: float64

	A	B	C	D	F
2017-01-01	NaN	NaN	NaN	NaN	NaN
2017-01-02	NaN	NaN	NaN	NaN	NaN
2017-01-03	0.446093	-0.916401	-0.931328	4.0	1.0
2017-01-04	-3.312771	-3.635625	-5.005167	2.0	0.0
2017-01-05	-4.044076	-5.131035	-4.526615	0.0	-1.0
2017-01-06	NaN	NaN	NaN	NaN	NaN

应用Apply

# 1. 对数据应用函数


df.apply(np.cumsum)
df.apply(lambda x: x.max()-x.min())

A 1.952919 B 1.788136 C 3.201520 D 0.000000 F 4.000000 dtype: float64 ### 直方图

s = pd.Series(np.random.randint(0,7, size=10))
# 对s中的值统计出现次数
s.value_counts()

运行结果如下：

    5    3
    4    3
    1    3
    2    1
    dtype: int64

字符串方法

# Series对象在其str属性中配备了一组字符串处理方法，可以很容易的应用到数组中的每个元素;

s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 
               'CABA', 'dog', 'cat'])
s.str.lower()

运行结果如下：


    0       a
    1       b
    2       c
    3    aaba
    4    baca
    5     NaN
    6    caba
    7     dog
    8     cat
    dtype: object

六、合并

pandas提供了大量方法对Series， DataFrame和Panel对象进行各种逻辑关系的合并操作;

6-1、 Concat方法


# np.random.randn(10,4)获取10行4列的数据;
df = pd.DataFrame(np.random.randn(10,4))

pieces = [df[:3], df[3:7], df[7:]]
pd.concat(pieces)

	0	1	2	3
0	-0.361157	-0.331600	0.426531	-1.063448
1	0.082863	1.293261	0.729009	1.119674
2	-0.077758	0.024595	2.142237	-0.857855
3	2.477844	0.118069	1.390542	-0.645197
4	-1.295224	-0.410728	1.256108	-1.402479
5	1.135568	1.054733	-1.793129	-0.620808
6	-1.036741	1.461721	0.167975	-0.645020
7	-0.709849	-0.527562	1.129764	-0.610033
8	0.443899	1.176945	-0.558200	-0.122540
9	0.244292	1.108330	0.417284	-0.455202

2、 join方法


# 类似与sql类型的合并


left = pd.DataFrame({
    'key': ['foo', 'foo'],
    'lval': [1,2],    
    })

right = pd.DataFrame({
    'key' : ['foo', 'foo'], 
    'rval' : [4, 5],
    })

pd.merge(left, right, on='key')

	key	lval	rval
0	foo	1	4
1	foo	1	5
2	foo	2	4
3	foo	2	5

6-3、 append方法

# 3. append方法
# 将一行连接到一个DataFrame上；

df = pd.DataFrame(np.random.randn(8,4), columns=['A', 'B', 'C', 'D'])

s = df.iloc[3]

df.append(s, ignore_index=True)
df.T

	0	1	2	3	4	5	6	7
A	-0.152964	1.239888	-0.803823	-0.604354	0.343325	-3.325538	0.997950	1.694225
B	-0.709887	0.319957	0.307502	0.583405	0.170432	0.157247	0.087903	3.263398
C	-2.390029	1.291862	0.472967	-0.945514	-1.349493	0.145808	0.407573	0.458573
D	-0.117396	2.008384	-1.184914	0.012678	1.286618	0.399334	1.305697	0.027644

七、分组

group by操作：

splitting：按照规则将数据分为不同的组;
Applying: 对于每组数据分别执行一个函数;
Combining: 将结果组合到一个数据结构中;

df = pd.DataFrame({
    'A':['foo', 'bar', 'foo', 'bar',
      'foo', 'bar', 'foo', 'bar'], 
    'B':['one','one', 'two', 'three',
         'two','two', 'one', 'three'],
    'C': np.random.randn(8), 
    'D':np.random.randn(8)
    })

df

	A	B	C	D
0	foo	one	0.602525	-0.729163
1	bar	one	-0.651076	0.104687
2	foo	two	2.289475	0.279368
3	bar	three	0.348643	0.647659
4	foo	two	-0.806890	0.035457
5	bar	two	0.452640	1.805835
6	foo	one	-1.363260	-0.247901
7	bar	three	-0.680933	0.367421

# 1. 分组对每个分组执行sum函数：
df.groupby('A').sum()

	C	D
A
bar	-0.530726	2.925602
foo	0.721851	-0.662239

# 2. 通过多个列进行分组形成一个层次索引，然后执行函数;
df.groupby(['A', 'B']).sum()

		C	D
A	B
bar	one	-0.651076	0.104687
	three	-0.332290	1.015080
	two	0.452640	1.805835
foo	one	-0.760735	-0.977064
foo	two	1.482585	0.314825

八、改变形状

Stack

myt = [
    ['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'],
    ['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two']
    ]
tuples = list(zip(*myt))

index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])

df = pd.DataFrame(np.random.randn(8,2), index=index, columns=['A', 'B'])

df2 = df[:4]


stacked = df2.stack()
stacked

运行结果如下：


    first  second   
    bar    one     A    0.031757
                   B    0.426813
           two     A    0.276267
                   B    0.560446
    baz    one     A    0.552757
                   B    1.805644
           two     A   -1.092327
                   B   -0.539023
    dtype: float64

stacked.unstack()

		A	B
first	second
bar	one	0.031757	0.426813
bar	two	0.276267	0.560446
baz	one	0.552757	1.805644
baz	two	-1.092327	-0.539023

stacked.unstack(1)

	second	one	two
first
bar	A	0.031757	0.276267
bar	B	0.426813	0.560446
baz	A	0.552757	-1.092327
baz	B	1.805644	-0.539023

stacked.unstack(0)

	first	bar	baz
second
one	A	0.031757	0.552757
one	B	0.426813	1.805644
two	A	0.276267	-1.092327
two	B	0.560446	-0.539023

数据透视表

df = pd.DataFrame({
    'A' : ['one', 'one', 'two', 'three']*3, 
    'B' : ['A', 'B', 'C']*4,
    'C' : ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,
    'D' : np.random.randn(12), 
    'E' : np.random.randn(12)
})


print df
# 根据上面数据生成透视表
pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])

运行结果如下：

            A  B    C         D         E
    0     one  A  foo -0.382358  0.975949
    1     one  B  foo -1.588232  1.168863
    2     two  C  foo  1.286834  0.836279
    3   three  A  bar  1.375826 -1.049638
    4     one  B  bar  0.179641  0.714552
    5     one  C  bar -0.912443  0.474539
    6     two  A  foo -0.010076 -0.750666
    7   three  B  foo -0.766371  0.048745
    8     one  C  foo -1.100770  0.879633
    9     one  A  bar  2.462341  1.761222
    10    two  B  bar  1.239756  0.514073
    11  three  C  bar -0.480783 -0.268171

	C	bar	foo
A	B
one	A	2.462341	-0.382358
	B	0.179641	-1.588232
	C	-0.912443	-1.100770
three	A	1.375826	NaN
	B	NaN	-0.766371
	C	-0.480783	NaN
two	A	NaN	-0.010076
	B	1.239756	NaN
	C	NaN	1.286834

九、时间序列

pandas在对频率转换进行重新采样时拥有简单，强大且高效的功能（如将按秒采样的数据转换为按5分钟为单位进行采样的数据）,这种操作在金融领域非常常见.

rng = pd.date_range('1/1/2017', periods=100, freq='S')
ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng)  
ts.resample('5Min').sum()

运行结果如下：

    2017-01-01    24929
    Freq: 5T, dtype: int64

9-1、时区表示

rng = pd.date_range('3/6/2017 00:00', periods=5, freq='D')
ts = pd.Series(np.random.randn(len(rng)), rng)

ts_utc = ts.tz_localize('UTC')
ts_utc

运行结果如下：


    2017-03-06 00:00:00+00:00   -0.406935
    2017-03-07 00:00:00+00:00   -2.059444
    2017-03-08 00:00:00+00:00    0.375662
    2017-03-09 00:00:00+00:00    1.167948
    2017-03-10 00:00:00+00:00    0.927164
    Freq: D, dtype: float64

9-2、时区转换

ts_utc.tz_convert('Asia/Shanghai')

运行结果如下：

    2017-03-06 08:00:00+08:00   -0.406935
    2017-03-07 08:00:00+08:00   -2.059444
    2017-03-08 08:00:00+08:00    0.375662
    2017-03-09 08:00:00+08:00    1.167948
    2017-03-10 08:00:00+08:00    0.927164
    Freq: D, dtype: float64

9-3、时间跨度转换

rng = pd.date_range('1/1/2012', periods=5, freq='M')
ts = pd.Series(np.random.randn(len(rng)), index=rng)

ps = ts.to_period()
ps.to_timestamp()

运行结果如下：

    2012-01-01   -0.213930
    2012-02-01    0.974707
    2012-03-01   -1.206153
    2012-04-01   -0.935241
    2012-05-01    0.669691
    Freq: MS, dtype: float64

9-4、时间和时间戳的转换

prng = pd.period_range('1990Q1', '2000Q4', freq='Q-NOV')
ts = pd.Series(np.random.randn(len(prng)), prng)

ts.index = (prng.asfreq('M', 'e') + 1).asfreq('H', 'S') + 9

# 列出前5行数据
ts.head()

运行结果如下：

    1990-03-01 09:00    0.388727
    1990-06-01 09:00    0.389497
    1990-09-01 09:00    0.563586
    1990-12-01 09:00    1.044088
    1991-03-01 09:00   -1.392586
    Freq: H, dtype: float64

十、 Categorical

pandas可以在DataFrame中支持Categorical类型的数据。

df = pd.DataFrame({
    "id" : range(1,7), 
    "raw_grade" : ['a', 'b', 'b', 'a', 'a', 'e']    
})

10-1、转换数据类型

# 将原始的grade转换为Categorical数据类型

df["grade"] = df["raw_grade"].astype('category')
df['grade']

运行结果如下：

    0    a
    1    b
    2    b
    3    a
    4    a
    5    e
    Name: grade, dtype: category
    Categories (3, object): [a, b, e]

10-2、对Categroical类型数据重命名

df["grade"].cat.categories = ['very good', 'good', 'very bad']
df

	id	raw_grade	grade
0	1	a	very good
1	2	b	good
2	3	b	good
3	4	a	very good
4	5	a	very good
5	6	e	very bad

10-3、对类别排序

df["grde"] = df['grade'].cat.set_categories(['very bad', 'bad', 'medium', 'good', 'very good'])
df['grade']

运行结果如下：

    0    very good
    1         good
    2         good
    3    very good
    4    very good
    5     very bad
    Name: grade, dtype: category
    Categories (3, object): [very good, good, very bad]

10-4、按照Categorical的顺序排序

df.sort_values(by='grade')

	id	raw_grade	grade	grde
0	1	a	very good	very good
3	4	a	very good	very good
4	5	a	very good	very good
1	2	b	good	good
2	3	b	good	good
5	6	e	very bad	very bad

10-5、对Categorical列进行统计排序

df.groupby('grade').size()

运行结果如下：

    grade
    very good    3
    good         2
    very bad     1
    dtype: int64

十一、画图

ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))
ts.cumsum()
ts.plot()

# 对于DataFrame来说，plot是一种将所有列及其标签进行绘制的简便方法;

df = pd.DataFrame(np.random.randn(1000, 4), index=ts.index, columns=['A', 'B', 'C', 'D'])
df = df.cumsum()
plt.figure()
df.plot()
plt.legend(loc='best')

十二、导入和保存数据

12-1、 CSV数据

# 1. 写入csv文件
df.to_csv('foo.csv')

# 2. 从csv文件中读取数据
pd.read_csv('foo.csv')

12-2、 HDF5存储

# 1. 写入HDF5存储;
df.to_hdf('foo.h5', 'df')


# 2. 从HDF5存储中读取；
pd.read_hdf('foo.h5', 'df')

12-3、 Excel存储

# 1. 写入excel文件
df.to_excel('foo.xlsx', sheet_name='foo1')

# 2. 从excel中读取
pd.read_excel('foo.xlsx', 'foo1', index_col=None, na_values=['NA'])

你可能感兴趣的:(python基础系列,python进阶知识)

LLM与知识图谱融合:智能运维知识库构建 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着信息技术的飞速发展，IT运维管理面临着越来越大的挑战。海量的设备、复杂的网络环境、日益增长的数据量，使得传统的运维方式难以满足需求。为了提高运维效率和质量，智能运维应运而生。智能运维的核心是将人工智能技术应用于运维领域，通过机器学习、深度学习等算法，实现自动化、智能化的运维管理。其中，大语言模型（LLM）和知识图谱是两个重要的技术方向。LLM能够理解和生成自然语言，可以用于构建智能
知识图谱：【知识图谱基础理论（八）】——知识更新 J_Xiong0117 python 基础理论自然语言处理知识图谱人工智能自然语言处理
从逻辑上看，知识库的更新包括概念层的更新和数据层的更新。更新的两种方式：数据驱动下的全面更新增量更新
知识图谱的作用及其更新方式甜瓜瓜哥面试人工智能知识图谱人工智能
知识图谱的作用及其更新方式简介作用1.语义理解和推理2.信息检索3.推荐系统4.自然语言处理5.智能对话系统更新知识图谱的过程1.数据收集2.数据清洗和处理3.知识抽取4.知识融合5.验证和评估6.部署和应用总结简介知识图谱是一种以图形结构表示知识的方法，它包含了实体（如人物、地点、事物）以及它们之间的关系。知识图谱可以用于帮助计算机理解和处理自然语言，进行信息检索，进行推荐系统等多种应用。作用1
前端开发入门指南：HTML、CSS和JavaScript基础知识方向感超强的 javascript css html 前端
引言：大家好，我是一名简单的前端开发爱好者，对于网页设计和用户体验的追求让我深深着迷。在本篇文章中，我将带领大家探索前端开发的基础知识，涵盖HTML、CSS和JavaScript。如果你对这个领域感兴趣，或者想要了解如何开始学习前端开发，那么这篇文章将为你提供一个良好的起点。1.前端开发概述在我们深入了解前端开发的细节之前，让我们先了解一下前端开发的定义和作用。简而言之，前端开发涉及构建用户直接与
知识图谱构建：LLM与知识工程的完美结合 AI智能涌现深度研究 AI大模型应用入门实战与进阶 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1知识爆炸与信息孤岛随着互联网和信息技术的飞速发展，我们正处于一个知识爆炸的时代。海量的数据和信息充斥着我们的生活，但同时也带来了信息过载和信息孤岛的问题。传统的信息检索方式难以有效地组织和利用这些知识，难以满足人们对知识获取和应用的需求。1.2知识图谱的兴起知识图谱作为一种语义网络，能够将实体、概念及其之间的关系以结构化的方式进行表达和存储，从而有效地组织和管理知识。近年来，知识
C++ 多线程 lly202406 开发语言
C++多线程引言在计算机科学中，多线程是一种常用的技术，它允许一个程序同时执行多个任务。C++作为一门强大的编程语言，提供了多种多线程编程的机制。本文将详细介绍C++多线程编程的相关知识，包括多线程的概念、线程的创建与同步、互斥锁的使用等。一、多线程的概念1.1什么是多线程？多线程指的是在同一程序中，可以同时运行多个线程，每个线程都是程序的一个执行流。这些线程可以并行执行，从而提高程序的执行效率。
微信小程序之自定义轮播图实例 —— 微信小程序实战系列（3） 2401_84910072 程序员微信小程序小程序
由于微信小程序，整个项目编译后的大小不能超过1M查看做轮播图功能的一张图片大小都已经有100+k了那么我们可以把图片放在服务器上，发送请求来获取。index.wxml：这里使用小程序提供的组件autoplay：自动播放interval：自动切换时间duration：滑动动画的时长current：当前所在的页面bindchange：current改变时会触发change事件由于组件提供的指示点样式比
Python中LLM的知识图谱构建：动态更新与推理二进制独立开发 GenAI与Python 非纯粹GenAI python 知识图谱开发语言自然语言处理人工智能分布式机器学习
文章目录引言1.知识图谱的基本概念1.1知识图谱的定义1.2知识图谱的构建流程2.利用LLM进行知识抽取2.1实体识别2.2关系抽取2.3属性抽取3.知识融合3.1实体对齐3.2冲突消解4.知识存储5.知识推理5.1规则推理5.2基于LLM的推理6.动态更新6.1增量更新6.2实时更新7.结论引言随着人工智能技术的飞速发展，知识图谱（KnowledgeGraph,KG）作为一种结构化的知识表示方法
java进阶篇--生产环境如何排查bug和优化 JVM？爱分享的淘金达人 Java源码剖析(30讲)jvm优化 jvm调优优化jvm 生产环境优化jvm 生产环境jvm优化
通过前面几个课时的学习，相信你对JVM的理论及实践等相关知识有了一个大体的印象。而本课时将重点讲解JVM的排查与优化，这样就会对JVM的知识点有一个完整的认识，从而可以更好地应用于实际工作或者面试了。我们本课时的面试题是，生产环境如何排查问题？回答：如果是在生产环境中直接排查JVM的话，最简单的做法就是使用JDK自带的6个非常实用的命令行工具来排查。它们分别是：jps、jstat、jinfo、jm
H264视频编码系列教程-3关键参数集与解码初始化 TogetherWeShare 音视频人工智能算法
H264关键参数集与解码初始化1.参数集整体架构1.1层级包含关系视频码流VPS层SPS层PPS层约束约束图像参数PPS工具参数序列参数SPS工具配置编码能力VPS性能限制H264参数集采用三层架构设计，这种设计充分体现了参数管理的层次化和模块化思想。让我们深入分析每一层的功能和特点：===H264参数集层级结构===+-------------------VPS层----------------
基于Kitti数据集实现MMDetection3D点云物体检测训练 Xian-HHappy 技术知识点 kitti三维点云无人驾驶 MMDetection3D 人工智能计算机视觉目标检测
DataBall助力快速掌握数据集的信息和使用方式，会员享有百种数据集，持续增加中。需要更多数据资源和技术解决方案，知识星球：“DataBall-X数据球(free)”贵在坚持！-----------------------------------------------------------------------------------------------MMDetection3D环境安
AI编剧系统深度解析：从算法架构到影视工业化应用实战 Coderabo DeepSeek R1模型企业级应用人工智能算法
媒体娱乐行业革命：AI编剧创意辅助系统架构解析与实战应用一、行业背景与技术架构在流媒体内容需求激增的当下，传统编剧模式面临产能瓶颈。AI编剧创意辅助系统通过自然语言处理（NLP）、生成对抗网络（GAN）和知识图谱技术，构建了包含剧本生成、情节优化、角色塑造等模块的智能创作平台。核心架构分为：知识图谱层：整合影视剧本数据库（IMSDb）、维基百科等结构化数据NLP处理层：基于Transformer的
WebSocket（WS）协议系列（二）事件机制是纯一呀网络 WebSocket websocket python 网络协议
通讯双方怎么知道对方什么时候会发消息过来并接收的，是通过轮询吗？轮询是指客户端定期向服务器发送请求，检查是否有新的数据（即客户端不断发起请求）。就是你的舔狗，每天定时定点发消息问你，在吗？睡了吗？看电影吗？检查你是否有想和ta说话的意愿。你说话了，就是有新的数据，ta就get到了。WebSocket不使用传统的轮询机制，它通过事件驱动的方式处理消息的接收和发送。而WebSocket连接在建立后是持
使用BLIP模型生成图像描述的可查询索引 dgay_hua python 计算机视觉开发语言
在本篇文章中，我们将介绍如何使用预训练的SalesforceBLIP图像描述模型，生成一个可查询的图像描述索引。我们将使用ImageCaptionLoader来加载图像，并通过一系列步骤生成查询索引。使用示例代码进行演示，帮助读者理解和实践。技术背景介绍随着计算机视觉技术的发展，图像描述生成成为了重要的研究领域。通过对图像内容自动生成文字描述，可以大大提高对图像信息的检索和管理效率。Salesfo
百万架构师第四十课：RabbitMq：RabbitMq-工作模型与JAVA编程｜JavaGuide 后端
来源：https://javaguide.netRabbitMQ1-工作模型与Java编程课前准备预习资料Windows安装步骤Linux安装步骤官网文章中文翻译系列环境说明操作系统：CentOS7JDK：1.8Erlang：19.0.4或最新版RabbitMQ：3.6.12或最新版版本对应关系典型应用场景跨系统的异步通信。人民银行二代支付系统，使用重量级消息队列IBMMQ，异步，解耦，削峰都有体
【FastAPI 】FastAPI 模板：提供静态文件 iFakeCoder Flask fastapi python 开发语言
FastAPI是一个现代、快速（高性能）的Web框架，用于基于标准Python类型提示使用Python3.7+构建API。虽然它的主要用例是构建API，但FastAPI还可以轻松提供静态文件和HTML模板，从而让您可以构建全栈Web应用程序。在此博客中，我们将探讨如何使用FastAPI提供静态文件。我们将介绍基础知识并提供演示以帮助您入门。为什么要提供静态文件？静态文件是不经常更改的资产，并按原样
8-项目实战-信用卡数字识别 #北极星star Opencv图像处理框架实战 opencv 计算机视觉人工智能
目录(1)总体流程与方法(2)代码实现(3)识别结果(1)总体流程与方法①读取模板图像：加载包含数字模板的图像，并提取每个数字的轮廓，将它们作为模板存储。②读取输入图像：加载待识别的信用卡图像，并进行预处理。③提取数字区域：通过一系列图像处理操作（如礼帽操作、梯度计算、闭操作等）提取可能包含数字的区域。④轮廓排序与筛选：找到提取区域的轮廓，并根据轮廓的宽高比和尺寸筛选出符合条件的数字区域。⑤数字识
【CVPR 2021】Knowledge Review：知识蒸馏新解法 BIT可达鸭深度学习人工智能计算机视觉模型压缩知识蒸馏
【CVPR2021】KnowledgeReview：知识蒸馏新解法论文地址：主要问题：主要思路：符号假设：具体实现：实验结果：关注我的公众号：联系作者：论文地址：https://jiaya.me/papers/kdreview_cvpr21.pdf主要问题：目前大部分关于KD的方法都是基于相同层或者相同Block之间的知识迁移。但是Teacher往往深层表示抽象的语义信息，底层表示简单的知识的信息
一人能顶一个公司：AI编程神器Trae诞生了！ AI生成曾小健 AI编程科技人工智能
一人能顶一个公司：AI编程神器Trae诞生了！原创李至安夕小瑶科技说2025年01月20日23:20北京2024年开始，AI编程工具在国外卷疯了——Cursor、Copilot、Windsurf、Devin、Bolt.new等一系列AI编程神器经常刷屏程序员圈。可惜，普遍对中文开发者不太友好，我把他们装好后，第一件事儿就是先折腾下汉化。而且时不时因为未知原因就被封号了。终于今天，字节跳动洞察到了这
数据库基础以及 MySQL 知识点阿绵计算机基础数据库 mysql
文章目录1、基本概念2、主键和外键的区别2.1、使用外键的优劣3、数据库范式4、drop、delete与truncate区别？5、MySQL1、基础概念2、存储引擎2.1、InnoDB和MyISAM区别2.2、InnoDB如何保持事务的四大特性（实现事务的原理）3、锁机制与InnoDB锁算法3.1、表级锁和行级锁对比4、事务4.1、ACID特性4.2、并发事务带来的问题4.3、事务隔离级别1、基本
STMicroelectronics 系列：STM32F1 系列_（8）.STM32F1系列的USART接口及编程 kkchenkx 单片机开发 stm32 嵌入式硬件单片机
STM32F1系列的USART接口及编程1.USART接口概述USART（UniversalSynchronousAsynchronousReceiverTransmitter）是一种串行通信接口，可以支持异步和同步通信模式。在STM32F1系列单片机中，USART接口用于实现与外部设备的串行数据通信，例如与其他单片机、计算机、传感器等设备进行数据交换。USART接口可以配置为多种通信模式，包括U
C#03项目——Typeof的用法 yue008 C#c#Typeof Environment MethodInfo
知识点Typeof。获取类型对象，然后获取类型的方法。可适用于窗体控件的选择MethodInfo。发现方法的属性并提供对方法元数据的访问。本项目涉及的属性有属性/方法Name获取当前成员的名称。是属性GetParameters获取指定的方法或构造函数的参数。是方法Environment。提供有关当前环境和平台的信息以及操作它们的方法。此类不能被继承。属性/方法NewLine获取为此环境定义的换行字
C#项目04——递归求和 yue008 C#c#递归求和项目案例源程序
实现逻辑利用递归，求取1~N以内的和知识点正常情况下，C#每条线程都会分配1MB的地址空间，因此执行递归的层次不能太深，否则就会出现溢出的风险，业务设计程序代码privatevoidbutton1_Click(objectsender,EventArgse){intP_int_01;if(int.TryParse(tbx01.Text,outP_int_01)){if(P_int_01=0&&i<
STM32操作FLASH weixin_58038206 stm32 嵌入式硬件单片机
以下将为你详细介绍STM32的Flash操作相关知识，包含基本原理、操作步骤，并给出具体的代码示例。1.STM32Flash基本原理1.1Flash存储器结构STM32的Flash存储器用于存储程序代码和一些需要掉电保存的数据。它通常被划分为多个扇区，每个扇区有固定的大小。不同系列的STM32芯片，其Flash扇区大小和数量可能不同。例如，STM32F103系列的Flash扇区大小有1KB、2KB
Serializable序列化技术 unity学院苍狼王unity技术学院 c#开发语言游戏开发 unity VR
序列化：对象的寿命通常随着生成该对象的程序的终止而终止，有时候需要把在内存中的各种对象的状态（也就是实例变量，不是方法）保存下来，并且可以在需要时再将对象恢复。虽然你可以用你自己的各种各样的方法来保存对象的状态，但是Java给你提供一种应该比你自己的好的保存对象状态的机制，那就是序列化。总结：Java序列化技术可以使你将一个对象的状态写入一个Byte流里（系列化），并且可以从其它地方把该Byte流
AScript自动化脚本游戏辅助系列教程 jinglong.zha 自动化脚本自动化运维 ascript 懒人精灵 easyclick python 游戏辅助开发
Python自动化脚本开发，AScript零基础从入门到精通，游戏脚本，自动化脚本，python核心与进阶实战教程AScript基础-python核心与进阶课程简介_哔哩哔哩_bilibiliAScript基础-python核心与进阶课程简介是Python自动化脚本开发，AScript零基础从入门到精通，游戏脚本，自动化脚本，python核心与进阶实战教程的第1集视频，该合集共计35集，视频收藏或
JAVA EE初阶 - 预备知识（三） 2025年一定要上岸 java-ee java
一、中间件中间件是一种处于操作系统和应用程序之间的软件，它能够为分布式应用提供交互、资源共享、数据处理等功能，是现代软件架构中不可或缺的一部分。下面从多个方面为你详细介绍中间件：定义与作用定义：中间件是连接两个或多个软件组件或应用程序的软件层，它屏蔽了底层操作系统和网络的复杂性，为开发者提供了统一的编程接口和开发环境，使得不同的应用程序可以方便地进行通信和协作。作用简化开发：开发者无需关注底层的通
Stm32定时器输出PWM weixin_58038206 stm32 单片机嵌入式硬件
下面为你提供使用STM32标准库实现定时器初始化、输出PWM以及添加定时器中断功能的详细代码及解释。此示例以STM32F103系列芯片为例，使用定时器3输出PWM信号并添加定时器更新中断。代码示例#include"stm32f10x.h"//函数声明voidRCC_Configuration(void);voidGPIO_Configuration(void);voidTIM3_Configura
使用Yuan 2.0与LangChain构建智能聊天应用：完整指南 scaFHIO langchain python
技术背景介绍Yuan2.0是IEIT系统开发的新一代基础大语言模型，包括Yuan2.0-102B、Yuan2.0-51B和Yuan2.0-2B三种版本。相比之前的Yuan1.0，Yuan2.0使用了更广泛的高质量预训练数据，并通过指令微调数据集增强了模型的语义理解、数学推理、编程知识等能力。为了方便开发者集成，Yuan2.0提供了兼容OpenAIAPI的服务接口。本文将介绍如何通过LangChai
Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention UnknownBody LLM Daily LLM context 语言模型人工智能
本文是LLM系列文章，针对《LeaveNoContextBehind:EfficientInfiniteContextTransformerswithInfini-attention》的翻译。不让任何上下文掉队：无限关注的高效无限上下文Transformer摘要1引言2方法3实验4相关工作5结论摘要这项工作介绍了一种将基于Transformer的大型语言模型（LLM）扩展到具有有限内存和计算的无限
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st

pandas学习整理(一)

十分钟搞定pandas

一、 创建对象

二、 查看数据

查看DataFrame头部和尾部的行

显示索引、列和底层的numpy数据

数据的快速统计汇总describe函数

数据的转置

按轴进行排序

按值进行排序

三、 选择

获取

通过标签选择

通过位置进行选择

布尔索引

设置

四、 缺失值处理

五、 相关操作

统计

应用Apply

字符串方法

六、 合并

6-1、 Concat方法

2、 join方法

6-3、 append方法

七、 分组

八、 改变形状

Stack

数据透视表

九、 时间序列

9-1、 时区表示

9-2、 时区转换

9-3、 时间跨度转换

9-4、 时间和时间戳的转换

十、 Categorical

10-1、转换数据类型

10-2、 对Categroical类型数据重命名

10-3、 对类别排序

10-4、 按照Categorical的顺序排序

10-5、 对Categorical列进行统计排序

十一、 画图

十二、 导入和保存数据

12-1、 CSV数据

12-2、 HDF5存储

12-3、 Excel存储

你可能感兴趣的:(python基础系列,python进阶知识)

一、创建对象

二、查看数据

三、选择

四、缺失值处理

五、相关操作

六、合并

七、分组

八、改变形状

九、时间序列

9-1、时区表示

9-2、时区转换

9-3、时间跨度转换

9-4、时间和时间戳的转换

10-2、对Categroical类型数据重命名

10-3、对类别排序

10-4、按照Categorical的顺序排序

10-5、对Categorical列进行统计排序

十一、画图

十二、导入和保存数据