仰望星空1994

Pandas数据处理

本篇文章为《Python数据科学手册》第三章笔记
导入pandas库

import pandas as pd

- Pandas对象介绍
  - Series
  - DataFrame
  - Index对象
- 数据取值和选择
  - Series数据选择方法
  - DataFrame数据选择
- Pandas数值运算方法
- 处理缺失值
  - Pandas中的缺失值
  - 处理缺失值
- 层次索引
  - 多级索引的创建
  - 多级索引的取值与切片
  - 多级索引行列转换
  - 多级索引的数据累计方法
- 合并数据集
- 累计分组
  - GroupBy
- 数据透视表
- 向量化字符串操作
- 处理时间序列
- 高性能pandas

Pandas对象介绍

Series

Series对象是一个带索引数据构成的一维数组，可以通过values属性和index属性分别获取数据，和索引，values返回的结果与NumPy数组类似，index返回的结果是一个类型为pd.Index的类数组对象

data=pd.Series([0.25,0.5,0.75,1.0])
data
输出:
0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Series的索引可以被显示的指定，且索引不一定要连续和按照顺序排列，在numpy中数组的索引是被隐式定义的连续的顺序整数

data=pd.Series([0.25,0.5,0.75,1],index=['a','b','c','d'])
data
输出：
a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

Series可以看做是一种特殊的Python字典，字典可以将任意键映射到一组任意的数据结构，而Series对象其实是一种将类型键映射到一组类型值得数据结构，可以直接使用字典创建Series对象。当使用字典创建Series时，可以指定index参数，这时会根据index筛选出需要的结果，Series对象也只会保留显示定义的键值对。

population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population
输出：
California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

DataFrame

创建DataFrame的多种方式:

通过单个Series对象创建一个单列的DataFrame，columns参数指定的是列的名称

pd.DataFrame(population,columns=['population'])
输出：
    population
California  38332521
Texas   26448193
New York    19651127
Florida     19552860
Illinois    12882135

通过字典创建，当有些键不存在时，会用缺失值NaN表示

data=[{'a':i,'b':2*1} for i in range(3)]
pd.DataFrame(data)
输出：
    a   b
0   0   2
1   1   2
2   2   2

通过Series对象字典创建

area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
states = pd.DataFrame({'population': population,
                       'area': area})
states
输出：
        population  area
California  38332521    423967
Texas   26448193    695662
New York    19651127    141297
Florida     19552860    170312
Illinois    12882135    149995

通过numpy二维数组创建，如果不指定行列索引值，那么行列默认都是整数索引值

pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])
输出：
    foo     bar
a   0.410249    0.870067
b   0.619584    0.334680
c   0.690344    0.600170

通过numpy结构化数组创建

A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
pd.DataFrame(A)
输出：
    A   B
0   0   0.0
1   0   0.0
2   0   0.0

Index对象

在前面的Series和DataFrame中都使用了，使得他们更加便于引用和调整，下面主要介绍它的主要特性

将Index看做不可变数组，它有许多和numpy相似的地方，都可以通过切片获取值，不同的在于Inde不可变，当对Index进行改变时会报错,这使得多个DataFrame和数组之间进行索引共享时更加安全
将Index看做有序集合

数据取值和选择

Series数据选择方法

将Series看做字典，可以使用Python字典的表达式和方法来检测键、索引和值

data=pd.Series([0.25,0.5,0.75,1],index=['a','b','c','d'])
data['b']
输出
0.5
'a' in data
输出:
True
data['e']=1.25
data
输出：
a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

将Series看做一维数组
具备和NumPy数组的一样的数组数据选择功能，包括索引、掩码、花哨的索引，需要注意的是当使用显示索引（即data[‘a’:’c’]）作为切片时，结果包含最后一个索引，而使用隐式索引（即data[0:2]）作为切片时不包括最后一个索引。
索引器：loc、iloc和ix
切片和取值的用法可能会造成混乱，如，如果你的Series是显式整数索引，那么data[1]使用的就是显示索引，而data[1:3]使用就是隐式索引，所以Pandas提供了一些索引器：

loc，表示取值和切片都是显式的：

print(data)
print(data.loc['a'])
print(data.loc['a':'c'])
输出
a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64
0.25
a    0.25
b    0.50
c    0.75
dtype: float64

iloc,表示取值和切片都是Python形式的隐式索引（从0开始，左闭右开区间）：

print(data.iloc[1])
print(data.iloc[1:3])
输出：
0.5
b    0.50
c    0.75
dtype: float64

ix，是前两种的混合形式（ix从0.20.0开始被弃用）

DataFrame数据选择

将DataFrame看作字典
可以通过列名进行字典形式的取值获取数据

area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data['area']
输出：
California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

也可以通过属性的形式选择纯字符串列名，且列名不与DataFrame的方法同名的数据：

data.area

将DataFrame看作二维数组，可以通过单个行索引获取一行的数据，获取列的方法在前面有所介绍

data.values
输出：
array([[  423967, 38332521],
       [  695662, 26448193],
       [  141297, 19651127],
       [  170312, 19552860],
       [  149995, 12882135]], dtype=int64)

data.values[0]
输出：
array([  423967, 38332521], dtype=int64)

loc,iloc获取数据

data.loc[:'Illinois',:'pop']
输出：
        area    pop
California  423967  38332521
Texas   695662  26448193
New York    141297  19651127
Florida     170312  19552860
Illinois    149995  12882135

data.iloc[:3,:2]
        area    pop
California  423967  38332521
Texas   695662  26448193
New York    141297  19651127

其它取值方法

多个标签用切片选取行：
data['Florida':'Illinois']
用行数也可以切片：
data[1:3]
掩码操作:
data[data.area>200000]

Pandas数值运算方法

保留索引
　对于一元运算（像函数与三角函数），这些通用函数的输出结果将保留索引和列标签

rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
df = pd.DataFrame(rng.randint(0, 10, (3, 4)),
                  columns=['A', 'B', 'C', 'D'])
np.exp(ser)
输出：
0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64
--------------------
np.sin(df * np.pi / 4)
输出：
    A   B   C   D
0   -1.000000   7.071068e-01    1.000000    -1.000000e+00
1   -0.707107   1.224647e-16    0.707107    -7.071068e-01
2   -0.707107   1.000000e+00    -0.707107   1.224647e-16

索引对齐
　当对两个Series或DataFrame对象进行二元计算时，Pandas会自动对齐两个个对象的索引，对于缺失位置的数据，Pandas会用NaN填充，表示“此处无数”，从下面的输出结果可以看出行列索引可以是不同顺序的，结果的索引会按自动顺序排列

A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
A + B
输出：
0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64
----------
A = pd.DataFrame(rng.randint(0, 20, (2, 2)),
                 columns=list('AB'))
B = pd.DataFrame(rng.randint(0, 10, (3, 3)),
                 columns=list('BAC'))
A+B
输出：
A   B   C
0   1.0     15.0    NaN
1   13.0    6.0     NaN
2   NaN     NaN     NaN

DataFrame和Series的运算
　一个DataFrame和一个Series进行计算，是遵循Numpy的广播规则的

A=rng.randint(10,size=(3,4))
df=pd.DataFrame(A,columns=list('QRST'))
df-df.iloc[0]
输出：
    Q   R   S   T
0   0   0   0   0
1   0   7   -8  1
2   -1  2   -8  1

　　如果需要列运算，就需要运用运算符方法，通过axis参数设置：　　

df.subtract(df['R'],axis=0)
输出：
    Q   R   S   T
0   8   0   8   6
1   1   0   -7  0
2   5   0   -2  5

处理缺失值

Pandas中的缺失值

1、None：Python对象类型的缺失值
对一个包含None对象的数组进行累计操作，如min和max时，通常会出现类型错误
2、NaN：数值类型的缺失值
在进行累计操作时是合理的，不会抛出异常，但NaN会将数据同化，使得最终结果都是NaN

注：在Pandas中两种类型是可以等价交换的，Pandas会自动将None转换为NaN

处理缺失值

isnull()创建一个布尔类型的掩码标签缺失值
notnull()与isnull相反

data=pd.Series([1,np.nan,'hello',np.nan])
data.isnull()
输出：
0    False
1     True
2    False
3     True
dtype: bool

dropna()返回一个剔除缺失值的数据

data.dropna()
输出：
0        1
2    hello
dtype: object

对于DataFrame有时需要设置一些参数，默认会剔除包含缺失值的整行数据，设置axis=1（或axis=‘columns’）就会剔除任何包含缺失值的整列数据；参数how=‘any’，只要有缺失值就剔除整行或整列，how=‘all’，只会剔除全部是缺失值的行或列；thresh参数设置行或列非缺失值得最小数量

df = pd.DataFrame([[1,      np.nan, 2],
                   [2,      3,      5],
                   [np.nan, 4,      6]])
df.dropna(axis='columns',thresh=3)
输出：
    2
0   2
1   5
2   6

层次索引

多级索引的创建

1、通过一个有不同等级的若干简单数组组成的列表来创建MultiIndex：

pd.MultiIndex.from_arrays([['a','a','b','b'],[1,2,1,2]])

2、通过多个索引值得元组创建

pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2)])

3、使用两个索引的笛卡尔积创建

pd.MultiIndex.from_product([['a', 'b'], [1, 2]])

4、直接提供levels和labels创建

pd.MultiIndex(levels=[['a', 'b'], [1, 2]],
              labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

通过index.names可以设置索引的名称

多级索引的取值与切片

1、Series多级索引

可以通过多个级别的索引获取单个元素
也可以通过某一层次的索引获取部分数据
可以使用布尔掩码获取数据
使用花哨的索引选取数据

2、 DataFrame多级索引
与Series多级索引类似

index = pd.MultiIndex.from_product([[2013, 2014], [1, 2]],
                                   names=['year', 'visit'])
columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']],
                                     names=['subject', 'type'])

data = np.round(np.random.randn(4, 6), 1)
data[:, ::2] *= 10
data += 37
health_data = pd.DataFrame(data, index=index, columns=columns)
health_data
health_data['Guido','HR']
输出：
health_data:
subject     Bob     Guido   Sue
    type    HR  Temp    HR  Temp    HR  Temp
year    visit                       
2013    1   13.0    36.9    30.0    37.2    45.0    35.2
2   27.0    38.1    27.0    37.5    43.0    36.6
2014    1   34.0    38.2    26.0    36.5    24.0    37.1
2   48.0    37.5    55.0    37.3    44.0    38.3

year  visit
2013  1        30.0
      2        27.0
2014  1        26.0
      2        55.0
Name: (Guido, HR), dtype: float64

使用IndexSlice对象获取数据

idx=pd.IndexSlice
health_data.loc[idx[:,1],idx[:,'HR']]
subject     Bob     Guido   Sue
    type    HR  HR  HR
year    visit           
2013    1   13.0    30.0    45.0
2014    1   34.0    26.0    24.0

多级索引行列转换

1、当MutliIndex不是有序的索引，那么大多数切片操作会失败，这时可以使用sort_index()和sortlevel()方法进行排序

index = pd.MultiIndex.from_product([['a', 'c', 'b'], [1, 2]])
data = pd.Series(np.random.rand(6), index=index)
data.index.names = ['char', 'int']
data
输出；
char  int
a     1      0.151556
      2      0.164029
c     1      0.681370
      2      0.811158
b     1      0.118525
      2      0.143446
dtype: float64
---------------------------------
data.sort_index()
输出：
char  int
a     1      0.151556
      2      0.164029
b     1      0.118525
      2      0.143446
c     1      0.681370
      2      0.811158
dtype: float64

2、unstack，可以将一个多级索引数据集转换为简单的而为形式，可以通过level设置转换的索引层级，stack是unstack的逆操作

data.unstack(level=1)
输出：
int     1   2
char        
a   0.151556    0.164029
b   0.118525    0.143446
c   0.681370    0.811158

3、reset_index可以进行行列标签转换，set_index可以重建索引

data_flat=data.reset_index(name='num')
data_flat
输出：
    char    int     num
0   a   1   0.151556
1   a   2   0.164029
2   c   1   0.681370
3   c   2   0.811158
4   b   1   0.118525
5   b   2   0.143446
-------------------------------
data_flat.set_index(['char','int'])
输出：
    num
char    int     
a   1   0.151556
    2   0.164029
c   1   0.681370
    2   0.811158
b   1   0.118525
    2   0.143446

多级索引的数据累计方法

health_data.mean(axis=1,level='type')
输出:
    type    HR  Temp
year    visit       
2013    1   29.333333   36.433333
2   32.333333   37.400000
2014    1   28.000000   37.266667
2   49.000000   37.700000

axis:指定沿哪个轴计算，默认为0
level：设置累计的层级

合并数据集

pd.concat
pd.concat(objs, axis=0, join=’outer’, join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=None, copy=True)
参数说明
objs : 需要合并的数据
axis : {0/’index’, 1/’columns’}, default 0 沿着合并的轴
join : {‘inner’, ‘outer’}, default ‘outer’ 设置参数的合并方式
join_axes : 指定根据那个轴来对齐数据
ignore_index : boolean, default False，忽略索引
keys : 为数据源设置多级索引
verify_integrity : boolean, default False 检测合并的结果中是否出现重复的索引，将参数设置为True，合并若有重复索引会触发异常

#创建示例数据集
def make_df(cols, ind):
    """Quickly make a DataFrame"""
    data = {c: [str(c) + str(i) for i in ind]
            for c in cols}
    return pd.DataFrame(data, ind)

A=make_df('ABC', range(3))
A
输出：
    A   B   C
0   A0  B0  C0
1   A1  B1  C1
2   A2  B2  C2
--------------------------------
pd.concat([A,A],axis=1)
输出：
    A   B   C   A   B   C
0   A0  B0  C0  A0  B0  C0
1   A1  B1  C1  A1  B1  C1
2   A2  B2  C2  A2  B2  C2
--------------------------------------------------
pd.concat([A,A])
输出：
    A   B   C
0   A0  B0  C0
1   A1  B1  C1
2   A2  B2  C2
0   A0  B0  C0
1   A1  B1  C1
2   A2  B2  C2
--------------------------------------------------
pd.concat([A,A],verify_integrity=True)
输出：
ValueError: Indexes have overlapping values: Int64Index([0, 1, 2], dtype='int64')

A.append(other, ignore_index=False, verify_integrity=False, sort=None)相当于concat的简单方法，便于使用
注：Pandas在合并时会保留索引

pd.merge()
pd.merge实现了三种连接的类型：一对一，多对一，多对多，merge会默认丢弃行索引
参数
on：为一个列名字符串或者一个包含多列名称的列表，这个参数只有在DataFrame有共同列名的时候才可以使用
left_on和right_on：合并两个列名不同的数据集
left_index和right_index 将索引设置为键来实现合并
how:设置合并规则inner、outer、left、right
suffixes:当两个DataFrame有重复列名时，可以通过改参数自定义后缀名，默认为_x或_y

累计分组

GroupBy

groupby操作的可视化过程

1、goupy对象
（1）按列取值
按列获取不同方法（method ）下所有行星公转周期（orbital_period ）的中位数

#导入行星数据
import seaborn as sns
planets=sns.load_dataset('planets')
planets.head()
输出：
    method  number  orbital_period  mass    distance    year
0   Radial Velocity     1   269.300     7.10    77.40   2006
1   Radial Velocity     1   874.774     2.21    56.95   2008
2   Radial Velocity     1   763.000     2.60    19.84   2011
3   Radial Velocity     1   326.030     19.40   110.62  2007
4   Radial Velocity     1   516.220     10.50   119.47  2009
-----------------------------------------------------------------------------
planets.groupby('method')['orbital_period'].median()
输出：
method
Astrometry                         631.180000
Eclipse Timing Variations         4343.500000
Imaging                          27500.000000
Microlensing                      3300.000000
Orbital Brightness Modulation        0.342887
Pulsar Timing                       66.541900
Pulsation Timing Variations       1170.000000
Radial Velocity                    360.200000
Transit                              5.714932
Transit Timing Variations           57.011000
Name: orbital_period, dtype: float64

（2）按组迭代

for (method,group) in planets.groupby('method'):
    print("{0:30s} shape={1}".format(method,group.shape))
输出：
Astrometry                     shape=(2, 6)
Eclipse Timing Variations      shape=(9, 6)
Imaging                        shape=(38, 6)
Microlensing                   shape=(23, 6)
Orbital Brightness Modulation  shape=(3, 6)
Pulsar Timing                  shape=(5, 6)
Pulsation Timing Variations    shape=(1, 6)
Radial Velocity                shape=(553, 6)
Transit                        shape=(397, 6)
Transit Timing Variations      shape=(4, 6)

（3）调用方法
可以让任何不有GoupBy对象直接实现的方法直接饮用到每一组

planets.groupby('method')['year'].describe()
输出：
    count   mean    std     min     25%     50%     75%     max
method                              
Astrometry  2.0     2011.500000     2.121320    2010.0  2010.75     2011.5  2012.25     2013.0
Eclipse Timing Variations   9.0     2010.000000     1.414214    2008.0  2009.00     2010.0  2011.00     2012.0
Imaging     38.0    2009.131579     2.781901    2004.0  2008.00     2009.0  2011.00     2013.0
Microlensing    23.0    2009.782609     2.859697    2004.0  2008.00     2010.0  2012.00     2013.0
Orbital Brightness Modulation   3.0     2011.666667     1.154701    2011.0  2011.00     2011.0  2012.00     2013.0
Pulsar Timing   5.0     1998.400000     8.384510    1992.0  1992.00     1994.0  2003.00     2011.0
Pulsation Timing Variations     1.0     2007.000000     NaN     2007.0  2007.00     2007.0  2007.00     2007.0
Radial Velocity     553.0   2007.518987     4.249052    1989.0  2005.00     2009.0  2011.00     2014.0
Transit     397.0   2011.236776     2.077867    2002.0  2010.00     2012.0  2013.00     2014.0
Transit Timing Variations   4.0     2012.500000     1.290994    2011.0  2011.75     2012.5  2013.25     2014.0

2、累计、过滤、转换和应用
（1）累计
aggregate()支持字符串、函数、函数列表，并且一次性计算所有累计值

rng = np.random.RandomState(0)
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data1': range(6),
                   'data2': rng.randint(0, 10, 6)},
                   columns = ['key', 'data1', 'data2'])
df
输出：
    key     data1   data2
0   A   0   5
1   B   1   0
2   C   2   3
3   A   3   3
4   B   4   7
5   C   5   9
-----------------------------------------------------
df.groupby('key').aggregate(['min',np.median,max])
输出：
data1   data2
    min     median  max     min     median  max
key                         
A   0   1.5     3   3   4.0     5
B   1   2.5     4   0   3.5     7
C   2   3.5     5   3   6.0     9

（2）过滤

def filter_func(x):
    return x['data2'].std()>4
df.groupby('key').filter(filter_func)
输出：
    key     data1   data2
1   B   1   0
2   C   2   3
4   B   4   7
5   C   5   9

（3）转换

df.groupby('key').transform(lambda x:x-x.mean())
输出：
data1   data2
0   -1.5    1.0
1   -1.5    -3.5
2   -1.5    -3.0
3   1.5     -1.0
4   1.5     3.5
5   1.5     3.0

（4）apply方法
可以在每个组上应用任意方法

def norm_by_data2(x):
    x['data1']/=x['data2'].sum()
    return x
df.groupby('key').apply(norm_by_data2)
输出：
    key     data1   data2
0   A   0.000000    5
1   B   0.142857    0
2   C   0.166667    3
3   A   0.375000    3
4   B   0.571429    7
5   C   0.416667    9

3、设置分割的键
（1）将列表、数组、Series或索引作为分组键

df.groupby([0,1,0,1,2,0]).sum()
输出：
data1   data2
0   7   17
1   4   3
2   4   7

（2）用字典或Series将索引映射到分组

df2 = df.set_index('key')
mapping = {'A': 'vowel', 'B': 'consonant', 'C': 'consonant'}
df2.groupby(mapping).sum()
输出：
        data1   data2
consonant   12  19
vowel   3   8

（3）任意Python函数，如str.lower
（4）多个有效键构成的列表

df2.groupby([str.lower,mapping]).mean()
输出：
        data1   data2
a   vowel   1.5     4.0
b   consonant   2.5     3.5
c   consonant   3.5     6.0

数据透视表

#获取泰坦尼克号的乘客信息数据库
titanic=sns.load_dataset('titanic')
titanic.head()
输出：
    survived    pclass  sex     age     sibsp   parch   fare    embarked    class   who     adult_male  deck    embark_town     alive   alone
0   0   3   male    22.0    1   0   7.2500  S   Third   man     True    NaN     Southampton     no  False
1   1   1   female  38.0    1   0   71.2833     C   First   woman   False   C   Cherbourg   yes     False
2   1   3   female  26.0    0   0   7.9250  S   Third   woman   False   NaN     Southampton     yes     True
3   1   1   female  35.0    1   0   53.1000     S   First   woman   False   C   Southampton     yes     False
4   0   3   male    35.0    0   0   8.0500  S   Third   man     True    NaN     Southampton     no  True

pivot_table实现数据透视

titanic.pivot_table('survived',index='sex',columns='class')
输出：
class   First   Second  Third
sex             
female  0.968085    0.921053    0.500000
male    0.368852    0.157407    0.135447

pivot_table(values=None, index=None, columns=None, aggfunc=’mean’, fill_value=None, margins=False, dropna=True, margins_name=’All’)
aggfunc 可以指定不同的累计函数，累计函数可以用常见的字符串，也可以用标准的累计函数

titanic.pivot_table(index='sex',columns='class',aggfunc={'survived':sum,'fare':'mean'})
输出：
    fare    survived
class   First   Second  Third   First   Second  Third
sex                         
female  106.125798  21.970121   16.118810   91  70  72
male    67.226127   19.741782   12.661633   45  17  47

margin计算每一组的综述，margins_name指定标签的名字

titanic.pivot_table('survived',index='sex',columns='class',margins=True)
输出：
class   First   Second  Third   All
sex                 
female  0.968085    0.921053    0.500000    0.742038
male    0.368852    0.157407    0.135447    0.188908
All     0.629630    0.472826    0.242363    0.383838

向量化字符串操作

1、几乎所有的Python内置的字符串方法都被复制到Pandas中
2、正则表达式

方法	描述
match()	Call re.match() on each element, returning a boolean.
extract()	Call re.match() on each element, returning matched groups as strings.
findall()	Call re.findall() on each element
replace()	Replace occurrences of pattern with some other string
contains()	Call re.search() on each element, returning a boolean
count()	Count occurrences of pattern
replit()	Equivalent to str.split(), but accepts regexps
rsplit()	Equivalent to str.rsplit(), but accepts regexps

3、其它字符串方法

方法	描述
get()	获取元素索引位置上的值
slice()	对元素进行切片取值
slice_replace()	对元素进行切片替换
cat()	连接字符串
repeat()	重复元素
normalize()	将字符串转为Unicode
pad()	在字符串的左边、右边或两边增加空格
wrap()	将字符串安装指定的宽度换行
join()	用分隔符连接Series的每个元素
get_dummies()	按照分隔符提取每个元素的dummy变量，转换为独热编码的DataFrame

处理时间序列

1、pandas时间序列数据结构

针对时间戳数据，Pandas提供了Timestamp类型，对应的索引数据结构是DatetimeIndex
针对时间周期数据，Pandas提供了Period类型，对应的索引数据结构是PeriodIndex
针对时间增量或持续时间，pandas提供了Timedelta，对应的索引数据结构是TimedeltaIndex

pd.to_datetiem()返回DatetimeIndex
pd.to_period()返回PeriodIndex
当一个日期减去另一个日期返回的就是TimedeltaIndex

pd.date_range、pd.period-range、pd.timedelata_range与range()功能类似，创建有规律的日期序列，其中参数
有起点、终点、周期数（period）、freq（时间间隔，默认为D）

2、时间频率和偏移量
Pandas频率代码

带开始索引的频率代码

频率代码后可以加三位月份缩写改变季、年频率的开始时间
如
Q-JAN, BQ-FEB, QS-MAR, BQS-APR, etc.
A-JAN, BA-FEB, AS-MAR, BAS-APR, etc.

3、重新取样、迁移和窗口
（1）重新取样与频率转换
resample() 以数据累计为基础，进行重新取样
asfreq() 以数据选择为基础，进行重新取样

from pandas_datareader import data

goog = data.DataReader('GOOG', start='2004', end='2016',
                       data_source='google')
goog.head()
输出：
    Open    High    Low     Close   Volume
Date                    
2004-08-19  49.96   51.98   47.93   50.12   NaN
2004-08-20  50.69   54.49   50.20   54.10   NaN
2004-08-23  55.32   56.68   54.47   54.65   NaN
2004-08-24  55.56   55.74   51.73   52.38   NaN
2004-08-25  52.43   53.95   51.89   52.95   NaN
---------------------------------------------------
goog.plot(alpha=0.5, style='-')
goog.resample('BA').mean().plot(style=':')
goog.asfreq('BA').plot(style='--');
plt.legend(['input', 'resample', 'asfreq'],
           loc='upper left');
输出：

（2）时间迁移
shift（）：迁移数据
tshift（）：迁移索引

fig, ax = plt.subplots(3, sharey=True)

# apply a frequency to the data
goog = goog.asfreq('D', method='pad')

goog.plot(ax=ax[0])
goog.shift(900).plot(ax=ax[1])
goog.tshift(900).plot(ax=ax[2])

# legends and annotations
local_max = pd.to_datetime('2007-11-05')
offset = pd.Timedelta(900, 'D')

ax[0].legend(['input'], loc=2)
ax[0].get_xticklabels()[2].set(weight='heavy', color='red')
ax[0].axvline(local_max, alpha=0.3, color='red')

ax[1].legend(['shift(900)'], loc=2)
ax[1].get_xticklabels()[2].set(weight='heavy', color='red')
ax[1].axvline(local_max + offset, alpha=0.3, color='red')

ax[2].legend(['tshift(900)'], loc=2)
ax[2].get_xticklabels()[1].set(weight='heavy', color='red')
ax[2].axvline(local_max + offset, alpha=0.3, color='red');

（3）移动时间窗口
移动统计值，通过DataFrame和Series的rolling()属性实现

rolling = goog.rolling(365, center=True)

data = pd.DataFrame({'input': goog,
                     'one-year rolling_mean': rolling.mean(),
                     'one-year rolling_std': rolling.std()})
ax = data.plot(style=['-', '--', ':'])
ax.lines[0].set_alpha(0.3)

高性能pandas

eval()和query()都依赖与Numexpr,使得用户可以直接运行C语言速度的操作,eval使用字符串代数式实现高性能运算

1、pd.eval()支持的运算:
（1）算术运算符
（2）比较运算符
（3）位运算符，&和|
（4）对象属性和索引，通过obj.attr获取对象属性，通过obj[index]获取索引

pd.eval('df1 < df2 <= df3 != df4')
pd.eval('(df1 < 0.5) & (df2 < 0.5) | (df3 < df4)')
pd.eval('df2.T[0] + df3.iloc[1]')

2、DataFrame.eval()实现列间运算
新增列

df=pd.DataFrame(rng.rand(1000,3),columns=['A','B','C'])
df.eval('D=(A+B)/C',inplace=True)
df.head()
输出：
    A   B   C   D
0   0.234524    0.306290    0.328243    1.647604
1   0.051188    0.232454    0.734486    0.386178
2   0.079281    0.207351    0.169633    1.689713
3   0.855824    0.703545    0.227587    6.851752
4   0.789330    0.492029    0.045686    28.047263

通过@符号可以使用Python的局部变量
3、DataFrame.query()方法

result=df.query('A<0.5 and B<0.5')
resutt2=df[(df.A<0.5)&(df.B<0.5)]
np.allclose(result,resutt2)
输出
True

你可能感兴趣的:(python数据科学手持,pandas)

Python Pandas 如何进行数据分组统计 Python编程之道 Python人工智能与大数据 Python编程之道 python pandas 网络 ai
PythonPandas如何进行数据分组统计关键词：PythonPandas、数据分组、groupby、聚合函数、数据透视表、数据统计、数据分析摘要：本文将深入探讨如何使用PythonPandas库进行高效的数据分组统计操作。我们将从基础概念入手，详细讲解groupby机制的原理和使用方法，介绍各种聚合函数的应用，探讨高级分组技巧，并通过实际案例展示如何解决复杂的数据分析问题。文章还将涵盖性能优化
DAY 10 机器学习建模与评估心落薄荷糖 Python训练营机器学习人工智能
知识点：1.数据集的划分2.机器学习模型建模的三行代码3.机器学习模型分类问题的评估今日代码比较多，但是难度不大，仔细看看示例代码，好好理解下这几个评估指标。作业：尝试对心脏病数据集采用机器学习模型建模和评估#一、导入库importpandasaspdimportpandasaspd#用于数据处理和分析，可处理表格数据。importnumpyasnp#用于数值计算，提供了高效的数组操作。impor
Python_计算两个省市之间的直线距离_2506 夏天里的肥宅水 PYTHON python spring 开发语言
更新代码上一版链接importpandasaspdimporttimeimportpickleimportosimportsysfromgeopy.geocodersimportNominatimfromgeopy.distanceimportgeodesicfromtqdmimporttqdm#ConfigurationINPUT_FILE=r"距离.xlsx"#输入文件路径OUTPUT_FIL
【Python常用模块】_Pandas模块3-DataFrame对象失心疯_2023 Python常用模块数据分析 pandas 数据挖掘 python 数据统计数据处理
课程推荐我的个人主页：失心疯的个人主页入门教程推荐：Python零基础入门教程合集虚拟环境搭建：Python项目虚拟环境(超详细讲解)PyQt5系列教程：PythonGUI(PyQt5)教程合集Oracle数据库教程：Oracle数据库教程合集MySQL数据库教程：MySQL数据库教程合集优质资源下载：资源下载合集
【Pandas】pandas DataFrame resample liuweidong0802 DataFrame pandas
Pandas2.2DataFrameTimeSeries-related方法描述DataFrame.asfreq(freq[,method,how,…])用于**将时间序列数据转换为指定频率（resampletofrequency）**的方法DataFrame.asof(where[,subset])用于查找时间序列中最接近指定时间点的非NaN值的方法DataFrame.shift([period
【Pandas】pandas DataFrame max liuweidong0802 DataFrame pandas python 数据挖掘
Pandas2.2DataFrameComputationsdescriptivestats方法描述DataFrame.abs()用于返回DataFrame中每个元素的绝对值DataFrame.all([axis,bool_only,skipna])用于判断DataFrame中是否所有元素在指定轴上都为TrueDataFrame.any(*[,axis,bool_only,skipna])用于判断
【Pandas】pandas Series tz_convert liuweidong0802 Pandas Series pandas
Pandas2.2SeriesTimeSeries-related方法描述Series.asfreq(freq[,method,how,…])用于将时间序列数据转换为指定的频率Series.asof(where[,subset])用于返回时间序列中指定索引位置的最近一个非缺失值Series.shift([periods,freq,axis,…])用于将时间序列数据沿指定轴移动指定的周期数Serie
Python打卡：Day24 剑桥折刀s python打卡 python
importpandasaspdimportnumpyasnpimportreimportxgboostasxgbfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportclassification_report,confusion_matrix,accuracy_score,precision_score
中科米堆3D扫描逆向建模方案：汽车轮毂三维扫描抄数建模
某汽车制造商为了提升产品性能和满足客户需求，决定对轮毂盖进行设计和改装。传统的设计方法依赖于手工测量和绘制，效率低下且精度较差。为了解决这个问题，该制造商决定采用三维扫描技术来快速准确地获取轮毂盖的三维数据。三维扫描技术通过非接触式扫描快速获取物体表面三维数据，为产品逆向设计、模具修复、质量检测等环节提供高效解决方案。中科米堆手持式蓝光三维扫描仪采用蓝光激光扫描技术，通过激光发射器投射高精度蓝色激
常见的结构化数据转化为字典列表 daoboker python
以下是针对CSV、Parquet、Excel等格式使用pandas统一处理，并将每一行转换为字典的整理方案：一、通用处理逻辑无论何种数据格式，核心步骤均为：用pandas读取为DataFrame将DataFrame转换为列表+字典格式（orient=‘records’）二、具体实现代码CSV→字典列表importpandasaspd#读取CSVdf=pd.read_csv('data.csv',s
Python爬虫（56）Python数据清洗与分析实战：Pandas+Dask双剑合璧处理TB级结构化数据一个天蝎座白勺程序猿 Python爬虫入门到高阶实战 python 爬虫 pandas
目录引言：大数据时代的清洗革命一、数据清洗基础：Pandas核心方法论1.1数据去重策略深度解析1.1.1精确去重与模糊去重1.1.2智能去重策略1.2缺失值处理金字塔模型1.2.1基础处理方法1.2.2智能缺失处理二、Dask架构解析：突破单机内存限制2.1Dask核心组件图谱2.2DaskDataFrame核心API映射表三、TB级数据清洗实战：电商订单数据分析3.1场景描述3.2分布式清洗流
Pandas 系列（二）毛大猫（蓉火科技） pandas
Pandas系列（二）：Series属性（一）：importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt使用matplotlib.pyplot进行绘图时，首先需要导入模块，并根据具体需求调用相关函数来生成图表。通常使用以下语句:importmatplotlib.pyplotasplt导入pyplot模块，并将其简称为plt#s10=pd
追觅CEO俞浩启动“俞浩梦想奖学金”，首批100名高考生5000元大力财经人工智能
6月26日，全国高考成绩揭晓之际，追觅科技创始人兼CEO俞浩宣布启动“俞浩梦想奖学金”。据了解，该奖学金是俞浩个人投入1亿元的全球公益慈善计划的首个核心项目。即日起至7月30日，手持录取通知书的优秀考生，可通过“追觅公益”微信服务号提交资料申报。追觅科技将通过追觅公益基金会等机构，携手全国20余所高中，首批为100名需要助力的自强学子提供5000元的升学资助。这对于那些在高考中取得优异成绩但经济条
DeepSeek在数据分析与科学计算中的革命性应用软考和人工智能学堂 #DeepSeek快速入门 Python开发经验 #深度学习 python 机器学习开发语言
1.数据预处理自动化1.1智能数据清洗fromdeepseekimportDataCleanerimportpandasaspddefauto_clean_data(df):cleaner=DataCleaner()analysis=cleaner.analyze(df)print("数据问题诊断:")forissueinanalysis['issues']:print(f"-{issue['ty
python pandas数据清洗扶子 python 开发语言经验分享 pandas 数据清洗
一、介绍：2024金砖python样题中数据清洗部分代码实现二、任务要求：数据集中有购药时间、社保卡号、商品编码、商品名称、销售数量、应收金额、实收金额几个字段，请你使用NumPy和Pandas按如下要求对数据进行清洗：1.购药时间就是销售时间，为了后续分析更好的理解字段，将"购药时间"改为"销售时间"；2.任何一条数据中只要有一个缺失值就删除该条数据；3.将销售数量、应收金额、实收金额三列的数据
python数据分析张俊红_Python数据分析实战基础 | 初识Pandas weixin_39678531 python数据分析张俊红
这是Python数据分析实战基础的第一篇内容，主要是和Pandas来个简单的邂逅。已经熟练掌握Pandas的同学，可以加快手速滑动浏览或者直接略过本文。01重要的前言这段时间和一些做数据分析的同学闲聊，我发现数据分析技能入门阶段存在一个普遍性的问题，很多凭着兴趣入坑的同学，都能够很快熟悉Python基础语法，然后不约而同的一头扎进《利用Python进行数据分析》这本经典之中，硬着头皮啃完之后，好像
对 Boston Housing Dataset（波士顿房价数据集）数据分析程序小K 数据分析数据分析数据挖掘
1.数据加载与初步检查importpandasaspdimportmatplotlib.pyplotaspltimportseabornassns#加载数据boston_df=pd.read_csv("boston_housing_data.csv")#查看前5行display(boston_df.head())#检查数据基本信息（列名、数据类型、非空值数量）print(boston_df.inf
“易问易视”——让数据分析像聊天一样简单二十十十十十数据分析数据挖掘
一、项目简介“易问易视”通过自然语言理解和大语言模型技术，将用户的中文查询自动转化为数据处理指令，实现无代码的数据检索与图表生成。你只要在大屏上输入一句话，比如“2024年每月有多少人出境”，它就能自动看懂你要查的时间、指标、维度，然后在后台用Pandas和NumPy把国家统计局或行业CSV里的数据清洗、筛选、聚合好，再用Matplotlib、Plotly画出柱状图、折线图、饼图甚至地图，最后在S
Python 数据分析与可视化 Day 3 - Pandas 数据筛选与排序操作蓝婷儿 python pandas 数据分析 python
今日目标掌握DataFrame的条件筛选（布尔索引）学会多条件筛选、逻辑运算熟练使用排序（sort_values）提升数据组织力结合列选择进行数据提取分析一、列选择与基本筛选✅选择单列/多列df["成绩"]#返回Seriesdf[["姓名","成绩"]]#返回新的DataFrame✅条件筛选（布尔索引）#筛选出成绩大于80的学生df[df["成绩"]>80]#获取性别为“女”的学生df[df["性
VR+消防应急演练制作广州华锐视点 3d展示 VR vr
通过3D数字模拟技术还原事故现场，利用VR技术让体验者参与进虚拟场景中，辅以震动特效，烟雾特效，声音特效等，使体验者产生身临其境的现场感受，同时将消防安全常识融入到这个环境中。这套系统采用引导式教育体验方式，通过演示模式、课程模式、自由模式等学习相关知识，让体验者在参与体验中学习知识与技能。体验者通过手持真实的灭火器材，例如2KG灭火器、消防水枪等，对显示屏幕进行模拟灭火体验，通过对不同场景的识别
金融量化 - 技术分析策略和交易系统_SMA+CCI交易系统帅泽泽金融量化金融量化
双技术指标：SMA+CCI交易系统以SMA作为开平仓信号，同时增加CCI作为过滤器；当股价上穿SMA，同时CCI要小于-100，说明是在超卖的情况下，上穿SMA，做多；交易信号更可信；当股价下穿SMA，同时CCI要大于+100，说明是在超买的情况下，下穿SMA，做空；交易信号更可信；importnumpyasnpimportpandasaspdimporttalibastaimporttushar
Python学习Day10 m0_64472246 python打卡学习 python
学习来源：@浙大疏锦行知识点：数据集的划分机器学习模型建模的三行代码机器学习模型分类问题的评估对心脏病数据集采用机器学习模型建模和评估importpandasaspdfile_path="heart.csv"data=pd.read_csv(file_path)data.info()data.isnull().sum()#划分训练集和测试机fromsklearn.model_selectionim
Python训练打卡Day15 编程有点难 Python学习笔记 python 开发语言
复习日回顾一下之前14天的内容：importpandasaspdimportseabornassnsimportmatplotlib.pyplotaspltdata=pd.read_csv('ObesityDataSet.csv')data.head()#分离连续变量与离散变量discrete_features=['Gender','family_history_with_overweight',
国产入门级32位单片机PY32F002A 郦777 单片机嵌入式硬件
PY32F002A系列微控制器采用高性能的32位ARM®Cortex®-M0+内核，宽电压工作范围的MCU。嵌入高达20Kbytesflash和3KbytesSRAM存储器，最高工作频率24MHz。包含多种不同封装类型多款产品。芯片集成多路I2C、SPI、USART等通讯外设，1路12bitADC，多个定时器。PY32F002A系列微控制器适用于多种应用场景：例如控制器、手持设备、PC外设、游戏和
Python数据处理三剑客：NumPy、Pandas和xarray全面详解 AI开发学习分享 python 数据分析 python numpy pandas
在Python数据分析领域，NumPy、Pandas和xarray是最核心的三个库。本文将详细介绍它们的功能、用法和区别，并提供大量实用代码示例。一、NumPy：科学计算基础库NumPy是Python科学计算的基础包，提供了高性能的多维数组对象和各种计算工具。1.1基本数组操作importnumpyasnp#创建数组arr1=np.array([1,2,3,4])#一维数组arr2=np.arra
《AI之路：从零到精通的人工智能学习指南》大模型入门学习人工智能产品经理 AI大模型 llama 大模型
01—人工智能开发入门掌握Python基础语法，对后续学习打下坚实基础。Python编程基本语法数据结构函数面向对象多任务模块与包闭包装饰器迭代器Numpy矩阵运算NadrrayScalarsBoradcasting矩阵运算矩阵转置矩阵求逆Scipy数值运算库Scipy基本使用Scipy常量Scipy稀疏矩阵Scipy图结构Scipy空间Scipy插值Pandas数据科学库自带数据结构数据读取写入
python-pandas 读取Excel数据的不同方式 ≯不见猫 python pandas excel
获取单个或多个Excel的Excel文件1、单个sheet的Excel文件获取2、多个sheet的Excel文件获取2.1、方法一使用ExcelFile2.2、方法二使用read_excel1、单个sheet的Excel文件获取当Excel文件只有一个sheet或仅需要获取多个sheet的Excel文件中的指定sheet数据2、多个sheet的Excel文件获取需要同时获取多个sheet或者获取s
面试题叫我小小飞
importnumpyasnpimportpandasaspdimportmatplotlib.pyplotasplt%matplotlibinlinedf=pd.read_csv('./2019_1117_MaRTy_Negin_Experiment.csv',skip_blank_lines=True,skiprows=[0,1,3,4],dtype={'Latitude_A':np.floa
Python数据科学之旅：Matplotlib从入门到进阶全解析程序猿全栈の董 python matplotlib 开发语言
一、Matplotlib基础入门（一）环境搭建与核心概念在Python的数据可视化领域，Matplotlib堪称基石级工具。其安装流程简洁直观，通过命令行执行pipinstallmatplotlib即可完成基础部署。若遇模块依赖问题，如缺少six模块，补充执行pipinstallsix即可。导入Matplotlib的核心绘图模块时，遵循Python社区的通行惯例：importmatplotlib.
100个Pandas练习题：从入门到精通的实战指南陆骊咪Durwin
100个Pandas练习题：从入门到精通的实战指南100-pandas-puzzles100datapuzzlesforpandas,rangingfromshortandsimpletosupertricky(60%complete)项目地址:https://gitcode.com/gh_mirrors/10/100-pandas-puzzles前言Pandas作为Python数据分析的核心库，
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc