weixin_30267697

python数据分析实战---Pandas

pandas的认识 :一个python的数据分析库

安装方式：pip install pandas

pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一.

一个快速、高效的DataFrame对象，用于数据操作和综合索引；
用于在内存数据结构和不同格式之间读写数据的工具：CSV和文本文件、Microsoft Excel、SQL数据库和快速HDF 5格式；
智能数据对齐和丢失数据的综合处理：在计算中获得基于标签的自动对齐，并轻松地将凌乱的数据操作为有序的形式；
数据集的灵活调整和旋转；
基于智能标签的切片、花式索引和大型数据集的子集；
可以从数据结构中插入和删除列，以实现大小可变；
通过在强大的引擎中聚合或转换数据，允许对数据集进行拆分应用组合操作;
数据集的高性能合并和连接；
层次轴索引提供了在低维数据结构中处理高维数据的直观方法；
时间序列-功能：日期范围生成和频率转换、移动窗口统计、移动窗口线性回归、日期转换和滞后。甚至在不丢失数据的情况下创建特定领域的时间偏移和加入时间序列；
对性能进行了高度优化，用Cython或C编写了关键代码路径。
Python与Pandas在广泛的学术和商业领域中使用，包括金融，神经科学，经济学，统计学，广告，网络分析，等等。

pandas中文网 https://www.pypandas.cn

数据结构Series和Dataframe

一维数组Series

Series是一维标记的数组，能够保存任何数据类型（整数，字符串，浮点数，Python对象等）。轴标签统称为索引。

ar = np.random.rand(5)
s = pd.Series(ar)
print(s)
print(s.index)   #index查看series的值
print(s.values)  #values查看series的values
---------------------------------------------------
0    0.119383
1    0.247409
2    0.248272
3    0.410680
4    0.439547
dtype: float64
RangeIndex(start=0, stop=5, step=1)
[0.11938319 0.24740862 0.24827207 0.41068032 0.43954667]

创建series的三种方法：

字典创建

dit = {'a':1,'b':2,'c':3,'f':6}
s = pd.Series(dit)
print(s)
---------------------------------
a    1
b    2
c    3
f    6
dtype: int64

数组创建

ar = np.random.rand(5)*100
s = pd.Series(ar,index=list('abcde'),dtype=np.str)
print(s)
--------------------------------------------
a    31.644744342854725
b     6.783679074968873
c     6.753556225037693
d     43.71090526035562
e     65.35205915903558
dtype: object

通过标量创建

s = pd.Series(100,index=range(10))
print(s)
-------------------------------
0    100
1    100
2    100
3    100
4    100
5    100
6    100
7    100
8    100
9    100
dtype: int64

　name属性

ar = np.random.rand(2)
s = pd.Series(ar)
s1 = pd.Series(ar,name='test')
print(s,type(s))
print(s1,type(s1))

s2 =s1.rename("abcd")
print(s2,type(s2))
print(s1,type(s1))
---------------------------
0    0.820561
1    0.330791
dtype: float64 
0    0.820561
1    0.330791
Name: test, dtype: float64 
0    0.820561
1    0.330791
Name: abcd, dtype: float64 
0    0.820561
1    0.330791
Name: test, dtype: float64

索引

ar = np.random.rand(5)
s = pd.Series(ar)
print(s[0])   #下标索引
print(s[2])   #下标索引
s1 = pd.Series(ar,index=list('abcde'))
print(s1)
print(s1['a'])   #标签索引
print(s1[0:3],s1[4])  #切片索引

#布尔型索引
ar = np.random.rand(5)*100
s2 = pd.Series(ar)
s2[6]=None
print(s2)
bs1 = s2>50
bs2 = s2.isnull()
bs3 = s2.notnull()
print(bs1)
print(bs2)
print(bs3)

print(s2[s2>50])
print(s2[bs3])
------------------------
0.61815875542277
0.019856009429792598
a    0.618159
b    0.823132
c    0.019856
d    0.737151
e    0.840799
dtype: float64
0.61815875542277
a    0.618159
b    0.823132
c    0.019856
dtype: float64 0.8407993638916321
0    9.29894
1    84.7848
2    24.4915
3    59.9761
4    91.5569
6       None
dtype: object
0    False
1     True
2    False
3     True
4     True
6    False
dtype: bool
0    False
1    False
2    False
3    False
4    False
6     True
dtype: bool
0     True
1     True
2     True
3     True
4     True
6    False
dtype: bool
1    84.7848
3    59.9761
4    91.5569
dtype: object
0    9.29894
1    84.7848
2    24.4915
3    59.9761
4    91.5569
dtype: object

　其他属性

ar = np.random.randint(100,size=10)
s = pd.Series(ar,index=list('abcdefgjkl'))
print(s)
print(s.head())  #查看前5个
print(s.tail())  #查看后5个
s['a','e','f']=100  #修改
s.drop('b',inplace=True) #删除
s['o'] = 500   #添加
print("++++",s)


#重新索引
s1 = pd.Series(np.random.rand(5),index=list('abcde'))
s2 = s1.reindex(['b','c','d','e','f'])
print(s2)

#对齐
d = pd.Series(np.random.rand(3),index=['Tom','Marry','Jam'])
d2 = pd.Series(np.random.rand(3),index=['Tom','Lucy','Jam'])
print(d)
print(d2)
print(d2+d)
--------------------------------
a    75
b    45
c    86
d     0
e    29
f     8
g    41
j    51
k    30
l    58
dtype: int32
a    75
b    45
c    86
d     0
e    29
dtype: int32
f     8
g    41
j    51
k    30
l    58
dtype: int32
++++ a    100
c     86
d      0
e    100
f    100
g     41
j     51
k     30
l     58
o    500
dtype: int64
b    0.962842
c    0.061086
d    0.135772
e    0.845562
f         NaN
dtype: float64
Tom      0.828716
Marry    0.383809
Jam      0.600144
dtype: float64
Tom     0.048050
Lucy    0.379492
Jam     0.072854
dtype: float64
Jam      0.672999
Lucy          NaN
Marry         NaN
Tom      0.876766
dtype: float64

二维数组Dataframe

DataFrame是一个二维标记数据结构，具有可能不同类型的列。您可以将其视为电子表格或SQL表，或Series对象的字典。它通常是最常用的pandas对象。与Series一样，DataFrame接受许多不同类型的输入：

1D ndarray，list，dicts或Series的Dict
二维numpy.ndarray
结构化或记录 ndarray
一个 Series
另一个 DataFrame

除了数据，您还可以选择传递索引（行标签）和列（列标签）参数。如果传递索引和/或列，则可以保证生成的DataFrame的索引和/或列。因此， Series 的字典加上特定索引将丢弃与传递的索引不匹配的所有数据。

创建DataFrame的5中方式：

　　由list和数组创建

#由list和数组创建
data = {
    'name':['Jack','Mary','Tom'],
    'age':[14,15,17],
    'gender':['M','W','M']
}
fr = pd.DataFrame(data)
print(fr)
print(type(fr))
print(fr.index,'数据类型是：',type(fr.index))   #行标签
print(fr.values,'数据类型是：',type(fr.values)) #值
print(fr.columns,'数据类型是：',type(fr.columns))  #列标签
-----------------------------------------------------------------
   name  age gender
0  Jack   14      M
1  Mary   15      W
2   Tom   17      M

RangeIndex(start=0, stop=3, step=1) 数据类型是： 
[['Jack' 14 'M']
 ['Mary' 15 'W']
 ['Tom' 17 'M']] 数据类型是： 
Index(['name', 'age', 'gender'], dtype='object') 数据类型是：

由Series组成的创建

#由Series组成的创建
data1 = {'one':pd.Series(np.random.rand(2)),
         'two':pd.Series(np.random.rand(3)),
         }
print(data1)
data2 = {'one':pd.Series(np.random.rand(2),index=['a','b']),
         'two':pd.Series(np.random.rand(3),index=['a','b','c']),
         }
print(data2)

fr1 = pd.DataFrame(data1)
fr2 = pd.DataFrame(data2)
print(fr1)
print(fr2)
-----------------------------
{'one': 0    0.432652
1    0.552177
dtype: float64, 'two': 0    0.946339
1    0.326405
2    0.352883
dtype: float64}
{'one': a    0.353147
b    0.176789
dtype: float64, 'two': a    0.121450
b    0.371344
c    0.240906
dtype: float64}
        one       two
0  0.432652  0.946339
1  0.552177  0.326405
2       NaN  0.352883
        one       two
a  0.353147  0.121450
b  0.176789  0.371344
c       NaN  0.240906

通过二维数组创建 （常用）

#通过二维数组创建 （常用）

ar = np.random.rand(9).reshape(3,3)
print(ar)
fr3 = pd.DataFrame(ar)
fr4 = pd.DataFrame(ar,index=['a','b','c'],columns=['s','h','j'])
print(fr3)
print(fr4)
------------------------
[[0.80857571 0.31437002 0.00130739]
 [0.24521627 0.04577992 0.19544072]
 [0.23923237 0.26033495 0.17534313]]
          0         1         2
0  0.808576  0.314370  0.001307
1  0.245216  0.045780  0.195441
2  0.239232  0.260335  0.175343
          s         h         j
a  0.808576  0.314370  0.001307
b  0.245216  0.045780  0.195441
c  0.239232  0.260335  0.175343

字典组成的列表

data3 = [{'one':1,'two':2,'three':3},{'four':4,'five':5,'six':6}]
fr5 = pd.DataFrame(data3)
print(fr5)
---------------------
   one  two  three  four  five  six
0  1.0  2.0    3.0   NaN   NaN  NaN
1  NaN  NaN    NaN   4.0   5.0  6.0

字典组成的字典

data4 = {
    'Tom':{'art':67,'english':98,'china':76},
    'Mary':{'art':45,'english':78,'china':70},
    'Lucy':{'art':58,'english':79},
        }
fr6 = pd.DataFrame(data4)
print(fr6)
---------------------------
        Tom  Mary  Lucy
art       67    45  58.0
english   98    78  79.0
china     76    70   NaN

索引

import  numpy as np
import pandas as pd


df = pd.DataFrame(np.random.rand(12).reshape(3,4)*100,
                  index=['one','two','three'],columns=['a','b','c','d']
                  )
df2 = pd.DataFrame(np.random.rand(12).reshape(3,4)*100,
                  columns=['a','b','c','d']
                  )

print(df)
print(df2)

data = df['a']
data1 = df[['a','b']]
print('data',data)
print('data1',data1)     #选择列

data3 = df.loc['one']    #按index选择行
data4 = df.loc[['three','one']]
print('data3',data3)
print('data4',data4)   #选择行

data5 = df.iloc[-1]  #按整数位置选择行
print('data5',data5)

print("单标签索引/n")
print(df.loc['one'])
print(df2.loc[1])

print("多标签索引/n")
print(df.loc[['two','one']])
print(df2.loc[[2,1]])
#
print("切片索引/n")
print(df.loc['one':'two'])
print(df2.loc[1:2])
---------------------------
               a          b          c          d
one    79.285201  73.277718  12.225063  18.830074
two     2.400540  49.604940  80.337070  47.133134
three  17.399693  92.839253  90.041425  75.505320
           a          b          c          d
0  47.065633  21.284022  30.118641  85.652279
1  12.201863  48.841603  23.367143  32.276774
2  77.422617  55.812583  56.130735  64.983035
data one      79.285201
two       2.400540
three    17.399693
Name: a, dtype: float64
data1                a          b
one    79.285201  73.277718
two     2.400540  49.604940
three  17.399693  92.839253
data3 a    79.285201
b    73.277718
c    12.225063
d    18.830074
Name: one, dtype: float64
data4                a          b          c          d
three  17.399693  92.839253  90.041425  75.505320
one    79.285201  73.277718  12.225063  18.830074
data5 a    17.399693
b    92.839253
c    90.041425
d    75.505320
Name: three, dtype: float64
单标签索引/n
a    79.285201
b    73.277718
c    12.225063
d    18.830074
Name: one, dtype: float64
a    12.201863
b    48.841603
c    23.367143
d    32.276774
Name: 1, dtype: float64
多标签索引/n
             a          b          c          d
two   2.400540  49.604940  80.337070  47.133134
one  79.285201  73.277718  12.225063  18.830074
           a          b          c          d
2  77.422617  55.812583  56.130735  64.983035
1  12.201863  48.841603  23.367143  32.276774
切片索引/n
             a          b          c          d
one  79.285201  73.277718  12.225063  18.830074
two   2.400540  49.604940  80.337070  47.133134
           a          b          c          d
1  12.201863  48.841603  23.367143  32.276774
2  77.422617  55.812583  56.130735  64.983035

布尔值索引

df = pd.DataFrame(np.random.rand(12).reshape(3,4)*100,
                  index=['one','two','three'],columns=['a','b','c','d']
                  )
b1 = df<20
print(b1,type(b1))
print(df[b1])   #不做索引对每一个值进行判断

b2 = df["a"]<20
print(b2,type(b2))
print(df[b2])   #单行判断

b3 = df[["a",'b']]<20
print(b3,type(b3))
print(df[b3])   #多行判断

b4 = df.loc[["one",'two']]<50
print(b4,type(b4))
print(df[b4])   #多行判断

-------------------------------------
           a      b      c      d
one     True   True  False  False
two    False  False  False  False
three   True  False  False  False 
               a          b   c   d
one    12.319044  16.517952 NaN NaN
two          NaN        NaN NaN NaN
three   8.939486        NaN NaN NaN
one       True
two      False
three     True
Name: a, dtype: bool 
               a          b          c          d
one    12.319044  16.517952  97.270662  76.200591
three   8.939486  38.428862  25.783585  30.355222
           a      b
one     True   True
two    False  False
three   True  False 
               a          b   c   d
one    12.319044  16.517952 NaN NaN
two          NaN        NaN NaN NaN
three   8.939486        NaN NaN NaN

　　多重索引

df = pd.DataFrame(np.random.rand(12).reshape(3,4)*100,
                  index=['one','two','three'],columns=['a','b','c','d']
                  )

print(df['a'].loc['one'])
print(df['a'].loc[['one','two']])
print(df[['b','c','d']].iloc[1:2])
print(df[df<50][['a','b']])
--------------------------------
31.995689334678335
one    31.995689
two     6.516284
Name: a, dtype: float64
             b          c          d
two  19.048351  31.111981  60.956516
               a          b
one    31.995689  38.992923
two     6.516284  19.048351
three        NaN  31.623816

　其他属性

import  numpy as np
import pandas as pd


df = pd.DataFrame(np.random.rand(10).reshape(5,2),
                  columns=['a','b']
                  )

print(df)
print(df.T)   #转置
print(df.head(2))  #前2列
print(df.tail(2))  #后2列

df2 = pd.DataFrame(np.random.rand(16).reshape(4,4),
                  columns=['a','b','c','d']
                  )
print(df2)
df2['c']=100  #修改
df2['e']=10   #添加
print(df2)


print(df.drop(0,inplace=True))  #删除行，inplace  删除后生成新数据，不改变原数据
print(df.drop(['a'],axis=1))  #删除列，axis=1  删除后生成新数据，不改变原数据


#对齐


#排序
print(df.sort_values(['a'],ascending=True))  #升序
print(df.sort_values(['a'],ascending=True))  #降序

-----------------------------------------------------------------
          a         b
0  0.940085  0.181402
1  0.536894  0.488670
2  0.217216  0.854319
3  0.478155  0.066919
4  0.467400  0.194862
          0         1         2         3         4
a  0.940085  0.536894  0.217216  0.478155  0.467400
b  0.181402  0.488670  0.854319  0.066919  0.194862
          a         b
0  0.940085  0.181402
1  0.536894  0.488670
          a         b
3  0.478155  0.066919
4  0.467400  0.194862
          a         b         c         d
0  0.849237  0.284547  0.353720  0.470520
1  0.294418  0.909727  0.375445  0.975046
2  0.588561  0.386173  0.703177  0.341634
3  0.180870  0.831200  0.392450  0.036837
          a         b    c         d   e
0  0.849237  0.284547  100  0.470520  10
1  0.294418  0.909727  100  0.975046  10
2  0.588561  0.386173  100  0.341634  10
3  0.180870  0.831200  100  0.036837  10
None
          b
1  0.488670
2  0.854319
3  0.066919
4  0.194862
          a         b
2  0.217216  0.854319
4  0.467400  0.194862
3  0.478155  0.066919
1  0.536894  0.488670
          a         b
2  0.217216  0.854319
4  0.467400  0.194862
3  0.478155  0.066919
1  0.536894  0.488670

时间模块

datetime.datetime()

t1 = datetime.datetime.now()
t2 = datetime.datetime(2016,2,5)
t3 = datetime.datetime(2016,2,5,12,30,34)
print(t1,type(t1))
print(t2,type(t2))
print(t3,type(t3))
---------------------------
2019-09-17 12:25:54.780962 
2016-02-05 00:00:00 
2016-02-05 12:30:34

　　datetime.delta()

t1 = datetime.datetime(2016,4,6)
t2 = datetime.timedelta(10,200)  #默认（天，秒）
print(t1+t2)
---------------------------
2016-04-16 00:03:20

时间格式的转化

from dateutil.parser import parse

date = "2015 2 20"
date1 = "2015-3-25"
date2 = "2016/3/8"
print(parse(date))
print(parse(date1))
print(parse(date2))

----------------------------
2015-02-20 00:00:00
2015-03-25 00:00:00
2016-03-08 00:00:00

　　pd.timeStamp()时间戳

date1 = "2017-05-01 12:25:12"
date2 = datetime.datetime(2017,5,6,14,15,23)
t1 = pd.Timestamp(date1)  #时间戳
t2 = pd.Timestamp(date2)
print(t1,type(t1))
print(t2,type(t2))
print(date2,type(date2))
---------------------------------
2017-05-01 12:25:12 
2017-05-06 14:15:23 
2017-05-06 14:15:23

　　pd.to_datetime()

date1 = "2017-05-01 12:25:12"
date2 = datetime.datetime(2017,5,6,14,15,23)

t1 = pd.to_datetime(date1)  #时间戳
t2 = pd.to_datetime(date2)
print(t1,type(t1))
print(t2,type(t2))


#多个时间数据，会转化成pandas的Datetime的Index
ls_date = ['2017-01-01','2017-01-02','2017-01-03']
t3 = pd.to_datetime(ls_date)
print(t3,type(t3))

#当一组数据中夹杂着其他的数组
date3 = ['2017-01-01','2017-01-02','2017-01-03','hello','2018-01-05']
t4 = pd.to_datetime(date3,errors='ignore')  #返回原始数据，这里直接是生成一组数据
print(t4,type(t4))

t5 = pd.to_datetime(date3,errors='coerce')  #缺失值返回Nat，结果是DatetimeIndex
print(t5,type(t5))

------------------------------------------------
2017-05-01 12:25:12 
2017-05-06 14:15:23 
DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03'], dtype='datetime64[ns]', freq=None) 
Index(['2017-01-01', '2017-01-02', '2017-01-03', 'hello', '2018-01-05'], dtype='object') 
DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', 'NaT', '2018-01-05'], dtype='datetime64[ns]', freq=None)

date_range(start,end,periods,freq)

'''
date_range(start,end,periods,freq)
    start:开始时间
    end：结束时间
    periods：偏移量
    freq：频率  默认，天  pd.date_range()默认频率为日历日  pd.bdate_range()默认频率为工作日
'''
date = pd.date_range('2014-01-01','2014-02-01')
date1 = pd.date_range(start='2014-01-01',periods=10)
date2 = pd.date_range(end='2014-01-01',periods=10)
date3 = pd.date_range('2014-01-01','2014-01-02',freq="H")
print(date)
print(date1)
print(date2)
print(date3)

#normalize 时间参数值正则化到午夜时间戳
date4 = pd.date_range('2019-05-01 12:25:00',periods=2,name='hello',normalize=True)
print(date4)

print(pd.date_range('20190101','20190105'))   #默认左右闭合
print(pd.date_range('20190101','20190105',closed='right')) #右开左闭
print(pd.date_range('20190101','20190105',closed='left'))  #左开右闭
print(pd.bdate_range('20190101','20190107'))  #默认频率是工作日

#日期范围频率
print(pd.date_range('20190101','20190110'))  #默认是天
print(pd.date_range('20190101','20190110',freq='B')) #每工作日
print(pd.date_range('20190101','20190110',freq='H'))  #每小时
print(pd.date_range('20190101 12:00','20190110 12:20',freq='T'))  #每分钟
# print(pd.date_range('20190101 12:00:00','20190110 12:20:01',freq='S'))  #每秒
# print(pd.date_range('20190101 12:00:00','20190110 12:20:01',freq='L'))  #每毫秒（千分之一秒）
# print(pd.date_range('20190101 12:00:00','20190110 12:20:01',freq='U'))  #每微秒（百万分之一秒）


#星期的缩写：MON-TUE-WED-THU-FRI-SAT-SUN
print(pd.date_range('20190101','20190210',freq='W-MON'))  #从指定星期几开始算起，每周一
print(pd.date_range('20190101','20190210',freq='WOM-2MON'))  #每月的第几个星期几开始算，这里是每月第二个星期一

#月份缩写：JAN/FEB/MAR/APR/MAY/JUE/JUL/AUG/SEP/OCT/NOV/DEC
print(pd.date_range('2018','2020',freq='M'))#每月最后一个日历日
print(pd.date_range('2018','2020',freq='Q-DEC'))#Q月，指定月为季度末，每个季度末的最后一个月的最后一个日历日
print(pd.date_range('2018','2020',freq='A-DEC'))#A月，每年指定月份的最后一个日历日

print(pd.date_range('2018','2020',freq='BM'))#每月最后一个工作日
print(pd.date_range('2018','2020',freq='BQ-DEC'))#Q月，指定月为季度末，每个季度末的最后一个月的最后一个工作日
print(pd.date_range('2018','2020',freq='BA-DEC'))#A月，每年指定月份的最后一个工作日

print(pd.date_range('2018','2020',freq='MS'))#每月第一个日历日
print(pd.date_range('2018','2020',freq='QS-DEC'))#Q月，指定月为季度末，每个季度末的最后一个月的第一个日历日
print(pd.date_range('2018','2020',freq='AS-DEC'))#A月，每年指定月份的第一个日历日

print(pd.date_range('2018','2020',freq='BMS'))#每月第一个工作日
print(pd.date_range('2018','2020',freq='BQS-DEC'))#Q月，指定月为季度末，每个季度末的最后一个月的第一个工作日
print(pd.date_range('2018','2020',freq='BAS-DEC'))#A月，每年指定月份的第一个工作日


#复合频率
print(pd.date_range('20180701','20180801',freq='7D'))#7天
print(pd.date_range('20180701','20180801',freq='2H30min'))#2小时30分钟
print(pd.date_range('2018','2019',freq='2MS'))#2月，每月最后一个日历日

　　asfreq() 时间频率转化

date = pd.Series(
    np.random.rand(4),
    index=pd.date_range('20180101','20180104')
)
print(date)
print(date.asfreq('4H'))  #值是NAN
print(date.asfreq('4H',method='ffill'))  #用前面值填充
print(date.asfreq('4H',method='bfill'))  #用后面的值填充

　　shift（）超前、滞后数据

date = pd.Series(
    np.random.rand(4),
    index=pd.date_range('20180101','20180104')
)
print(date)
print(date.shift(2))  #前移2位
print(date.shift(-2))  #后移2位

　　period（）时期

#创建时期
date = pd.Period('2017',freq='M')
print(date)

date2 = pd.period_range('2017','2018',freq='M')
print(date2,type(date2))

#时间戳与日期之间的转化
t = pd.date_range('20180101',periods=10,freq='M')
t2 = pd.period_range('2018','2019',freq='M')

ts = pd.Series(np.random.rand(len(t)),index=t)
print(ts)
print(ts.to_period())  #时间戳转日期

ts2 = pd.Series(np.random.rand(len(t2)),index=t2)
print(ts2)
print(ts2.to_timestamp())  #日期转时间戳

　　索引与切片

date = pd.DataFrame(
    np.random.rand(30).reshape(10,3)*100,
    index = pd.date_range('20170101','20170106',freq='12H',closed='left'),
    columns=['value1','value2','value3']
)
print(date)
print(date[:4])  #前4行
print(date["20170104"].iloc[1])   #取20170104 12:00:00的值
print(date.loc["20170104":'20170105'])  #切片

　　resample（）重采样

date = pd.Series(
    np.arange(1,13),
    index=pd.date_range('20170101',periods=12)
)
print(date)
#
ts = date.resample("5D")
ts2 = date.resample("5D").sum()  #求和
print(ts,type(ts))
print(ts2,type(ts2))

print(date.resample("5D").mean() ) #求平均数
print(date.resample("5D").max() ) #求最大
print(date.resample("5D").min() ) #求最小
print(date.resample("5D").median() ) #求中值
print(date.resample("5D").first() ) #求第一个
print(date.resample("5D").last() ) #求最后一个
print(date.resample("5D").ohlc() ) #金融中的OHLC样本


#降采样
print(date.resample("5D",closed='left').sum() )
print(date.resample("5D",closed='right').sum() )

print(date.resample("5D",label='left').sum() )
print(date.resample("5D",label='right').sum() )


#升采样及插值
date2 = pd.DataFrame(
    np.arange(15).reshape(5,3),
    index=pd.date_range('20170101',periods=5),
    columns=['a','b','c']
)
print(date2)
print(date2.resample("12H").asfreq())
print(date2.resample("12H").ffill())
print(date2.resample("12H").bfill())

通用方法

数值计算和统计基础

import  numpy as np
import pandas as pd


df1 = pd.DataFrame(
    {'key1':[4,5,6,np.nan,7],
     'key2':[1,2,np.nan,9,7],
     'key3':[2,4,5,'j','k']
     })

print(df1)
print(df1.sum())
print(df1.sum(axis=1))  #axis=1 按行计算  默认是0
print(df1.sum(skipna=True))  #skipna  是否忽略NaN，默认是True，由NaN的值计算结果还是NaN


df = pd.DataFrame(
    {'key1':np.arange(1,11),
     'key2':np.random.rand(10)*100}
)
print(df)
print(df.mean(),'求均值')
print(df.count(),'统计每列非NaN的数量')
print(df.min(),'最小值')
print(df.max(),'最大值')
print(df.quantile(q=0.5),'统计分数位，参数q确定位置')
print(df.median(),'算数中位数')
print(df.std(),'方差')
print(df.skew(),'样本的偏度')
print(df.kurt(),'样本的峰度')

df['key1_s']=df['key1'].cumsum()
df['key2_s']=df['key2'].cumsum()   #样本的累计和
print(df)

df['key2_p']=df['key2'].cumprod()
df['key1_p']=df['key1'].cumprod()  #样本的累计积
print(df)


s = pd.Series(list('aabcdfgfgtf'))
print(s)
print(s.unique()) #唯一值
print(s.value_counts(sort=True)) #计算样本出现的频率

print(s.isin(['a','o']))   #是否在该series成员里面
print(df.isin([1,4]))   #是否在该Dateframe成员里面

文本数据

s = pd.Series(['A','c','D','bbhello','b',np.nan])
df = pd.DataFrame({'key1':list('abcde'),'key2':['abc','AS',np.nan,4,'fa']})
print(df)
print(s)

print(s.str.count('b'))#统计每行的'b'
print(s.str.upper()) #大写
print(s.str.lower())#小写
print(s.str.len())#长度
print(s.str.startswish('a'))#判断起始值
print(s.str.endswish('a'))#判断结束值
print(s.str.strip())#去空格
print(s.str.replace())#代替
print(s.str.split(','))#分裂
print(s.str[0])#字符索引

合并

合并
pd.merge(
    left,
    right,
    how="inner"交集, how='outer'并集
    on=None,
    left_on=None,
    right_on=None,
    left_index=False,
    right_index=False,
    sort=False,
    suffixes=("_x", "_y"),
    copy=True,
    indicator=False,
    validate=None,
)

连接、修补

'''
pd.concat(
    objs,
    axis=0,  行+行  axis=1 列+列
    join="outer",  #并集   inner交集
    join_axes=None,  #指定联合index
    ignore_index=False,
    keys=None,   序列，默认无，
    levels=None,
    names=None,
    verify_integrity=False,
    sort=None,
    copy=True,)
      
'''
df1 =pd.DataFrame([[np.nan,3,5],[-4,6,np.nan],[np.nan,4,np.nan]])
df2 =pd.DataFrame([[-2,np.nan,5],[5,8,19]],index=[1,2])
print(df1)
print(df2)
print(df1.combine_first(df2))  #df1的空值被df2值代替
df1.update(df2)  #df2直接覆盖df1 相同的index的位置
print(df1)

# df1 = pd.DataFrame(np.random.rand(8).reshape(4,2),index=['a','b','c','d'],columns=['values1','values2'])
# df2 = pd.DataFrame(np.random.rand(8).reshape(4,2),index=['e','f','g','h'],columns=['values1','values2'])
# print(df1)
# print(df2)
# print(pd.concat([df1,df2]))

df1 = pd.DataFrame(np.random.rand(8).reshape(4,2),index=['a','b','c','d'],columns=['values1','values2'])
df2 = pd.DataFrame(np.arange(8).reshape(4,2),index=['a','b','c','d'],columns=['values1','values2'])
df1['values1']['a','b']=np.nan
print(df1)
print(df2)
print(df1.combine_first(df2))

去重、替换

#去重
s=pd.Series([1,1,2,2,2,3,3,3,4,5,5,56])
print(s)
print(s.duplicated())
print(s[s.duplicated() == False])

s_r = s.drop_duplicates()
print(s_r)

#替换
df=pd.Series(list('abcdeaade'))
print(df)
print(df.replace('a',1))
print(df.replace(['a','b'],1))
print(df.replace({'a':123,'d':234}))

数据分组

df = pd.DataFrame({
    'A':['foo','bar','foo','bar','foo','bar'],
    'B':['one','two','three','one','two','one'],
    'C':np.arange(1,7),
    'D':np.arange(8,14)
})
print(df)
a = df.groupby('A').mean()
b = df.groupby(['A','B']).mean()
c = df.groupby('A')['D'].mean() #以A分组，算D的均值
print(a,type(a))
print(b,type(b))
print(c,type(c))

#分组---可迭代的对象
df1 = pd.DataFrame({'X':['A','B','A','B'],'Y':[1,2,3,4]})
print(df1)
print(list(df1.groupby('X')))  #列表
print(list(df1.groupby('X'))[0])  #元组
for n,g in df1.groupby('X'):
    print(n)
    print(g)
print('++++++++++++')
print(df1.groupby('X').get_group('A'))  #提取分组后的组

#其他轴上分组
df = pd.DataFrame({
    'key1':['a','b'],
    'key2':['one','two'],
    'C':np.arange(1,3),
    'D':np.arange(8,10)
})
print(df)
print(df.dtypes)
for n,g in df.groupby(df.dtypes,axis=1):
    print(n)
    print(g)


#通过字典或者Series分组
df = pd.DataFrame(np.arange(16).reshape(4,4),columns=['a','b','c','d'])
date = {'a':'one','b':'two','c':'one','d':'two','e':'three'}
by= df.groupby(date,axis=1)
print(by.sum())

s = pd.Series(date)
s_b = s.groupby(s).count()
print(s_b)


#通过函数分组
df = pd.DataFrame(np.arange(16).reshape(4,4),columns=['a','b','c','d'],index=['abc','bcd','bb','a'])
s = df.groupby(len).sum()
print(s)

#多函数计算 agg()
df = pd.DataFrame({
    'A':[1,2,1,2],
    'B':np.arange(8,12),
    'C':np.arange(1,5),
    'D':np.arange(8,12)
})
print(df)
print(df.groupby('A').agg(['mean',np.sum]))
print(df.groupby('A')['B'].agg({'result1':np.mean,'result2':np.sum}))

文件读取

 pd.read_table(
            obj,   文件路径
            delimiter=',', 用于拆分字符，
            header=0,   用作列名序号，默认为0
            index_col=1 指定某列为行索引，否则自动索引0,1...
        )
pd.read_csv(
            obj,
            engine='python', 使用的分析引擎 可以选择python或者C
            encoding='utf8',  指定字符集类型，编码类型
        ) 
pd.read_excel(
            obj，
            sheetname=None, 返回多表使用sheetname=[0,1],默认返回全部
            header=0,   用作列名序号，默认为0
            index_col=1 指定某列为列索引，否则自动索引0,1...
            
        )

转载于:https://www.cnblogs.com/garrett0220/p/11497371.html

你可能感兴趣的:(python数据分析实战---Pandas)

Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
Python Day9
@浙大疏锦行PythonDay9.内容：热力图的绘制enumerate()方法子图的绘制代码：list_nums=[1,2,3,4,5,6]forindex,valinenumerate(list_nums):print(f"index={index},val={val}")forvalinlist_nums:print(f"val={val}")importpandasaspdimportmat
python-pandas数据分析+案例分析
文章目录前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比2.车辆销售规模及环比、不同价位车销量及环比3.各车系、厂商、品牌车销量及环比，市占率及变化趋势4.品牌、车类、车型、级别的各top销量二、地质灾害航空公司客户价值分析1.原始数据存在少量的缺失值和异常值前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比importnump
pandas销售数据分析
pandas销售数据分析数据保存在data目录消费者数据：customers.csv商品数据：products.csv交易数据：transactions.csvcustomers.csv数据结构：字段描述customer_id客户IDgender性别age年龄region地区membership_date会员日期products.csv数据结构：字段描述product_id产品IDcategory
基于Python的旅游数据可视化应用
摘要本文详细介绍了一个功能完善的基于Python语言开发的旅游行业数据可视化分析应用系统。该系统采用Pandas这一强大的数据处理库进行数据清洗、转换和预处理工作，确保数据质量可靠。在可视化展示方面，系统整合了Matplotlib和Seaborn两大主流可视化库，通过丰富的图表类型直观呈现数据分析结果。特别值得一提的是，所有可视化图表均采用统一的绿色主题配色方案，这种设计不仅美观大方，更能突出体现
Pandas 学习教程 _pass_ Data-Alaysis pandas 信息可视化
目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的
【Python基础】最强 Pandas 平替 -- Polars 程序媛阿紫 python pandas 开发语言
Polars是一个用于操作结构化数据的高性能DataFrame库，可以说是平替pandas最有潜质的包。Polars其核心部分是用Rust编写的，但该库也提供了Python接口。它的主要特点包括：快速:Polars是从零开始编写的，紧密与机器结合，没有外部依赖。I/O:对所有常见数据存储层提供一流支持：本地、云存储和数据库。易于使用:以原始意图编写查询。Polars在内部会使用其查询优化器确定执行
pandas学习笔记 kara_486 pandas 学习笔记
pandas是python中一个性能强大的数据处理库，能进行复杂的数据处理。pandas的数据结构分为三种类型，分别为series,DataFrame和index,对于初学者而言，series和DataFrame这两种结构最为重要。下面作者将重点介绍series和DataFrame这两部分。series的介绍series按照作者的目前的理解是pandas库中最基础的组成部分，seriers是由索引
使用 Python 和 Pandas 处理 Excel 数据：合并单元格示例技术探索 1024程序员节
引言在数据处理过程中，我们经常会遇到需要从Excel文件中提取和处理数据的情况。本文将通过一个简单的示例，介绍如何使用Python的Pandas库来读取Excel文件，处理其中的合并单元格，并将结果输出到新的Excel文件中。（这里的合并是列1提取一个数据，列2提取两个数据进行合并）1.准备工作首先，请确保你的系统中已经安装了Pandas库。如果尚未安装，可以通过以下命令进行安装：pipinsta
Python数据分析案例｜从模拟数据到可视化：零售门店客流量差异分析全流程
1.依赖库导入importmatplotlib.pyplotaspltimportnumpyasnpimportpandasaspdfrommatplotlibimportfont_managerfromdatetimeimportdatetimematplotlib.pyplot：用于绘制图表。numpy：numpy：pandas：虽然代码中未font_manager：设置datetime：生成
【动手学深度学习】4.10 实战Kaggle比赛：预测房价 XiaoJ1234567 《动手学深度学习》深度学习人工智能
目录4.10实战Kaggle比赛：预测房价1）数据预处理2）模型定义与训练3）模型评估与预测4）模型训练与预测提交5）示例超参数（可调）4.10实战Kaggle比赛：预测房价数据来源：Kaggle房价预测比赛.1）数据预处理读取数据importpandasaspdtrain_data=pd.read_csv('../data/kaggle_house_pred_train.csv')test_da
Pandas 学习（数学建模篇）停走的风数学建模 pandas 学习
今天学习数学建模2023年C篇（228）优秀论文2023高教社杯全国大学生数学建模竞赛C题论文展示（C228）-2023C题论文-中国大学生在线一.pd.DataFramepd.DataFrame()是pandas库中用于创建二维表格数据结构（DataFrame）的核心函数。它的作用是将各种格式的数据（如字典、列表、Series等）转换为带有行索引和列标签的表格形式，便于数据处理和分析.impor
kafka系列 ---安装kafka+SASL配置心有栖 kafka专栏 kafka java
文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言这篇主要讲如何安装kafka+配置SASL安全验证，之前网上一些文章要么没有配置SASL，要么本身存在一些问题，这里主要把正确的配置方案放上来，后续会讲讲遇到的一些问题和该如何解决。一、安装kafka官网的quickstart有最新安装教程，想安装最新版可以去官网，目前我使用的是kafka2.6.0。这里的所有操作都是在
如何使用Python控制笔记本电脑屏幕亮度？很酷的站长编程笔记电脑 python 开发语言
Python已成为世界上最受欢迎的编程语言之一，这要归功于它的简单性、多功能性和广泛的应用程序。凭借其广泛的库和框架，Python可用于从Web开发到机器学习以及介于两者之间的任何内容。在Python中，最流行的数据分析和操作库之一是Pandas，它提供了处理表格数据的强大工具。在本教程中，我们将使用Python和屏幕亮度控制库来探索如何控制笔记本电脑屏幕亮度。我们将向您展示如何使用Python通
6.kaggle实战之房价预测温柔济沧海深度学习神经网络人工智能 python 深度学习
importhashlibimportosimporttarfileimportzipfileimportrequestsimportnumpyasnpimportpandasaspdimporttorchimportnumpyasnpfromtorchimportnnimportmatplotlib.pyplotaspltfromtorch.utils.dataimportDataLoader,
AWS成本监控告警系统完整解析 ivwdcwso 运维与云原生 aws python Cost 云成本运维开发
完整代码展示#!/usr/bin/python3importboto3,json,requestsimportpandasaspdfromdatetimeimportdatetime,timedelta#创建CostExplorer客户端client=boto3.client('ce')
Python Pandas库超详细教程：从入门到精通实战指南 stormsha Python python pandas 开发语言 python3.11 数据分析
欢迎莅临我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐：「stormsha的主页」，「stormsha的知识库」持续学习，不断总结，共同进步，为了踏实，做好当下事儿~非常期待和您一起在这个小小的网络世界里共同探索、学习和成长。✨✨欢迎订阅本专栏✨✨TheStart点点关注，收藏不迷路文章目录Pyt
Python数据可视化：使用Python创建令人惊艳的图表 master_chenchengg python python Python python开发 IT
Python数据可视化：使用Python创建令人惊艳的图表I.可视化的力量：为什么一张好图胜过千言万语II.工欲善其事必先利其器：选择合适的Python可视化库Matplotlib入门：打造你的第一张图表Seaborn的魅力：更美观、更统计学友好的绘图Plotly互动式图表：让你的数据动起来Bokeh与GeoPandas：探索地理空间数据的新维度III.从零开始：一步步教你构建基本图表散点图的艺术
python中的函数：apply、map、reduce、lambda函数
一、apply函数定义：apply函数在Pandas库中函数，应用对象是DataFrame或Series的行或列上，并返回一个新的DataFrame或Series。主要有两方面的功能：一是直接对DataFrame或者Series应用函数，二是对pandas中的groupby之后的聚合对象apply函数DataFrame.apply(func,axis=0,broadcast=None,raw=Fa
Python数据分析学习笔记：字符串统计 NIKEeri python pandas 字符串匹配 python 数据分析学习
一、题目来源KagglePandas-Exercise:SummaryFunctionsandMaps章节二、题目要求描述一瓶葡萄酒时，可用的词汇有限。哪种词出现频率更高：“tropical”还是“fruity”？统计description列中这两个词的出现次数。忽略大小写。三、我的思路（使用str.contains统计总次数）tropical_count=reviews['description
【零基础学AI】第29讲：BERT模型实战 - 情感分析 1989 0基础学AI bert 人工智能深度学习神经网络 cnn python 自然语言处理
本节课你将学到BERT模型的核心原理与优势HuggingFaceTransformers库的BERT接口使用情感分析任务的完整实现流程模型微调(Fine-tuning)技巧开始之前环境要求Python3.8+需要安装的包：pipinstalltorchtransformersdatasetspandastqdmGPU推荐（可加速训练）前置知识第28讲Transformer基础基本PyTorch使用
【零基础学AI】第27讲：注意力机制（Attention） - 机器翻译实战 1989 0基础学AI 人工智能机器翻译自然语言处理 python tensorflow 机器学习神经网络
本节课你将学到理解注意力机制的核心思想掌握注意力计算的数学原理实现基于注意力机制的Seq2Seq模型构建英语到法语的神经翻译系统开始之前环境要求Python3.8+需要安装的包：tensorflow==2.8.0numpy==1.21.0matplotlib==3.4.0pandas==1.3.0前置知识RNN/LSTM原理（第26讲）序列数据处理（第26讲）自然语言处理基础（第14讲）核心概念为
两个场景的车辆相似度评估并画图（弗雷歇距离）
疑问：是否有必要normalize？（待解决）importmathimportnumpyasnpimportpandasaspdimporttorchfrommatplotlibimportpyplotaspltfromshapesimilarityimportshape_similarity,procrustes_normalize_curve,find_procrustes_rotation_
两步移动搜索法（2SFCA）python 我在北京coding python python 开发语言
实现两步移动搜索法（Two-StepFloatingCatchmentAreaMethod,2SFCA）是一种广泛应用于地理信息系统（GIS）领域的方法，用于评估设施的空间可达性。以下是基于Python和GeoPandas的一种实现方式。准备工作为了实现2SFCA方法，需要准备以下数据集：供给点：表示服务提供方的位置及其服务能力。需求点：表示潜在使用者的位置及其需求量。距离矩阵：描述供给点与需求点
Python 数据分析实践：车辆行驶数据处理心得 lzzy-lt-0415 python 数据分析开发语言
在数据驱动决策的大趋势下，Python凭借其丰富的数据分析库，成为处理各类数据的得力工具。近期我围绕车辆行驶数据展开分析，过程中收获诸多实战经验，在此分享用Python进行数据处理与分析的心得，也结合代码讲讲实际运用思路。一、数据导入与初步探索：开启分析第一步importpandasaspd#导入数据df=pd.read_excel(r'../../数据层/数据集合/车辆行驶记录表单2.xlsx'
第一章Pandas快速入门 Hajo_ 深入浅出Pandas学习代码 python pandas
《深入浅出Pandas》第一章代码数据来源：https://www.gairuo.com/file/data/dataset/team.xlsximportnumpyasnpimportpandasaspdfile_path='E:\\Data_python\\anconda_code\\Dive_into_Pandas\\data_files\\'team_path='team.xlsx'tea
使用 Bank Churn 数据集进行二元分类
一、前言分类任务：预测客户是继续使用其帐户还是关闭帐户（例如，流失）项目地址：https://www.kaggle.com/competitions/playground-series-s4e1二、具体步骤（一）数据导入与预览importpandasaspdimportnumpyasnpimportmatplotlib.pylabaspltimportseabornassnsfromsklearn
Pandas-数据组合赛丽曼 Pandas pandas
文章目录一.concat二.merge三.join(了解)day09一.concat二.merge三.join(了解)
pdfplumber、pandas根据指定字段提取PDF跨页表格数据
importpdfplumberimportpandasaspdfromtypingimportList,Dict,Tuple,Optionaldefextract_table_by_title(pdf_path:str,target_title:str,page_range:Tuple[int,int]=(1,None),#(起始页,结束页)，None表示到最后一页title_padding:f
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul