szu_ljm

Python数据分析入门--pandas基础学习笔记

文章目录

前言
Pandas基础
- 1.pandas数据结构
- - 1.1 Series对象
  - 1.2 DataFrame对象
  - 1.3 索引对象
- 2.pandas基本功能
- - 2.1重建索引
  - 2.2 轴向上删除条目
  - 2.3 索引切片和选择
  - 2.4 运算方法和数据对齐
  - 2.5 函数应用和映射
  - 2.6 数据排序和排名
- 3.pandas的统计与计算
- - 3.1常用的统计方法
  - 3.2 相关性和协方差
  - 3.3 唯一值、计数和成员属性
总结

前言

Pandas 是一个开源的第三方 Python 库，从 Numpy 和 Matplotlib 的基础上构建而来，享有数据分析“三剑客之一”的盛名（NumPy、Matplotlib、Pandas）。Pandas 已经成为 Python 数据分析的必备高级工具，它的目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。尽管pandas采用了很多NumPy的代码风格，但pandas主要用于处理表格型或异质型数据，NumPy主要用于处理同质型数据。

Pandas基础

1.pandas数据结构

1.1 Series对象

Series是一种一维的数组型对象，和NumPy中的多维数组对象ndarray有所区别。Series包含一个值的序列和索引（index），默认生成的索引是从0开始到数据个数减一

import pandas as pd
arr1 = pd.Series([2,3,4,5,6])
arr2 = pd.Series([2,3,4,5,6],index=['a','b','c','d','e'])
print(arr1)
print(arr2.index)
print(arr2['c'])

#/usr/bin/python3.8 /home/ljm/PycharmProject/pythoncode1/code5.py 
0    2
1    3
2    4
3    5
4    6
dtype: int64
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
4

#Process finished with exit code 0

生成Series对象前的数组可以自己创建一个索引序列，索引序列位会和数组数据位一一对应，这就简单实现了NumPy中间接排序的小环节。Pandas继承了NumPy很多的特性，比如数组的广播，而且Pandas在使用函数或者进行其他操作时总是与索引密不可分，比如利用布尔值数组进行过滤依然保存索引值的连接

import pandas as pd
import numpy as np
arr1 = pd.Series([2,3,4,5,6],index=['a','b','c','d','e'])
arr2 = pd.Series({'Jack':65,'Janes':50,'James':60},index=['Jack','Janes','James','Jaskon'])
print(arr1[arr1>3])
print(np.exp(arr1))
print(arr2)
print(65 in arr2)

#/usr/bin/python3.8 /home/ljm/PycharmProject/pythoncode1/code5.py 
c    4
d    5
e    6
dtype: int64
a      7.389056
b     20.085537
c     54.598150
d    148.413159
e    403.428793
dtype: float64
Jack      65.0
Janes     50.0
James     60.0
Jaskon     NaN
dtype: float64
False

#Process finished with exit code 0

当我们将Python内建的字典传入来生成Series对象时，我们会发现字典中的key值自动默认为索引序列，字典中的value值自动默认为数组元素，字典中的每个键值对就组成一个基础的数组。

上述程序中，因为字典中的键中缺少’Jackson，所以当返回’Jackson’作为索引值的数据时终端打印了NaN值(not a number)，这是pandas中标记缺失值或NA值的方式。

import pandas as pd
arr1 = pd.Series({'Jack':65,'Janes':50,'James':60},index=['Jack','Janes','James','Jaskon'])
print(pd.isnull(arr1))
arr1.name = 'Weight'
arr1.index.name = 'Name'
print(arr1)

#/usr/bin/python3.8 /home/ljm/PycharmProject/pythoncode1/code5.py 
Jack      False
Janes     False
James     False
Jaskon     True
dtype: bool
Name
Jack      65.0
Janes     50.0
James     60.0
Jaskon     NaN
Name: Weight, dtype: float64

#Process finished with exit code 0

为了方便快速查找数组的缺失数据，我们可以利用pandas的isnull函数和notnull函数，它们会返回布尔序列来帮助我们判断NaN值。Series对象自身和其索引都带有name属性，就像给人起个名字一样，pandas的name属性为数据的归类统一提供了可操作性。

1.2 DataFrame对象

DataFrame表示的是矩阵的数据表，它包含已排序的列集合，每一列可以是不同的值类型（数值，字符串，布尔值等），利用DataFrame对象就可以轻而易举实现NumPy结构化数组的操作。DataFrame既有行索引也有列索引，它可以被视为一个共享相同索引的Series字典

import pandas as pd
data1 = {'name':['Jack','Jane','James'],
         'age':['18','16','17'],
         'weight':['70','50','60']}
arr1 = pd.DataFrame(data1)
print(arr1)
print(pd.DataFrame(data1,index=['boy','girl','boy']))
print(pd.DataFrame(data1,columns=['name','age','weight','height'],index=['boy','girl','boy']))

#/usr/bin/python3.8 /home/ljm/PycharmProject/pythoncode1/code5.py 
    name age weight
0   Jack  18     70
1   Jane  16     50
2  James  17     60
       name age weight
boy    Jack  18     70
girl   Jane  16     50
boy   James  17     60
       name age weight height
boy    Jack  18     70    NaN
girl   Jane  16     50    NaN
boy   James  17     60    NaN

#Process finished with exit code 0

最常用的构建DataFrame对象的方式是传递一个字典，无论内容是列表还是NumPy数组。DataFrame的行索引默认是数字，当然你也可以根据数据归类的要求来传递DataFrame对象的行索引。当我们传递的数组元素或索引没有包含在字典里也会生成缺失值NaN

import numpy as np
import pandas as pd
data1 = {'name':['Jack','Jane','James'],
         'age':['18','16','17'],
         'weight':['70','50','60']}
arr1 = pd.DataFrame(data1,index=['boy','girl','boy'])
arr2 = pd.DataFrame(data1,columns=['name','age','weight','height'],index=['boy','girl','boy'])
arr2.height = np.arange(190,160,-10)
print(arr1.weight)
print(arr1.loc['boy'])
print(arr2)

#/usr/bin/python3.8 /home/ljm/PycharmProject/pythoncode1/code5.py 
boy     70
girl    50
boy     60
Name: weight, dtype: object
      name age weight
boy   Jack  18     70
boy  James  17     60
       name age weight  height
boy    Jack  18     70     190
girl   Jane  16     50     180
boy   James  17     60     170

#Process finished with exit code 0

巧妙的利用DataFrame设置的各种索引，比如行也可以通过位置和特殊属性loc进行选取，我们就可以访问我们想要的数据，访问索引返回数据的方式直观上有点像切片。我们也可以利用索引来操作DataFrame内部的元素。

import numpy as np
import pandas as pd
data1 = {'name':['Jack','Jane','James'],
         'age':['18','16','17'],
         'weight':['70','50','60']}
arr1 = pd.DataFrame(data1,index=['boy','girl','boy'])
arr1['male'] = arr1.index == 'boy'
arr2 = pd.DataFrame(data1,columns=['name','age','weight','height'],index=['boy','girl','boy'])
data2 = pd.Series([190],index=['boy'])
arr2.height = data2
print(arr1)
print(arr2)
del arr2['height']
print(arr2)

#/usr/bin/python3.8 /home/ljm/PycharmProject/pythoncode1/code5.py 
       name age weight   male
boy    Jack  18     70   True
girl   Jane  16     50  False
boy   James  17     60   True
       name age weight  height
boy    Jack  18     70   190.0
girl   Jane  16     50     NaN
boy   James  17     60   190.0
       name age weight
boy    Jack  18     70
girl   Jane  16     50
boy   James  17     60

#Process finished with exit code 0

当我们用列表赋值给DataFrame对象的新一列要确保值的长度和DataFrame的长度相匹配；当我们将Series赋值给某一列，DataFrame对象会根据自身索引重排Series对象的索引，并填充缺失值。

利用是非判断也可以为DataFrame新增一列，这列会变成布尔序列，这种操作经常用来对数据进行二分搜查。del关键字用于删除DataFrame对象的列

import numpy as np
import pandas as pd
data1 = {'name':{'boy':'Jack','girl':'Jane'},
         'age':{'boy':'18','girl':'16'},
         'weight':{'boy':'70','girl':'50'}}
arr1 = pd.DataFrame(data1)
print(arr1)
print(arr1.T)
print(arr1.values)

#/usr/bin/python3.8 /home/ljm/PycharmProject/pythoncode1/code5.py 
      name age weight
boy   Jack  18     70
girl  Jane  16     50
         boy  girl
name    Jack  Jane
age       18    16
weight    70    50
[['Jack' '18' '70']
 ['Jane' '16' '50']]

#Process finished with exit code 0

假如我们传递一个嵌套的字典来生成DataFrame对象，pandas会将字典的键作为列，将内部字典的键作为索引，分级索引的方式类似于NumPy的多维数组。DataFrame对象自带NumPy数组的T属性，可以直接进行轴转置操作；DataFrame的values属性会将包含在DataFrame的数据以二维ndarray形式返回。

1.3 索引对象

pandas中的索引对象用于储存轴标签和其他元数据，在构造DataFrame时，所使用的任意数组或标签序列都可以在内部转化为索引对象。

import pandas as pd
data1 = {'name':{'boy':'Jack','girl':'Jane'},
         'age':{'boy':'18','girl':'16'},
         'weight':{'boy':'70','girl':'50'}}
arr1 = pd.DataFrame(data1)
print(arr1.columns)

#/usr/bin/python3.8 /home/ljm/PycharmProject/pythoncode1/code5.py 
Index(['name', 'age', 'weight'], dtype='object')

#Process finished with exit code 0

与Python集合不同，pandas索引对象可以包含重复标签。以下是pandas索引对象的属性和方法汇总

2.pandas基本功能

2.1重建索引

重建pandas对象的索引方法有很多种，最常用的方法是reindex。当Series对象调用reindex方法时，会将数据按新的索引进行排列，不存在会填充缺失值NaN;当DataFrame对象调用reindex方法则会根据传递的参数改变行索引和列索引

import numpy as np
import pandas as pd
data1 = {'name':{'boy':'Jack','girl':'Jane'},
         'age':{'boy':'18','girl':'16'},
         'weight':{'boy':'70','girl':'50'}}
arr1 = pd.DataFrame(data1)
arr2 = pd.Series([2,4,6,8],index=['d','c','b','a'])
print(arr1)
print('\n')
print(arr2)
print('\n')
print(arr1.reindex(['girl','boy']))
print('\n')
print(arr2.reindex(['a','b','c','d']))
print('\n')
print(arr1.reindex(columns=['age','name','weight']))

#/usr/bin/python3.8 /home/ljm/PycharmProject/pythoncode1/code5.py 
      name age weight
boy   Jack  18     70
girl  Jane  16     50


d    2
c    4
b    6
a    8
dtype: int64


      name age weight
girl  Jane  16     50
boy   Jack  18     70


a    8
b    6
c    4
d    2
dtype: int64


     age  name weight
boy   18  Jack     70
girl  16  Jane     50

#Process finished with exit code 0

DataFrame对象调用reindex默认是重建行索引，也可以通过传递关键字columns重建列索引。对于顺序数据，我们重建索引时可能需要插值或填值。method参数允许使用多种方法在重建索引时插值，比如ffill方法会将值向前填充

import numpy as np
import pandas as pd
arr1 = pd.Series([2,4,6,8],index=[2,4,6,8])
print(arr1)
print('\n')
print(arr1.reindex(range(2,10),method='ffill'))

#/usr/bin/python3.8 /home/ljm/PycharmProject/pythoncode1/code5.py 
2    2
4    4
6    6
8    8
dtype: int64


2    2
3    2
4    4
5    4
6    6
7    6
8    8
9    8
dtype: int64

#Process finished with exit code 0

参数	描述
keys	包含行索引或列标签的字符串或列表
method	指定填充索引时使用的方法，仅用于增加/减少索引
copy	所有新索引与旧索引相同时是否返回新对象
level	匹配MultiIndex级别的简单索引，否则选择子集
fill_value	指定用于缺少值的值
limit	当前向填充或后向时，所需填充的最大尺寸间隙（以元素数量为参考）
tolerance	当前向填充或后向时，所需填充的不精确匹配下的最大尺寸间隙（以绝对数字距离为参考）

2.2 轴向上删除条目

在pandas对象的轴向上删除条目非常快捷，我们只需要用drop方法，通过传递元组来对指定条目进行删除。对于DataFrame对象来说，我们可以利用NumPy之前的轴参数axis来指定轴进行操作。

import numpy as np
import pandas as pd
arr1 = pd.Series([2,4,6,8],index=[2,4,6,8])
data = {'name':{'boy':'Jack','girl':'Jane'},
         'age':{'boy':'18','girl':'16'},
         'weight':{'boy':'70','girl':'50'}}
arr2 = pd.DataFrame(data)
print(arr1.drop([4,8]))
print('\n')
print(arr2.drop(['weight'],axis='columns'))

#/usr/bin/python3.8 /home/ljm/PycharmProject/pythoncode1/code5.py 
2    2
6    6
dtype: int64


      name age
boy   Jack  18
girl  Jane  16

#Process finished with exit code 0

在DataFrame对象中调用drop方法时，默认是按标签序列即行来删除，我们可以传递axis=1或axis='columns’来从列进行删除。

2.3 索引切片和选择

Series对象的索引和NumPy数组的索引功能类似，即使我们将Series对象的索引重置为非数字索引，我们依然可以利用数字索引进行切片，大大拓宽数组元素索引的多样性，值得注意的是Series的标签切片是包含结尾的

import numpy as np
import pandas as pd
arr1 = pd.Series([1,3,5,7],index=['a','b','c','d'])
print(arr1['b':'d'])
print('\n')
print(arr1[1:3])
print('\n')
arr1[1:3]=3
print(arr1)

#/usr/bin/python3.8 /home/ljm/PycharmProject/pythoncode1/code5.py 
b    3
c    5
d    7
dtype: int64


b    3
c    5
dtype: int64


a    1
b    3
c    3
d    7
dtype: int64

#Process finished with exit code 0

DataFrame对象作为数据表所以索引切片的方式更加多样，除了基本的行列标签索引切片，同样也支持整数索引切片，简单来说DataFrame的索引就是Series对象索引的二维拓扑，而且还自带很多buff加成。

import numpy as np
import pandas as pd
data1 = {'name':{'P1':'Jack','P2':'James'},
         'times':{'P1':'10','P2':'15'},
         'scores':{'P1':'18','P2':'32'}}
arr1 = pd.DataFrame(data1)
arr2 = pd.DataFrame(np.arange(9).reshape(3,3),columns=['a','b','c'])
print(arr1[['times','scores']])
print('\n')
print(arr1[:1])
print('\n')
print(arr2>5)

#/usr/bin/python3.8 /home/ljm/PycharmProject/pythoncode1/code5.py 
   times scores
P1    10     18
P2    15     32


    name times scores
P1  Jack    10     18


       a      b      c
0  False  False  False
1  False  False  False
2   True   True   True

#Process finished with exit code 0

DataFrame对象通过比较大小会返回一个布尔值的列表，经常用于数据的过滤。

针对DataFrame在行上的标签索引，我们可以利用特殊索引符号loc和iloc，它们可以通过轴标签或整数标签以NumPy的风格语法从DataFrame对象选出数组的行和列的子集

import numpy as np
import pandas as pd
data1 = {'name':{'P1':'Jack','P2':'James'},
         'times':{'P1':'10','P2':'15'},
         'scores':{'P1':'18','P2':'32'}}
arr1 = pd.DataFrame(data1)
arr2 = pd.DataFrame(np.arange(9).reshape(3,3),columns=['a','b','c'])
print(arr1.loc['P2','scores'])
print('\n')
print(arr2.iloc[:,:2][arr2.b>2])

#/usr/bin/python3.8 /home/ljm/PycharmProject/pythoncode1/code5.py 
32


   a  b
1  3  4
2  6  7

#Process finished with exit code 0

下面是DataFrame对象索引选项的汇总

类型	描述
df[val]	选取DataFrame的单个列或一组列
df.loc[val]	根据标签选取DataFrame的单行或多行
df.loc[:, val]	根据标签选取单列或多列
df.loc[val1, val2]	同时选取行和列的一部分
df.iloc[where]	根据整数的位置选择单行或多行
df.iloc[:, where]	根据整数的位置选择单列或多列
df.iloc[where_i, where_j]	根据整数的位置选择行和列
df.at[label_i, label_j]	根据行列标签选择单个标量
df.iat[i, j]	根据行列整数的位置选择单个标量
get_value, set_value	根据行和列标签设置单个值

2.4 运算方法和数据对齐

pandas在不同索引的对象之间进行运算时采用数据对齐的模式，比如当两个Series对象相加时索引对不相同，会返回索引对的并集的Series对象，但索引位对不上号的元素会变为缺失值NaN，同理DataFrame对象之间的相互操作也会遵循这种法则

import numpy as np
import pandas as pd
arr1 = pd.DataFrame(np.arange(16).reshape(4,4),columns=['a','b','c','d'])
arr2 = pd.DataFrame(np.arange(9).reshape(3,3),columns=['a','b','c'])
arr3 = pd.Series(np.random.randn(3))
arr4 = pd.Series(np.random.randn(4))
print(arr1 * arr2)
print('\n')
print(arr3 + arr4)
print('\n')
print(arr1.add(arr2,fill_value=0))

#/usr/bin/python3.8 /home/ljm/PycharmProject/pythoncode1/code5.py 
      a     b     c   d
0   0.0   1.0   4.0 NaN
1  12.0  20.0  30.0 NaN
2  48.0  63.0  80.0 NaN
3   NaN   NaN   NaN NaN


0    0.175205
1   -0.582145
2    0.413104
3         NaN
dtype: float64

     a     b     c     d
0   0.0   2.0   4.0   3.0
1   7.0   9.0  11.0   7.0
2  14.0  16.0  18.0  11.0
3  12.0  13.0  14.0  15.0

#Process finished with exit code 0

正常来说NaN缺失值和对应索引位的值进行运算也会返回NaN缺失值，所以在DataFrame对象上使用add方法就可以进行数据填充。pandas自带的运算函数能基本满足简单的算术需求

import numpy as np
import pandas as pd
arr1 = pd.DataFrame(np.arange(9).reshape(3,3),columns=['a','b','c'])
arr2 = pd.DataFrame(np.arange(10,19).reshape(3,3),columns=['a','b','c'])
print(pow(arr1,arr2))

#/usr/bin/python3.8 /home/ljm/PycharmProject/pythoncode1/code5.py 
               a                b                  c
0              0                1               4096
1        1594323        268435456        30517578125
2  2821109907456  232630513987207  18014398509481984


#Process finished with exit code 0

以下是运算方法汇总

方法	描述
add, radd	加法
sub, rsub	减法
div, rdiv	除法
floordiv, rfloordiv	整除
mul, rmul	乘法
pow, rpow	幂次方

DataFrame和Series之间的操作原理类似NumPy中的广播，广播最重要的原则就是轴长度的相互匹配，pandas中的广播还需要索引相匹配，我们可以通过传递axis的参数来指定轴进行广播

import numpy as np
import pandas as pd
arr1 = pd.DataFrame(np.arange(9).reshape(3,3),columns=['a','b','c'],index=['a','b','c'])
arr2 = pd.Series(np.arange(3),index=['a','b','c'])
print(arr1-arr2)
print('\n')
print(arr1.pow(arr2,axis='index'))

#/usr/bin/python3.8 /home/ljm/PycharmProject/pythoncode1/code5.py 
   a  b  c
a  0  0  0
b  3  3  3
c  6  6  6


    a   b   c
a   1   1   1
b   3   4   5
c  36  49  64

#Process finished with exit code 0

2.5 函数应用和映射

NumPy中的一元二元通用函数（ufunc）在pandas对象中同样适用，比如可以求绝对值的函数abs。DataFrame对象中经常使用apply方法来将通用函数应用到一维数组上，这样我们就可以组合通用函数形成更加复杂的函数应用于数据统计于分析

import numpy as np
import pandas as pd
arr1 = pd.DataFrame(np.random.randn(3,3),columns=['a','b','c'],index=['a','b','c'])
print(arr1)
print('\n')
print(np.abs(arr1))
print('\n')
print(arr1.mean(axis=0))

#/usr/bin/python3.8 /home/ljm/PycharmProject/pythoncode1/code5.py 
          a         b         c
a  0.558298  1.410313  0.087460
b  0.589810  0.035628 -0.052387
c  0.762054  0.205924  0.343325


          a         b         c
a  0.558298  1.410313  0.087460
b  0.589810  0.035628  0.052387
c  0.762054  0.205924  0.343325


a    0.636721
b    0.550622
c    0.126133
dtype: float64

#Process finished with exit code 0

编写复杂的NumPy函数时，我们会使用lambda表达式，lambda 函数在 Python 编程语言中使用频率非常高，使用起来非常灵活、巧妙。lambda 函数是匿名的，它有输入和输出，也拥有自己的命名空间

import numpy as np
import pandas as pd
arr1 = pd.DataFrame(np.random.randn(3,3),columns=['a','b','c'],index=['a','b','c'])
f = lambda x: x.max() - x.min()
format = lambda x: '%.2f' % x
print(arr1)
print('\n')
print(arr1.apply(f))
print('\n')
print(arr1.applymap(format))

#/usr/bin/python3.8 /home/ljm/PycharmProject/pythoncode1/code5.py 
          a         b         c
a -1.467332 -1.416377  1.049756
b -0.391391  0.245344 -0.067097
c  0.534653  0.075703 -0.595511


a    2.001985
b    1.661721
c    1.645267
dtype: float64


       a      b      c
a  -1.47  -1.42   1.05
b  -0.39   0.25  -0.07
c   0.53   0.08  -0.60

#Process finished with exit code 0

上述代码中我们利用lambda表达式编写最大差值函数和浮点数精度函数，其中也使用applymap方法，效果和apply方法差不多

2.6 数据排序和排名

根据某些准则对数据集进行排序是一种重要的内建操作，pandas对象中可以使用sort_index方法按行或按列对索引进行字典型排序，会返回一个新的索引对象。sort_index方法默认是将行的索引进行排序，我们也可以传递axis参数将列的索引排序

import numpy as np
import pandas as pd
arr1 = pd.DataFrame(np.arange(9).reshape(3,3),columns=['b','a','c'],index=['c','b','a'])
arr2 = pd.Series(np.arange(3),index=['a','c','b'])
print(arr2.sort_index())
print('\n')
print(arr1.sort_index())
print('\n')
print(arr1.sort_index(axis=1))

#/usr/bin/python3.8 /home/ljm/PycharmProject/pythoncode1/code5.py 
a    0
b    2
c    1
dtype: int64


   b  a  c
a  6  7  8
b  3  4  5
c  0  1  2


   a  b  c
c  1  0  2
b  4  3  5
a  7  6  8

#Process finished with exit code 0

pandas对象中也可以通过sort_values方法根据数据值进行排序，默认数值排序和索引排序都是升序，索引排序也可以通过传递ascending=False来实现降序排列

import numpy as np
import pandas as pd
arr1 = pd.DataFrame(np.random.randn(3,3),columns=['a','b','c'],index=['a','b','c'])
arr2 = pd.Series(np.random.randn(3),index=['a','b','c'])
print(arr2.sort_values())
print('\n')
arr2[2] = np.nan
print(arr2.sort_values())
print('\n')
print(arr1.sort_values(by=['a','b','c']))
print('\n')
print(arr1.sort_values(by='c'))

#/usr/bin/python3.8 /home/ljm/PycharmProject/pythoncode1/code5.py 
a   -1.845806
b   -1.343287
c    0.677122
dtype: float64


a   -1.845806
b   -1.343287
c         NaN
dtype: float64


          a         b         c
b  0.182068  0.690903 -1.133839
a  0.810179 -0.726918 -1.865067
c  0.837042 -1.572999 -0.897297


          a         b         c
a  0.810179 -0.726918 -1.865067
b  0.182068  0.690903 -1.133839
c  0.837042 -1.572999 -0.897297

#Process finished with exit code 0

排名是指对数组从1到有效数据点总数分配名次的操作，通过rank方法给Series对象和DataFrame对象的每个组分配平均排名。如果数组元素有相同的情况，默认的平均排名方法就会取排名值的平均值，所以会出先小数

import numpy as np
import pandas as pd
arr1 = pd.DataFrame(np.arange(9).reshape(3,3),columns=['a','b','c'],index=['a','b','c'])
arr2 = pd.Series([4,6,7,-3,7,-2,4,1])
print(arr2.rank())
print('\n')
print(arr2.rank(method='first'))
print('\n')
print(arr1.rank(method='max'))

#/usr/bin/python3.8 /home/ljm/PycharmProject/pythoncode1/code5.py 
0    4.5
1    6.0
2    7.5
3    1.0
4    7.5
5    2.0
6    4.5
7    3.0
dtype: float64


0    4.0
1    6.0
2    7.0
3    1.0
4    8.0
5    2.0
6    5.0
7    3.0
dtype: float64


     a    b    c
a  1.0  1.0  1.0
b  2.0  2.0  2.0
c  3.0  3.0  3.0

#Process finished with exit code 0

我们可以传递method的方法参数实现不同的排名效果，以下是汇总

方法	描述
‘average’	默认值，每个组中分配平均排名
‘min’	对整个组使用最小排名
‘max’	对整个组使用最大排名
‘first’	按照数据出现位置的次序分配排名
‘dense’	组间排名总是加1，类似于’min’

3.pandas的统计与计算

3.1常用的统计方法

pandas对象封装了一个常用数学、统计学方法的集合，大部分属于归约或汇总统计的类别。这些方法内建处理缺失值的功能，我们处理数据时就不需要过多担心缺失值NaN的存在

import numpy as np
import pandas as pd
arr1 = pd.DataFrame([[2,-1],[np.nan,5],[3,4]],columns=['a','b'],index=['a','b','c'])
print(arr1.sum())
print('\n')
print(arr1.mean(skipna=False))

#/usr/bin/python3.8 /home/ljm/PycharmProject/pythoncode1/code5.py 
a    5.0
b    8.0
dtype: float64


a         NaN
b    2.666667
dtype: float64

#Process finished with exit code 0

我们可以通过禁用skipna来实现统计时不排除NaN值，以下是归约方法常用可选参数列表

方法	描述
axis	归约轴，0为行向，1为列项
skipna	排除缺失值，默认为True
level	针对轴是多层索引，缩减分层级数

除了归约方法，比如idxmin和idxmax返回最小值或最大值的索引值，还有累积型方法，还有一类方法describe可以一次性产生多个汇总统计

import numpy as np
import pandas as pd
arr1 = pd.DataFrame([[2,-1],[np.nan,5],[3,4]],columns=['a','b'],index=['a','b','c'])
print(arr1.idxmax())
print('\n')
print(arr1.describe())

#/usr/bin/python3.8 /home/ljm/PycharmProject/pythoncode1/code5.py 
a    c
b    b
dtype: object


              a         b
count  2.000000  3.000000
mean   2.500000  2.666667
std    0.707107  3.214550
min    2.000000 -1.000000
25%    2.250000  1.500000
50%    2.500000  4.000000
75%    2.750000  4.500000
max    3.000000  5.000000

#Process finished with exit code 0

3.2 相关性和协方差

协方差（Covariance）能反映两个样本/变量之间的相互关系以及之间的相关程度，期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为：

相关系数（Correlation coefficient）能反映两个样本/样本之间的相互关系以及之间的相关程度

其中，Cov(X,Y)为X与Y的协方差，Var[X]为X的方差，Var[Y]为Y的方差

书中爬取并分析 Yahoo! Fiannce（雅虎金融）的股票价格和成交量，为获取金融数据需要安装pandas_datareader包和fix_yahoo_finance包

conda install pandas-datareader

书中为了获得一些股票行情，使用了pandas_datareader模块下载一些数据

>>>import pandas as pd
>>>import pandas_datareader.data as web
>>>import yfinance as yf


>>>all_data={ticker:web.get_data_yahoo(ticker)
>>>          for ticker in ['AAPL','IBM','MSFT','GOOG']}	  
>>>price=pd.DataFrame({ticker:data['Adj Close']
>>>                    for ticker,data in all_data.items()})
>>>volume=pd.DataFrame({ticker:data['Volume']
>>>                     for ticker,data in all_data.items()})

>>>returns=price.pct_change()      #计算价格的百分比
>>>returns.tail()
               AAPL       GOOG      IBM     MSFT
Date                                              
2016-10-17 -0.000680  0.001837  0.002072 -0.003483
2016-10-18 -0.000681  0.019616 -0.026168  0.007690
2016-10-19 -0.002979  0.007846  0.003583 -0.002255
2016-10-20 -0.000512 -0.005625  0.001719 -0.004867
2019-10-21 -0.003930  0.003011 -0.012474  0.042096

Series中的corr方法用于计算两个Series对象中重叠的、非NaN值的、按索引对齐的值的相关性，cov方法计算的是协方差

3.3 唯一值、计数和成员属性

在NumPy中我们也遇到过计算唯一值的方法，同样在pandas中也适用。unique函数会给出Series对象中的唯一值，value_counts函数用于计算Series对象中包含的值的个数

import numpy as np
import pandas as pd
arr1 = pd.Series(['a','b','c','b','a'])
print(arr1.unique())
print('\n')
print(arr1.value_counts())

#/usr/bin/python3.8 /home/ljm/PycharmProject/pythoncode1/code5.py 
['a' 'b' 'c']


a    2
b    2
c    1
dtype: int64

#Process finished with exit code 0

下面是唯一值、计数和成员属性有关的方法汇总

方法	描述
isin	计算表征Series中每一个值是否包含于传入序列，返回布尔值数组
match	计算数组每个值的整数索引，形成一个唯一值数组，有助于数据对齐和join类型操作
unique	计算Seriess值中的唯一值数组，按照数据出现的先后次序返回
value_counts	返回一个Series，值是计数个数，按照降序排序

总结

以上就是今天笔记的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法，继续学习pandas进阶

你可能感兴趣的:(python,数据分析,pandas)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
苦练Python第5天：字符串从入门到格式化 python后端人工智能前端
苦练Python第5天：字符串从入门到格式化原文链接：https://dev.to/therahul_gupta/day-5100-working-with-strings-basics-to-formatting-2kkn作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我
knob UI插件使用换个号韩国红果果 JavaScript jsonp knob
图形是用canvas绘制的 js代码 var paras = { max:800, min:100, skin:'tron',//button type thickness:.3,//button width width:'200',//define canvas width.,canvas height displayInput:'tr
Android+Jquery Mobile学习系列(5)-SQLite数据库白糖_ JQuery Mobile
目录导航 SQLite是轻量级的、嵌入式的、关系型数据库，目前已经在iPhone、Android等手机系统中使用,SQLite可移植性好，很容易使用，很小，高效而且可靠。因为Android已经集成了SQLite，所以开发人员无需引入任何JAR包，而且Android也针对SQLite封装了专属的API，调用起来非常快捷方便。我也是第一次接触S
impala-2.1.2-CDH5.3.2 dayutianfei impala
最近在整理impala编译的东西，简单记录几个要点：根据官网的信息（https://github.com/cloudera/Impala/wiki/How-to-build-Impala）： 1. 首次编译impala，推荐使用命令： ${IMPALA_HOME}/buildall.sh -skiptests -build_shared_libs -format 2.仅编译BE ${I
求二进制数中1的个数周凡杨 java 算法二进制
解法一：对于一个正整数如果是偶数，该数的二进制数的最后一位是 0 ，反之若是奇数，则该数的二进制数的最后一位是 1 。因此，可以考虑利用位移、判断奇偶来实现。 public int bitCount(int x){ int count = 0; while(x!=0){ if(x%2!=0){ /
spring中hibernate及事务配置 g21121 Hibernate
hibernate的sessionFactory配置：  <bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"> <
log4j.properties 使用 510888780 log4j
log4j.properties 使用一.参数意义说明输出级别的种类 ERROR、WARN、INFO、DEBUG ERROR 为严重错误主要是程序的错误 WARN 为一般警告，比如session丢失 INFO 为一般要显示的信息，比如登录登出 DEBUG 为程序的调试信息配置日志信息输出目的地 log4j.appender.appenderName = fully.qua
Spring mvc-jfreeChart柱图（2）布衣凌宇 jfreechart
上一篇中生成的图是静态的，这篇将按条件进行搜索，并统计成图表，左面为统计图，右面显示搜索出的结果。第一步：导包第二步；配置web.xml(上一篇有代码) 建BarRenderer类用于柱子颜色 import java.awt.Color; import java.awt.Paint; import org.jfree.chart.renderer.category.BarR
我的spring学习笔记14-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。 PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java
maven 之 cobertura 简单使用 antlove maven test unit cobertura report
1. 创建一个maven项目 2. 创建com.CoberturaStart.java package com; public class CoberturaStart { public void helloEveryone(){ System.out.println("=================================================
程序的执行顺序百合不是茶 JAVA执行顺序
刚在看java核心技术时发现对java的执行顺序不是很明白了,百度一下也没有找到适合自己的资料,所以就简单的回顾一下吧代码如下; 经典的程序执行面试题 //关于程序执行的顺序 //例如： //定义一个基类 public class A(){ public A(
设置session失效的几种方法 bijian1013 web.xml session失效监听器
在系统登录后，都会设置一个当前session失效的时间，以确保在用户长时间不与服务器交互，自动退出登录，销毁session。具体设置很简单，方法有三种：（1）在主页面或者公共页面中加入：session.setMaxInactiveInterval(900);参数900单位是秒，即在没有活动15分钟后，session将失效。这里要注意这个session设置的时间是根据服务器来计算的，而不是客户端。所
java jvm常用命令工具 bijian1013 java jvm
一.概述程序运行中经常会遇到各种问题，定位问题时通常需要综合各种信息，如系统日志、堆dump文件、线程dump文件、GC日志等。通过虚拟机监控和诊断工具可以帮忙我们快速获取、分析需要的数据，进而提高问题解决速度。本文将介绍虚拟机常用监控和问题诊断命令工具的使用方法，主要包含以下工具: &nbs
【Spring框架一】Spring常用注解之Autowired和Resource注解 bit1129 Spring常用注解
Spring自从2.0引入注解的方式取代XML配置的方式来做IOC之后，对Spring一些常用注解的含义行为一直处于比较模糊的状态，写几篇总结下Spring常用的注解。本篇包含的注解有如下几个： Autowired Resource Component Service Controller Transactional 根据它们的功能、目的，可以分为三组，Autow
mysql 操作遇到safe update mode问题 bitray update
我并不知道出现这个问题的实际原理,只是通过其他朋友的博客,文章得知的一个解决方案,目前先记录一个解决方法,未来要是真了解以后,还会继续补全. 在mysql5中有一个safe update mode,这个模式让sql操作更加安全,据说要求有where条件,防止全表更新操作.如果必须要进行全表操作,我们可以执行 SET
nginx_perl试用 ronin47 nginx_perl试用
因为空闲时间比较多，所以在CPAN上乱翻，看到了nginx_perl这个项目(原名Nginx::Engine)，现在托管在github.com上。地址见：https://github.com/zzzcpan/nginx-perl 这个模块的目的，是在nginx内置官方perl模块的基础上，实现一系列异步非阻塞的api。用connector/writer/reader完成类似proxy的功能（这里
java-63-在字符串中删除特定的字符 bylijinnan java
public class DeleteSpecificChars { /** * Q 63 在字符串中删除特定的字符 * 输入两个字符串，从第一字符串中删除第二个字符串中所有的字符。 * 例如，输入”They are students.”和”aeiou”，则删除之后的第一个字符串变成”Thy r stdnts.” */ public static voi
EffectiveJava--创建和销毁对象 ccii 创建和销毁对象
本章内容： 1. 考虑用静态工厂方法代替构造器 2. 遇到多个构造器参数时要考虑用构建器（Builder模式） 3. 用私有构造器或者枚举类型强化Singleton属性 4. 通过私有构造器强化不可实例化的能力 5. 避免创建不必要的对象 6. 消除过期的对象引用 7. 避免使用终结方法 1. 考虑用静态工厂方法代替构造器类可以通过
[宇宙时代]四边形理论与光速飞行 comsci
从四边形理论来推论为什么光子飞船必须获得星光信号才能够进行光速飞行？一组星体组成星座向空间辐射一组由复杂星光信号组成的辐射频带，按照四边形-频率假说一组频率就代表一个时空的入口那么这种由星光信号组成的辐射频带就代表由这些星体所控制的时空通道，该时空通道在三维空间的投影是一
ubuntu server下python脚本迁移数据 cywhoyi python Kettle pymysql cx_Oracle ubuntu server
因为是在Ubuntu下，所以安装python、pip、pymysql等都极其方便，sudo apt-get install pymysql，但是在安装cx_Oracle（连接oracle的模块）出现许多问题，查阅相关资料，发现这边文章能够帮我解决，希望大家少走点弯路。http://www.tbdazhe.com/archives/602 1.安装python 2.安装pip、pymysql
Ajax正确但是请求不到值解决方案 dashuaifu Ajax async
Ajax正确但是请求不到值解决方案解决方案：1 . async: false , 2. 设置延时执行js里的ajax或者延时后台java方法！！！！！！！例如： $.ajax({ &
windows安装配置php+memcached dcj3sjt126com PHP Install memcache
Windows下Memcached的安装配置方法 1、将第一个包解压放某个盘下面，比如在c:\memcached。 2、在终端（也即cmd命令界面）下输入 'c:\memcached\memcached.exe -d install' 安装。 3、再输入： 'c:\memcached\memcached.exe -d start' 启动。（需要注意的: 以后memcached将作为windo
iOS开发学习路径的一些建议 dcj3sjt126com ios
iOS论坛里有朋友要求回答帖子，帖子的标题是：想学IOS开发高阶一点的东西，从何开始，然后我吧啦吧啦回答写了很多。既然敲了那么多字，我就把我写的回复也贴到博客里来分享，希望能对大家有帮助。欢迎大家也到帖子里讨论和分享，地址：http://bbs.csdn.net/topics/390920759 下面是我回复的内容：结合自己情况聊下iOS学习建议，
Javascript闭包概念 fanfanlovey JavaScript 闭包
1.参考资料 http://www.jb51.net/article/24101.htm http://blog.csdn.net/yn49782026/article/details/8549462 2.内容概述要理解闭包，首先需要理解变量作用域问题内部函数可以饮用外面全局变量 var n=999; 　　functio
yum安装mysql5.6 haisheng mysql
1、安装http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm 2、yum install mysql 3、yum install mysql-server 4、vi /etc/my.cnf 添加character_set_server=utf8
po/bo/vo/dao/pojo的详介 IT_zhlp80 java BO VO DAO POJO po
JAVA几种对象的解释 PO:persistant object持久对象,可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作. VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可
java设计模式 kerryg java 设计模式
设计模式的分类：一、设计模式总体分为三大类： 1、创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模式，原型模式。 2、结构型模式（7种）：适配器模式，装饰器模式，代理模式，外观模式，桥接模式，组合模式，享元模式。 3、行为型模式（11种）：策略模式，模版方法模式，观察者模式，迭代子模式，责任链模式，命令模式，备忘录模式，状态模式，访问者
[1]CXF3.1整合Spring开发webservice——helloworld篇木头.java spring webservice CXF
Spring 版本3.2.10 CXF 版本3.1.1 项目采用MAVEN组织依赖jar 我这里是有parent的pom，为了简洁明了，我直接把所有的依赖都列一起了，所以都没version，反正上面已经写了版本 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht
Google 工程师亲授：菜鸟开发者一定要投资的十大目标 qindongliang1922 工作感悟人生
身为软件开发者，有什么是一定得投资的？ Google 软件工程师 Emanuel Saringan 整理了十项他认为必要的投资，第一项就是身体健康，英文与数学也都是必备能力吗？来看看他怎么说。（以下文字以作者第一人称撰写））你的健康无疑地，软件开发者是世界上最久坐不动的职业之一。每天连坐八到十六小时，休息时间只有一点点，绝对会让你的鲔鱼肚肆无忌惮的生长。肥胖容易扩大罹患其他疾病的风险，
linux打开最大文件数量1,048,576 tianzhihehe c linux
File descriptors are represented by the C int type. Not using a special type is often considered odd, but is, historically, the Unix way. Each Linux process has a maximum number of files th
java语言中PO、VO、DAO、BO、POJO几种对象的解释衞酆夼 java VO BO POJO po
PO:persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。 BO:business object业务对象封装业务逻辑的java对象