灯bupa冷

Python数据分析06：Pandas基本功能

CHAPTER 5 Getting Started with pandas

文章目录

CHAPTER 5
Getting Started with pandas
- 5.2 基本功能（Essential Functionality）
- - 5.2.1 重新索引（Reindexing）
  - - 5.2.1.1 reindex函数
    - 5.2.1.2 reindex函数各参数说明
    - 5.2.1.3 更改DataFrame行列索引
  - 5.2.2 丢弃指定轴上的项（Dropping Entries from an Axis）
  - - 5.2.2.1 drop函数
  - 5.2.3 索引，选取，过滤（Indexing, Selection, and Filtering）
  - - 5.2.3.1 Series的索引
    - 5.2.3.2 DataFrame的索引
    - 5.2.3.3 用loc和iloc进行选取
    - 5.2.3.4 DataFrame的索引选项
  - 5.2.4 整数索引（Integer Indexes）
  - 5.2.5 算术运算和数据对齐（Arithmetic and Data Alignment）
  - - 5.2.5.1 带填充值的算数方法
    - 5.2.5.2 Series和DataFrame的算术方法
    - 5.2.5.3 DataFrame和Series之间的运算
  - 5.2.6 函数应用和映射（Function Application and Mapping）
  - - 5.2.6.1 apply函数
  - 5.2.7 排序和排名（Sorting and Ranking）
  - - 5.2.7.1 排序
    - 5.2.7.2 排名
    - 5.2.7.3 排名时用于破坏平级关系的方法
  - 5.2.8 带有重复标签的轴索引（Axis Indexes with Duplicate Labels）

5.2 基本功能（Essential Functionality）

下面我们来从Series和DataFrame中的数据入手，看看pandas最重要也最基础的内容。

5.2.1 重新索引（Reindexing）

pandas中一个重要的方法是reindex，用来在创建object的时候遵照一个新的index。如下例：

>>>import pandas as pd
>>>obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
>>>obj
d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

5.2.1.1 reindex函数

在series上调用reindex能更改index，如果没有对应index的话会引入缺失数据：

>>>obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
>>>obj2
a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

在处理时间序列这样的数据时，我们可能需要在reindexing的时候需要修改值。method选项能做到这一点，比如设定method为ffill:

>>>obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
>>>obj3
0      bule
2    purple
4    yellow
dtype: object
>>>obj3.reindex(range(6), method='ffill')
0      bule
1      bule
2    purple
3    purple
4    yellow
5    yellow
dtype: object

5.2.1.2 reindex函数各参数说明

参数	说明
index	用作索引的新序列，既可以是Index实例，也可是其他序列型的Python数据对象
method	插值（填充）方式，具体见下表
fill_value	在需要重新索引的过程中，引入缺失值时使用的代替值
limit	向前或向后填充时的最大填充量
tolerance	向前向后填充时，填充不准确匹配项的最大间距（绝对值距离）
level	在MultiIndex的指定级别上匹配简单索引
copy	默认为True，无论如何都复制；如果为False，则新旧相同就不复制

5.2.1.3 更改DataFrame行列索引

对于DataFrame，reindex能更改row index,或column index。

更改行：

>>>import numpy as np
>>>frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
>>>                     index=['a', 'c', 'd'],
>>>                     columns=['Ohio', 'Texas', 'California'])
>>>frame
   Ohio  Texas  California
a     0      1           2
c     3      4           5
d     6      7           8
>>>frame2 = frame.reindex(['a', 'b', 'c', 'd'])
>>>frame2
   Ohio  Texas  California
a   0.0    1.0         2.0
b   NaN    NaN         NaN
c   3.0    4.0         5.0
d   6.0    7.0         8.0

更改列：

>>>states = ['Texas', 'Utah', 'California']
>>>frame.reindex(columns=states)
   Texas  Utah  California
a      1   NaN           2
c      4   NaN           5
d      7   NaN           8

还可以使用loc——更简洁的reindex：

>>>frame.loc[['a', 'b', 'c', 'd'], states]
   Texas  Utah  California
a    1.0   NaN         2.0
b    NaN   NaN         NaN
c    4.0   NaN         5.0
d    7.0   NaN         8.0

5.2.2 丢弃指定轴上的项（Dropping Entries from an Axis）

5.2.2.1 drop函数

对于series，drop会返回一个新的object，并删去你指定的axis的值：

>>>obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
>>>obj
a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64
>>>new_obj = obj.drop('c')
>>>new_obj
a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64
>>>obj.drop(['d', 'c'])
a    0.0
b    1.0
e    4.0
dtype: float64

对于DataFrame，可以drop任意轴上的索引值：

>>>data = pd.DataFrame(np.arange(16).reshape((4, 4)),
>>>                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
>>>                    columns=['one', 'two', 'three', 'four'])
>>>data
          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15

行处理：如果用a sequence of labels(一个标签序列)来调用drop，会删去row labels删除值:

>>>data.drop(['Colorado', 'Ohio'])
          one  two  three  four
Utah        8    9     10    11
New York   12   13     14    15

列处理：drop列的话，设定axis=1或axis=‘columns’：

>>>data.drop('two', axis=1)
          one  three  four
Ohio        0      2     3
Colorado    4      6     7
Utah        8     10    11
New York   12     14    15
>>>data.drop(['two', 'four'], axis='columns')
          one  three
Ohio        0      2
Colorado    4      6
Utah        8     10
New York   12     14

drop也可以不返回一个新的object，而是直接更改series或dataframe：

>>>obj.drop('c', inplace=True)
>>>obj
a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

5.2.3 索引，选取，过滤（Indexing, Selection, and Filtering）

5.2.3.1 Series的索引

series indexing(obj[…]) 相当于numpy的array indexing, 而且除了整数，还可以使用series的index：

>>>obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
>>>obj
a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64
>>>obj['b']
1.0
>>>obj[1]
1.0
>>>obj[2:4]
c    2.0
d    3.0
dtype: float64
>>>obj[['b', 'a', 'd']]
b    1.0
a    0.0
d    3.0
dtype: float64
>>>obj[[1, 3]]
b    1.0
d    3.0
dtype: float64
>>>obj[obj < 2]
a    0.0
b    1.0
dtype: float64

用label来slicing(切片)的时候，和python的切片不一样的在于会包括尾节点：

>>>obj['b':'c']
b    1.0
c    2.0
dtype: float64

直接给选中的label更改值：

>>>obj['b':'c'] = 5
>>>obj
a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

5.2.3.2 DataFrame的索引

通过一个值或序列，对DataFrame索引：

>>>data = pd.DataFrame(np.arange(16).reshape((4, 4)),
>>>                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
>>>                    columns=['one', 'two', 'three', 'four'])
>>>data
          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15
>>>data['two']
Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32
>>>data[['three', 'one']]
          three  one
Ohio          2    0
Colorado      6    4
Utah         10    8
New York     14   12

通过布尔数组对DataFrame进行索引：

>>>data[:2]
          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
>>>data[data['three'] > 5]
          one  two  three  four
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15

行选择的语法格式data[:2]是很方便的。给[]里传入一个list的话，可以选择列。

通过布尔型DataFrame（由标量比较运算得出）进行索引:

>>>data < 5
            one    two  three   four
Ohio       True   True   True   True
Colorado   True  False  False  False
Utah      False  False  False  False
New York  False  False  False  False
>>>data[data < 5] = 0
>>>data
          one  two  three  four
Ohio        0    0      0     0
Colorado    0    5      6     7
Utah        8    9     10    11
New York   12   13     14    15

5.2.3.3 用loc和iloc进行选取

对于DataFrame的行标签索引，loc和iloc比较特殊。这两个方法能通过axis labels(loc)或integer(iloc)来选择行或列。

栗子，选中一行多列by label：

>>>data.loc['Colorado', ['two', 'three']]
two      5
three    6
Name: Colorado, dtype: int32

用iloc实现相同的效果：

>>>data.iloc[2, [3, 0, 1]]
four    11
one      8
two      9
Name: Utah, dtype: int32
>>>data.iloc[2]
one       8
two       9
three    10
four     11
Name: Utah, dtype: int32
>>>data.iloc[[1, 2], [3, 0, 1]]
          four  one  two
Colorado     7    0    5
Utah        11    8    9

这两个索引函数也适用于⼀个标签或多个标签的切片：

>>>data.loc[:'Utah', 'two']
Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int32
>>>data.iloc[:, :3][data.three > 5]
          one  two  three
Colorado    0    5      6
Utah        8    9     10
New York   12   13     14

5.2.3.4 DataFrame的索引选项

类型	说明
df[val]	从DataFrame选取单列或列子集；布尔型数组（过滤行）、切片（切片行）或布尔型DataFrame（根据条件设置值）
df.loc[val]	通过标签，选取DataFrame的单个行或行子集
df.loc[:, val]	通过标签，选组单列或列子集
df.loc[val1, val2]	通过标签，同时选取行和列
df.iloc[where]	通过整数位置，从DataFrame选取单个行或行子集
df.iloc[:, where]	通过整数位置，从DataFrame选取单个列或列子集
df.iloc[where_i, where_j]	通过整数位置，同时选取行和列
df.at[label_i, label_j]	通过行和列标签，选取单一的标量
df.iat[i, j]	通过行和列实务位置（整数），选取单一的标量
reindex method	通过标签选取行和列
get_value, set_value methods	通过行和列标签选取单一值

5.2.4 整数索引（Integer Indexes）

一些新手再用integer来index的时候，总是会出错。因为这种方法和python用于list和tuple的indexing方法不同。

比如，你不希望下面的代码出现error：

>>>ser = pd.Series(np.arange(3.))
>>>ser
0    0.0
1    1.0
2    2.0
dtype: float64
>>>ser[-1]
---------------------------------------------------------------------------
KeyError                                  Traceback (most recent call last)
<ipython-input-58-44969a759c20> in <module>
----> 1 ser[-1]
"...省略..."
KeyError: -1

pandas在整数索引上可能会出错，另一方面，如果用非整数来做index，就没有歧义了：

>>>ser2 = pd.Series(np.arange(3.), index=['a', 'b', 'c'])
>>>ser2[-1]
2.0

为了保持连贯性，如果axis index里包含integer，那么选择数据的时候，就会使用标签。为了更精确地选择，使用loc(for label)或ilco(for integers):

>>>ser[:1]
0    0.0
dtype: float64
>>>ser.loc[:1]
0    0.0
1    1.0
dtype: float64
>>>ser.iloc[:1]
0    0.0
dtype: float64

5.2.5 算术运算和数据对齐（Arithmetic and Data Alignment）

pandas最重要的⼀个功能是，它可以对不同索引的对象进⾏算术运算。在将对象相加时，如果存在不同的索引，则结果的索引就是该索引对的并集。

>>>s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
>>>s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
>>>               index=['a', 'c', 'e', 'f', 'g'])
>>>s1
a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64
>>>s2
a    2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64
>>>s1 + s2
a    9.4
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

这种数据对齐的方式（internal data alignment）引入了很多缺失值，这些缺失值会被用在之后的算数计算中。

在DataFrame中，数据对齐同时发生在行和列上：

>>>df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
>>>                   index=['Ohio', 'Texas', 'Colorado'])
>>>df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
>>>                   index=['Utah', 'Ohio', 'Texas', 'Oregon'])
>>>df1
            b    c    d
Ohio      0.0  1.0  2.0
Texas     3.0  4.0  5.0
Colorado  6.0  7.0  8.0
>>>df2
          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0

相加的结果就是两个DataFrame，行和列的合集：

>>>df1 + df2
            b   c     d   e
Colorado  NaN NaN   NaN NaN
Ohio      3.0 NaN   6.0 NaN
Oregon    NaN NaN   NaN NaN
Texas     9.0 NaN  12.0 NaN
Utah      NaN NaN   NaN NaN

因为’c’和’e’列都不同时在两个DataFrame里，所有全是缺失值。对于行，即使有相同的，但列不一样的话也会是缺失值。

如果两个DataFrame相加，而且没有column和row，结果会全是null：

>>>df1 = pd.DataFrame({
     'A': [1, 2]})
>>>df2 = pd.DataFrame({
     'B': [3, 4]})
>>>df1
   A
0  1
1  2
>>>df2
   B
0  3
1  4
>>>df1 - df2
    A   B
0 NaN NaN
1 NaN NaN

5.2.5.1 带填充值的算数方法

对于上面那些缺失值，我们想要填上0：

>>>df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
>>>                   columns=list('abcd'))
>>>df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
>>>                   columns=list('abcde'))
>>>df2.loc[1, 'b'] = np.nan
>>>df1
     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0
>>>df2
      a     b     c     d     e
0   0.0   1.0   2.0   3.0   4.0
1   5.0   NaN   7.0   8.0   9.0
2  10.0  11.0  12.0  13.0  14.0
3  15.0  16.0  17.0  18.0  19.0

不填充的结果：

>>>df1 + df2
      a     b     c     d   e
0   0.0   2.0   4.0   6.0 NaN
1   9.0   NaN  13.0  15.0 NaN
2  18.0  20.0  22.0  24.0 NaN
3   NaN   NaN   NaN   NaN NaN

使用参数fill_value进行填充：

>>>df1.add(df2, fill_value=0)
      a     b     c     d     e
0   0.0   2.0   4.0   6.0   4.0
1   9.0   5.0  13.0  15.0   9.0
2  18.0  20.0  22.0  24.0  14.0
3  15.0  16.0  17.0  18.0  19.0

算术方法：除法运算

>>>1 / df1
       a         b         c         d
0    inf  1.000000  0.500000  0.333333
1  0.250  0.200000  0.166667  0.142857
2  0.125  0.111111  0.100000  0.090909
>>>df1.rdiv(1)
       a         b         c         d
0    inf  1.000000  0.500000  0.333333
1  0.250  0.200000  0.166667  0.142857
2  0.125  0.111111  0.100000  0.090909

在reindex（重建索引）的时候，也可以使用fill_value:

>>>df1.reindex(columns=df2.columns, fill_value=0)
     a    b     c     d  e
0  0.0  1.0   2.0   3.0  0
1  4.0  5.0   6.0   7.0  0
2  8.0  9.0  10.0  11.0  0

5.2.5.2 Series和DataFrame的算术方法

方法	说明
add, radd	用于加法(+)的方法
sub, rsub	用于减法(-)的方法
div, rdiv	用于除法(/)的方法
floordiv, rfloordiv	用于底除(//)的方法
mul, rmul	用于乘法(*)的方法
pow, rpow	用于指数(**)的方法

5.2.5.3 DataFrame和Series之间的运算

先来看⼀个栗子，计算⼀个⼆维数组与其某行之间的差：

>>>arr = np.arange(12.).reshape((3, 4))
>>>arr
array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])
>>>arr[0]
array([0., 1., 2., 3.])
>>>arr - arr[0]
array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

可以看到，这个减法是用在了每一行上。这种操作叫broadcasting，在Appendix A有更详细的解释。DataFrame和Series的操作也类似：

>>>frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
>>>                     columns=list('bde'),
>>>                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
>>>series = frame.iloc[0]
>>>frame
          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0
>>>series
b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

可以理解为series的index与dataframe的列匹配，broadcasting down the rows(向下按行广播):

>>>frame - series
          b    d    e
Utah    0.0  0.0  0.0
Ohio    3.0  3.0  3.0
Texas   6.0  6.0  6.0
Oregon  9.0  9.0  9.0

如果一个index既不在DataFrame的column中，也不再Series里的index中，那么结果也是合集：

>>>series2 = pd.Series(range(3), index=['b', 'e', 'f'])
>>>frame + series2
          b   d     e   f
Utah    0.0 NaN   3.0 NaN
Ohio    3.0 NaN   6.0 NaN
Texas   6.0 NaN   9.0 NaN
Oregon  9.0 NaN  12.0 NaN

如果想要在列上广播，去匹配行，必须要用到算数方法：

>>>series3 = frame['d']
>>>frame
          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0
>>>series3
Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64
>>>frame.sub(series3, axis='index')  #减法算术运算，见上表
Out[53]: 
          b    d    e
Utah   -1.0  0.0  1.0
Ohio   -1.0  0.0  1.0
Texas  -1.0  0.0  1.0
Oregon -1.0  0.0  1.0

axis参数就是用来匹配轴的。在这个例子里是匹配dataframe的row index(axis='index or axis=0)，然后再广播。

5.2.6 函数应用和映射（Function Application and Mapping）

numpy的ufuncs(element-wise数组方法)也能用在pandas的object上：

>>>frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),
>>>                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
>>>frame
               b         d         e
Utah    0.392567  0.271998  0.790944
Ohio    0.788808  1.909102  0.039790
Texas   0.511341  1.029418  0.081864
Oregon  1.189705  0.692081  0.834665
>>>np.abs(frame)
               b         d         e
Utah    1.282098  1.229175  0.732095
Ohio    0.950254  1.295434  1.679189
Texas   0.874102  1.274932  0.844413
Oregon  0.914953  2.101899  0.613982

5.2.6.1 apply函数

另⼀个常见的操作是，将函数应用到由各列或行所形成的⼀维数组上。DataFrame的apply函数即可实现此功能：

>>>f = lambda x: x.max() - x.min()
>>>frame.apply(f)
b    2.232352
d    3.397333
e    2.523603
dtype: float64

这里函数f，是计算series中最大值和最小值的差，frame中有几列，这个函数就被调用几次。作为结果的series，它的index就是frame的column。

如果你传入axis='column'用于apply，那么函数会被用在每一行：

>>>frame.apply(f, axis='columns')
Utah      2.725222
Ohio      1.672987
Texas     1.896290
Oregon    1.308482
dtype: float64

像是sum, mean这样的数组统计方法，DataFrame中已经集成了，所以没必要用apply。

apply不会返回标量，只会返回一个含有多个值的series：

>>>def f(x):
>>>    return pd.Series([x.min(), x.max()], index=['min', 'max'])
>>>frame.apply(f)
            b         d         e
min -0.950254 -1.295434 -1.679189
max  1.282098  2.101899  0.844413

element-wise的python函数也能用。假设想要格式化frame中的浮点数，变为string。可以用applymap：

>>>format = lambda x: '%.2f' % x
>>>frame.applymap(format)
            b      d      e
Utah     1.28   1.23  -0.73
Ohio    -0.95  -1.30  -1.68
Texas   -0.87   1.27   0.84
Oregon  -0.91   2.10   0.61

applymap的做法是，series有一个map函数，能用来实现element-wise函数：

>>>frame['e'].map(format)
Utah       1.63
Ohio       1.28
Texas     -1.20
Oregon     0.09
Name: e, dtype: object

5.2.7 排序和排名（Sorting and Ranking）

5.2.7.1 排序

sort_index函数

按row或column的索引来排序的话，可以用sort_index函数，会返回一个新的object：

>>>obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
>>>obj.sort_index()
a    1
b    2
c    3
d    0
dtype: int64

在DataFrame，可以用index或其他axis来排序：

>>>frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
>>>                     index=['three', 'one'],
>>>                     columns=['d', 'a', 'b', 'c'])
>>>frame
       d  a  b  c
three  0  1  2  3
one    4  5  6  7
>>>frame.sort_index()
       d  a  b  c
one    4  5  6  7
three  0  1  2  3
>>>frame.sort_index(axis=1)
       a  b  c  d
three  1  2  3  0
one    5  6  7  4

默认是升序，可以设置降序：

>>>frame.sort_index(axis=1, ascending=False)
       d  c  b  a
three  0  3  2  1
one    4  7  6  5

sort_values函数

通过值来排序，用sort_values函数：

>>>obj = pd.Series([4, 7, -3, 2])
>>>obj.sort_values()
2   -3
3    2
0    4
1    7
dtype: int64

若存在缺失值，则缺失值会被排在最后：

>>>obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
>>>obj.sort_values()
4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

对于一个DataFrame，可以用一列或多列作为排序keys。这样的话，只需要把一列或多列的名字导入到sort_values即可：

>>>frame = pd.DataFrame({
     'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
>>>frame
   b  a
0  4  0
1  7  1
2 -3  0
3  2  1
>>>frame.sort_values(by='b')
   b  a
2 -3  0
3  2  1
0  4  0
1  7  1

多列排序需要传入一个list：

>>>frame.sort_values(by=['a', 'b'])
   b  a
2 -3  0
0  4  0
3  2  1
1  7  1

5.2.7.2 排名

rank函数

平均排名（存在相同值时出现）

ranking（排名）是给有效的数据分配数字。rank函数能用于series和DataFrame，rank函数默认会给每个group一个mean rank（平均排名）。rank表示在这个数在原来的Series中排第几名，有相同的数，取其排名平均（默认）作为值：

>>>obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
>>>obj
0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64
>>>obj.sort_values()  #给值排序
1   -5
5    0
4    2
3    4
6    4
0    7
2    7
dtype: int64
>>>obj.rank()
0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

解释一下先，在obj中，4和4的排名是第4名和第五名，取平均得4.5。7和7的排名分别是第六名和第七名，则其排名取平均得6.5。

顺序排名（我自己起的名字哈）

也可以根据值在原数据中出现的顺序给出排名：

>>>obj.rank(method='first')
0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

这里没有给0和2(指两个数字7)赋予average rank 6.5，而是给第一个看到的7（label 0）设置rank为6，第二个看到的7（label 2）设置rank为7。

也可以设置降序：

>>># Assign tie values the maximum rank in the group
>>>obj.rank(ascending=False, method='max')
0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

DataFrame可以根据行或列来计算rank:

>>>frame = pd.DataFrame({
     'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1],
>>>                      'c': [-2, 5, 8, -2.5]})
>>>frame
     b  a    c
0  4.3  0 -2.0
1  7.0  1  5.0
2 -3.0  0  8.0
3  2.0  1 -2.5
>>>frame.rank(axis='columns')  #"columns"表示列与列之间的排序（即每一行里数据间的排序）
     b    a    c
0  3.0  2.0  1.0
1  3.0  1.0  2.0
2  1.0  2.0  3.0
3  3.0  2.0  1.0

5.2.7.3 排名时用于破坏平级关系的方法

method	描述
‘average’	默认值，将平均排名分配给组中的每个对象
‘min’	是用整个分组的最小排名
‘max’	是用整个分组的最大排名
‘first’	按值在原始数据中出现的顺序分配排名
‘dense’	类似于’min’方法，但是排名总是在组间增加1，而不是组中相同的元素数

5.2.8 带有重复标签的轴索引（Axis Indexes with Duplicate Labels）

我们看到的所有例子都有唯一的轴标签（索引值）。一些pandas函数（reindex），需要label是唯一的，但这并不是强制性的。比如下面有一个重复的索引：

>>>obj = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
>>>obj
a    0
a    1
b    2
b    3
c    4
dtype: int64

index的is_unique特性能告诉我们label是否是唯一的：

>>>obj.index.is_unique
False

数据选择对于重复label则表现有点不同。如果一个label有多个值，那么就会返回一个series, 如果是label只对应一个值的话，会返回一个标量：

>>>obj['a']
a    0
a    1
dtype: int64
>>>obj['c']
4

这个选择的逻辑也适用于DataFrame：

>>>df = pd.DataFrame(np.random.randn(4, 3), index=['a', 'a', 'b', 'b'])
>>>df
          0         1         2
a  0.862580 -0.010032  0.050009
a  0.670216  0.852965 -0.955869
b -0.023493 -2.304234 -0.652469
b -1.218302 -1.332610  1.074623
>>>df.loc['b']
          0         1         2
b -0.023493 -2.304234 -0.652469
b -1.218302 -1.332610  1.074623

参考资料：

利用Python进行数据分析学习笔记（有惊喜^_^）

书籍：《Python for Data Analysis》

你可能感兴趣的:(利用Python进行数据分析,python,数据分析)

Python多线程vs多进程：一场关于效率的“宫斗戏“，谁才是你的真命天子？
清晨的咖啡还冒着热气，你盯着监控面板上飙升的CPU使用率，键盘敲出的代码在"多线程"和"多进程"之间反复横跳——这可能是每个Python开发者都会经历的"效率抉择时刻"。当项目从"能跑就行"进化到"必须快跑"，多线程与多进程这对"欢喜冤家"就会跳出来，用各自的"十八般武艺"让你挑花眼。今天咱们就来扒开表象，从底层机制到实战案例，彻底搞懂这对CP的爱恨纠葛。一、GIL：多线程头顶的"紧箍咒"要聊多线
【mongodb】mongodb数据备份与恢复向往风的男子运维日常 DBA mongodb 数据库
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》暂未更新《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》运维日常《l
数据存储：使用Python存储数据到redis详解数据知道爬虫和逆向教程 python redis 数据库非关系型数据库
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录一.安装相关库和进行连接二、存储数据到Redis2.1存储字符串2.2存储列表2.3存储集合2.4有序集合类型2.5存储哈希三、数据的持久化与过期设置3.1持久化3.2过期设置四、其它操作4.1删除操作4.2关闭连接4.3使用连接池4.4处理异常五、总结在Python中，我们可以使用redis-py库来与Redis数据库进行交互。以下是如何将数据
Python 中的循环小羊苏八 python 开发语言
目录前言一.for循环二.while循环三.break与continue四.循环与else总结前言Python中的循环：for、while、break、continue与循环中的else。在Python中，循环是控制程序流程的重要结构之一。它允许我们重复执行一段代码，直到满足特定条件为止。Python提供了两种主要的循环结构：for循环和while循环。此外，break和continue语句可以用
Python——pyautogui打地鼠游戏自动化脚本（基于图片定位）
以4399小游戏为例：4399游戏网importpyautoguiimportkeyboardimporttimeimportrandomimportloggingfromPILimportImageGrabimportos#配置日志logging.basicConfig(level=logging.INFO,format='%(asctime)s-%(levelname)s-%(message)
最小二乘法(OLS)python 实践
参考链接：1，基本原理：https://zhuanlan.zhihu.com/p/1492809412，python实现：https://zhuanlan.zhihu.com/p/22692029实现结果线性回归：#--coding:utf-8--#简单线性回归demoimportnumpyasnpimportmatplotlib.pyplotaspltimportstatsmodels.apia
【Statsmodels和SciPy介绍与常用方法】机器学习司猫白 scipy statsmodels 统计
Statsmodels库介绍与常用方法Statsmodels是一个强大的Python库，专注于统计建模和数据分析，广泛应用于经济学、金融、生物统计等领域。它提供了丰富的统计模型、假设检验和数据探索工具，适合进行回归分析、时间序列分析等任务。本文将介绍Statsmodels的核心功能，并通过代码示例展示其常用方法。Statsmodels简介Statsmodels建立在NumPy和SciPy的基础上，
（五)PS识别：压缩痕迹挖掘-压缩量化表与 DCT 系数分析超龄超能程序猿机器学习 python 图像处理人工智能计算机视觉
（一)PS识别：Python图像分析PS识别之道（二）PS识别：特征识别-直方图分析的从原理到实现（三)PS识别：基于噪声分析PS识别的技术实现（四)PS识别：基于边缘纹理检测分析PS识别的技术实现一介绍本文将介绍一种基于量化表分析和DCT系数分析的图片PS检测方法，帮助你判断图片是否经过处理。二实现原理量化表分析在JPEG图片的压缩过程中，量化表起着关键作用。不同的软件或处理操作可能会改变量化表
Python高频面试题（四） Irene-HQ 测试 python 自动化测试 python 开发语言面试测试工具 github pycharm
以下是Python研发和自动化测试面试中‌更高阶的专项考点及典型问题‌一、并发与异步编程（高级）‌GIL全局解释器锁的应对策略‌问题：GIL如何影响Python多线程性能？如何绕过GIL限制？答案：GIL使同一时刻仅一个线程执行字节码，CPU密集型任务性能受限绕过方案：使用多进程（multiprocessing）、C扩展（如Cython）、异步IO（asyncio）‌46‌协程异步调用示例‌问题：
Python常考面试题汇总（附答案） TT图图面试职场和发展
写在前面本文面向中高级Python开发，太基本的题目不收录。本文只涉及Python相关的面试题，关于网络、MySQL、算法等其他面试必考题会另外开专题整理。不是单纯的提供答案，抵制八股文！！更希望通过代码演示，原理探究等来深入讲解某一知识点，做到融会贯通。部分演示代码也放在了我的github的该目录下。语言基础篇Python的基本数据类型Python3中有六个标准的数据类型：Number（数字）(
Python 编程基础作业总结
本周主要围绕Python基础编程展开了学习，通过一系列的作业题来巩固所学知识。这些题目涵盖了输入输出、条件判断、循环结构等多个基础知识点，下面将对每道作业题进行详细分析。1.计算指定月份第一天是星期几题目描述编写一个程序，接受用户输入的一个年份和一个月份，输出该月份的第一天是星期几。使用蔡乐公式计算星期。提示：使用蔡乐公式计算星期。W=((26*M-2)/10+D+Y+Y/4+C/4-2*C)%7
交叉编译Python-3.6.0到aarch64/aarch32 —— 支持sqlite3
参考https://datko.net/2013/05/10/cross-compiling-python-3-3-1-for-beaglebone-arm-angstrom/平台主机：ubuntu14.0464bit开发板：qemu+aarch64（参考：http://www.cnblogs.com/pengdonglin137/p/6442583.html）工具链：aarch64-linux-
python# python:3.5 aarch64构建镜像 Ling丶落 centos
构建失败从ubuntu中尝试构建FROMpython:3.5-slimLABELMAINTAINER="[email protected]"#installrelatedpackagesENVENVIRONMENTDOCKER_PRODWORKDIR/workCOPY./dataset.py/work/dataset.pyCOPY./model.py/work/model.pyCOPY./PyA
opencv-python与opencv-contrib-python的区别联系剑心缘零碎小知识 python opencv
opencv-python包含基本的opencvopencv-contrib-python是高配版，带一些收费或者专利的算法，还有一些比较新的算法的高级版本,这些算法稳定之后会加入上面那个。官网对contrib模块的简介（点击链接跳转）参考链接
【计算机毕业设计】基于Springboot的办公用品管理系统+LW 枫叶学长(专业接毕设) Java毕业设计实战案例课程设计 spring boot 后端
博主介绍：✌全网粉丝3W+,csdn特邀作者、CSDN新星计划导师、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：
两步移动搜索法（2SFCA）python 我在北京coding python python 开发语言
实现两步移动搜索法（Two-StepFloatingCatchmentAreaMethod,2SFCA）是一种广泛应用于地理信息系统（GIS）领域的方法，用于评估设施的空间可达性。以下是基于Python和GeoPandas的一种实现方式。准备工作为了实现2SFCA方法，需要准备以下数据集：供给点：表示服务提供方的位置及其服务能力。需求点：表示潜在使用者的位置及其需求量。距离矩阵：描述供给点与需求点
Java、python中高级开发工程师岗位框架要求统计爱吃土豆的马铃薯ㅤㅤㅤㅤㅤㅤㅤㅤㅤ java python 开发语言
一、主流框架使用频率框架/技术出现频率说明SpringBoot89%几乎成为Java后端开发的标配，用于快速构建微服务和独立应用。SpringCloud76%微服务架构必备，提供服务发现、配置管理、网关等核心组件。MyBatis/MyBatis-Plus72%最流行的ORM框架，MyBatis-Plus进一步简化开发。Spring68%基础框架，中高级岗位要求深入理解IoC、AOP原理。Hiber
PPOCRLabel 环境配置教程 ysh9888 人工智能算法计算机视觉 opencv
PPOCRLabel环境配置教程_哔哩哔哩_bilibili1安装conda2新建环境condacreate--nameppocrpython=3.8--channelhttps://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/condaactivateppocrpipinstall-rrequirements.txt-ihttps://pypi
response.split(“\n“)[0].strip() 是什么 ZhangJiQun&MXP 教学 2021 AI python python 机器学习人工智能语言模型自然语言处理
response.split(“\n”)[0].strip()是什么returnresponse.split("\n")[0].strip()这行代码在Python中通常用于对字符串进行处理并返回处理后的结果response.split("\n")：split()是Python字符串对象的一个方法，用于根据指定的分隔符将字符串拆分成一个列表。在这行代码中，"\n"作为分隔符，表示按照换行符来拆分字
Python函数 python知识
1文档字符串函数定义下的第一个字符串是文档字符串，用于解释函数。可以通过help(function_name)或function_name.__doc__来查看。2函数返回单个返回值：return一个值无返回值：函数执行完毕没有return语句，或者return后面没有值，会隐式地返回None返回多个值：实际上是返回一个包含所有值的元组(tuple)3参数函数声明：使用def关键字来创建函数默认参
Python-selenium爬取藏在歌词里 python selenium 开发语言
selenium前言使用python的requests模块还是存在很大的局限性，例如：只发一次请求；针对ajax动态加载的网页则无法获取数据等等问题。特此，本章节将通过selenium模拟浏览器来完成更高级的爬虫抓取任务。什么是seleniumSelenium是一个用于自动化Web应用程序测试的开源工具集。它提供了一组API和工具，可以与多种编程语言一起使用，如Java、Python、C#等，用于
python --飞浆离线ocr使用/paddleocr
依赖#python==3.7.3paddleocr==2.7.0.2paddlepaddle==2.5.2loguru==0.7.3frompaddleocrimportPaddleOCRimportcv2importnumpyasnpif__name__=='__main__':OCR=PaddleOCR(use_doc_orientation_classify=False,#检测文档方向use
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
说话人识别python_基于各种分类算法的说话人识别（年龄段识别） weixin_39673184 说话人识别python
基于各种分类算法的语音分类(年龄段识别)概述实习期间作为帮手打杂进行了一段时间的语音识别研究，内容是基于各种分类算法的语音的年龄段识别，总结一下大致框架，基本思想是：获取语料库TIMIT提取数据特征，进行处理MFCC/i-vectorLDA/PLDA/PCA语料提取，基于分类算法进行分类SVM/SVR/GMM/GBDT...用到的工具有HTK(C,shell)/Kaldi(C++,shell)/L
llama-cpp-python使用教程 try2find llama python 开发语言
以下是llama-cpp-python的完整使用教程，涵盖安装、基础用法、高级功能（如GPU加速、多模态等）和常见问题解决。1.安装1.1基础安装（CPU版）pipinstallllama-cpp-python-ihttps://pypi.tuna.tsinghua.edu.cn/simple1.2启用GPU加速（CUDA）CMAKE_ARGS="-DGGML_CUDA=ON"pipinstall
【Python】列表嵌套字典多规则排序魔都吴所谓 Python 算法工具 python 服务器 java
数据a=[{"project":"pro_613","branchList":[]},{"project":"pro_614","branchList":[]},{"project":"pro_612","branchList":[]},{"project":"pro_631","branchList":[]},{"project":"pro_617","branchList":[]},{"pro
Redis存储Cookie实现爬虫保持登录 requests | selenium
前言前面已经介绍了requests和selenium这两种方式的基础知识和模拟登录,但是我们需要每次都进行登录,这明显是很麻烦并且不合理的,所以这次我分享一下怎么可以让我们的程序进行一次登录之后,和普通浏览器一样下次不进行登录直接进行对网站数据的爬取下面的我分享的内容需要前置知识,如果同志有知识不理解,可以查看我以前写的文章Python爬虫request三方库实战-CSDN博客Python爬虫XP
Requestium - 将Requests和Selenium合并在一起的自动化测试工具测试界晓晓软件测试测试工具 selenium 自动化软件测试功能测试自动化测试程序人生
Requests是Python的第三方库，主要用于发送http请求，常用于接口自动化测试等。Selenium是一个用于Web应用程序的自动化测试工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。本篇介绍一款将Requests和Selenium结合在一起的自动化测试工具-Requestium简介Requestium是一个Python库，它将Requests、Selenium和P
深度解析：venv和conda如何解决依赖冲突难题咕咕日志 conda python
文章目录前言一、虚拟环境的核心价值1.1依赖冲突的典型场景1.2隔离机制实现原理二、venv与conda的架构对比2.1工具定位差异2.2性能基准测试（以创建环境+安装numpy为例）三、venv的配置与最佳实践3.1基础工作流3.2多版本Python管理四、conda的进阶应用4.1环境创建与通道配置4.2混合使用conda与pip的风险控制4.3跨平台环境导出五、工具选型决策树5.1场景化推荐
冒泡排序算法详解（含Python代码实现）算法_小学生算法
冒泡排序（BubbleSort）是最基础的排序算法之一，通常用于学习排序算法的入门理解。本文将通过Python代码实现冒泡排序，并详细讲解其原理、执行流程、复杂度分析及适用情况。✨一、算法简介冒泡排序的核心思想是：相邻两个元素比较，将较大的元素不断“冒泡”至右侧，最终实现排序。其基本过程是重复比较相邻的元素，如果顺序错误就交换，重复这一过程，直到没有任何需要交换的为止。二、Python代码实现下面
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默