JasmineFeng

pandas学习（四）——分组

文章目录

4.1、分组模式及其对象
- 4.1.1、分组的一般模式
- 4.1.2、分组依据的本质
- 4.1.3、*groupby*对象
- 4.1.4、分组的三大操作
4.2、聚合函数
- 4.2.1、内置聚合函数
- 4.2.2、*agg*方法
4.3 、变换和过滤
- 4.3.1、变换函数与*transform*方法
- 4.3.2、组索引与过滤
4.4、跨列分组
- 4.4.1、apply操作的引入
- 4.4.2、*apply*的使用
4.5、练习
- 4.5.1汽车数据集
- 4.5.2、实现*transform*函数

import pandas as pd
import numpy as np


df = pd.read_csv('E:\\DataWhale组队学习\\data\\learn_pandas.csv')

4.1、分组模式及其对象

4.1.1、分组的一般模式

df.groupby(分组依据)[数据来源].使用操作

如统计不同年级的学生的平均体重，这里分组依据是年级，数据来源是体重，使用操作是均值方法：

>>>df.groupby('Grade')['Weight'].mean()
Grade
Freshman     54.568627
Junior       54.036364
Senior       56.576923
Sophomore    54.870968
Name: Weight, dtype: float64

4.1.2、分组依据的本质

实际上，在构建groupby对象时可传入下列参数：

DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=<object object>, observed=False, dropna=True)

其中最重要的是by关键字

如果by为一个由标签（索引）构成的列表，那么就可以依次根据列表中的元素来分组：

>>>df.groupby(['Grade','Gender'])['Weight'].mean()
Grade      Gender
Freshman   Female    48.128205
           Male      75.500000
Junior     Female    48.609756
           Male      69.928571
Senior     Female    47.800000
           Male      74.647059
Sophomore  Female    46.300000
           Male      70.454545
Name: Weight, dtype: float64

如果像按照满足某种复杂逻辑来分组，便可以指定by为一bool Series：

然而因为布尔值只有真和假，这样只能分出两个组，如果要按体重分出高、中、低三个组，用上面这种方法的话大概要分两次（先分出高和中低，再从中低分出中和低）。所以我想是不是先生成一个体重高、中、低的序列，然后根据这个序列来分组比较好。

>>>q25 = df.Weight.quantile(.25)
>>>q75 = df.Weight.quantile(.75)
>>>f = lambda x: (x<=q25) * 1 + (q25 < x < q75) * 2 + (x>=q75)*3
>>>weight_class = df.Weight.apply(f)
>>>weight_class[:15]
0     1
1     3
2     3
3     1
4     3
5     2
6     2
7     2
8     2
9     0
10    3
11    1
12    2
13    2
14    2
Name: Weight, dtype: int64

这样就对每个学生的体重定制了一个标签，第9个学生是0，这是因为他的体重缺失，而NaN与任何数比大小结果都是False，即0，所以这边就是0。

>>>df.groupby(weight_class)['Height'].mean() 
Weight
0    165.144444
1    154.119149
2    162.174699
3    174.511364
Name: Height, dtype: float64

可以看出一个趋势：体重越大的人往往身高也越高。

4.1.3、groupby对象

gb = df.groupby(['School','Gender'])

groupby对象*有很多好用的方法与方便的属性。

gb.ngroups属性可以查看分组的数目
gb.groups属性返回一个由组名（分组依据）映射到组索引列表（Index对象）的字典。

>>>for key, val in gb.groups.items():
       print(key)
       print(val)
       break
('Fudan University', 'Female')
Int64Index([  3,  15,  26,  28,  37,  39,  46,  49,  52,  63,  68,  70,  77,
             84,  90, 105, 107, 108, 112, 129, 138, 144, 145, 157, 170, 173,
            186, 187, 189, 195],
           dtype='int64')

gb.size()方法可以获取每组成员个数，用gb.count()[任意列]也可实现这个功能。

>>>tmp1 = gb.size()
>>>tmp2 = gb.count()['Gender']
>>>tmp2
School                         Gender
Fudan University               Female    30
                               Male      10
Peking University              Female    22
                               Male      12
Shanghai Jiao Tong University  Female    41
>>>tmp2.equals(tmp1)
True

gb.get_groups((ind1, ind2))方法可以获取(ind1,ind2)这个组的所有成员的行，类似于一个多级索引，ind1在第一层，ind2在第二层。

>>>gb.get_group(('Peking University','Female')).tail()
                School     Grade  ...   Test_Date Time_Record
140  Peking University  Freshman  ...  2019/11/30     0:05:27
159  Peking University    Junior  ...    2019/9/2     0:03:53
183  Peking University    Junior  ...  2019/10/17     0:05:20
185  Peking University  Freshman  ...  2019/12/10     0:04:24
194  Peking University    Senior  ...   2019/12/3     0:05:08
[5 rows x 10 columns]

4.1.4、分组的三大操作

操作	函数	返回值类型	举例
聚合	agg	标量scalar	求均值、中位数
变换	transform	序列Series	对某列作标准化
过滤	filter	表DataFrame	筛选出符合条件的组

4.2、聚合函数

4.2.1、内置聚合函数

操作/欲获取	函数	操作/欲获取	函数
均值	mean	中位数	median
最大值	max	最小值	min
最大值索引	idxmax	最小值索引	idxmin
方差	var	标准差	std
某组成员总数	count	某组不重复值的个数	nunique
是否全部成员为True	all	是否存在成员为True	any
平均偏差	mad	偏度*	mad
求和	sum	求积	prod
百分位数	quantile	无偏标准误差	sem
求每组成员数	size

*偏度定义

4.2.2、agg方法

agg方法可用于解决上述聚合函数存在的以下不足：

使用多个函数——用列表的形式把内置聚合函数对应的字符串传入

>>>gb.agg(['mean','median','std'])
                                          Height          ... Test_Number          
                                            mean  median  ...      median       std
School                        Gender                      ...                      
Fudan University              Female  158.776923  159.10  ...           2  0.626062
                              Male    174.212500  175.95  ...           1  0.707107
Peking University             Female  158.666667  159.90  ...           2  0.767297
                              Male    172.030000  171.00  ...           1  0.792961
Shanghai Jiao Tong University Female  159.122500  159.15  ...           2  0.799390
                              Male    176.760000  176.40  ...           1  0.629153
Tsinghua University           Female  159.753333  160.70  ...           1  0.683843
                              Male    171.638889  170.40  ...           2  0.783764
[8 rows x 9 columns]

“此时的列索引为多级索引，第一层为数据源，第二层为使用的聚合方法。”

对特定的列使用特定的聚合函数——传入字典，键为列名，值为欲进行的操作对应的字符串（如有多个操作，则为相应列表）
例如使用字典实现上一个代码片里的类似操作：

>>>methods = ['sum','idxmax','skew']
>>>gb.agg({'Weight':methods,'Height':methods})
                                      Weight         ... Height          
                                         sum idxmax  ... idxmax      skew
School                        Gender                 ...                 
Fudan University              Female  1437.0     28  ...     28  0.093769
                              Male     723.0     66  ...     48 -1.169826
Peking University             Female   933.0     75  ...     75 -0.174257
                              Male     737.0     38  ...     38  0.702021
Shanghai Jiao Tong University Female  1795.0     64  ...     64 -0.405679
                              Male    1140.0      2  ...      2  0.153731
Tsinghua University           Female  2304.0     14  ...     55 -0.169096
                              Male    1329.0     40  ...    193  0.974132
[8 rows x 6 columns]

使用自定义函数
使用自定义函数实现describe方法的功能：

>>>q25 = lambda x:x.quantile(.25)
>>>q75 = lambda x:x.quantile(.75)
>>>methods = ['count','mean','std','min',q25,'median',q75,'max']
>>>tmp = gb.agg({'Height':methods,'Weight':methods})

P.S.

一开始我是打算把'quantile(.75)'，'quantile(.25)'这两个字符串传入列表的，但发现会报错，无奈下只好新定义两个函数，但这时就不能再传入'q25','q75'这两个字符串了，因为Series是没有这两个方法的！只能直接传函数。
我本来给四分位数的名字是q25, q75，但是在tmp这个变量里显示为了, ，这让我很不爽，所以下面我就要对它们重命名！

聚合结果重命名——{字典[列表(元组)]}

基本格式，元组嵌套于列表，列表嵌套于字典：

gb.agg({'col_1':[(func1_name,func1),(func2_name,func2)],'col_2':[(func3_name,func3),(func4_name,func4)]})

改写上节代码片：

>>>methods = ['count','mean','std','min',('q25',q25),'median',('q75',q75),'max']
>>>tmp = gb.agg({'Height':methods,'Weight':methods})

4.3 、变换和过滤

4.3.1、变换函数与transform方法

累计函数
变换函数的返回值为同长度的序列，最常用的内置变换函数是累计函数：cumcount/cumsum/cumprod/cummax/cummin

>>>gb.cumcount()[:10]
0    0
1    0
2    0
3    0
4    0
5    0
6    1
7    1
8    2
9    0
dtype: int64

gb是按照学校和性别来分组的，第0个到第5个学生的学校和性别都不同时相同，等到第6个时，发现她跟第0位是一样的，所以cumcount返回的序列中第6个就是1。也就是说cumcount方法统计的是当前成员在其组别中是第几个（从0开始）。

依此类推，*cummax(cummin)*方法返回的是统计到当前成员时，某统计量在其组别中的最大（小）值，*cumsum(cumprod)*返回的是统计到当前成员时，某统计量在其组别中的累和（积）。

而这就是这类函数被称为“累计函数”的原因。

rank方法
rank方法的功能就是返回一个组内当前成员的某特征的排名，这个方法一个最大的特点就是他有各种各样的method。

下面这段对rank的讲解参考了这篇博客
我们在排序的时候遇到的一个常见的状况是：有两个人“分数”是一模一样的，这个时候我到底是把这两位算同一个名次还是不同的名次呢，如果是算作同一个名次的话，那么排在他们后面那个同学是算第二名还是第三名呢。不同的场合有不同的要求，由此就有了各种方法，有

用平均值作为最终名次，即这两个人都是第 $(1 + 2) / 2 = 1.5 名$ ；
用最小值作为最终名次，即这两个人都是第 $min\{1,2\}=1$ 名，且后面那个同学是第3名；
用最大值作为最终名次，即这两个人都是第 $max\{1,2\}=2$ 名，且后面那个同学是第3名；
用出现顺序作为最终名次，即第一位出现算第1名，第二位出现算第2名；
用最小值作为最终名次，即这两个人都是第 $min\{1,2\}=1$ 名，且后面那个同学是第2名；

上面这五种方法，分别对应了average, min, max, first, dense。

自定义变换——transform方法
该方法就好像是在每个group内调用apply方法，以进行我们自定义的变换，如组内z-score标准化：

这个我是真的不会，试了好几种方案都报错了‍，然后我只好贴出来群里一位大佬的解答，咱也不知道怎么艾特他。。。

>>>def my_func(method_dict):
    def my_(x):
        method = method_dict[x.name]
        if method == 'zscore':
            return (x - x.mean()) / x.std()
        elif method == 'max':
            return x.max()
    return my_
>>>gb = df.groupby('Gender')['Height','Weight']
>>>gb.transform(my_func({'Height': 'zscore', 'Weight': 'max'}))
     Height  Weight
0 -0.058760    63.0
1 -1.010925    89.0
2  2.167063    89.0
3       NaN    63.0
4  0.053133    89.0

这段代码要想看明白对我这个小白还不太容易！有一个函数嵌套，大概的流程，差不多是先找到当前列，获取列名，然后根据列名（字典的键）确定要执行的操作（字典的值），然后指针移动到下一列，获取列名……这样迭代。（应该是吧）。

transform方法还具有广播机制，像mean本来返回的是一个均值标量，但是跟transform结合后均值就会广播到整个组的序列。

4.3.2、组索引与过滤

过滤在分组中是对于组的过滤，而索引是对于行的过滤。二者的共性是本质上都是对于行的筛选，联系是组过滤是行过滤的推广。

过滤可以用filter方法实现，但是只能筛选出符合条件的组，并不能筛选出符合条件的行。比如说，不能用groupby对象筛选出体重大于50公斤的学生。

>>>gb.filter(lambda x:x['Weight']>55)
TypeError: filter function returned a Series, but expected a scalar bool

报错显示lambda表达式期望得到一个bool标量，实际却得到一个bool Series。

用groupby对象倒是可以筛选出全体成员体重大于50公斤的组。

>>>gb.filter(lambda x:(x['Weight'].dropna()>50).all()).head()
    Weight  Height
1     70.0   166.5
2     89.0   188.9
4     74.0   174.0
10    74.0   174.1
16    68.0   170.1

注意这边还得把缺失值扔掉，不然会返回一个空序列。

这个说实话我也没啥思路，参考了一下这位大哥的

>>>indices = [1,3,6,10,15,21]
>>>gb1 = df.groupby(df.index.isin(indices))
>>>out = gb1.filter(lambda x:x.name)
>>>out
                           School      Grade  ...   Test_Date Time_Record
1               Peking University   Freshman  ...    2019/9/4     0:04:20
3                Fudan University  Sophomore  ...    2020/1/3     0:04:08
6   Shanghai Jiao Tong University   Freshman  ...  2019/12/12     0:03:53
10  Shanghai Jiao Tong University   Freshman  ...   2019/9/29     0:05:16
15               Fudan University   Freshman  ...    2020/1/1     0:05:25
21  Shanghai Jiao Tong University     Senior  ...    2020/1/2     0:04:54
[6 rows x 10 columns]

不过我总觉这方法怪怪的，哪里不对劲，毕竟我按照是否在indices来分组后，一共就只有两个组了，还需要用filter过滤吗？直接get_group就好了呀

>>>gb1.get_group(True)
                           School      Grade  ...   Test_Date Time_Record
1               Peking University   Freshman  ...    2019/9/4     0:04:20
3                Fudan University  Sophomore  ...    2020/1/3     0:04:08
6   Shanghai Jiao Tong University   Freshman  ...  2019/12/12     0:03:53
10  Shanghai Jiao Tong University   Freshman  ...   2019/9/29     0:05:16
15               Fudan University   Freshman  ...    2020/1/1     0:05:25
21  Shanghai Jiao Tong University     Senior  ...    2020/1/2     0:04:54
[6 rows x 10 columns]

4.4、跨列分组

4.4.1、apply操作的引入

这边就直接COPY+PASTE了。正所谓有需求才会有改进，为了满足新的需要，特此引入了groupby对象的apply操作。

4.4.2、apply的使用

>>>def my_bmi(x):
    h = x['Height']/100
    w = x['Weight']
    bmi = w/h**2
    return bmi.mean()


>>>gb.apply(my_bmi)
Gender
Female    18.860930
Male      24.318654
dtype: float64

函数返回标量，apply返回Series

>>>g1 = (i for i in 'abcdef')  # 生成器推导式
>>>gb.apply(lambda x:next(g1))
Gender  Test_Number
Female  1              a
        2              b
        3              c
Male    1              d
        2              e
        3              f
dtype: object

以上的'a','b','c','d','e','f'分别是我在6次生成器迭代时产生的标量（这边标量不一定是数值，是广义的，你懂的），6个标量构成了一个序列。

函数返回Series，apply返回DF

>>>l3 = [i for i in zip(list('acegik'),list('bdfhjl'))]
>>>l3
[('a', 'b'), ('c', 'd'), ('e', 'f'), ('g', 'h'), ('i', 'j'), ('k', 'l')]
>>>it = iter(l3)
>>>gb.apply(lambda x:pd.Series(next(it)，index=('x','y')))
                    x  y
Gender Test_Number      
Female 1            a  b
       2            c  d
       3            e  f
Male   1            g  h
       2            i  j
       3            k  l

以上每一行的字母都是我每一次迭代所产生的Series，这些Series纵向拼接就形成了一个DF。

这边返回不同索引的话，我再用一次迭代器好了：

>>>it = iter(l3)
>>>gb.apply(lambda x:pd.Series([0,1],index=next(it)))
TypeError: Series.name must be a hashable type

确实报错了，但我也不知道原因是啥。。。

函数返回DF，apply返回更大的DF

from string import ascii_lowercase as al

>>>l4 = [[[a,b],[c,d]] for a,b,c,d in zip(al[:24:4],al[1:24:4],al[2:24:4],al[3:24:4])]
>>>it = iter(it)
>>>gb.apply(lambda x:pd.DataFrame(next(it),columns=['1','2'],index=['yy','zz']))
                       1  2
Gender Test_Number         
Female 1           yy  a  b
                   zz  c  d
       2           yy  e  f
                   zz  g  h
       3           yy  i  j
                   zz  k  l
Male   1           yy  m  n
                   zz  o  p
       2           yy  q  r
                   zz  s  t
       3           yy  u  v
                   zz  w  x

>>>it_l3 = iter(l3)
>>>gb.apply(lambda x:pd.DataFrame([[0,1],[2,3]],columns=next(it_l3),index=['yy','zz']))
                         a    b    c    d    e  ...    h    i    j    k    l
Gender Test_Number                              ...                         
Female 1           yy  0.0  1.0  NaN  NaN  NaN  ...  NaN  NaN  NaN  NaN  NaN
                   zz  2.0  3.0  NaN  NaN  NaN  ...  NaN  NaN  NaN  NaN  NaN
       2           yy  NaN  NaN  0.0  1.0  NaN  ...  NaN  NaN  NaN  NaN  NaN
                   zz  NaN  NaN  2.0  3.0  NaN  ...  NaN  NaN  NaN  NaN  NaN
       3           yy  NaN  NaN  NaN  NaN  0.0  ...  NaN  NaN  NaN  NaN  NaN
                   zz  NaN  NaN  NaN  NaN  2.0  ...  NaN  NaN  NaN  NaN  NaN
Male   1           yy  NaN  NaN  NaN  NaN  NaN  ...  1.0  NaN  NaN  NaN  NaN
                   zz  NaN  NaN  NaN  NaN  NaN  ...  3.0  NaN  NaN  NaN  NaN
       2           yy  NaN  NaN  NaN  NaN  NaN  ...  NaN  0.0  1.0  NaN  NaN
                   zz  NaN  NaN  NaN  NaN  NaN  ...  NaN  2.0  3.0  NaN  NaN
       3           yy  NaN  NaN  NaN  NaN  NaN  ...  NaN  NaN  NaN  0.0  1.0
                   zz  NaN  NaN  NaN  NaN  NaN  ...  NaN  NaN  NaN  2.0  3.0
[12 rows x 12 columns]

只是列索引不同确实没报错，但是有很多缺失值，这个很好理解，因为列索引变了。

>>>it_l3 = iter(l3)
>>>gb.apply(lambda x:pd.DataFrame([[0,1],[2,3]],columns=['yy','zz'],index=next(it_l3)))
                      yy  zz
Gender Test_Number          
Female 1           a   0   1
                   b   2   3
       2           c   0   1
                   d   2   3
       3           e   0   1
                   f   2   3
Male   1           g   0   1
                   h   2   3
       2           i   0   1
                   j   2   3
       3           k   0   1
                   l   2   3

诶嘿，这次也没报错，也很好理解，因为行索引变了。
我再来试试如果列和行索引都改变呢。

>>>l4 = [[i+'_row',j+'_row'] for i,j in zip(list('acegik'),list('bdfhjl'))]
>>>l5 = [[i+'_col',j+'_col'] for i,j in zip(list('acegik'),list('bdfhjl'))]
>>>it_l4 = iter(l4)
>>>it_l5 = iter(l5)
>>>gb.apply(lambda x:pd.DataFrame([[0,1],[2,3]],columns=next(it_l5),index=next(it_l4)))

                          a_col  b_col  c_col  ...  j_col  k_col  l_col
Gender Test_Number                             ...                     
Female 1           a_row    0.0    1.0    NaN  ...    NaN    NaN    NaN
                   b_row    2.0    3.0    NaN  ...    NaN    NaN    NaN
       2           c_row    NaN    NaN    0.0  ...    NaN    NaN    NaN
                   d_row    NaN    NaN    2.0  ...    NaN    NaN    NaN
       3           e_row    NaN    NaN    NaN  ...    NaN    NaN    NaN
                   f_row    NaN    NaN    NaN  ...    NaN    NaN    NaN
Male   1           g_row    NaN    NaN    NaN  ...    NaN    NaN    NaN
                   h_row    NaN    NaN    NaN  ...    NaN    NaN    NaN
       2           i_row    NaN    NaN    NaN  ...    1.0    NaN    NaN
                   j_row    NaN    NaN    NaN  ...    3.0    NaN    NaN
       3           k_row    NaN    NaN    NaN  ...    NaN    0.0    1.0
                   l_row    NaN    NaN    NaN  ...    NaN    2.0    3.0
[12 rows x 12 columns]

原来都不报错啊，只有函数返回Series的情况下会报错。

这段话在告诉我们，能用别人写好的框架，就少自己造轮子~好在不过我也不是这种喜欢造轮子的人（哪里不对？）。

好家伙，于是这道题就让我自己造轮子了。

def my_cov(x):
    x = x.dropna()
    x1 = x['Height']
    x2 = x['Weight']
    xx = np.c_[x1,x2]
    xx = xx - xx.mean(axis=0)
    sample_size = xx.shape[0]
    cov = xx.T.dot(xx) / (sample_size)  # 分母sample_size-1等价于ddof=1
    # cov = np.cov(xx.T,ddof=0)
    df = pd.DataFrame(cov,index=['Height','Weight'],columns=['Height','Weight'])
    return df

>>>print(gb.apply(lambda x: my_cov(x)))
                              Height     Weight
Gender Test_Number                             
Female 1           Height  21.519456  21.094500
                   Weight  21.094500  26.514167
       2           Height  31.168056  29.753125
                   Weight  29.753125  35.016927
       3           Height  22.438395  19.645679
                   Weight  19.645679  22.913580
Male   1           Height  43.292384  46.834400
                   Weight  46.834400  59.360000
       2           Height  53.872747  36.100617
                   Weight  36.100617  35.765432
       3           Height  55.741600  67.216000
                   Weight  67.216000  85.360000
>>>gb.cov()
                              Height     Weight
Gender Test_Number                             
Female 1           Height  20.963600  21.452034
                   Weight  21.452034  26.438244
       2           Height  31.615680  30.386170
                   Weight  30.386170  34.568250
       3           Height  23.582395  20.801307
                   Weight  20.801307  23.228070
Male   1           Height  42.638234  48.785833
                   Weight  48.785833  67.669951
       2           Height  57.041732  38.224183
                   Weight  38.224183  37.869281
       3           Height  56.157667  84.020000
                   Weight  84.020000  89.904762

我调整了自由度，发现还是跟gb.cov()算出来的不一致‍

%timeit -n 100 gb.cov()
4.55 ms ± 99.7 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
%timeit -n 100 gb.apply(lambda x:my_cov(x))
9.49 ms ± 82.8 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

性能差得还是挺大的！

4.5、练习

4.5.1汽车数据集

>>>df = pd.read_csv('E:\\DataWhale组队学习\\data\\car.csv')
>>>country_count = df['Country'].value_counts()
>>>country_list = country_count[country_count > 2].index
>>>country_list
Index(['USA', 'Japan', 'Japan/USA', 'Korea'], dtype='object')
>>>df1 = df[df.Country.isin(country_list)]
>>>gb_country = df1.groupby('Country')[['Price']]
>>>cv = lambda x:x.std()/x.mean()
>>>gb_country.agg(['mean','size',('Cov',cv)])
                  Price               
                   mean size       Cov
Country                               
Japan      13938.052632   19  0.387429
Japan/USA  10067.571429    7  0.240040
Korea       7857.333333    3  0.243435
USA        12543.269231   26  0.203344

答案用了groupby对象的filter方法，把不符合条件的组给剔除了，但是题目不是说先剔除再分组嘛，以至于我就没有想到能用filter，有点死板哈~

>>>data_size = df.shape[0]
>>>tag = pd.Series(int(data_size/3)*['a']+(int(data_size/3*2)-int(data_size/3))*['b']+(data_size-int(data_size/3*2))*['c'])
>>>df2 = df.copy()
>>>df2.loc[:,'tag'] = tag  # 1
>>>gb_index = df2.groupby('tag')['Price']
>>>gb_index.mean()
tag
a     9069.95
b    13356.40
c    15420.65
Name: Price, dtype: float64

答案跟我的思路是差不多的，我这边1处是没有必要的，无需把tag列添加到df中，直接用tag这个Series甚至是列表都可以进行分组，pandas在这方面还是很灵活的。

>>>gb_type = df.groupby('Type')['Price','HP']
>>>tmp = gb_type.agg(['max','min'])
>>>tmp
         Price          HP     
           max    min  max  min
Type                           
Compact  18900   9483  142   95
Large    17257  14525  170  150
Medium   24760   9999  190  110
Small     9995   5866  113   63
Sporty   13945   9410  225   92
Van      15395  12267  150  106
>>>tmp.columns
MultiIndex([('Price', 'max'),
            ('Price', 'min'),
            (   'HP', 'max'),
            (   'HP', 'min')],
>>>tmp.columns.map(lambda x:'_'.join(x))
Index(['Price_max', 'Price_min', 'HP_max', 'HP_min'], dtype='object')
>>>tmp.columns = _
>>>tmp
         Price_max  Price_min  HP_max  HP_min
Type                                         
Compact      18900       9483     142      95
Large        17257      14525     170     150
Medium       24760       9999     190     110
Small         9995       5866     113      63
Sporty       13945       9410     225      92
Van          15395      12267     150     106

>>>minmaxmap = lambda x:(x-x.min())/(x.max()-x.min())
>>>gb_type.transform(minmaxmap).head()
     HP
0  1.00
1  0.54
2  0.00
3  0.58
4  0.80

>>>gb_type = df.groupby('Type')[['Disp.','HP']]
>>>gb_type.corr()
                  Disp.        HP
Type                             
Compact Disp.  1.000000  0.586087
        HP     0.586087  1.000000
Large   Disp.  1.000000 -0.242765
        HP    -0.242765  1.000000
Medium  Disp.  1.000000  0.370491
        HP     0.370491  1.000000
Small   Disp.  1.000000  0.603916
        HP     0.603916  1.000000
Sporty  Disp.  1.000000  0.871426
        HP     0.871426  1.000000
Van     Disp.  1.000000  0.819881
        HP     0.819881  1.000000
>>>gb_type.apply(lambda x:np.corrcoef(x['Disp.'].values,x['HP'].values)[0,1])
Type
Compact    0.586087
Large     -0.242765
Medium     0.370491
Small      0.603916
Sporty     0.871426
Van        0.819881
dtype: float64

注意题目要求的是相关系数，不是相关系数矩阵。从矩阵取数的时候，由于该矩阵的实对称性，位置用[0,1]或者[1,0]是等价的。

4.5.2、实现transform函数

这个题太难了，我直接看答案了，只配写点注释，哭了

class my_groupby:
    def __init__(self, my_df, group_cols):
        self.my_df = my_df.copy()
        self.groups = my_df[group_cols].drop_duplicates()
        if isinstance(self.groups, pd.Series):
            self.groups = self.groups.to_frame()
        self.group_cols = self.groups.columns.tolist()
        self.groups = {i: self.groups[i].values.tolist() for i in self.groups.columns}
        self.transform_col = None

    def __getitem__(self, col):  # 取值时自动调用
        self.pr_col = [col] if isinstance(col, str) else list(col)
        return self

    def transform(self, my_func):
        self.num = len(self.groups[self.group_cols[0]])
        L_order, L_value = np.array([]), np.array([])
        for i in range(self.num):  # i是组别
            group_df = self.my_df.reset_index().copy()  # 如果有人为设定的索引，恢复为默认索引
            for col in self.group_cols:  # 根据顺序迭代筛选出当前组
                group_df = group_df[group_df[col] == self.groups[col][i]]
            group_df = group_df[self.pr_col]  # 筛出要计算的列
            if group_df.shape[1] == 1:
                group_df = group_df.iloc[:, 0]  # 如果group_df只有一列，就设Series
            group_res = my_func(group_df)
            if not isinstance(group_res, pd.Series):
                group_res = pd.Series(group_res, index=group_df.index, name=group_df.name)
            L_order = np.r_[L_order, group_res.index]  # 拼接不同组索引
            L_value = np.r_[L_value, group_res.values]
        self.res = pd.Series(pd.Series(L_value, index=L_order).sort_index().values,
                             index=self.my_df.reset_index().index, name=my_func.__name__)
        return self.res

你可能感兴趣的:(#,pandas,&,numpy,&,matplotlib,python,pandas,数据分析)

python 捕获异常 weixin_30730151 python 数据库
异常：由于代码的逻辑或者语法错误导致的程序中断。在学习Python的过程当中，大家一定要区分清楚异常和布尔值False布尔值的False只是一个值，通常代表的是一个条件的不成立，常用于逻辑判断比如：1num=22print(num>3)3ifnum>3:4print("num>3")异常指的是由于代码的逻辑或者语法错误导致的程序中断比如：1num=222+"2"了解了上面的逻辑之后，我们来看看大家
python爬虫Redis数据库 Æther_9 Python爬虫零基础入门数据库 python 爬虫
Redis数据库Redis简介Redis是完全开源免费的，遵守BSD协议，是一个高性能的key-value数据库。Redis与其他key-value缓存产品有以下三个特点：Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据结构的存储。redis：半持
为什么后端路由需要携带 /api 作为前缀？前端如何设置基础路径 /api？ z2637305611 前端
一、为什么后端路由需要携带/api作为前缀？1.区分API端点与其他路由在Web应用程序中，后端不仅需要处理API请求，还可能需要处理静态资源（如HTML、CSS、JS文件）或其他服务（如WebSocket）。通过为API路由添加/api前缀，可以清晰地将其与其他请求区分开来，避免路由冲突。例如：API请求：https://example.com/api/users静态资源请求：https://e
python sympy的安装与使用范哥来了 python 开发语言
为了安装和使用sympy，您可以按照以下步骤进行操作：安装SymPy首先，您需要确保已经安装了Python。接着，可以通过pip来安装sympy。打开命令行工具（如终端或命令提示符），然后输入以下命令来安装sympy：pipinstallsympy如果您使用的是特定的Python环境，请确保激活该环境后再执行上述安装命令。使用SymPy安装完成后，您就可以在Python项目中导入并使用sympy了
facefusion AI换脸软件的本地部署过程记录 kfrealme 人工智能
tags:AI驾驭facefusion我的环境Win10+N卡安装步骤安装Python3.10方案手动安装Python官网下载安装包安装PythonReleasesforWindows|Python.org我的蓝奏云分享https://www.lanzoub.com/i9La81s1o5gb密码:h17b命令行安装1以管理员身份打开「命令提示符」2删除Microsoft官方源wingetsourc
Python中手动实现进制转换棉猴 Python 进制转换十进制二进制十六进制八进制
在《Python中进制转换》中提到可以使用bin()、oct()、int()和hex()等函数编程实现数字间的进制转换。除了编程实现进制转换外，还可以通过手动实现。1手动实现二进制数转换为十进制可以通过“填空法”手动将二进制数转换为十进制数，例如将二进制数“0b1101”转换为十进制数的方法如图1所示。“填空法”可以归纳为四个步骤：首先“画空格”，接下来“写次方”，然后“填数字”，最后“列算式”。
Python中的进制转换棉猴 #Python数据类型 Python 进制转化二进制八进制十六进制 bin oct
常用的进制有二进制、八进制、十进制和十六进制。1四种进制简介最常用的十进制基本原理是“逢十进一”，因此十进制包括的数字是“0-9”;同理，二进制的基本原理是“逢二进一”，包含的数字是“0-1”;八进制是“逢八进一”，包含的数字是“0-7”；十六进制是“逢十六进一”，包含的数字是“0-15”，其中用“A、B、C、D、E、F”分别表示“10-15”这五个数。2四种进制数的表示对于一个数字“11”,可能
小菜鸟的Python笔记001：将Word文档中数据汇总到Excel表格蜉蝣2805 小菜鸟的Python笔记 python 数据分析
将Word文档中数据汇总到Excel表格前言一、应用场景二、程序思路及准备工作思路如下：准备工作：三、程序代码1、主程序2、获取Word文档列表3、提取文档内数据4、导入到Excel表格四、遇到的问题1、错误AttributeError:word.Application.Quit2、word文档中复选框的识别总结前言我并非一个专业的程序员，只是一个普通的编程爱好者、一只小菜鸟。得益于网络上各路大神
31天Python入门——第9天:再学函数安然无虞 Python手把手教程 python 开发语言后端 pyqt
你好，我是安然无虞。文章目录再学函数1.变量在函数中的作用域2.函数的参数传递.补充学习:不定长参数*args和**kwargs3.值传递和引用传递补充学习:把函数作为参数传递4.匿名函数5.python中内置的常用函数zip()map()filter()all()any()6.函数练习再学函数1.变量在函数中的作用域变量的作用域是指变量的作用范围.局部变量:在函数体或局部范围内声明的变量称为局部
Scrapy 入门教程 zru_9602 爬虫 scrapy
Scrapy入门教程Scrapy是一个用于爬取网站数据的Python框架，功能强大且易于扩展。本文将介绍Scrapy的基本概念、安装方法、使用示例，并展示如何编写一个基本的爬虫。1.什么是Scrapy？Scrapy是一个开源的、用于爬取网站数据的框架，主要特点包括：高效、异步的爬取机制强大的XPath和CSS选择器解析能力内置中间件，支持代理、去重等功能易于扩展，适用于各种爬虫需求2.安装Scra
python批量替换word内容_python win32com 库批量替换word文件内容 weixin_39657300
前言win32com模块主要为Python提供调用windows底层组件对word、Excel、PPT等进行操作的功能，只能在Windows环境下使用，并且需要安装office相关软件才行(WPS也行)。实例代码下方代码实现批量替换当前路径下word文档的指定文本内容。importwin32com.clientimportosimporttimedefupdate_replace(file):wo
python strip() 编号1993 python python
参考：http://www.jb51.net/article/37287.htm###############################s.strip(del)：在字符串s的开头结尾处，删除del中存在的字符s.lstrip(del)：在字符串s的开头处，删除del中存在的字符s.rstrip(del)：在字符串s的结尾处，删除del中存在的字符s='asdf'#前后均有空格s.strip(
Python调用WPS进行文档转换PDF及PDF转图片 IT孔乙己 python 开发语言后端
这里是利用WPS进行转换，要先安装WPS。安装依赖pipinstallpypiwin32代码#!/usr/bin/python#-*-coding:UTF-8-*-importosimportwin32com.clientdefConvertByWps(sourceFile,targetFile):ifnotos.path.exists(sourceFile):print(sourceFile+"
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
Python strip() 方法详解：用途、应用场景及示例解析（中英双语）阿正的梦工坊 Python python 开发语言
Pythonstrip()方法详解：用途、应用场景及示例解析在Python处理字符串时，经常会遇到字符串前后存在多余的空格或特殊字符的问题。strip()方法就是Python提供的一个强大工具，专门用于去除字符串两端的指定字符。本文将详细介绍strip()的用法、适用场景，并通过多个示例解析其应用。1.strip()方法简介strip()方法用于去除字符串两端的指定字符（默认为空格和换行符）。它的
使用Python连接SqlServer 带带琪宝工作日记 python sqlserver 开发语言
目录cursor()execute('sqlstr')fetchall()、fetchone()cursor.description属性close()转化为dataframe进行分析使用的是pymssql库，这个库的详细用法参照博客（博客里也有官方文档，英语好的可以直接看）：pythonpymssql—pymssql模块使用指南_夏日白云的博客-CSDN博客我目前的需求只是使用Python连接数据
Python连接SQL SEVER数据库全流程 m0_74823131 数据库 python sql
背景介绍在数据分析领域，经常需要从数据库中获取数据进行分析和处理。而SQLServer是一种常用的关系型数据库管理系统，因此学习如何使用Python连接SQLServer数据库并获取数据是非常有用的。以下是Python使用pymssql连接SQLServer数据库的全流程：安装pymssql库本地账号设置脚本连接数据导入函数实现一、安装pymssqlpymssql是Python连接SQLServe
根据文件名称查询文件所在位置姚不倒 linux 运维数据库
在Linux中，根据文件名称查询文件所在位置主要通过命令行工具实现，以下是几种常用方法：---###**1.使用`find`命令（最灵活）**`find`命令可以递归搜索指定目录下的文件，支持按名称、类型、时间等条件过滤。####**基础语法**```bashfind[搜索路径]-name"文件名"```####**示例**-全局搜索名为`example.txt`的文件：```bashfind/-
【Pandas】pandas Series plot.box liuweidong0802 Pandas Series pandas 信息可视化数据分析
Pandas2.2SeriesPlotting方法描述Series.plot([kind,ax,figsize,…])用于绘制Series对象的数据可视化图表Series.plot.area([x,y,stacked])用于绘制堆叠面积图（StackedAreaPlot）Series.plot.bar([x,y])用于绘制垂直条形图（VerticalBarPlot）Series.plot.barh
力扣 160 - Intersection of Two Linked Lists. (相交链表) Python双指针小杨快没头发了 Leetcode 刷题
力扣160-IntersectionofTwoLinkedLists.(相交链表)Python双指针原题地址：https://leetcode.com/problems/intersection-of-two-linked-lists/Giventheheadsoftwosinglylinked-listsheadAandheadB,returnthenodeatwhichthetwolistsi
LeetCode 160 Intersection of Two Linked Lists（链表） nudt_oys 数据结构 LeetCode
Writeaprogramtofindthenodeatwhichtheintersectionoftwosinglylinkedlistsbegins.Forexample,thefollowingtwolinkedlists:A:a1→a2↘c1→c2→c3↗B:b1→b2→b3begintointersectatnodec1.Notes:Ifthetwolinkedlistshavenoin
Opencv之计算机视觉一闭月之泪舞计算机视觉计算机视觉 opencv python
一、环境准备使用opencv库来实现简单的计算机视觉。需要安装两个库：opencv-python和opencv-contrib-python，版本可以自行选择，注意不同版本的opencv中的某些函数名和用法可能不同pipinstallopencv-python==3.4.18.65-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallopencv-
[LeetCode]--160. Intersection of Two Linked Lists 杜鲁门 LeetCode LeetCode算法分析 leetcode 链表相同尾部算法链表遍历算法算法遍历
Writeaprogramtofindthenodeatwhichtheintersectionoftwosinglylinkedlistsbegins.Forexample,thefollowingtwolinkedlists:A:a1→a2↘c1→c2→c3↗B:b1→b2→b3begintointersectatnodec1.Notes:Ifthetwolinkedlistshavenoin
VSCode python 遇到的问题：vscode can't open file '': [Errno 2] No such file or dire... weixin_33984032 python 开发工具 json
代码很简单，就两行：importpandasaspdimportnetCDF4asncdataset=nc.Dataset('20150101.nc')环境：在VSCode中左下角把原环境的Python3.6.532-bit切换为Anaconda中的Python3.6.564-bit('base':conda)过程中有两种错误：（忘记截图了，都是历史记录中的google网页搜索栏找到的搜索记录）1
【测试工程师必备！】VS Code好用插件FastPytestRunner 花小田 pytest vscode
你是否还在为PythonTestExplorerforVisualStudioCode以下痛点焦头烂额？•测试扫描慢到怀疑人生，每次启动都要等待5分钟•调试时总是找不到断点入口，配置项复杂到崩溃•传统测试工具无法满足大规模测试需求•每次切换项目都要重新配置测试环境FastPytestRunner——专为测试工程师量身打造的极速测试利器来了！️实战进阶技巧：✅配置黄金法则：{"pytestRunne
如何用 Python 实现树结构不辉放弃 python 开发语言
一、树结构基础认知1.1树的四大特征层级关系：父子节点的从属关系唯一根节点：访问起点无循环：从根到叶的路径不形成环N叉分支：每个节点可有多个子节点1.2核心组件解析classTreeNode:def__init__(self,data):self.data=data#节点存储的数据self.children=[]#子节点容器（多叉树特性）defadd_child(self,node):self.c
Python 用户账户(让用户拥有自己的数据) 钢铁男儿 Python 从入门到精通 python 数据库 sqlite
Web应用程序的核心是让任何用户都能够注册账户并能够使用它，不管用户身处何方。在本章中，你将创建一些表单，让用户能够添加主题和条目，以及编辑既有的条目。你还将学习Django如何防范对基于表单的网页发起的常见攻击，这让你无需花太多时间考虑确保应用程序安全的问题。然后，我们将实现一个用户身份验证系统。你将创建一个注册页面，供用户创建账户，并让有些页面只能供已登录的用户访问。接下来，我们将修改一些视图
Python 用户账户(让用户能够输入数据) 钢铁男儿 Python 从入门到精通 python 数据库 sqlite
Web应用程序的核心是让任何用户都能够注册账户并能够使用它，不管用户身处何方。在本章中，你将创建一些表单，让用户能够添加主题和条目，以及编辑既有的条目。你还将学习Django如何防范对基于表单的网页发起的常见攻击，这让你无需花太多时间考虑确保应用程序安全的问题。然后，我们将实现一个用户身份验证系统。你将创建一个注册页面，供用户创建账户，并让有些页面只能供已登录的用户访问。接下来，我们将修改一些视图
安卓编译安装python_一文了解如何在安卓系统上安装Pydroid 3并进行编码 weixin_39916681 安卓编译安装python
由于Pydroid3集成开发环境(IDE)，因此可以用Python进行可移植的编码。Pydroid是Python3的极简解释器，可让您执行较小的项目并在Android设备上进行最少的编码。如果您还想在没有PC的任何地方学习Python编程，同时在Android上为Python复制PC平台，那么Pydroid3是一个不错的应用程序。无论您是Python编程的新手还是专家，让我们看看使用Pydroid
python为什么需要文本编辑器-推荐几款高效的Python文本编辑器| 高效的文本编辑器的特点是什么... weixin_39991305
我们都知道程序员花费大量的时间在编写、阅读和编辑代码上，因此一定要使用高效的文本编辑器才能够提高并很好的完成工作的效率和保证工作的质量。什么是高效的文本编辑器呢？除了自己用的得心应手外，小编认为还应该包含以下几个特点：·突出代码的结构，让你在编写代码时就能够发现常见的bug；·包含自动缩进功能；·显示代码长度的标志；·用于执行常见操作的快捷键；如果你是编程新手小白，小u非常建议你使用具备上述功能而
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后