liying_tt

Day4-Python分组(DataWhale)

分组

import numpy as np
import pandas as pd

一、分组模式及其对象

1. 分组的一般模式

分组的三个要素：分组依据、数据来源、操作及其返回结果

一般模式：df.group(分组依据)[数据来源].使用操作

df = pd.read_csv('data/learn_pandas.csv')
df.groupby('Gender')['Height'].mean()
#按照性别统计身高的平均值

Gender
Female    159.19697
Male      173.62549
Name: Height, dtype: float64

df.head(1)

	School	Grade	Name	Gender	Height	Weight	Transfer	Test_Number	Test_Date	Time_Record
0	Shanghai Jiao Tong University	Freshman	Gaopeng Yang	Female	158.9	46.0	N	1	2019/10/5	0:04:34

2. 分组依据的本质

1.多维度分组，只需要在groupby中传入相应列名的列表

df.groupby(['School','Gender'])['Height'].mean()

School                         Gender
Fudan University               Female    158.776923
                               Male      174.212500
Peking University              Female    158.666667
                               Male      172.030000
Shanghai Jiao Tong University  Female    159.122500
                               Male      176.760000
Tsinghua University            Female    159.753333
                               Male      171.638889
Name: Height, dtype: float64

2.复杂逻辑分组

先写出分组条件

condition = df.Weight > df.Weight.mean()

df.groupby(condition)['Height'].mean()

Weight
False    159.034646
True     172.705357
Name: Height, dtype: float64

3. 练一练1

根据上下四分数分割，将体重分为high、normal、low三组，统计身高的均值

思路：首先尝试将体重分为三类，使用了if函数，但是发现无法将这个条件与Weight序列结合起来，因为apply具有迭代的作用，尝试使用apply,先将这个条件定义为一个函数。在这个过程中我在定义函数的时候将return写成了print，导致我的返回值出现了问题，这一点需要注意。

data = df.copy()
def my_condition(x):
    if x <= df.Weight.quantile(0.25):
        return('low')
    elif x>= df.Weight.quantile(0.75):
        return('high')
    else:
        return('normal')
new = data.Weight.apply(my_condition)

data.groupby(new)['Height'].mean()

Weight
high      174.511364
low       154.119149
normal    162.465217
Name: Height, dtype: float64

3.随机传入字母序列

item = np.random.choice(list('abc'),df.shape[0])
item.shape

(200,)

df.shape

(200, 10)

df.groupby(item)['Height'].mean()

a    163.770667
b    162.486885
c    163.285106
Name: Height, dtype: float64

此处我的理解是，我们在做groupby的时候只需要保持与原数据框的行数一致的序列，在做groupby的时候会将这个条件与原数据框自动按顺序拼接。

df.groupby([condition,item])['Weight'].mean()

Weight   
False   a    47.541667
        b    46.558140
        c    48.000000
True    a    69.500000
        b    70.571429
        c    74.928571
Name: Weight, dtype: float64

由此可以看出，之前传入列名只是一种简便的记号，事实上等价于传入的是一个或多个列，最后分组的依据来自于数据来源组合的unique值

4.通过drop_duplicates了解具体的组类别

df[['School','Gender']].drop_duplicates()

	School	Gender
0	Shanghai Jiao Tong University	Female
1	Peking University	Male
2	Shanghai Jiao Tong University	Male
3	Fudan University	Female
4	Fudan University	Male
5	Tsinghua University	Female
9	Peking University	Female
16	Tsinghua University	Male

df.groupby([df['School'],df['Gender']])['Height'].mean()

School                         Gender
Fudan University               Female    158.776923
                               Male      174.212500
Peking University              Female    158.666667
                               Male      172.030000
Shanghai Jiao Tong University  Female    159.122500
                               Male      176.760000
Tsinghua University            Female    159.753333
                               Male      171.638889
Name: Height, dtype: float64

4. groupby对象

gb = df.groupby(['School','Grade'])
gb

1.通过ngroups属性，得到分组个数

gb.ngroups

2.通过groups属性，返回组名映射到组索引列表的字典

会返回分组的组别及其包含的值

res = gb.groups
res.keys()

dict_keys([('Fudan University', 'Freshman'), ('Fudan University', 'Junior'), ('Fudan University', 'Senior'), ('Fudan University', 'Sophomore'), ('Peking University', 'Freshman'), ('Peking University', 'Junior'), ('Peking University', 'Senior'), ('Peking University', 'Sophomore'), ('Shanghai Jiao Tong University', 'Freshman'), ('Shanghai Jiao Tong University', 'Junior'), ('Shanghai Jiao Tong University', 'Senior'), ('Shanghai Jiao Tong University', 'Sophomore'), ('Tsinghua University', 'Freshman'), ('Tsinghua University', 'Junior'), ('Tsinghua University', 'Senior'), ('Tsinghua University', 'Sophomore')])

5. 练一练2

上一小节介绍了可以通过 drop_duplicates 得到具体的组类别，现请用 groups 属性完成类似的功能。

思路：groups可以获取分组的组合，然后获取到key值，将key值转换为数据框，但是index的显示与drop_duplicates的不一致

df_demo = df.groupby(['School','Gender'])
res = df_demo.groups
pd.DataFrame(res.keys(),columns=['School','Gender'])

	School	Gender
0	Fudan University	Female
1	Fudan University	Male
2	Peking University	Female
3	Peking University	Male
4	Shanghai Jiao Tong University	Female
5	Shanghai Jiao Tong University	Male
6	Tsinghua University	Female
7	Tsinghua University	Male

3.size在DataFrame的属性时，返回的是表长乘以表宽的大小，但在groupby对象上表示统计每个组的元素个数

gb.size()

School                         Grade    
Fudan University               Freshman      9
                               Junior       12
                               Senior       11
                               Sophomore     8
Peking University              Freshman     13
                               Junior        8
                               Senior        8
                               Sophomore     5
Shanghai Jiao Tong University  Freshman     13
                               Junior       17
                               Senior       22
                               Sophomore     5
Tsinghua University            Freshman     17
                               Junior       22
                               Senior       14
                               Sophomore    16
dtype: int64

4.get_group方法获取所在组对应的行，但是必须知道组的具体名字

gb.get_group(('Fudan University','Freshman')).iloc[:3,:3]

	School	Grade	Name
15	Fudan University	Freshman	Changqiang Yang
28	Fudan University	Freshman	Gaoqiang Qin
63	Fudan University	Freshman	Gaofeng Zhao

6. 分组的三大操作

聚合

1.依据性别分组，统计全国人口寿命的平均值

返回一个标量值，可以是平均值、中位数、组容量 size

变换

2.依据季节分组，对每一个季节的温度进行组内标准化

做了原序列的标准化处理，也就是说每组返回的是一个 Series 类型

过滤

3.依据班级分组，筛选出组内数学分数的平均值超过80分的班级

既不是标量也不是序列，返回的整个组所在行的本身，即返回了 DataFrame 类型

二、聚合函数

聚合函数是逐列处理的，而不能够多列数据同时处理

1. 内置聚合函数

max/min/mean/median/count/idxmax/idxmin/nunique/quantile/sum/std/var/size

all/any

mad:返回所请求轴的值的平均绝对偏差,每个数据点与平均值之间的平均距离。

skew(偏度)

sem:计算输入数据平均值的标准误差

prod: 非NA值的元素的乘积

gb = df.groupby('Gender')['Height']
gb.nunique()

Gender
Female    99
Male      47
Name: Height, dtype: int64

这些聚合函数当传入的数据来源包含多个列时，将按照列进行迭代计算

gb = df.groupby('Gender')[['Height','Weight']]
gb.max()

	Height	Weight
Gender
Female	170.2	63.0
Male	193.9	89.0

2. agg方法

解决以下问题：

(1)无法同时使用多个函数

(2)无法对特定的列使用特定的聚合函数

(3)无法使用自定义的聚合函数

(4)无法直接对结果的列名在聚合前进行自定义命名

1.使用多个函数

用列表的形式把内置聚合函数对应的字符串传入

gb.agg(['sum','idxmax','skew'])

	Height			Weight
	sum	idxmax	skew	sum	idxmax	skew
Gender
Female	21014.0	28	-0.219253	6469.0	28	-0.268482
Male	8854.9	193	0.437535	3929.0	2	-0.332393

列索引为多级索引，第一层为数据源，第二层为使用的聚合方法

2.对特定的列使用特定的聚合函数

通过构造字典传入 agg 中实现，其中字典以列名为键，以聚合字符串或字符串列表为值

gb.agg({
     'Height':['mean','max'],'Weight':'count'})

	Height		Weight
	mean	max	count
Gender
Female	159.19697	170.2	135
Male	173.62549	193.9	54

3. 练一练3

请使用【b】中的传入字典的方法完成【a】中等价的聚合任务。

gb.agg({
     'Height':['sum', 'idxmax', 'skew'],'Weight':['sum', 'idxmax', 'skew']})

	Height			Weight
	sum	idxmax	skew	sum	idxmax	skew
Gender
Female	21014.0	28	-0.219253	6469.0	28	-0.268482
Male	8854.9	193	0.437535	3929.0	2	-0.332393

4. 使用自定义函数

传入函数的参数是之前数据源中的列，逐列进行计算

gb.agg(lambda x: x.mean()-x.min())

	Height	Weight
Gender
Female	13.79697	13.918519
Male	17.92549	21.759259

5. 练一练4

在 groupby 对象中可以使用 describe 方法进行统计信息汇总，请同时使用多个聚合函数，完成与该方法相同的功能

#使用describe方法
gb.describe()

	Height								Weight
	count	mean	std	min	25%	50%	75%	max	count	mean	std	min	25%	50%	75%	max
Gender
Female	132.0	159.19697	5.053982	145.4	155.675	159.6	162.825	170.2	135.0	47.918519	5.405983	34.0	44.0	48.0	52.00	63.0
Male	51.0	173.62549	7.048485	155.7	168.900	173.4	177.150	193.9	54.0	72.759259	7.772557	51.0	69.0	73.0	78.75	89.0

其中包含有count、mean、std、min、quantile(0.25)、quantile(0.5)、quantile(0.75)、max，直接使用使用多个函数的方法agg

25%,50%,75%没有找到直接可以使用quantile的方法，所以使用了函数定义,之后发现可以直接使用lambda

def my_quantile_1(x):
    return x.quantile(0.25)
def my_quantile_2(x):
    return x.quantile(0.5)
def my_quantile_3(x):
    return x.quantile(0.75)

gb.agg(['count','mean','std','min',('25%',lambda x:x.quantile(0.25)),('50%',lambda x:x.quantile(0.5)),('75%',lambda x:x.quantile(0.75)),'max'])

	Height								Weight
	count	mean	std	min	25%	50%	75%	max	count	mean	std	min	25%	50%	75%	max
Gender
Female	132	159.19697	5.053982	145.4	155.675	159.6	162.825	170.2	135	47.918519	5.405983	34.0	44.0	48.0	52.00	63.0
Male	51	173.62549	7.048485	155.7	168.900	173.4	177.150	193.9	54	72.759259	7.772557	51.0	69.0	73.0	78.75	89.0

6. 聚合结果重命名

对聚合结果的列名进行重命名，只需要将上述函数的位置改写成元组，元组的第一个元素为新的名字，第二个位置为原来的函数，包括聚合字符串和自定义函数【针对每一列需要定义一个新名字时针对它使用元组(新名称,函数)】

gb.agg([('range', lambda x: x.max()-x.min()), ('my_sum', 'sum')])

	Height		Weight
	range	my_sum	range	my_sum
Gender
Female	24.8	21014.0	29.0	6469.0
Male	38.2	8854.9	38.0	3929.0

gb.agg({
     'Height':[('my_func',my_func),'sum'],
       'Weight': lambda x:x.max()})

	Height		Weight
	my_func	sum
Gender
Female	159.6	21014.0	63.0
Male	173.4	8854.9	89.0

使用对一个或者多个列使用单个聚合的时候，重命名需要加方括号，否则就不知道是新的名字还是手误输错的内置函数字符串【不加大括号意味着对所有的列进行修改】

gb.agg([('my_sum', 'sum')])

	Height	Weight
	my_sum	my_sum
Gender
Female	21014.0	6469.0
Male	8854.9	3929.0

gb.agg({
     'Height': [('my_func', my_func), 'sum'],'Weight': [('range', lambda x:x.max())]})

	Height		Weight
	my_func	sum	range
Gender
Female	159.6	21014.0	63.0
Male	173.4	8854.9	89.0

四、变换和过滤

1. 变换函数与transform方法

变换函数的返回值为同长度的序列，最常用的内置变换函数是累计函数：

cumcount:

cumsum:

cumprod:

cummax:

cummin:

使用方式和聚合函数类似，只不过完成的是组内累计操作

gb = df.groupby('Gender')[['Height','Weight']]

gb.cummax().head()

	Height	Weight
0	158.9	46.0
1	166.5	70.0
2	188.9	89.0
3	NaN	46.0
4	188.9	89.0

2. 练一练5

在 groupby 对象中， rank 方法也是一个实用的变换函数，请查阅它的功能并给出一个使用的例子

groupby.rank:对DataFrame某列的数据进行聚类然后对其它列的属于同类数据进行数值大小排序

method: ‘average’(在相等分组中，为各个值分配平均排名)；‘min’(使用整个分组的最小排名)；‘max’；‘first’(按值在原始数据中的出现顺序分配排名)

思路：在将rank后的结果存到原DataFrame的时候，出现了错误，理论上应该可以直接赋值。之后发现是我在定义demo的时候没有将它转换为DataFrame，之后再使用数据框的loc将排序的结果存储为新的列

demo = pd.DataFrame(df[['Gender','Height','Weight']])
demo.groupby(['Gender']).rank(method='first',ascending=False).head()
demo.loc[:,'rank_H'] = demo.groupby(['Gender'])['Height'].rank(method='min',ascending=False)
demo.loc[:,'rank_W'] = demo.groupby(['Gender'])['Weight'].rank(method='max',ascending=False)
demo.head()

	Gender	Height	Weight	rank_H	rank_W
0	Female	158.9	46.0	74.0	91.0
1	Male	166.5	70.0	47.0	38.0
2	Male	188.9	89.0	2.0	1.0
3	Female	NaN	41.0	NaN	123.0
4	Male	174.0	74.0	25.0	25.0

3. transform: 自定义变换

被调用的自定义函数，其传入值为数据源的序列，与 agg 的传入类型是一致的，其最后的返回结果是行列索引与数据源一致的 DataFrame

例：对身高和体重进行分组标准化，即减去组均值后除以组的标准差：

gb.transform(lambda x : (x-x.mean())/x.std()).head()

	Height	Weight
0	-0.058760	-0.354888
1	-1.010925	-0.355000
2	2.167063	2.089498
3	NaN	-1.279789
4	0.053133	0.159631

4. 练一练6

对于 transform 方法无法像 agg 一样，通过传入字典来对指定列使用特定的变换，如果需要在一次 transform 的调用中实现这种功能，请给出解决方案。

思路：我考虑的是定义一个函数，将数据的列做不同的处理，然后再用transform去调用函数，但是在用transform调用函数的时候出现了错误

gb = pd.DataFrame(df[['Height','Weight']])
def my_func(x):
    x.iloc[:,:1] = x.iloc[:,:1].cumsum()
    x.iloc[:,1:2] = x.iloc[:,1:2].cumcount()
    return x

5. transform返回标量

transform 只能返回同长度的序列，但事实上还可以返回一个标量，这会使得结果被广播到其所在的整个组

思考：在使用的时候，我想测试一下不使用groupby是否成功，最后还想会报错：“transforms cannot produce aggregated results”，也就是我们在使用transform之前需要时聚合的结果，因为transform不产生聚合结果

例：构造两列新特征来分别表示样本所在性别组的身高均值和体重均值

gb1 = df.groupby('Gender')[['Height','Weight']]
gb2 = pd.DataFrame(df[['Height','Weight']])

gb1.transform('mean').head()

	Height	Weight
0	159.19697	47.918519
1	173.62549	72.759259
2	173.62549	72.759259
3	159.19697	47.918519
4	173.62549	72.759259

gb2.transform('mean').head()  ##报错

6. 组索引与过滤

(1).过滤在分组中是对于组的过滤，而索引是对于行的过滤

(2).组过滤作为行过滤的推广,指的是如果对一个组的全体所在行进行统计的结果返回 True 则会被保留， False 则该组会被过滤，最后把所有未被过滤的组其对应的所在行拼接起来作为 DataFrame 返回

1.filter:进行组的筛选

定义函数的输入参数为数据源构成的 DataFrame 本身，所有表方法和属性都可以在自定义函数中相应地使用，同时只需保证自定义函数的返回为布尔值即可

例：在原表中通过过滤得到所有容量大于100的组

gb = df.groupby('Gender')[['Height','Weight']]
gb.filter(lambda x:x.shape[0]>100).head()

	Height	Weight
0	158.9	46.0
3	NaN	41.0
5	158.0	51.0
6	162.5	52.0
7	161.9	50.0

7. 练一练7

从概念上说，索引功能是组过滤功能的子集，请使用 filter 函数完成 loc[.] 的功能，这里假设 ” . “是元素列表

condition = df.Gender == 'Female'
df.groupby(condition).filter(lambda x :x.name).head(2)

	School	Grade	Name	Gender	Height	Weight	Transfer	Test_Number	Test_Date	Time_Record
0	Shanghai Jiao Tong University	Freshman	Gaopeng Yang	Female	158.9	46.0	N	1	2019/10/5	0:04:34
3	Fudan University	Sophomore	Xiaojuan Sun	Female	NaN	41.0	N	2	2020/1/3	0:04:08

五、跨列分组

1. apply

解决多列数据同时处理并且返回值为标量的问题

apply 的自定义函数传入参数与 filter 完全一致，只不过后者只允许返回布尔值

def BMI(x):
    Heigth = x['Height']/100
    Weight = x['Weight']
    BMI_value = Weight/Heigth**2
    return BMI_value.mean()

gb.apply(BMI)

Gender
Female    18.860930
Male      24.318654
dtype: float64

apply 方法还可以返回一维 Series 和二维 DataFrame ，但它们产生的数据框维数和多级索引的层数应当如何变化？

1.标量情况

结果得到的是Series，索引与agg的结果一致

gb = df.groupby(['Gender','Test_Number'])[['Height','Weight']]
gb.apply(lambda x: 0)

Gender  Test_Number
Female  1              0
        2              0
        3              0
Male    1              0
        2              0
        3              0
dtype: int64

gb.apply(lambda x:[0,0]) # 虽然是列表，但是作为返回值仍然看作标量

Gender  Test_Number
Female  1              [0, 0]
        2              [0, 0]
        3              [0, 0]
Male    1              [0, 0]
        2              [0, 0]
        3              [0, 0]
dtype: object

2.Series情况

得到的是 DataFrame ，行索引与标量情况一致，列索引为 Series 的索引

gb.apply(lambda x : pd.Series([0,0],index=['a','b']))

		a	b
Gender	Test_Number
Female	1	0	0
	2	0	0
	3	0	0
Male	1	0	0
	2	0	0
	3	0	0

3.DataFrame情况

得到的是 DataFrame ，行索引最内层在每个组原先 agg 的结果索引上，再加一层返回的 DataFrame 行索引，同时分组结果 DataFrame 的列索引和返回的 DataFrame 列索引一致

gb.apply(lambda x: pd.DataFrame(np.ones((2,2)),
                                index = ['a','b'],
                                columns=pd.Index([('w','x'),('y','z')])))

			w	y
			x	z
Gender	Test_Number
Female	1	a	1.0	1.0
	1	b	1.0	1.0
	2	a	1.0	1.0
	2	b	1.0	1.0
	3	a	1.0	1.0
	3	b	1.0	1.0
Male	1	a	1.0	1.0
	1	b	1.0	1.0
	2	a	1.0	1.0
	2	b	1.0	1.0
	3	a	1.0	1.0
	3	b	1.0	1.0

注意：apply 函数的灵活性是以牺牲一定性能为代价换得的，除非需要使用跨列处理的分组处理，否则应当使用其他专门设计的 groupby 对象方法，同时，在使用聚合函数和变换函数时，也应当优先使用内置函数

2. 练一练8

在 groupby 对象中还定义了 cov 和 corr 函数，从概念上说也属于跨列的分组处理。请利用之前定义的 gb 对象，使用apply函数实现与 gb.cov() 同样的功能并比较它们的性能

思路：cov是求协方差，首先需要了解cov的公式。Cov(X,Y)=E(XY)-E(X)E(Y)

gb = df.groupby('Gender')[['Height','Weight']]

gb.cov()

		Height	Weight
Gender
Female	Height	25.542739	24.838146
Female	Weight	24.838146	29.224655
Male	Height	49.681137	47.803901
Male	Weight	47.803901	60.412648

#参考
gb.apply(lambda x:pd.DataFrame([[x[i].cov(x[j]) for j in x.columns] for i in x.columns],index=x.columns,columns=x.columns))

		Height	Weight
Gender
Female	Height	25.542739	24.838146
Female	Weight	24.838146	29.224655
Male	Height	49.681137	47.803901
Male	Weight	47.803901	60.412648

六、练习

1. 汽车数据集

Brand, Disp., HP 分别代表汽车品牌、发动机蓄量、发动机输出

df = pd.read_csv('data/car.csv')
df.head(3)

	Brand	Price	Country	Reliability	Mileage	Type	Weight	Disp.	HP
0	Eagle Summit 4	8895	USA	4.0	33	Small	2560	97	113
1	Ford Escort 4	7402	USA	2.0	33	Small	2345	114	90
2	Ford Festiva 4	6319	Korea	4.0	37	Small	1845	81	63

1.先过滤出所属 Country 数超过2个的汽车，即若该汽车的 Country 在总体数据集中出现次数不超过2则剔除，再按 Country 分组计算价格均值、价格变异系数、该 Country 的汽车数量，其中变异系数的计算方法是标准差除以均值，并在结果中把变异系数重命名为 CoV 。

思路：首先找到Country出现的次数大于2的国家，然后再通过query找到Country的值，注意使用query时，一定要加@然后使用外部参数;因为需要对特定的列进行特定的运算，所以我们使用agg

df_1= pd.DataFrame(df.groupby('Country')['Country'].size()>2)
value = list(df_1.query('Country == True').index)
df_1t = df.query('Country in @value')
df_1t.head(2)

	Brand	Price	Country	Reliability	Mileage	Type	Weight	Disp.	HP
0	Eagle Summit 4	8895	USA	4.0	33	Small	2560	97	113
1	Ford Escort 4	7402	USA	2.0	33	Small	2345	114	90

def my_func_var(x):
    x = x.std()/x.mean()
    return x

df_2t = df_1t.groupby('Country')[['Price','Brand']]
df_2t.agg({
     'Price':['mean',('Cov',my_func_var)], #此处也可以直接使用lambda x :x.std()/x.mean()
          'Brand': 'count'})

	Price		Brand
	mean	Cov	count
Country
Japan	13938.052632	0.387429	19
Japan/USA	10067.571429	0.240040	7
Korea	7857.333333	0.243435	3
USA	12543.269231	0.203344	26

2.按照表中位置的前三分之一、中间三分之一和后三分之一分组，统计 Price 的均值。

思路：先通过quantile找到对应位置的值，接着使用函数将组别分类好，其中在找到索引值之后将索引值作为一列添加进data中，之后就是使用groupby进行分组求均值。

ind = pd.Series(df.index)
data = df.copy()
data.loc[:,'new'] = ind
def my_condition(x):
    if x <= ind.quantile(1/3):
        return('low')
    elif x>= ind.quantile(2/3):
        return('high')
    else:
        return('normal')
new = data.new.apply(my_condition)
data.groupby(new)['Price'].mean()

new
high      15420.65
low        9069.95
normal    13356.40
Name: Price, dtype: float64

3.对类型 Type 分组，对 Price 和 HP 分别计算最大值和最小值，结果会产生多级索引，请用下划线把多级列索引合并为单层索引。

思路：因为是列产生了多级索引，所以我们的作用范围应该是列，然后是在用agg对Price和HP分别使用计算的时候，发现对函数如果不是列表，不会展示多级索引

df_3 = df.groupby('Type')[['Price','HP']]
df_t = df_3.agg({
     'Price':['max'],'HP':'min'})
df_t.columns = df_t.columns.map(lambda x :(x[0]+'_'+x[1]))
df_t

	Price_max	HP_min
Type
Compact	18900	95
Large	17257	150
Medium	24760	110
Small	9995	63
Sporty	13945	92
Van	15395	106

4.对类型 Type 分组，对 HP 进行组内的 min-max 归一化

思路：最开始想到的是使用transform，但是transform没有分组的效果。之后使用了apply，直接定义函数

df_4 = df.groupby('Type')['HP'].apply(lambda x : x.min()-x.max())
df_4

Type
Compact    -47
Large      -20
Medium     -80
Small      -50
Sporty    -133
Van        -44
Name: HP, dtype: int64

5.对类型 Type 分组，计算 Disp. 与 HP 的相关系数

思路：分组后使用corr()求相关系数，在这个过程中在写groupby的数据来源时没有加上[]，会有警告

df_5 = df.groupby('Type')[['Disp.','HP']]
df_5.corr()

		Disp.	HP
Type
Compact	Disp.	1.000000	0.586087
Compact	HP	0.586087	1.000000
Large	Disp.	1.000000	-0.242765
Large	HP	-0.242765	1.000000
Medium	Disp.	1.000000	0.370491
Medium	HP	0.370491	1.000000
Small	Disp.	1.000000	0.603916
Small	HP	0.603916	1.000000
Sporty	Disp.	1.000000	0.871426
Sporty	HP	0.871426	1.000000
Van	Disp.	1.000000	0.819881
Van	HP	0.819881	1.000000

你可能感兴趣的:(Python,python)

Python Pandas数据清洗与处理大数据张老师 Python程序设计 python pandas 开发语言
PythonPandas数据清洗与处理在进行数据分析时，原始数据往往包含了许多不完整、不准确或者冗余的信息。数据清洗与处理的任务就是将这些杂乱无章的数据清理干净，确保数据的准确性和一致性，从而为后续的分析工作打下坚实的基础。Pandas提供了强大的工具来帮助我们清洗和处理数据，尤其是在处理Series和DataFrame时，它能够高效地进行数据的筛选、填充、删除、替换等操作。本节将通过一些常见的数
成功使用devpi搭建PyPI缓存源，建立内网python安装包服务器（通过代理上网） jcsx 基础运维知识库开源学习 python pip nginx
前言缓存源和镜像源的区别：缓存源：初始状态为空。下载请求的软件包没有缓存，则回源到设置的上游镜像源，然后该软件包会被缓存。如果请求的软件包已经被缓存，则直接从本地缓存返回用户。下载速度：第一次速度=通过外网从上游镜像源下载的速度；之后的速度=内网带宽速度。磁盘空间：少。初始时只保存了软件包索引，随着使用过程，软件包被缓存，磁盘占用逐渐变大。镜像源：初始状态含有所有软件包，并且定时与上游镜像源同步。
Python接口自动化测试框架（实战篇）-- Jenkins持续集成职说测试 python jenkins ci/cd 自动化测试接口自动化测试
文章目录一、前言二、[Jenkins](https://www.jenkins.io/)2.1、环境搭建2.2、插件准备2.3、创建job2.4、小结2.5、构建策略2.6、报告展示2.7、扩展三、总结一、前言温馨提示：在框架需要集成jenkins的时候，一定要注意环境切换问题，如果jenkins和开发环境是同样的系统且都有python环境，基本不用太担心代码的移植问题，如果是跨平台了，那么需要注
python实战项目34：基于flask的天气数据可视化系统1.0 wp_tao Python副业接单实战项目 flask 信息可视化 python
基于flask的天气数据可视化系统1.0一、效果展示二、flask简介三、图表绘制四、前端页面编写五、完整代码一、效果展示该flask项目相对简单入门，使用了flask框架、bootstrap前端技术，数据使用的是上一篇scrapy爬取城市天气数据中爬取到的数据。二、flask简介Flask是一个基于Python的Web开发框架，它以灵活、微框架著称，基于werkzeug的轻量级web框架，可提高
Jira用例自动去除summary重复用例吾爱乐享 w w w w .f e n
title:Jira用例自动去除summary重复用例tags:-jira-pythoncategories:-python一、背景与需求二、解决方案思路三、实施步骤本文永久更新地址:在使用Jira进行项目管理时，测试用例的维护至关重要。随着项目推进，用例数量增多，可能会出现summary重复的情况，手动排查费时费力，因此实现自动去除重复用例功能意义重大。一、背景与需求项目团队在Jira中积累了大
RPA与Python 空着
部分朋友可能是了解Python的。Python这两年，火的两点，就是聚焦于两个场景：数据抓取和办公自动化。那么Python算RPA吗？RPA是一种概念，依托于这个概念诞生了很多产品。而Python是一种计算机语言，Python不仅仅可以做RPA概念范围内的东西，还可以做其他东西。但是，Python做数据抓取也好，做办公自动化也好，他都是聚焦于具体的场景本身。而并非聚焦于RPA概念上的。所以，很少见
Python爬虫技术第12节设置headers和cookies hummhumm python 爬虫开发语言 django flask java spring
在使用Python进行网络爬虫开发时，经常需要模拟浏览器行为，这包括设置请求头（headers）和处理cookies。下面我将详细介绍如何在Python中使用requests库来设置headers和处理cookies。设置HeadersHeaders包含了客户端发送给服务器的信息，比如用户代理（User-Agent）、接受的内容类型（Accept）、语言偏好（Accept-Language）等。设
Python爬虫技术第16节 XPath hummhumm python 爬虫开发语言 flask java maven java-ee
XPath是一种在XML文档中查找信息的语言，尽管XML和HTML在语法上有区别，但XPath同样适用于HTML文档的解析，尤其是在使用如lxml这样的库时。XPath提供了一种强大的方法来定位和提取XML/HTML文档中的元素和属性。XPath基础XPath表达式由路径表达式组成，它们指定了文档中的位置。下面是一些基本的XPath语法：根节点：/表示绝对路径的开始，指向文档的根节点。//表示从当
【实践】Python实现气象数据分析与可视化大数据张老师 Python程序设计信息可视化 python 数据分析可视化
一、项目需求在本节中，我们将明确“气象数据分析与可视化”项目的需求，定义项目的功能和目标，为后续的实现奠定基础。通过本项目，读者将学习如何使用Python的各种数据处理和可视化工具来分析和展示气象数据，从而掌握数据处理与可视化的核心技能。1.项目目标“气象数据分析与可视化”项目的目标是通过对历史气象数据的处理和分析，生成直观的图表和统计结果，帮助用户理解气象趋势并预测未来变化。项目的主要功能如下：
证券量化交易选择合适的编程语言 jcsx 量化 numpy pandas pyqt servlet javascript
在证券量化交易中，选择合适的编程语言至关重要，因为它直接影响到开发效率、运行速度和策略的灵活性。常用的编程语言有几个，它们各自有不同的优势和应用场景。以下是一些在量化交易中常用的编程语言：PythonPython是目前量化交易中最流行的编程语言之一，特别是在金融数据分析和模型开发中，广泛被使用。Python的流行主要有以下原因：数据处理能力：Python有非常强大的数据处理库，如pandas（数据
基于 Jenkins 的测试报告获取与处理并写入 Jira Wiki 的技术总结吾爱乐享 w w w w .f e n
title:基于Jenkins的测试报告获取与处理并写入JiraWiki的技术总结tags:-jenkins-pythoncategories:-jenkins在软件开发的持续集成与持续交付（CI/CD）流程里，及时、准确地获取并分析测试报告对保障软件质量至关重要。本文将详细阐述如何借助Jenkins搭建自动化系统，实现批量触发测试任务、获取测试报告关键信息并写入JiraWiki的全流程自动化，为
已解决python 的SyntaxError ：invalid syntax异常正确解决办法，亲测有效，嘿嘿嘿代码无疆 Python python 开发语言
文章目录问题分析报错原因解决思路解决方法示例1：拼写错误示例2：缺少符号示例3：错误的缩进示例4：错误的语句结构SyntaxError:invalidsyntax异常是Python中最常见的错误之一，它表示代码中存在语法错误。这种错误通常发生在Python解释器无法理解你的代码时，比如因为拼写错误、缺少符号、错误的缩进、不正确的语句结构等。问题分析当Python解释器报告SyntaxError:i
【Python篇】从零到精通：全面分析Scikit-Learn在机器学习中的绝妙应用半截诗 Python python 机器学习 scikit-learn 人工智能深度学习数据分析随机森林
文章目录从零到精通：全面揭秘Scikit-Learn在机器学习中的绝妙应用前言第一部分：深入了解Scikit-Learn的基础知识1.什么是Scikit-Learn？2.安装Scikit-Learn3.Scikit-Learn中的基本构件4.数据集的加载与探索5.数据预处理标准化数据6.构建和训练机器学习模型构建逻辑回归模型7.模型评估与验证混淆矩阵第二部分：深入理解Scikit-Learn的高级
Python设计模式 - 抽象工厂模式 mofei12138 设计模式 python python 设计模式抽象工厂模式
定义抽象工厂模式是一种创建型设计模式，它提供了一种创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。产品等级结构与产品族为了更好地理解抽象工厂模式，先引入两个概念：产品等级结构：就是产品的继承结构。例如电视机抽象类有A品牌电视机子类和B品牌电视机子类，那么抽象电视机和具体品牌的电视机就构成了一个产品等级结构。产品族：同一个工厂生产的，位于不同产品等级结构中的一组产品。例如海尔工厂生产的海
【Python设计模式07】工厂方法模式一碗姜汤设计模式 python 设计模式工厂方法模式
工厂方法模式（FactoryMethodPattern）是一种创建型设计模式，它定义了一个用于创建对象的接口，让子类决定实例化哪一个类。工厂方法使得一个类的实例化延迟到其子类。通过使用工厂方法模式，可以将对象的创建过程与使用过程分离，从而提高代码的灵活性和可扩展性。工厂方法模式的结构工厂方法模式主要包括以下几个角色：抽象产品（Product）：定义产品的接口。具体产品（ConcreteProduc
分形、大自然的分形几何、数据可视化、Python绘图 timedot-hj python绘图指南 -分形与数据可视化可视化 python 几何学算法
分形、大自然的分形几何、数据可视化、Python绘图中国传统中的『分形』大自然的分形几何数据可视化本系列采用turtle、matplotlib、numpy这三个Python工具，以分形与计算机图像处理的经典算法为实例，通过程序和图像，来帮助读者一步步掌握Python绘图和数据可视化的方法和技巧，并且让读者感受到“龙枝屈曲竞分形，瑰丽绮错千万状”的分形魅力。本系列共有八章，分别为海岸线有多长，基因与
python用电预测_用Python实时追踪你家的电量使用情况 weixin_39626745 python用电预测
现在的电表(附在你家房子外面的玩意)在每瓦时电量被使用后就会发出一下红外闪光，穿过电表顶部的端口。事实证明，你可以很容易地监测这一闪光，把它解码变成“实时的”电量使用情况，然后做成像这样酷的图表：Y轴表示实时功率，单位是KW，X轴表示时间。这闪光灯，好像有很高的瞬间准确度，至少我家的是这样，这意味着当1瓦时电量被使用时，它会很精确地闪了。这实在太棒了，因为它使得显示精确、实时的电量使用情况可以实现
Python Web开发 twc829 Python
Web开发介绍一、Web开发概述1C/S结构和B/S结构C/S—Client/Server，即客户机/服务器结构B/S—Browse/Server，即浏览器/服务器结构2B/S结构的优势2.1不用通知客户端安装某个软件2.2不用通知客户端升级2.3可轻松地实现跨平台3访问网站过程用户向服务器发起请求，服务器将HTML文件返回给用户，浏览器将HTML文件渲染成用户看到的网站；4分类4.1静态网站用户
如何优化Python开发：PIP和Anaconda的作用及国内源设置指南 Chaiio Dain python python pip 开发语言 conda
前言在现代数据科学和软件开发的世界中，Python已经成为了最受欢迎的编程语言之一。其强大的生态系统和丰富的第三方库使得开发者可以快速构建各种应用程序和解决方案。然而，随着项目规模的扩大和复杂性的增加，管理Python包和依赖项变得尤为重要。PIP（Python包管理工具）和Anaconda（一个开源的Python发行版）就是在这种背景下应运而生的重要工具。PIP和Anaconda不仅简化了包的安
配置pip安装源勤劳的搬砖工。 pip python linux
在Linux下配置pip的安装源折磨人的下载速度用过pip的人都知道，pip的下载速度简直令人窒息，有时候好有时候坏，简直全靠运气，甚至施加魔法也不行，所以选择配置一个下载源，从国内下载python包就显得很快，说实话百度网盘都比pip快。Linux下配置python2的安装源总所周知，python2和python3不一样，所以他们pip也不一样，配置也不一样修改工作目录下的.pip/pip.co
FastAPI介绍 -zZR fastapi python
1.fastapi介绍一个用于构建API的现代、快速（高性能）的web框架。特点快速：可与NodeJS和Go并肩的极高性能（归功于Starlette和Pydantic）。最快的Pythonweb框架之一。高效编码：提高功能开发速度约200％至300％。更少bug：减少约40％的人为（开发者）导致错误。智能：极佳的编辑器支持。处处皆可自动补全，减少调试时间。简单：设计的易于使用和学习，阅读文档的时
Python 潮流周刊#87：媲美 OpenAI-o1 的开源模型（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。本期分享了12篇文章，12个开源项目。下周因春节假期停更一周，提前恭祝大家蛇年吉祥，万事顺意！（PS.我在Python猫公众号给大家准备了一些红包封面，免费领取哟～）以下是本期摘要：文章&教程①优
一、新手学习爬虫第一课对网站发起请求（基于python语言） [木子加贝] python自学爬虫学习爬虫 python 开发语言后端
目录前言一、安装并引用请求模块requests1.安装请求模块2.引用requests请求模块3.引用requests请求模块并使用别名二、发起请求1.对网站发起get请求（最常用的请求）：（1）第一种方法（字符串）（2）第二种方法（变量）（3）第三种方法（关键字传参）2.对网站发起带参数的get请求：3.对网站发起post请求：4.对网站发JSON数据的post请求：4.注意事项总结前言爬虫的本
【Python Web开发】Python Web开发知识全解析萧鼎 python基础到进阶教程 python 前端开发语言
PythonWeb开发知识全解析Python是一种强大的编程语言，以其简洁和高效而闻名，尤其在Web开发领域，它有着广泛的应用。Python提供了许多功能强大且灵活的Web框架，如Flask、Django、FastAPI等，使得构建现代Web应用变得简单而高效。本文将从PythonWeb开发的基本知识入手，逐步介绍开发流程、核心技术以及如何使用Python框架构建高效、可扩展的Web应用。1.什么
【Pip】配置和优化 `pip` 安装源：提升 Python 包管理体验的全面指南丶2136 #pip pip python 开发语言
目录引言一、什么是`pip`配置文件？1.1配置文件的类型与位置二、配置文件的结构与配置项2.1中英文注释配置文件示例三、详细解析配置项3.1镜像源设置（`index-url`和`extra-index-url`）3.2代理设置（`proxy`）3.3安装选项（`no-deps`和`user`）3.4缓存控制（`no-cache-dir`和`cache-dir`）3.5日志和调试（`verbose
奥比中光Geminipro相机使用一傲 python 开发语言
相机使用入门，使用python获取深度图和颜色图并显示。#安装依赖importcv2importnumpyasnpfrommatplotlibimportpyplotasplt#奥比中光OrbbecPythonSDKfromObTypesimport*fromPropertyimport*importPipelineimportStreamProfilefromErrorimportObExcep
2021 年 GitHub 上十大最火 Python 项目，看完之后我裂开了酔清风 python github python 开发语言
GitHub作为程序员每天必逛的网站之一，上面有着太多优秀的开源项目，今天派森酱就带大家来梳理下在过去的一年里，GitHub上最火的Python项目Top10。数据获取如果你留心看过GitHub的文档的话，你就会知道关于GitHub上的大部分数据，GitHub官方都是提供了接口了的。比如我们今天要获取的数据就可以从下面这个接口拿到。https://api.github.com/search/rep
一、PyCharm(Professional)搭建Django环境郝家伙~ pycharm ide python django
目录一、创建项目1.左侧选择Django框架2.点击create开始创建项目3.下载Django失败，使用默认源下载可能失败，需要指定其他源，这里使用阿里源4.手动创建项目django-adminstartproject项目名称5.进入当前项目创建应用python3manage.pystartappsign6.点击运行按钮或终端运行项目python3manage.pyrunserverip:端口，
django项目部署ubuntu服务器,Ubuntu部署Django项目方法详解 weixin_39965075
教程使用的软件版本：Ubuntu18.04.1LTS，django2.0，Python3.6.5、nginx-1.13.7、uWSGI(2.0.17.1)，Ubuntu是纯净的，全新的。下面我们开始来部署。如果觉得看文字没意思，想看视频教程的，请点击这里：Django项目部署视频教程一、更新操作系统和安装依赖包#更新操作系统软件库sudoapt-getupdatesudoapt-getupgrad
python模块os和 importlib实战指南 ivwdcwso 开发运维 python 服务器运维开发 devops
os和importlib是Python中两个非常强大的模块，分别用于与操作系统交互和动态导入模块。本文将通过实际代码示例，展示如何在实际项目中使用这两个模块，帮助你更好地理解它们的用途和应用场景。©ivwdcwso(ID:u012172506)1.os模块实战os模块主要用于与操作系统交互，例如读取环境变量、操作文件路径、执行系统命令等。以下是os模块的常见实战场景。1.1读取环境变量在开发中，我
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb