lukem44

第6章缺失数据

在接下来的两章中，会接触到数据预处理中比较麻烦的类型，即缺失数据和文本数据（尤其是混杂型文本）

Pandas在步入1.0后，对数据类型也做出了新的尝试，尤其是Nullable类型和String类型，了解这些可能在未来成为主流的新特性是必要的

import pandas as pd
import numpy as np
df = pd.read_csv('data/table_missing.csv')
df.head()

	School	Class	ID	Gender	Address	Height	Weight	Math	Physics
0	S_1	C_1	NaN	M	street_1	173	NaN	34.0	A+
1	S_1	C_1	NaN	F	street_2	192	NaN	32.5	B+
2	S_1	C_1	1103.0	M	street_2	186	NaN	87.2	B+
3	S_1	NaN	NaN	F	street_2	167	81.0	80.4	NaN
4	S_1	C_1	1105.0	NaN	street_4	159	64.0	84.8	A-

一、缺失观测及其类型

1. 了解缺失信息

（a）isna和notna方法

对Series使用会返回布尔列表

df['Physics'].isna().head()

0    False
1    False
2    False
3     True
4    False
Name: Physics, dtype: bool

df['Physics'].notna().head()

0     True
1     True
2     True
3    False
4     True
Name: Physics, dtype: bool

对DataFrame使用会返回布尔表

df.isna().head()

	School	Class	ID	Gender	Address	Height	Weight	Math	Physics
0	False	False	True	False	False	False	True	False	False
1	False	False	True	False	False	False	True	False	False
2	False	False	False	False	False	False	True	False	False
3	False	True	True	False	False	False	False	False	True
4	False	False	False	True	False	False	False	False	False

但对于DataFrame我们更关心到底每列有多少缺失值

df.isna().sum()

School      0
Class       4
ID          6
Gender      7
Address     0
Height      0
Weight     13
Math        5
Physics     4
dtype: int64

此外，可以通过第1章中介绍的info函数查看缺失信息

df.info()


RangeIndex: 35 entries, 0 to 34
Data columns (total 9 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   School   35 non-null     object 
 1   Class    31 non-null     object 
 2   ID       29 non-null     float64
 3   Gender   28 non-null     object 
 4   Address  35 non-null     object 
 5   Height   35 non-null     int64  
 6   Weight   22 non-null     float64
 7   Math     30 non-null     float64
 8   Physics  31 non-null     object 
dtypes: float64(3), int64(1), object(5)
memory usage: 2.6+ KB

（b）查看缺失值的所以在行

以最后一列为例，挑出该列缺失值的行

df[df['Physics'].isna()]

	School	Class	ID	Gender	Address	Height	Weight	Math	Physics
3	S_1	NaN	NaN	F	street_2	167	81.0	80.4	NaN
8	S_1	C_2	1204.0	F	street_5	162	63.0	33.8	NaN
13	S_1	C_3	1304.0	NaN	street_2	195	70.0	85.2	NaN
22	S_2	C_2	2203.0	M	street_4	155	91.0	73.8	NaN

（c）挑选出所有非缺失值列

使用all就是全部非缺失值，如果是any就是至少有一个不是缺失值

df[df.notna().all(1)]

	School	Class	ID	Gender	Address	Height	Weight	Math	Physics
5	S_1	C_2	1201.0	M	street_5	159	68.0	97.0	A-
6	S_1	C_2	1202.0	F	street_4	176	94.0	63.5	B-
12	S_1	C_3	1303.0	M	street_7	188	82.0	49.7	B
17	S_2	C_1	2103.0	M	street_4	157	61.0	52.5	B-
21	S_2	C_2	2202.0	F	street_7	194	77.0	68.5	B+
25	S_2	C_3	2301.0	F	street_4	157	78.0	72.3	B+
27	S_2	C_3	2303.0	F	street_7	190	99.0	65.9	C
28	S_2	C_3	2304.0	F	street_6	164	81.0	95.5	A-
29	S_2	C_3	2305.0	M	street_4	187	73.0	48.9	B

2. 三种缺失符号

（a）np.nan

np.nan是一个麻烦的东西，首先它不等与任何东西，甚至不等于自己

np.nan == np.nan

False

np.nan == 0

False

np.nan == None

False

在用equals函数比较时，自动略过两侧全是np.nan的单元格，因此结果不会影响

df.equals(df)

True

其次，它在numpy中的类型为浮点，由此导致数据集读入时，即使原来是整数的列，只要有缺失值就会变为浮点型

type(np.nan)

float

pd.Series([1,2,3]).dtype

dtype('int64')

pd.Series([1,np.nan,3]).dtype

dtype('float64')

此外，对于布尔类型的列表，如果是np.nan填充，那么它的值会自动变为True而不是False

pd.Series([1,np.nan,3],dtype='bool')

0    True
1    True
2    True
dtype: bool

但当修改一个布尔列表时，会改变列表类型，而不是赋值为True

s = pd.Series([True,False],dtype='bool')
s[1]=np.nan
s

0    1.0
1    NaN
dtype: float64

在所有的表格读取后，无论列是存放什么类型的数据，默认的缺失值全为np.nan类型

因此整型列转为浮点；而字符由于无法转化为浮点，因此只能归并为object类型（‘O’），原来是浮点型的则类型不变

df['ID'].dtype

dtype('float64')

df['Math'].dtype

dtype('float64')

df['Class'].dtype

dtype('O')

（b）None

None比前者稍微好些，至少它会等于自身

None == None

True

它的布尔值为False

pd.Series([None],dtype='bool')

0    False
dtype: bool

修改布尔列表不会改变数据类型

s = pd.Series([True,False],dtype='bool')
s[0]=None
s

0    False
1    False
dtype: bool

s = pd.Series([1,0],dtype='bool')
s[0]=None
s

0    False
1    False
dtype: bool

在传入数值类型后，会自动变为np.nan

type(pd.Series([1,None])[1])

numpy.float64

只有当传入object类型是保持不动，几乎可以认为，除非人工命名None，它基本不会自动出现在Pandas中

type(pd.Series([1,None],dtype='O')[1])

NoneType

在使用equals函数时不会被略过，因此下面的情况下返回False

pd.Series([None]).equals(pd.Series([np.nan]))

False

（c）NaT

NaT是针对时间序列的缺失值，是Pandas的内置类型，可以完全看做时序版本的np.nan，与自己不等，且使用equals是也会被跳过

s_time = pd.Series([pd.Timestamp('20120101')]*5)
s_time

0   2012-01-01
1   2012-01-01
2   2012-01-01
3   2012-01-01
4   2012-01-01
dtype: datetime64[ns]

s_time[2] = None
s_time

0   2012-01-01
1   2012-01-01
2          NaT
3   2012-01-01
4   2012-01-01
dtype: datetime64[ns]

s_time[2] = np.nan
s_time

0   2012-01-01
1   2012-01-01
2          NaT
3   2012-01-01
4   2012-01-01
dtype: datetime64[ns]

s_time[2] = pd.NaT
s_time

0   2012-01-01
1   2012-01-01
2          NaT
3   2012-01-01
4   2012-01-01
dtype: datetime64[ns]

type(s_time[2])

pandas._libs.tslibs.nattype.NaTType

s_time[2] == s_time[2]

False

s_time.equals(s_time)

True

s = pd.Series([True,False],dtype='bool')
s[1]=pd.NaT
s

0    True
1    True
dtype: bool

3. Nullable类型与NA符号

这是Pandas在1.0新版本中引入的重大改变，其目的就是为了（在若干版本后）解决之前出现的混乱局面，统一缺失值处理方法

“The goal of pd.NA is provide a “missing” indicator that can be used consistently across data types (instead of np.nan, None or pd.NaT depending on the data type).”——User Guide for Pandas v-1.0

官方鼓励用户使用新的数据类型和缺失类型pd.NA

（a）Nullable整形

对于该种类型而言，它与原来标记int上的符号区别在于首字母大写：‘Int’

s_original = pd.Series([1, 2], dtype="int64")
s_original

0    1
1    2
dtype: int64

s_new = pd.Series([1, 2], dtype="Int64")
s_new

0    1
1    2
dtype: Int64

它的好处就在于，其中前面提到的三种缺失值都会被替换为统一的NA符号，且不改变数据类型

s_original[1] = np.nan
s_original

0    1.0
1    NaN
dtype: float64

s_new[1] = np.nan
s_new

0       1
1    
dtype: Int64

s_new[1] = None
s_new

0       1
1    
dtype: Int64

s_new[1] = pd.NaT
s_new

0       1
1    
dtype: Int64

（b）Nullable布尔

对于该种类型而言，作用与上面的类似，记号为boolean

s_original = pd.Series([1, 0], dtype="bool")
s_original

0     True
1    False
dtype: bool

s_new = pd.Series([0, 1], dtype="boolean")
s_new

0    False
1     True
dtype: boolean

s_original[0] = np.nan
s_original

0    NaN
1    0.0
dtype: float64

s_original = pd.Series([1, 0], dtype="bool") #此处重新加一句是因为前面赋值改变了bool类型
s_original[0] = None
s_original

0    False
1    False
dtype: bool

s_new[0] = np.nan
s_new

0    
1    True
dtype: boolean

s_new[0] = None
s_new

0    
1    True
dtype: boolean

s_new[0] = pd.NaT
s_new

0    
1    True
dtype: boolean

需要注意的是，含有pd.NA的布尔列表在1.0.2之前的版本作为索引时会报错，这是一个之前的bug，现已经修复

s = pd.Series(['dog','cat'])
s[s_new]

1    cat
dtype: object

（c）string类型

该类型是1.0的一大创新，目的之一就是为了区分开原本含糊不清的object类型，这里将简要地提及string，因为它是第7章的主题内容

它本质上也属于Nullable类型，因为并不会因为含有缺失而改变类型

s = pd.Series(['dog','cat'],dtype='string')
s

0    dog
1    cat
dtype: string

s[0] = np.nan
s

0    
1     cat
dtype: string

s[0] = None
s

0    
1     cat
dtype: string

s[0] = pd.NaT
s

0    
1     cat
dtype: string

此外，和object类型的一点重要区别就在于，在调用字符方法后，string类型返回的是Nullable类型，object则会根据缺失类型和数据类型而改变

s = pd.Series(["a", None, "b"], dtype="string")
s.str.count('a')

0       1
1    
2       0
dtype: Int64

s2 = pd.Series(["a", None, "b"], dtype="object")
s2.str.count("a")

0    1.0
1    NaN
2    0.0
dtype: float64

s.str.isdigit()

0    False
1     
2    False
dtype: boolean

s2.str.isdigit()

0    False
1     None
2    False
dtype: object

4. NA的特性

（a）逻辑运算

只需看该逻辑运算的结果是否依赖pd.NA的取值，如果依赖，则结果还是NA，如果不依赖，则直接计算结果

True | pd.NA

True

pd.NA | True

True

False | pd.NA

False & pd.NA

False

True & pd.NA

取值不明直接报错

#bool(pd.NA)

（b）算术运算和比较运算

这里只需记住除了下面两类情况，其他结果都是NA即可

pd.NA ** 0

1 ** pd.NA

其他情况：

pd.NA + 1

"a" * pd.NA

pd.NA == pd.NA

pd.NA < 2.5

np.log(pd.NA)

np.add(pd.NA, 1)

5. convert_dtypes方法

这个函数的功能往往就是在读取数据时，就把数据列转为Nullable类型，是1.0的新函数

pd.read_csv('data/table_missing.csv').dtypes

School      object
Class       object
ID         float64
Gender      object
Address     object
Height       int64
Weight     float64
Math       float64
Physics     object
dtype: object

pd.read_csv('data/table_missing.csv').convert_dtypes().dtypes

School      string
Class       string
ID           Int64
Gender      string
Address     string
Height       Int64
Weight       Int64
Math       float64
Physics     string
dtype: object

二、缺失数据的运算与分组

1. 加号与乘号规则

使用加法时，缺失值为0

s = pd.Series([2,3,np.nan,4])
s.sum()

9.0

使用乘法时，缺失值为1

s.prod()

24.0

使用累计函数时，缺失值自动略过

s.cumsum()

0    2.0
1    5.0
2    NaN
3    9.0
dtype: float64

s.cumprod()

0     2.0
1     6.0
2     NaN
3    24.0
dtype: float64

s.pct_change()

0         NaN
1    0.500000
2    0.000000
3    0.333333
dtype: float64

2. groupby方法中的缺失值

自动忽略为缺失值的组

df_g = pd.DataFrame({'one':['A','B','C','D',np.nan],'two':np.random.randn(5)})
df_g

	one	two
0	A	-1.126645
1	B	0.924595
2	C	-2.076309
3	D	-0.312150
4	NaN	0.961543

df_g.groupby('one').groups

{'A': Int64Index([0], dtype='int64'),
 'B': Int64Index([1], dtype='int64'),
 'C': Int64Index([2], dtype='int64'),
 'D': Int64Index([3], dtype='int64')}

三、填充与剔除

1. fillna方法

（a）值填充与前后向填充（分别与ffill方法和bfill方法等价）

df['Physics'].fillna('missing').head()

0         A+
1         B+
2         B+
3    missing
4         A-
Name: Physics, dtype: object

df['Physics'].fillna(method='ffill').head()

0    A+
1    B+
2    B+
3    B+
4    A-
Name: Physics, dtype: object

df['Physics'].fillna(method='backfill').head()

0    A+
1    B+
2    B+
3    A-
4    A-
Name: Physics, dtype: object

（b）填充中的对齐特性

df_f = pd.DataFrame({'A':[1,3,np.nan],'B':[2,4,np.nan],'C':[3,5,np.nan]})
df_f.fillna(df_f.mean())

	A	B	C
0	1.0	2.0	3.0
1	3.0	4.0	5.0
2	2.0	3.0	4.0

返回的结果中没有C，根据对齐特点不会被填充

df_f.fillna(df_f.mean()[['A','B']])

	A	B	C
0	1.0	2.0	3.0
1	3.0	4.0	5.0
2	2.0	3.0	NaN

2. dropna方法

（a）axis参数

df_d = pd.DataFrame({'A':[np.nan,np.nan,np.nan],'B':[np.nan,3,2],'C':[3,2,1]})
df_d

	A	B	C
0	NaN	NaN	3
1	NaN	3.0	2
2	NaN	2.0	1

df_d.dropna(axis=0)

	A	B	C

df_d.dropna(axis=1)

	C
0	3
1	2
2	1

（b）how参数（可以选all或者any，表示全为缺失去除和存在缺失去除）

df_d.dropna(axis=1,how='all')

	B	C
0	NaN	3
1	3.0	2
2	2.0	1

（c）subset参数（即在某一组列范围中搜索缺失值）

df_d.dropna(axis=0,subset=['B','C'])

	A	B	C
1	NaN	3.0	2
2	NaN	2.0	1

四、插值（interpolation）

1. 线性插值

（a）索引无关的线性插值

默认状态下，interpolate会对缺失的值进行线性插值

s = pd.Series([1,10,15,-5,-2,np.nan,np.nan,28])
s

0     1.0
1    10.0
2    15.0
3    -5.0
4    -2.0
5     NaN
6     NaN
7    28.0
dtype: float64

s.interpolate()

0     1.0
1    10.0
2    15.0
3    -5.0
4    -2.0
5     8.0
6    18.0
7    28.0
dtype: float64

s.interpolate().plot()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EtBT3Tjk-1592926632370)(output_146_1.png)]

此时的插值与索引无关

s.index = np.sort(np.random.randint(50,300,8))
s.interpolate()
#值不变

69      1.0
71     10.0
84     15.0
117    -5.0
119    -2.0
171     8.0
219    18.0
236    28.0
dtype: float64

s.interpolate().plot()
#后面三个点不是线性的（如果几乎为线性函数，请重新运行上面的一个代码块，这是随机性导致的）

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qL2XqiKA-1592926632373)(output_149_1.png)]

（b）与索引有关的插值

method中的index和time选项可以使插值线性地依赖索引，即插值为索引的线性函数

s.interpolate(method='index').plot()
#可以看到与上面的区别

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QqdA4QaT-1592926632375)(output_151_1.png)]

如果索引是时间，那么可以按照时间长短插值，对于时间序列将在第9章详细介绍

s_t = pd.Series([0,np.nan,10]
        ,index=[pd.Timestamp('2012-05-01'),pd.Timestamp('2012-05-07'),pd.Timestamp('2012-06-03')])
s_t

2012-05-01     0.0
2012-05-07     NaN
2012-06-03    10.0
dtype: float64

s_t.interpolate().plot()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-grj5NI74-1592926632376)(output_154_1.png)]

s_t.interpolate(method='time').plot()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jDGLsjS2-1592926632377)(output_155_1.png)]

2. 高级插值方法

此处的高级指的是与线性插值相比较，例如样条插值、多项式插值、阿基玛插值等（需要安装Scipy），方法详情请看这里

关于这部分仅给出一个官方的例子，因为插值方法是数值分析的内容，而不是Pandas中的基本知识：

ser = pd.Series(np.arange(1, 10.1, .25) ** 2 + np.random.randn(37))
missing = np.array([4, 13, 14, 15, 16, 17, 18, 20, 29])
ser[missing] = np.nan
methods = ['linear', 'quadratic', 'cubic']
df = pd.DataFrame({m: ser.interpolate(method=m) for m in methods})
df.plot()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9bVEG5Bb-1592926632378)(output_157_1.png)]

3. interpolate中的限制参数

（a）limit表示最多插入多少个

s = pd.Series([1,np.nan,np.nan,np.nan,5])
s.interpolate(limit=2)

0    1.0
1    2.0
2    3.0
3    NaN
4    5.0
dtype: float64

（b）limit_direction表示插值方向，可选forward,backward,both，默认前向

s = pd.Series([np.nan,np.nan,1,np.nan,np.nan,np.nan,5,np.nan,np.nan,])
s.interpolate(limit_direction='backward')

0    1.0
1    1.0
2    1.0
3    2.0
4    3.0
5    4.0
6    5.0
7    NaN
8    NaN
dtype: float64

（c）limit_area表示插值区域，可选inside,outside，默认None

s = pd.Series([np.nan,np.nan,1,np.nan,np.nan,np.nan,5,np.nan,np.nan,])
s.interpolate(limit_area='inside')

0    NaN
1    NaN
2    1.0
3    2.0
4    3.0
5    4.0
6    5.0
7    NaN
8    NaN
dtype: float64

s = pd.Series([np.nan,np.nan,1,np.nan,np.nan,np.nan,5,np.nan,np.nan,])
s.interpolate(limit_area='outside')

0    NaN
1    NaN
2    1.0
3    NaN
4    NaN
5    NaN
6    5.0
7    5.0
8    5.0
dtype: float64

五、问题与练习

1. 问题

【问题一】如何删除缺失值占比超过25%的列？

d[d/d.shape[0]<=0.75].index.tolist()

['A', 'B']

df_d = pd.DataFrame({'A':[np.nan,np.nan,np.nan],'B':[np.nan,3,2],'C':[3,2,1]})
d = df_d.count()
df_d.drop((d[d/d.shape[0]<=0.75]).index.tolist(),axis=1)

	C
0	3
1	2
2	1

【问题二】什么是Nullable类型？请谈谈为什么要引入这个设计？

其目的就是为了（在若干版本后）解决之前出现的混乱局面，统一缺失值处理方法
“The goal of pd.NA is provide a “missing” indicator that can be used consistently across data types (instead of np.nan, None or pd.NaT depending on the data type).”——User Guide for Pandas v-1.0
官方鼓励用户使用新的数据类型和缺失类型pd.NA
它的好处就在于，其中前面提到的三种缺失值都会被替换为统一的NA符号，且不改变数据类型

【问题三】对于一份有缺失值的数据，可以采取哪些策略或方法深化对它的了解？

观察分布情况，可进行填充，删除等操作

2. 练习

【练习一】现有一份虚拟数据集，列类型分别为string/浮点/整型，请解决如下问题：

（a）请以列类型读入数据，并选出C为缺失值的行。

（b）现需要将A中的部分单元转为缺失值，单元格中的最小转换概率为25%，且概率大小与所在行B列单元的值成正比。

data = pd.read_csv('data/Missing_data_one.csv').head()
data.head()

	A	B	C
0	not_NaN	0.922	4.0
1	not_NaN	0.700	NaN
2	not_NaN	0.503	8.0
3	not_NaN	0.938	4.0
4	not_NaN	0.952	10.0

#(a)
data[data['C'].isnull()]

	A	B	C
1	not_NaN	0.7	NaN

#(b)
import random

data.loc[:,'A'][data['B'].map(lambda x: True if x > random.random()else False)]=np.nan

data

	A	B	C
0	NaN	0.922	4.0
1	not_NaN	0.700	NaN
2	NaN	0.503	8.0
3	NaN	0.938	4.0
4	NaN	0.952	10.0

【练习二】现有一份缺失的数据集，记录了36个人来自的地区、身高、体重、年龄和工资，请解决如下问题：

（a）统计各列缺失的比例并选出在后三列中至少有两个非缺失值的行。

（b）请结合身高列和地区列中的数据，对体重进行合理插值。

data1 = pd.read_csv('data/Missing_data_two.csv')
data1.head()

	编号	地区	身高	体重	年龄	工资
0	1	A	157.50	NaN	47.0	15905.0
1	2	B	202.00	91.80	25.0	NaN
2	3	C	169.09	62.18	NaN	NaN
3	4	A	166.61	59.95	77.0	5434.0
4	5	B	185.19	NaN	62.0	4242.0

#(a)
data1.isnull().sum()/data1.shape[0]

编号    0.000000
地区    0.000000
身高    0.000000
体重    0.222222
年龄    0.250000
工资    0.222222
dtype: float64

data1[data1.iloc[:,-3:].isnull().sum(axis=1)>1]

	编号	地区	身高	体重	年龄	工资
2	3	C	169.09	62.18	NaN	NaN
11	12	A	202.56	92.30	NaN	NaN
12	13	C	177.37	NaN	79.0	NaN
14	15	C	199.11	89.20	NaN	NaN
26	27	B	158.28	NaN	51.0	NaN
32	33	C	181.01	NaN	NaN	13021.0
33	34	A	196.67	87.00	NaN	NaN

#(b)
data1.loc[:,'体重'] = data1.set_index('身高')['体重'].interpolate(method='index').reset_index()
data1

	编号	地区	身高	体重	年龄	工资
0	1	A	157.50	NaN	47.0	15905.0
1	2	B	202.00	91.80	25.0	NaN
2	3	C	169.09	62.18	NaN	NaN
3	4	A	166.61	59.95	77.0	5434.0
4	5	B	185.19	72.42	62.0	4242.0
5	6	A	187.13	78.42	55.0	13959.0
6	7	C	163.81	57.43	43.0	6533.0
7	8	A	183.80	75.42	48.0	19779.0
8	9	B	179.67	71.70	65.0	8608.0
9	10	C	186.08	77.47	65.0	12433.0
10	11	B	163.41	57.07	NaN	6495.0
11	12	A	202.56	92.30	NaN	NaN
12	13	C	177.37	91.80	79.0	NaN
13	14	B	175.99	68.39	NaN	13130.0
14	15	C	199.11	89.20	NaN	NaN
15	16	A	165.68	91.80	46.0	13683.0
16	17	B	166.48	59.83	31.0	17673.0
17	18	C	191.62	82.46	NaN	12447.0
18	19	A	172.83	65.55	23.0	13768.0
19	20	B	156.99	51.29	62.0	3054.0
20	21	C	200.22	90.20	41.0	NaN
21	22	A	154.63	49.17	35.0	14559.0
22	23	B	157.87	52.08	67.0	7398.0
23	24	A	165.55	91.80	66.0	19890.0
24	25	C	181.78	73.60	63.0	11383.0
25	26	A	164.43	57.99	34.0	19899.0
26	27	B	158.28	91.80	51.0	NaN
27	28	C	172.39	65.15	43.0	10362.0
28	29	B	162.12	55.91	NaN	13362.0
29	30	A	183.73	75.36	58.0	8270.0
30	31	C	181.19	72.42	41.0	12616.0
31	32	B	167.28	60.55	64.0	18317.0
32	33	C	181.01	72.42	NaN	13021.0
33	34	A	196.67	87.00	NaN	NaN
34	35	B	170.12	63.11	77.0	7398.0
35	36	C	180.47	72.42	78.0	9554.0

你可能感兴趣的:(第6章缺失数据)

数据挖掘常用算法模型简介大乔乔布斯数据挖掘线性回归决策树
以下是数据挖掘中常用的算法模型及其简称、英文全称和使用场景的简要介绍：1.决策树（DecisionTree,DT）常用算法：CART:ClassificationandRegressionTreeID3:IterativeDichotomiser3C4.5:基于ID3改进使用场景：分类问题（如信用风险评估、客户分类）回归问题（如预测房价）特点：易解释、适合处理非线性数据。2.随机森林（Random
http Accept-Encoding “gzip,deflate,br“ qt c++ 解码爱学习的大牛123 qt开发 windows qt http zip
QtC++处理HTTP请求，并需要解码服务器返回的压缩数据。以下是如何在QtC++中处理这种情况的指南：1.首先，确保您的HTTP请求头中包含了`Accept-Encoding:gzip,deflate,br`，这表明客户端可以接受这些压缩方式。2.当收到服务器响应时，检查`Content-Encoding`头，以确定使用了哪种压缩方法。3.根据压缩方法，使用相应的Qt类来解压数据：-对于gzip
Python web框架——Django xiabe python python django web开发
简介django是一个免费的开源的pythonweb框架。它遵循了model-view-template（MVT）的架构模式。由DjangoSoftwareFoundation维护，一个以501©(3)非营利组织形式成立的独立组织。django的主要目标是简单的去开发一个复杂的数据库驱动的网站。该框架强调组件的可重用性和“可插拔性”、代码更少、低耦合、快速开发以及“不要重复自己”的原则。Pytho
解锁C#泛型：代码世界的万能钥匙步、步、为营 c#前端 .net .netcore
一、引言：开启泛型大门在C#的编程世界中，我们常常面临这样的挑战：如何编写高效、灵活且可维护的代码？当需要处理不同数据类型但逻辑相似的情况时，如果没有合适的工具，代码可能会变得冗长、重复且难以管理。而C#泛型的出现，就像一把万能钥匙，为我们打开了通往高效编程的大门。想象一下，你正在开发一个数据处理系统，其中包含对整数、字符串和自定义对象的排序操作。在没有泛型的情况下，你可能需要为每种数据类型编写独
【Python学习】网络爬虫-获取京东商品评论并制作柱状图西攻城狮北 Python实用案例学习 python 爬虫京东评论柱状图
一、实现目标获取京东网站上商品的评论统计数据，并使用该数据制作了一个简单的柱状图。二、实现步骤2.1网页分析首先打开链接https://www.jd.com/。在搜索框中输入巧克力关键词后，点击第一件商品打开商品网页，找到商品评价，在商品评价模块能够看到用户选择的评论标签。由于该商品的全部用户评论有50万+，数据量较大。我们需要收集商品特点，所以我们选择对评价标签进行分析。打开https://it
爬虫实战--- （6）链家房源数据爬取与分析可视化 rain雨雨编程爬虫实战系列 python 爬虫数据分析
文章持续跟新，可以微信搜一搜公众号[rain雨雨编程]，第一时间阅读，涉及数据分析，机器学习，Java编程，爬虫，实战项目等。目录前言1.爬取目标2.所涉及知识点3.步骤分析（穿插代码讲解）步骤一：发送请求步骤二：获取数据步骤三：解析数据步骤四：保存数据4.爬取结果5.完整代码6数据可视化前言今天我将为大家分享一个非常实用的Python项目——链家房源数据的爬取与分析可视化。在这篇文章中，我们将分
关于python语言程序设计课本的总结 pianmian1 python 开发语言
不知不觉就学完了整本书.今天来总结一下内容吧.目录第一章:程序设计基本方法;第二章:python语言基本语法元素第三章:基本数据类型第四章:程序的控制结构第五章:函数和代码复用第一章:程序设计基本方法;本章讲述了程序设计的基本语言概述与python语言特点.讲述了如何正确安装python程序.介绍了python语言的优点:语法简介,生态丰富,多语言集成,平台无关,强制可读,支持中文,模式多样等.并
‘Accept-Encoding‘: ‘gzip, deflate, br‘ 的含义暮雨疏桐 http https
Accept-Encoding是HTTP协议中的一个头部字段，其主要作用在于告知服务器客户端能够理解的内容编码方式。这个字段对于网络传输效率的优化非常重要，因为它允许服务器根据客户端的能力来压缩响应数据，从而减少传输的数据量，加快网页加载速度。以下是关于Accept-Encoding的详细解释：作用：告知服务器客户端支持的内容压缩编码方式。允许服务器根据客户端的支持情况选择合适的压缩算法来压缩响应
Depth Anything V2 使用指南侯彬颖Butterfly
DepthAnythingV2使用指南项目地址:https://gitcode.com/gh_mirrors/de/Depth-Anything-V2一、项目目录结构及介绍DepthAnythingV2是一个专注于单目深度估计的先进基础模型，其仓库结构清晰地组织了代码和资源，以便开发者能够快速上手。以下是关键的目录结构及其简介：.git-Git版本控制相关文件。assets-包含示例图像或数据资产
前端请求gzip，响应里却没有压缩返回 a212121212121
前端请求gzip，响应里却没有压缩返回前后端分离的框架，前端vue后端的springboot都开启了gzip。前端请求Accept-Encoding:gzip,deflate后端却没有响应。数据没有压缩。试过了好几个浏览器都没有用。后来以为是yml格式的问题，也没有效果。有经验的能告诉我是怎么回事吗?yml添加的代码.（两种格式）compression:enabled:truemin-respon
深度图转点云——从图像到三维场景 MrybHtml 点云
在计算机视觉领域中，深度图转点云是一项重要的任务，它能够将二维深度图像转换为三维点云表示。点云是一种由点构成的数据结构，可以直观地表示三维场景中的物体形状和空间布局。本文将介绍一种常见的方法，并提供相应的源代码，以实现深度图转点云。深度图是一种灰度图像，其中每个像素值代表了该点距离相机的距离。深度图通常使用激光雷达或者结构光等传感器捕捉得到。而点云则是由一系列的三维点组成，每个点都有其在空间中的坐
使用scikit-learn实现线性回归对自定义数据集进行拟合 Luzem0319 scikit-learn 线性回归 python
1.引入必要的库首先，需要引入必要的库。scikit-learn提供了强大的机器学习工具，pandas和numpy则用于数据处理，matplotlib用于结果的可视化。importpandasaspdimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitfromsklearn.linear_modelimportLinear
使用PyTorch实现逻辑回归：从训练到模型保存与加载 Luzem0319 pytorch 逻辑回归人工智能
1.引入必要的库首先，需要引入必要的库。PyTorch用于构建和训练模型，pandas和numpy用于数据处理，matplotlib用于结果的可视化。importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataLoader,TensorDatasetimportpandasaspdimport
uniapp web-view调整修改高度设置黑云压城After 前端 uni-app javascript
web-view默认占全屏，怎么处理自定义高度，实现如下：视频监控data数据：exportdefault{data(){return{urlType:null,webviewStyles:{progress:{color:"#FF3333"}},};},};核心代码:onLoad(options){//#ifdefAPP-PLUSletheight=0;//定义动态的高度变量letstatusb
MySQL时间戳与日期格式的相互转换 DfsnVue mysql 数据库
在MySQL数据库中，时间戳（timestamp）和日期格式（dateformat）是常用的数据类型。时间戳表示从1970年1月1日零时到特定日期时间的秒数，而日期格式则以年-月-日的形式表示日期。在MySQL中，我们可以使用函数来相互转换时间戳和日期格式。下面我将详细介绍如何进行这些转换，并提供相应的源代码示例。将时间戳转换为日期格式要将时间戳转换为日期格式，在MySQL中可以使用FROM_UN
使用SSE流式输出（Javaweb前后端实战）记得开心一点嘛 JavaWeb后端开发技术栈 SSE Java 后端
目录一.什么是SSE？主要特点：二.SSE的实现过程：三.SSE的前端实现：1.创建EventSource对象：2.处理接收到的信息：3.处理特定事件：4.处理连接错误问题：5.关闭连接：四.SSE的后端实现：1.导入web依赖：2.创建Controller类：3.SeeEmitter的介绍以及使用方法：（1）.构造方法（2）.发送数据（3）.关闭连接（4）.连接状态处理（5）.获取超时时间（6）
python3+TensorFlow 2.x（四）反向传播刀客123 python学习 tensorflow 人工智能 python
目录反向传播算法反向传播算法基本步骤：反向中的参数变化总结反向传播算法反向传播算法（Backpropagation）是训练人工神经网络时使用的一个重要算法，它是通过计算梯度并优化神经网络的权重来最小化误差。反向传播算法的核心是基于链式法则的梯度下降优化方法，通过计算误差对每个权重的偏导数来更新网络中的参数。反向传播算法基本步骤：前向传播：将输入数据传递通过神经网络的各层，计算每一层的输出。计算损失
Python SQLAlchemy库详解寒秋丶 Python python 开发语言数据库测试开发软件测试软件开发自动化测试
大家好，在Python生态系统中，SQLAlchemy库是一个强大的工具，为开发人员提供了便捷的方式来处理与数据库的交互。无论是开发一个小型的Web应用程序，还是构建一个大型的企业级系统，SQLAlchemy都能满足你的需求，并提供灵活性和性能上的优势。本文将带你深入探索SQLAlchemy库，从基础概念到高级用法，让你对其有一个全面的了解。一、介绍SQLAlchemy是Python中一个强大的开
ArcGIS连接达梦数据库创建空间数据库山雨同学数据库 arcgis
1.安装64位或32位达梦数据库；2.用DM管理工具连接数据库运行一下代码，创建DMGEO系统包。SP_INIT_GEO_SYS(1);3.若在本机使用ArcGIS连接，数据库安装的是64位数据库，必须安装32位的客户端（另建文件夹），将32位客户端的bin文件夹下文件复制到ArcGIS的bin文件夹下，重复文件跳过处理。远程连接，在安装ArcGIS的电脑安装安装32位DM客户端，同样将32位客户
Flask教程5：flask数据库SQLAlchemy Cachel wood Flask入门教程数据库 flask oracle python 阿里云开发语言 LLM
文章目录SQLAlchemy为什么使用ORM初始化数据库配置表模型的定义与数据库映射数据的增、删、改、查操作数据的添加数据的查找数据的修改数据的删除init_app作用详解SQLAlchemySQLAlchemy是一个基于Python实现的ORM(ObjectRelationalMapping，对象关系映射）框架。该框架建立在DBAPI(数据库应用程序接口系统)之上，使用关系对象映射进行数据库操作
【Innodb阅读笔记】之二进制文件 ꧁瀟洒辵１恛꧂ 笔记
一、什么是二进制文件二进制文件记录了对mySQL数据库执行修改的所有操作，不包括select和show这类操作，因为这类操作对数据库本身没有修改。但是，当执行修改操作，数据库没有发生变化，这类操作也会写入二进制文件中。通过配置参数log-bin开启二进制日志。如：#配置文件写入开启二进制指定文件名称为:mysql-bin#log-bin#不指定名称默认使用主机名log-bin=mysql-bin#
ArcGIS GeoDatabase ST_Geometry简介三脚猫 ARCSDE oracle 存储 sql distance float constructor
ArcGISGeoDatabaseST_Geometry简介1使用ST_Geometry存储空间数据（oracle）1.1简介ArcSDEforOracle提供了ST_Geometry类型来存储几何数据。ST_Geometry是一种遵循ISO和OGC规范的，可以通过SQL直接读取的空间信息存储类型。采用这种存储方式能够更好的利用oracle的资源，更好的兼容oracle的特征，比如复制和分区，并且
PHP代码段，用于连接MySQL数据库并查询数据黄聪的笔记本数据库 php mysql
connect_error){die("连接失败:".$conn->connect_error);}//SQL查询语句$sql="SELECTid,firstname,lastnameFROMMyGuests";$result=$conn->query($sql);if($result->num_rows>0){//输出数据while($row=$result->fetch_assoc()){ec
el-select 的默认选中以及后端返回的数据进行默认选中向明天乄 vue.js javascript ecmascript
前言本次内容为el-select的两种默认选中方式，一种自定义内容的默认选中，一种的后端返回数据的默认选中以及后端返回数据的默认选中，及注意事项。注意点！！！v-model拿到的值一定要是纯数值类型，只有数值类型才会自动加载对应的选中项，其他类型的则不生效一，自定义内容的默认选中statusType:[{label:'正常',value:1},{label:'禁用',value:0},],二，由后
MySQL存储引擎 JustGopher MySQL 数据库 mysql 数据库
MySQL体系结构连接层最上层是一些客户端和连接服务，主要完成一些类似于连接处理、授权认证、及相关的安全方案。服务器也会为每个安全接入的用户端验证它所具有的操作权限。服务层第二层架构主要完成大多数的核心服务功能，如SQL接口，并完成缓存的查询，SQL的分析和优化、部分内置函数的执行。所有跨存储引擎的功能也在这一层实现，如：过程、函数等。引擎层存储引擎真正的负责了MySQL中数据的存储和提取，服务器
el-table 多选默认选中（根据返回的id给数据加默认选中状态）向明天乄 vue.js elementui 前端
前言el-table是我们最常用的展示数据的方式，但是有时候需要用到多选来选择数据，新增数据的时候还好，选中状态都是正常的，但是修改就遇到问题，需要对这个已经选择过的数据加上默认的选中状态，本次就是解决这个问题。通过ref这个来解决。setDefaultSelection(){//用的时候将defaultSelectedIds替换成你的idconstdefaultSelectedIds=[1,3,
mysql存储函数小冯爱编程 mysql 数据库 sql
文章目录存储函数一、创建存储函数二、调用存储函数存储函数我们学过很多函数，使用这些函数可以对数据进行的各种处理操作，极大地提高用户对数据库的管理效率。MySQL支持自定义函数，定义好之后，调用方式与调用MySQL预定义的系统函数一样，比如AVG、COUNT、SUBSTR等。一、创建存储函数CREATEFUNCTION函数名(参数名参数类型,...)RETURNS返回值类型[characterist
数据挖掘的常用算法北柠陌寒0207 笔记
在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。目前,在很多领域尤其
PyQt4 的图片切割编辑器烛火萤辉 Python python pyqt
一、编辑器功能明确允许用户加载图片、选择切割模式、对切割后的图片片段进行操作（如移动、复制、粘贴、删除等），并支持撤销和重做操作。环境：Py2.7PyQt4.11二、导入模块介绍sys:用于访问与Python解释器强相关的变量和函数。os:提供操作系统相关功能，如文件路径操作。random:用于生成随机数，主要用于自动保存文件名。json:用于数据序列化和反序列化，方便保存和加载编辑状态。glob
知网爬虫，作者、摘要、题目、发表期刊等主要内容的获取大懒猫软件爬虫
爬取知网内容的详细过程爬取知网内容需要考虑多个因素，包括网站的结构、反爬虫机制等。以下是一个详细的步骤和代码实现，帮助你使用Python爬取知网上的论文信息，包括作者、摘要、题目、发表期刊等主要内容。1.数据准备首先，需要准备一些基础数据，如知网的URL、请求头等。2.模型构建使用requests库发送HTTP请求，使用BeautifulSoup库解析HTML内容。如果遇到动态加载的内容，可以使用
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓

第6章 缺失数据