Luuuuuuuuuuke

《利用Python进行数据分析》Chapter 7

在数据分析和建模的过程中，大量的时间花在数据准备上：加载、清理、转换和重新排列。这样的工作占了分析师80%以上的时间。
本章内容主要讲解pandas中用于缺失值、重复值、字符串操作和其他分析数据转换的工具。

1. 处理缺失值

pandas对象的所有描述性统计信息默认情况下是排除缺失值的。对于数值型数据，pandas使用浮点值NaN来表示缺失值，所以NaN是容易检测到的标识值。

1.1 过滤缺失值

a. 在Series上使用dropna，可以返回Series中素有的非空数据及其索引值：

data = pd.Series([1, np.nan, 3.5, np.nan, 7])
data
0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64
cleaned = data.dropna() # 原数组不发生改变, 与data.notnull()等价
cleaned
0    1.0
2    3.5
4    7.0
dtype: float64

b. 对与DataFrame来说有一些选项可以操作：

from numpy import nan as NA # 使用NA来代替np.nan
data = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA], [NA, NA, NA], [NA, 6.5, 3.]])
data
	0	1	2
0	1.0	6.5	3.0
1	1.0	NaN	NaN
2	NaN	NaN	NaN
3	NaN	6.5	3.0
data.dropna() # 参数默认的情况下删除包含缺失值的所有行
	0	1	2
0	1.0	6.5	3.0
data.dropna(how='all') # 仅删除所有值都是NA的行
	0	1	2
0	1.0	6.5	3.0
1	1.0	NaN	NaN
3	NaN	6.5	3.0
data[4] = NA
data
	0	1	2	4
0	1.0	6.5	3.0	NaN
1	1.0	NaN	NaN	NaN
2	NaN	NaN	NaN	NaN
3	NaN	6.5	3.0	NaN
data.dropna(axis=1, how='all') # 指定轴1来删除列
	0	1	2
0	1.0	6.5	3.0
1	1.0	NaN	NaN
2	NaN	NaN	NaN
3	NaN	6.5	3.0

df = pd.DataFrame(np.random.randn(7, 3))
df.iloc[:4, 1] = NA
df.iloc[:2, 2] = NA
df
		0			1			2
0	-0.049375	NaN			NaN
1	-0.557540	NaN			NaN
2	-0.079590	NaN			1.016858
3	0.035582	NaN			0.562665
4	1.023047	0.485505	-0.086212
5	0.315884	-1.314378	0.916748
6	0.479718	-0.704622	-1.252934
df.dropna(thresh=2) # 保留至少有2个非空值数据的行
		0			1			2
2	-0.079590	NaN			1.016858
3	0.035582	NaN			0.562665
4	1.023047	0.485505	-0.086212
5	0.315884	-1.314378	0.916748
6	0.479718	-0.704622	-1.252934

1.2 补全缺失值

除了将缺失值直接过滤掉，还可以通过fillna方法来补全。
a. 使用常数来替代缺失值：

df
	0			1			2
0	-0.049375	NaN			NaN
1	-0.557540	NaN			NaN
2	-0.079590	NaN			1.016858
3	0.035582	NaN			0.562665
4	1.023047	0.485505	-0.086212
5	0.315884	-1.314378	0.916748
6	0.479718	-0.704622	-1.252934
df.fillna(0) # 原数据未改变
	0			1			2
0	-0.049375	0.000000	0.000000
1	-0.557540	0.000000	0.000000
2	-0.079590	0.000000	1.016858
3	0.035582	0.000000	0.562665
4	1.023047	0.485505	-0.086212
5	0.315884	-1.314378	0.916748
6	0.479718	-0.704622	-1.252934

b. 可以为不同列设定不同的填充值：

df.fillna({
     1: 0.5, 2: 0})
	0			1			2
0	-0.049375	0.500000	0.000000
1	-0.557540	0.500000	0.000000
2	-0.079590	0.500000	1.016858
3	0.035582	0.500000	0.562665
4	1.023047	0.485505	-0.086212
5	0.315884	-1.314378	0.916748
6	0.479718	-0.704622	-1.252934

c. fillna返回的是一个新对象，原对象不变，也可以修改已经存在的对象：

df.fillna(0, inplace=True) # 修改原数据

d. 支持插值法填充

df = pd.DataFrame(np.random.randn(6, 3))
df.iloc[2:, 1] = NA
df.iloc[4:, 2] = NA
df
	0			1			2
0	0.951068	0.878024	0.837684
1	0.231418	-1.218248	-0.986771
2	1.115496	NaN			0.536248
3	-1.295515	NaN			-1.474961
4	0.101957	NaN			NaN
5	-2.015696	NaN			NaN
df.fillna(method='ffill') # 向前填充，bfill向后填充
	0			1			2
0	0.951068	0.878024	0.837684
1	0.231418	-1.218248	-0.986771
2	1.115496	-1.218248	0.536248
3	-1.295515	-1.218248	-1.474961
4	0.101957	-1.218248	-1.474961
5	-2.015696	-1.218248	-1.474961
df.fillna(method='ffill', limit=2) # 向前填充两个数据
	0			1			2
0	0.951068	0.878024	0.837684
1	0.231418	-1.218248	-0.986771
2	1.115496	-1.218248	0.536248
3	-1.295515	-1.218248	-1.474961
4	0.101957	NaN			-1.474961
5	-2.015696	NaN			-1.474961

e. 还可以使用统计学数据来填充，如平均值/中位数等：

data = pd.Series([1., NA, 3.5, NA, 7])
data
0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64
data.fillna(data.mean())
0    1.000000
1    3.833333
2    3.500000
3    3.833333
4    7.000000
dtype: float64

2. 数据转换

2.1 删除重复值

a. DataFrame 的duplicated方法返回的是一个布尔值Series，反映每一行是否存在与之前出现过的行相同的情况：

data = pd.DataFrame({
     'k1': ['one', 'two'] * 3 + ['two'],
                    'k2': [1, 1, 2, 3, 3, 4, 4]})
data
	k1	k2
0	one	1
1	two	1
2	one	2
3	two	3
4	one	3
5	two	4
6	two	4
data.duplicated()
0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

b. drop_duplicates 返回的是DataFrame，内容是duplicated返回数组中为False的部分，即删除了重复行

data.drop_duplicates() # 去除重复行
k1	k2
0	one	1
1	two	1
2	one	2
3	two	3
4	one	3
5	two	4

c. 可以基于特定的列去删除数据：

data['v1'] = range(7)
data
	k1	k2	v1
0	one	1	0
1	two	1	1
2	one	2	2
3	two	3	3
4	one	3	4
5	two	4	5
6	two	4	6
data.drop_duplicates(['k1'])
	k1	k2	v1
0	one	1	0
1	two	1	1

d. duplicated和drop_duplicates默认都是保留第一个观测到的值，参数keep='last‘可以指定保留最后一个：

data.drop_duplicates(['k1', 'k2'], keep='last') 
	k1	k2	v1
0	one	1	0
1	two	1	1
2	one	2	2
3	two	3	3
4	one	3	4
6	two	4	6

2.2 使用函数或者映射进行数据转换

基于DataFrame中的数组、列或列中的数值进行一些转换。

a. 对数组使用映射：Series map方法接收一个函数或者一个包含映射关系的字典型对象

data = pd.DataFrame({
     'food': ['bacon', 'pulled pork', 'bacon',
                              'Pastrami', 'corned beef', 'Bacon',
                              'pastrami', 'honey ham', 'nova lox'],
                     'ounces': [4, 3, 12, 6, 7.5, 8, 3, 5, 6]})
data
	food		ounces
0	bacon		4.0
1	pulled pork	3.0
2	bacon		12.0
3	Pastrami	6.0
4	corned beef	7.5
5	Bacon		8.0
6	pastrami	3.0
7	honey ham	5.0
8	nova lox	6.0
meat_to_animal = {
     
    'bacon' : 'pig',
    'pulled pork': 'pig',
  'pastrami': 'cow',
  'corned beef': 'cow',
  'honey ham': 'pig',
  'nova lox': 'salmon'
}
lowercased = data['food'].str.lower() # 统一大小写
lowercased
0          bacon
1    pulled pork
2          bacon
3       pastrami
4    corned beef
5          bacon
6       pastrami
7      honey ham
8       nova lox
Name: food, dtype: object
data['animal'] = lowercased.map(meat_to_animal)
data
	food		ounces	animal
0	bacon		4.0		pig
1	pulled pork	3.0		pig
2	bacon		12.0	pig
3	Pastrami	6.0		cow
4	corned beef	7.5		cow
5	Bacon		8.0		pig
6	pastrami	3.0		cow
7	honey ham	5.0		pig
8	nova lox	6.0		salmon

b. 也可以传入一个能够完成所有工作的函数，使用map函数

data['food'].map(lambda x: meat_to_animal[x.lower()])
0       pig
1       pig
2       pig
3       cow
4       cow
5       pig
6       cow
7       pig
8    salmon
Name: food, dtype: object

2.3 替代值

使用fillna填充缺失值是通用值替换的特殊案例，而一些非NA的缺失值可能也需要进行处理，replace函数可以实现。注意与str.replace不同，str的replace方法是对字符串进行按元素替换的。

data = pd.Series([1., -999., 2., -999., -1000., 3.])
data
0       1.0
1    -999.0
2       2.0
3    -999.0
4   -1000.0
5       3.0
dtype: float64
data.replace(-999, NA) # 原数据不变，除非传入inpalce=True参数
0       1.0
1       NaN
2       2.0
3       NaN
4   -1000.0
5       3.0
dtype: float64
data.replace([-999, -1000], NA) # 传入一个列表和替代值可以一次替代多个值
0    1.0
1    NaN
2    2.0
3    NaN
4    NaN
5    3.0
dtype: float64
data.replace([-999, -1000], [np.nan, 0]) # 将不同的值替换为不同的值
0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64
data.replace({
     -999: np.nan, -1000: 0}) # 通过字典传递，效果同上

2.4 重命名轴索引

通过函数或某种形式的映射对轴标签进行转换，生成新的带有不同标签的对象。也可以在不生成新的数据结构的情况下修改轴。

a. 对轴索引进行转换

data = pd.DataFrame(np.arange(12).reshape((3, 4)),
                    index=['Ohio', 'Colorado', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data
			one	two	three	four
Ohio		0	1	2		3
Colorado	4	5	6		7
New York	8	9	10		11
data.index.map(lambda x: x[:4].upper()) # 原数据index不变
Index(['OHIO', 'COLO', 'NEW '], dtype='object')
data.index = data.index.map(transform) # 赋值给index，修改原DataFrame
data
		one	two	three	four
OHIO	0	1	2		3
COLO	4	5	6		7
NEW		8	9	10		11

b. rername 方法可以创建数据集转换后的版本：

data.rename(index=str.title, columns=str.upper) # 不改变原来的数据集
		ONE	TWO	THREE	FOUR
Ohio	0	1	2		3
Colo	4	5	6		7
New		8	9	10		11
data.rename(index={
     'OHIO': 'INDIANA'}, 
           columns={
     'three': 'peekaboo'}) # 可以同时对行和列名进行修改
		one	two	peekaboo	four
INDIANA	0	1	2			3
COLO	4	5	6			7
NEW		8	9	10			11
data.rename(index={
     'OHIO': 'INDIANA'}, inplace=True) # 修改原有数据集
data
		one	two	three	four
INDIANA	0	1	2		3
COLO	4	5	6		7
NEW		8	9	10		11

2.5 离散化和分箱

a. 连续值经常需要离散化，或者分离成“箱子”进行分析。pandas的cut方法可以实现此功能：

ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]
bins = [18, 25, 35, 60, 100]
cats = pd.cut(ages, bins)
cats
[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

pandas返回的是一个特殊的Categorical（adj.分类的）对象。

type(cats)
pandas.core.arrays.categorical.Categorical

可以将它看作一个表示箱名的字符串数组，内部包含了一个categories（类别）数组，指定了不同的类别名称以及 codes属性中的ages数据标签（属于哪一个分组）：

cats.codes
array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1], dtype=int8)
cats.categories
IntervalIndex([(18, 25], (25, 35], (35, 60], (60, 100]],
              closed='right',
              dtype='interval[int64]')

value_counts可以对每个箱中的数量进行计数：

pd.value_counts(cats)
(18, 25]     5
(35, 60]     3
(25, 35]     3
(60, 100]    1
dtype: int64

默认分段区间是左开右闭的，可以通过传递right=False来改变哪一边是封闭的：

pd.cut(ages, [18, 26, 36, 61, 100], right=False)
[[18, 26), [18, 26), [18, 26), [26, 36), [18, 26), ..., [26, 36), [61, 100), [36, 61), [36, 61), [26, 36)]
Length: 12
Categories (4, interval[int64]): [[18, 26) < [26, 36) < [36, 61) < [61, 100)]

b. 可以通过labels 选项传递一个列表或数组来自定义箱的名称：

group_names = ['Youth', 'YoungAdult', 'MiddleAged', 'Senior']
pd.cut(ages, bins, labels=group_names)
[Youth, Youth, Youth, YoungAdult, Youth, ..., YoungAdult, Senior, MiddleAged, MiddleAged, YoungAdult]
Length: 12
Categories (4, object): [Youth < YoungAdult < MiddleAged < Senior]

c. 可以显式地指定箱的数量，padnas将根据数据中的最大值和最小值计算出等长的箱：

data = np.random.rand(20)
data
array([0.62558948, 0.49247275, 0.25681885, 0.25178935, 0.14436841,
       0.63673486, 0.23204162, 0.797068  , 0.03570436, 0.30070254,
       0.30990067, 0.17416387, 0.02437491, 0.74195102, 0.56268857,
       0.31056704, 0.84019179, 0.22255447, 0.95149209, 0.3665864 ])
pd.cut(data, 4, precision=2)
[(0.49, 0.72], (0.49, 0.72], (0.26, 0.49], (0.023, 0.26], (0.023, 0.26], ..., (0.26, 0.49], (0.72, 0.95], (0.023, 0.26], (0.72, 0.95], (0.26, 0.49]]
Length: 20
Categories (4, interval[float64]): [(0.023, 0.26] < (0.26, 0.49] < (0.49, 0.72] < (0.72, 0.95]]
pd.value_counts(pd.cut(data, 4, precision=2)) # precision=2将十进制精度限制在两位
(0.023, 0.26]    7
(0.26, 0.49]     5
(0.72, 0.95]     4
(0.49, 0.72]     4
dtype: int64

d. qcut 函数可以基于样本分位数进行分箱

data = np.random.randn(1000) # 正态分布
cats = pd.qcut(data, 4) # 根据分位数切成四份
cats
[(0.68, 2.953], (-3.303, -0.638], (-0.638, -0.018], (-0.638, -0.018], (-0.638, -0.018], ..., (-3.303, -0.638], (0.68, 2.953], (0.68, 2.953], (-0.018, 0.68], (0.68, 2.953]]
Length: 1000
Categories (4, interval[float64]): [(-3.303, -0.638] < (-0.638, -0.018] < (-0.018, 0.68] < (0.68, 2.953]]
pd.value_counts(cats)
(0.68, 2.953]       250
(-0.018, 0.68]      250
(-0.638, -0.018]    250
(-3.303, -0.638]    250
dtype: int64

e. qcut 支持传入自定义的分位数（0和1之间的数据，包括边）：

pd.qcut(data, [0, 0.1, 0.5, 0.9, 1.])
[(1.278, 2.953], (-1.163, -0.018], (-1.163, -0.018], (-1.163, -0.018], (-1.163, -0.018], ..., (-1.163, -0.018], (1.278, 2.953], (-0.018, 1.278], (-0.018, 1.278], (-0.018, 1.278]]
Length: 1000
Categories (4, interval[float64]): [(-3.303, -1.163] < (-1.163, -0.018] < (-0.018, 1.278] < (1.278, 2.953]]
pd.value_counts(pd.qcut(data, [0, 0.1, 0.5, 0.9, 1.]))
(-0.018, 1.278]     400
(-1.163, -0.018]    400
(1.278, 2.953]      100
(-3.303, -1.163]    100
dtype: int64

2.6 检测和过滤异常值

a. 过滤和转换异常值操作

data = pd.DataFrame(np.random.randn(1000, 4)) 
data[np.abs(data[2]) > 3] # 选出列2中绝对值大于三的行
	 0			1			 2			 3
8	 0.250961	1.072362	 3.296707	-1.078753
115	-0.761032	0.401280	-3.030210	 0.403297
406	 0.217815	0.025579	 3.377316	-0.192798
data[(np.abs(data) > 3).any(1)] # 选出所有值大于3或小于-3的行，any表示所有列中只要有一列满足就可以
	0			1			2			3
8	0.250961	1.072362	3.296707	-1.078753
66	1.055522	0.034082	-0.128774	3.022063
115	-0.761032	0.401280	-3.030210	0.403297
203	3.108667	0.105787	0.763269	0.917179
331	-0.865157	1.298979	1.368561	-3.061785
406	0.217815	0.025579	3.377316	-0.192798
685	3.248309	1.246953	0.036534	0.682988
706	3.344908	-0.466498	-0.369035	-1.406542
766	1.149687	3.503083	-0.801795	-0.069251
777	-0.305337	-0.312032	2.006442	-3.775696

b. np.sign(data) 根据数据中的值的正负分别生成1和-1

data[np.abs(data) > 3] =  np.sign(data) * 3 
data.describe()
		 0			1			2			3
count	1000.000000	1000.000000	1000.000000	1000.000000
mean	-0.023892	0.049617	-0.029047	-0.026467
std		1.003102	0.956176	0.986469	0.967800
min		-2.957964	-2.796303	-3.000000	-3.000000
25%		-0.690697	-0.558802	-0.692625	-0.641618
50%		-0.025567	0.036595	-0.030208	-0.006524
75%		0.645585	0.681651	0.626127	0.623537
max		3.000000	3.000000	3.000000	3.000000

2.7 置换和随机抽样

a. np.random.permutation 可以对DataFrame 中的Series或行进行置换（随机排序）,在随机抽样中应用广泛。在调用permutation时根据你想要的轴长度可以生成一个表示新顺序的整数数组：

df = pd.DataFrame(np.arange(20).reshape(5, 4))
df
	0	1	2	3
0	0	1	2	3
1	4	5	6	7
2	8	9	10	11
3	12	13	14	15
4	16	17	18	19
sampler = np.random.permutation(5) # 本质上sampler类型为array
sampler
array([4, 2, 1, 3, 0])

生成的整数数组可以用在基于iloc的索引或take函数中：

df.take(sampler) # df.iloc[sampler] 效果一致，根据sampler生成的数组对行重新排序
	0	1	2	3
4	16	17	18	19
2	8	9	10	11
1	4	5	6	7
3	12	13	14	15
0	0	1	2	3

b. sample 方法可以选出一个不含有替代值的随机子集：

df.sample(n=3) # 选出的行是随机的
	0	1	2	3
4	16	17	18	19
3	12	13	14	15
1	4	5	6	7

c. 生成一个带有替代值的样本（允许重复选择），replace=True

choices = pd.Series([5, 7, -1, 6, 4])
draws = choices.sample(10, replace=True)
draws
1    7
2   -1
4    4
4    4
2   -1
4    4
4    4
3    6
1    7
1    7
dtype: int64

2.8 计算指标/虚拟变量

a. 虚拟变量多用于分类变量的分类操作，如DataFrame中的一列有k个不同的值，则可以衍生一个k列的值为1和0的矩阵或DataFrame，pandas中的get_dummies函数可以实现该功能：

df = pd.DataFrame({
     'key': ['b', 'b', 'a', 'c', 'a', 'b'], 'data1': range(6)})
df
	key	data1
0	b	0
1	b	1
2	a	2
3	c	3
4	a	4
5	b	5
pd.get_dummies(df['key'])
	a	b	c
0	0	1	0
1	0	1	0
2	1	0	0
3	0	0	1
4	1	0	0
5	0	1	0

可以在指标DataFrame的列上加入前缀，然后与其他数据合并：

dummies = pd.get_dummies(df['key'] , prefix= 'key')
dummies
	key_a	key_b	key_c
0	0		1		0
1	0		1		0
2	1		0		0
3	0		0		1
4	1		0		0
5	0		1		0
df_with_dummy = df[['data1']].join(dummies)
df_with_dummy
	data1	key_a	key_b	key_c
0	0		0		1		0
1	1		0		1		0
2	2		1		0		0
3	3		0		0		1
4	4		1		0		0
5	5		0		1		0

b. 如果DataFrame中的一行属于多个类别，处理较为繁琐，如电影流派分类数据：

mnames = ['movie_id', 'title', 'genres']
movies = pd.read_table('datasets/movielens/movies.dat', engine='python', sep='::',
                       header=None, names=mnames)
movies[:10]
	movie_id	title								genres
0	1			Toy Story (1995)					Animation|Children's|Comedy
1	2			Jumanji (1995)						Adventure|Children's|Fantasy
2	3			Grumpier Old Men (1995)				Comedy|Romance
3	4			Waiting to Exhale (1995)			Comedy|Drama
4	5			Father of the Bride Part II (1995)	Comedy

首先从数据集中提取出所有不同的流派列表：

all_genres = []
for x in movies.genres:
    all_genres.extend(x.split('|'))
genres = pd.unique(all_genres)
genres
array(['Animation', "Children's", 'Comedy', 'Adventure', 'Fantasy',
       'Romance', 'Drama', 'Action', 'Crime', 'Thriller', 'Horror',
       'Sci-Fi', 'Documentary', 'War', 'Musical', 'Mystery', 'Film-Noir',
       'Western'], dtype=object)

生成满足长宽数的全0DataFrame:

zero_matrix = np.zeros((len(movies), len(genres)))
zero_matrix
array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])
dummies =  pd.DataFrame(zero_matrix, columns=genres)

将每个电影对应的流派列值改为1：

for i, gen in enumerate(movies.genres):
    indices = dummies.columns.get_indexer(gen.split('|'))
    dummies.iloc[i, indices] = 1

将结果与movies进行联合：

movies_windic = movies.join(dummies.add_prefix('Genre_'))
movies_windic[:5]
movie_id	title	genres	Genre_Animation	Genre_Children's	Genre_Comedy	Genre_Adventure	Genre_Fantasy	Genre_Romance	Genre_Drama	...	Genre_Crime	Genre_Thriller	Genre_Horror	Genre_Sci-Fi	Genre_Documentary	Genre_War	Genre_Musical	Genre_Mystery	Genre_Film-Noir	Genre_Western
0	1	    Toy Story (1995)	Animation|Children's|Comedy	1.0	1.0	1.0	0.0	0.0	0.0	0.0	...	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
1	2	    Jumanji (1995)	Adventure|Children's|Fantasy	0.0	1.0	0.0	1.0	1.0	0.0	0.0	...	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
2	3	    Grumpier Old Men (1995)	Comedy|Romance	0.0	0.0	1.0	0.0	0.0	1.0	0.0	...	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
3	4	    Waiting to Exhale (1995)	Comedy|Drama	0.0	0.0	1.0	0.0	0.0	0.0	1.0	...	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
4	5	    Father of the Bride Part II (1995)	Comedy	0.0	0.0	1.0	0.0	0.0	0.0	0.0	...	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
5 rows × 21 columns

c. get_dummies与cut等离散化函数的结合广泛应用与统计分析中，可以实现分类并统计个数：

np.random.seed(12345)
values = np.random.rand(10)
bins = [0, 0.2, 0.4, 0.6, 0.8, 1]
pd.get_dummies(pd.cut(values, bins))[:4]
	(0.0, 0.2]	(0.2, 0.4]	(0.4, 0.6]	(0.6, 0.8]	(0.8, 1.0]
0	0			0			0			0			1
1	0			1			0			0			0
2	1			0			0			0			0
3	0			1			0			0			0

3. 字符串操作

3.1 字符串方法

find和index的区别在于index在字符串中没有找到时会抛出异常，而find则是返回-1。

3.2 正则表达式

a. python内建的re模块是用于将正则表达式应用到字符串上的库。re模块主要有三个主题：模式匹配、替代、拆分。

import re
text = 'foo  bar\t baz  \tqux'
re.split('\s+', text) # 一个或多个空白字符的正则表达式
['foo', 'bar', 'baz', 'qux']

b. 使用re.compile创建一个正则表达式对象可以形成一个可复用的对象，应用到多个字符串上：

regex = re.compile('\s+')
regex.split(text)

c. finall可以查看正则表达式对象所有匹配的模式：

regex.findall(text)
['  ', '\t ', '  \t']

d. findall 返回的是字符串中所有的匹配项；search 返回的仅仅是第一个匹配项；match 更严格，只在字符串的起始位置进行匹配：

text = """Dave [email protected]
Steve [email protected]
Rob [email protected]
Ryan [email protected]
"""
pattern = r'[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}'
regex = re.compile(pattern, flags=re.IGNORECASE) # re.IFNOREECASE 使正则表达式不区分大小写
regex.findall(text)
['[email protected]', '[email protected]', '[email protected]', '[email protected]']

search 返回的是文本中第一个匹配到的电子邮件地址，匹配对象只能告诉我们模式在字符串中起始和结束的位置：

m = regex.search(text)
m
<re.Match object; span=(5, 20), match='[email protected]'>
text[m.start():m.end()] # 通过切片来获得匹配到的字符串
'[email protected]'

match 只在模式出现与字符串起始位置时进行匹配，如果没有匹配到则返回None:

print(regex.match(text))
None

正则表达式其他相关内容过多，参见单独章节。

4. pandas 中的向量化字符串函数

通过Series的str属性进行调用方法可以在面向数组时跳过NA值来进行字符串操作，相关详细内容参见其他。

你可能感兴趣的:(Python-数据分析)

Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
python读写CSV文件 bcbobo21cn .Net python 开发语言机器学习 CSV
做数据分析，有时候要分析的数据在CSV文件里；先看一下python读写CSV文件；importpandasaspddf=pd.read_csv('test1.csv')print(df)print('')print(df.head(2))companyname=["A1","B2","E3","F4"]legperson=["lier","yanqi","wangwu","zhangsan"]le
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
python数据分析知识点大全编程零零七 python数据分析 python 开发语言 python数据分析数据分析知识点大全 python数据分析知识点 python教程 python基础
Python数据分析知识点大全可以归纳为以下几个主要方面：一、基础概念与目的数据分析定义：数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论，对数据加以详细研究和概括总结的过程。其目的在于从数据中挖掘规律、验证猜想、进行预测。Python在数据分析中的优势：Python因其易学性、快速开发、丰富的扩展库（如NumPy、Pandas等）和成熟的框架，成为数据分析领域的
数据分析-24-时间序列预测之基于keras的VMD-LSTM和VMD-CNN-LSTM预测风速皮皮冰燃数据分析数据分析
文章目录1普通的LSTM模型1.1数据重采样1.2数据标准化1.3切分窗口1.4划分数据集1.5建立模型1.6预测效果2VMD-LSTM模型2.1VMD分解时间序列2.2对每一个IMF建立LSTM模型2.2.1IMF1—LSTM2.2.2IMF2-LSTM2.2.3统一代码2.3评估效果3CNN-LSTM模型3.1数据预处理3.2建立模型3.3效果预测4VMD-CNN-LSTM模型4.1VMD分解
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
OmicsTools除b站教学视频外已整理的零代码生信全流程分析文档邢博士谈科教医学科研生信分析 r语言数据可视化数据挖掘数据分析生信医学生信分析
OmicsTools软件介绍和下载安装配置软件简介我开发了一款本地电脑无限使用的零代码生信数据分析作软图神器电脑软件OmicsTools，欢迎大家使用OmicsTools进行生物医学科研数据分析和作图，该软件件能让大家在不需要任何编程和代码编写的基础上，分析次数没有限制，可以无限使用，让您在自己电脑上快速进行大量的生信分析和加速大家的科研。OmicsTools生信分析电脑软件可以做医学生物生信各个
【数据分析】利用Python+AI+工作流实现自动化数据分析-全流程讲解 z千鑫 AI领域 FLASK基础 Python基础人工智能数据分析 python AI编程 AI工作流 ai 自动化
文章目录一、为什么要用AI进行自动化分析？二、AI自动化分析场景三、编写Python脚本示例1、用flask实现让AI分析数据内容使用说明：示例2、用定时任务的方式，定时处理AI数据代码说明四、把AI分析的数据，放到AI工作流中做展示五、openAI的key结尾在信息爆炸的时代，如何快速获取有价值的洞察力成为了各行各业的迫切需求。传统的内容分析方法往往又耗时又费力，并且难以满足快速变化的市场需求。
Mall4j商城实战 - 部署 canal 数据库增量日志解析 yueerba126 Mall4j商城实战数据库 spring cloud 微服务架构
Canal简介Canal是基于MySQL数据库增量日志解析的工具，主要用于增量数据的订阅和消费。Canal主要用途基于MySQL数据库增量日志解析详细功能：实时解析MySQL的二进制日志（Binlog）。捕获数据库中的所有增量变更，如插入、更新和删除操作。使用场景：适用于实时监控数据库变化的应用，比如数据复制、数据备份或实时数据分析等。提供增量数据订阅和消费服务
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
Rust: duckdb和polars读csv文件比较 songroom rust 开发语言后端
duckdb在数据分析上，有非常多不错的特质。1、快；2、客户体验好，特别是可以同时批量读csv（在一个目录下的csv等文件）。polars的性能比pandas有非常多的超越。但背后的一些基于arrow的技术栈有很多相同之类。今天想比较一下两者在csv数据读写的情况。一、文件准备csv样本内容，是N行9列的csv标准格式，有字符串，有浮点数，有整型。具体如下：本次准备了两个csv文件，一个大约是2
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
Java基于spring boot的国产电影数据分析与可视化python+java+node.js QQ_511008285 java spring boot 数据分析 python django vue.js flask
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以该系统使用进行大数据处理和
Python最全的股票数据API接口 w_traveler python 开发语言大数据
python最全的股票数据API接口使用python是一种有效的方式来获取高频股票数据，以便进行股票行情数据分析和量化交易。python是一种广泛应用于金融数据领域的编程语言，可用于与股票数据API接口进行交互。通过调用股票数据API接口，我们可以获取实时的股票数据，包括tick数据和k线历史数据。tick数据提供了每次交易的详细信息，而k线历史数据则提供了一段时间内港股、美股、A股、沪深行情数据
R 地图绘制-比例尺与指北针 jamesjin63
ggplot绘制mapR语言可以进行数据分析，也可以进行地图绘制，而且非常简洁，快速。虽然Arcgis基于桌面可视化操作，能够进行空间分析，但是唯一不足的就是操作步骤繁琐而且一不小心，就要从头再来，可重复性较低。这篇文章主要讲述如何利用R语言中的ggplot与sf绘制带有指北针、图列与标尺的地图屏幕快照2020-06-28下午9.27.59.png数据我们下载非洲地区54个国家的图层Afirca.
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
新质农业-再生农业的应用橙蜂智农人工智能制造创业创新
橙蜂智能公司致力于提供先进的人工智能和物联网解决方案，帮助企业优化运营并实现技术潜能。公司主要服务包括AI数字人、AI翻译、埃域知识库、大模型服务等。其核心价值观为创新、客户至上、质量、合作和可持续发展。橙蜂智农的智慧农业产品涵盖了多方面的功能，如智能化推荐、数据分析、远程监控和决策支持系统。用户可以通过应用获得个性化的作物种植建议、实时的生长状态监控以及精确的灌溉和施肥指导，提升农业生产效率。文
利用发电量和气象数据分析来判断光伏仿真系统的准确性鹧鸪云光伏与储能软件开发数据分析数据挖掘光伏发电大数据光伏新能源
随着光伏产业的迅速发展，光伏仿真系统通过集成气象数据分析、发电量分析、投融资分析及损耗估算等功能，为光伏项目的全生命周期管理提供了科学依据。光伏仿真系统集成了气象数据分析、发电量预测、投融资分析、损耗估算及光伏设计等功能。其中，气象数据分析是仿真系统的基石，通过整合权威的气象数据（如Meteonorm、Nasa等），模拟光伏电站所在区域的历史气象条件及未来气象预测。基于这些气象数据，发电量分析功能
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的