AIHUBEI

数据分析----数据清洗和准备

Data Cleaning and Preparation 数据清洗和准备

修改之后，增加代码，注释

xiaoyao

# 导入package
import numpy as np
import pandas as pd
# 设置数据显示行数
PREVIOUS_MAX_ROWS = pd.options.display.max_rows
pd.options.display.max_rows = 20
# 生成随机数种子
np.random.seed(12345)
import matplotlib.pyplot as plt
plt.rc('figure', figsize=(10, 6))
np.set_printoptions(precision=4, suppress=True)

# 忽略警告
import warnings 
warnings.filterwarnings('ignore')

Handling Missing Data 处理缺失数据

pandas对象的所有描述性统计默认都不包括缺失数据。pandas使用浮点值NaN（Not a Number）表示缺失数据。

string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])
string_data

0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object

# values为null，则结果为True
string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

在pandas中，采用的是R语言中的惯用法，将缺失值表示为NA，他表示不可用not available.在统计应用中，NA数据可能是不存在的数据或者虽然存在，但是没有观察到（例如，数据采集中发生了问题）。

当进行数据清洗以进行分析的时候，最好直接对缺失数据进行分析，从而判断数据采集的问题或者缺失数据可能导致的偏差。
python内置的None值在对象数组中也可以作为NA

string_data

0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object

string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

# 这里，None值也可以作为NA
string_data[0] = None
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

一些关于缺失数据处理的函数

方法	说明
dropna	根据各标签的值中是否存在缺失数据对轴标签进行过滤，可以通过阈值调节对缺失值的容忍度
fillna	用指定值或者插值方法（如ffill或者bfill）填充确实数据
isnull	返回一个含有布尔值的对象，这些布尔值表示哪些值为缺失值NA，该对象的类型与源类型一样
notnull	这个是isnull的否定形式

Filtering Out Missing Data 滤除缺失数据

过滤掉缺失数据的方式有很多种。可以通过pandas.isnull或者布尔索引的方式，但dropna可能会更加实用。对于一个Series，dropna返回一个仅仅含有非空数据和索引值的Series:

from numpy import nan as NA
data = pd.Series([1, NA, 3.5, NA, 7])
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

# 上述操作等价于，采用布尔索引
data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

对于DataFrame对象，事情变得不一样。他这里默认丢弃任何含有缺失值的行。

data = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA],
                     [NA, NA, NA], [NA, 6.5, 3.]])
cleaned = data.dropna()
data

	0	1	2
0	1.0	6.5	3.0
1	1.0	NaN	NaN
2	NaN	NaN	NaN
3	NaN	6.5	3.0

cleaned

	0	1	2
0	1.0	6.5	3.0

# 传入how='all'将仅仅丢弃全部都是NA的那些行
data.dropna(how='all')

	0	1	2
0	1.0	6.5	3.0
1	1.0	NaN	NaN
3	NaN	6.5	3.0

data

	0	1	2
0	1.0	6.5	3.0
1	1.0	NaN	NaN
2	NaN	NaN	NaN
3	NaN	6.5	3.0

# 采用这种方式丢弃列，只需要传入axis=1就可以了
data[4] = NA
data

	0	1	2	4
0	1.0	6.5	3.0	NaN
1	1.0	NaN	NaN	NaN
2	NaN	NaN	NaN	NaN
3	NaN	6.5	3.0	NaN

# 删除全为NaN的列
data.dropna(axis=1, how='all')

	0	1	2
0	1.0	6.5	3.0
1	1.0	NaN	NaN
2	NaN	NaN	NaN
3	NaN	6.5	3.0

另外一个滤除DataFrame行的问题所涉及时间序列数据。加入我只想留下一部分观测数据，可以采用thresh参数实现此目的。

df = pd.DataFrame(np.random.randn(7, 3))
df

	0	1	2
0	0.476985	3.248944	-1.021228
1	-0.577087	0.124121	0.302614
2	0.523772	0.000940	1.343810
3	-0.713544	-0.831154	-2.370232
4	-1.860761	-0.860757	0.560145
5	-1.265934	0.119827	-1.063512
6	0.332883	-2.359419	-0.199543

df[0]

0    0.476985
1   -0.577087
2    0.523772
3   -0.713544
4   -1.860761
5   -1.265934
6    0.332883
Name: 0, dtype: float64

df.iloc[:4, 1] = NA
df.iloc[:2, 2] = NA
df

	0	1	2
0	0.476985	NaN	NaN
1	-0.577087	NaN	NaN
2	0.523772	NaN	1.343810
3	-0.713544	NaN	-2.370232
4	-1.860761	-0.860757	0.560145
5	-1.265934	0.119827	-1.063512
6	0.332883	-2.359419	-0.199543

# 默认还是删除，任何含有NaN的行
df.dropna()

	0	1	2
0	0.476985	3.248944	-1.021228
1	-0.577087	0.124121	0.302614
2	0.523772	0.000940	1.343810
3	-0.713544	-0.831154	-2.370232
4	-1.860761	-0.860757	0.560145
5	-1.265934	0.119827	-1.063512
6	0.332883	-2.359419	-0.199543

df.dropna(thresh=2)

	0	1	2
0	0.476985	3.248944	-1.021228
1	-0.577087	0.124121	0.302614
2	0.523772	0.000940	1.343810
3	-0.713544	-0.831154	-2.370232
4	-1.860761	-0.860757	0.560145
5	-1.265934	0.119827	-1.063512
6	0.332883	-2.359419	-0.199543

Filling In Missing Data 填充缺失数据

不滤除缺失数据，我希望通过其他的方法来填补这些“空洞”，对于大多数情况而言，fillna方法是主要的函数。通过一个常数
调用fillna就会将缺失值替换为那个常数值：

df

	0	1	2
0	0.476985	NaN	NaN
1	-0.577087	NaN	NaN
2	0.523772	NaN	1.343810
3	-0.713544	NaN	-2.370232
4	-1.860761	-0.860757	0.560145
5	-1.265934	0.119827	-1.063512
6	0.332883	-2.359419	-0.199543

df.fillna(0)

	0	1	2
0	0.476985	0.000000	0.000000
1	-0.577087	0.000000	0.000000
2	0.523772	0.000000	1.343810
3	-0.713544	0.000000	-2.370232
4	-1.860761	-0.860757	0.560145
5	-1.265934	0.119827	-1.063512
6	0.332883	-2.359419	-0.199543

# 若是通过一个字典调用fillna,就可以实现对不同列填充不同的值：
df.fillna({1: 0.5, 2: 0})

	0	1	2
0	0.476985	0.500000	0.000000
1	-0.577087	0.500000	0.000000
2	0.523772	0.500000	1.343810
3	-0.713544	0.500000	-2.370232
4	-1.860761	-0.860757	0.560145
5	-1.265934	0.119827	-1.063512
6	0.332883	-2.359419	-0.199543

fillna默认会返回新对象，但是也可以实现对现有的对象进行就地修改

_ = df.fillna(0, inplace=True)
df

	0	1	2
0	0.476985	0.000000	0.000000
1	-0.577087	0.000000	0.000000
2	0.523772	0.000000	1.343810
3	-0.713544	0.000000	-2.370232
4	-1.860761	-0.860757	0.560145
5	-1.265934	0.119827	-1.063512
6	0.332883	-2.359419	-0.199543

# 对reindexing有效的那些插值方法也可以用于fillna
df = pd.DataFrame(np.random.randn(6, 3))
df

	0	1	2
0	0.862580	-0.010032	0.050009
1	0.670216	0.852965	-0.955869
2	-0.023493	-2.304234	-0.652469
3	-1.218302	-1.332610	1.074623
4	0.723642	0.690002	1.001543
5	-0.503087	-0.622274	-0.921169

df.iloc[2:, 1] = NA
df.iloc[4:, 2] = NA
df

	0	1	2
0	0.862580	-0.010032	0.050009
1	0.670216	0.852965	-0.955869
2	-0.023493	NaN	-0.652469
3	-1.218302	NaN	1.074623
4	0.723642	NaN	NaN
5	-0.503087	NaN	NaN

# 传入Series的平均值或者中位数
data = pd.Series([1., NA, 3.5, NA, 7])
data.mean()  # 对应于11.5/3

3.8333333333333335

# 将缺失值填充为均值
data.fillna(data.mean())

0    1.000000
1    3.833333
2    3.500000
3    3.833333
4    7.000000
dtype: float64

关于fillna参数的说明


value	用于填充缺失值的标量值或者字典对象
method	插值方式，如果函数调用时候没有进行指定，则默认为“ffill”
axis	待填充的轴，默认为axis=0
inplace	修改调用者对象而不产生副本，就地修改
limit	（对于前向和后向填充）可以连续填充的最大数量

Data Transformation 数据转换

到此之前都是进行的为：数据的重排，另一类重要的操作为：通过过滤，清理以及其他的转换工作。

Removing Duplicates 移除重复的数据

# DataFrame中设置出现重复的行

# ‘k1’,'k2'为列索引，其中，‘k1’对应的值为：“one, two ”,同时重复三次，最后加上一个'two'
data = pd.DataFrame({'k1': ['one', 'two'] * 3 + ['two'],
                     'k2': [1, 1, 2, 3, 3, 4, 4]})
data

	k1	k2
0	one	1
1	two	1
2	one	2
3	two	3
4	one	3
5	two	4
6	two	4

# DataFrame的duplicated方法返回一个布尔型的Series,表示各行是否为重复行（之前是否出现过）
data.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

# 与此对应的为：drop_duplicates方法，他会返回一个DataFrame,重复的数组会被标成False
data.drop_duplicates()

	k1	k2
0	one	1
1	two	1
2	one	2
3	two	3
4	one	3
5	two	4

data

	k1	k2
0	one	1
1	two	1
2	one	2
3	two	3
4	one	3
5	two	4
6	two	4

# 这两个方法默认会判断全部列，这里可以指定部分列进行重复项进行判断。

# 假设现有一列值，且只希望根据k1列过滤重复项

data['v1'] = range(7)

data

	k1	k2	v1
0	one	1	0
1	two	1	1
2	one	2	2
3	two	3	3
4	one	3	4
5	two	4	5
6	two	4	6

data.drop_duplicates(['k1'])

	k1	k2	v1
0	one	1	0
1	two	1	1

# duplicated和drop_duplicates默认保留的是第一个出现的值组合，这里传入keep = 'last'则默认保留最后一个：
data.drop_duplicates(['k1', 'k2'], keep='last')

	k1	k2	v1
0	one	1	0
1	two	1	1
2	one	2	2
3	two	3	3
4	one	3	4
6	two	4	6

Transforming Data Using a Function or Mapping

利用函数或者映射进行数据转换

对于许多数据集，可能希望根据数组、Series或者DataFrame列中的值来实现转换工作，我们接下来：

data = pd.DataFrame({'food': ['bacon', 'pulled pork', 'bacon',
                              'Pastrami', 'corned beef', 'Bacon',
                              'pastrami', 'honey ham', 'nova lox'],
                     'ounces': [4, 3, 12, 6, 7.5, 8, 3, 5, 6]})
data

	food	ounces
0	bacon	4.0
1	pulled pork	3.0
2	bacon	12.0
3	Pastrami	6.0
4	corned beef	7.5
5	Bacon	8.0
6	pastrami	3.0
7	honey ham	5.0
8	nova lox	6.0

# 假设要添加一列表示该肉类食物来源的动物类型，先编写一个不同肉类到动物的映射
meat_to_animal = {
  'bacon': 'pig',
  'pulled pork': 'pig',
  'pastrami': 'cow',
  'corned beef': 'cow',
  'honey ham': 'pig',
  'nova lox': 'salmon'
}

# Series的map方法可以接受一个函数或者含有映射关系的字典型对象，但是这里的问题是：
"""
有些肉类的首字母大写了，而另一些没有，

因此，首先调用Series的str.lower方法，将各个值转换为小写：
"""
lowercased = data['food'].str.lower()
lowercased

0          bacon
1    pulled pork
2          bacon
3       pastrami
4    corned beef
5          bacon
6       pastrami
7      honey ham
8       nova lox
Name: food, dtype: object

data['animal'] = lowercased.map(meat_to_animal)
data

	food	ounces	animal
0	bacon	4.0	pig
1	pulled pork	3.0	pig
2	bacon	12.0	pig
3	Pastrami	6.0	cow
4	corned beef	7.5	cow
5	Bacon	8.0	pig
6	pastrami	3.0	cow
7	honey ham	5.0	pig
8	nova lox	6.0	salmon

也可以传入一个可以完成全部工作的函数，这里使用匿名函数

data['food'].map(lambda x: meat_to_animal[x.lower()])

0       pig
1       pig
2       pig
3       cow
4       cow
5       pig
6       cow
7       pig
8    salmon
Name: food, dtype: object

data

	food	ounces	animal
0	bacon	4.0	pig
1	pulled pork	3.0	pig
2	bacon	12.0	pig
3	Pastrami	6.0	cow
4	corned beef	7.5	cow
5	Bacon	8.0	pig
6	pastrami	3.0	cow
7	honey ham	5.0	pig
8	nova lox	6.0	salmon

Replacing Values 替换值

利用fillna方法填充缺失数据可以看作是替换值的一种特殊方法。前面已经看到，map可以用于修改对象的数据子集。

而replace则提供了以中国实现该功能的更加简单、灵活的方式。

data = pd.Series([1., -999., 2., -999., -1000., 3.])
data

0       1.0
1    -999.0
2       2.0
3    -999.0
4   -1000.0
5       3.0
dtype: float64

# 这里的-999可以看作是一个表示缺失数据的标记值。将其替换为pandas可以理解的NA值。

# 通过使用replace来产生一个崭新的Series(除非传入：inplace=True)
data.replace(-999, np.nan)

0       1.0
1       NaN
2       2.0
3       NaN
4   -1000.0
5       3.0
dtype: float64

# 如果希望一次性替换多个值，可以传入一个由待替换值组成的列表以及一个替代值
data.replace([-999, -1000], np.nan)

0    1.0
1    NaN
2    2.0
3    NaN
4    NaN
5    3.0
dtype: float64

data

0       1.0
1    -999.0
2       2.0
3    -999.0
4   -1000.0
5       3.0
dtype: float64

# 要让每个值有不同的替换值，可以传递一个替换列表
data.replace([-999, -1000], [np.nan, 0])

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

# 传入的参数也可以是字典
data.replace({-999: np.nan, -1000: 0})

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

data.replace方法与data.str.replace不同，后者做的是字符串的元素级替换，

Renaming Axis Indexes 重命名轴索引

data = pd.DataFrame(np.arange(12).reshape((3, 4)),
                    index=['Ohio', 'Colorado', 'New York'],
                    columns=['one', 'two', 'three', 'four'])

跟Series中的值一样，轴标签也可以通过函数或者映射进行转换，从而得到一个新的不同标签的对象。轴还可以被就地修改，而无需新建一个数据结构。

data

	one	two	three	four
Ohio	0	1	2	3
Colorado	4	5	6	7
New York	8	9	10	11

transform = lambda x: x[:4].upper()
data.index.map(transform)

Index(['OHIO', 'COLO', 'NEW '], dtype='object')

# 可以将其赋值给index,这样子就可以实现对DataFrame进行就地修改
data.index = data.index.map(transform)
data

	one	two	three	four
OHIO	0	1	2	3
COLO	4	5	6	7
NEW	8	9	10	11

# 如果想要要创建数据集的转换版（而不是修改原始数据），比较实用的方法是使用：rename方法
data.rename(index=str.title, columns=str.upper)

	ONE	TWO	THREE	FOUR
Ohio	0	1	2	3
Colo	4	5	6	7
New	8	9	10	11

data.rename(index={'OHIO': 'INDIANA'},
            columns={'three': 'peekaboo'})

	one	two	peekaboo	four
INDIANA	0	1	2	3
COLO	4	5	6	7
NEW	8	9	10	11

# rename可以实现复制DataFrame并对其索引和列标签进行赋值。

# 如果希望就地修改某个数据集，传入inplace=True就可以
data.rename(index={'OHIO': 'INDIANA'}, inplace=True)
data

	one	two	three	four
INDIANA	0	1	2	3
COLO	4	5	6	7
NEW	8	9	10	11

Discretization and Binning 离散化和面元划分

为了便于分析，连续的数据常常被离散化或者拆分为"面元（bin）".

如下：假设有一组人员数据，希望将其划分为不同的年龄组：

ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]

# 接下来将这些数据划分为：18-25, 26-35, ...
bins = [18, 25, 35, 60, 100]
cats = pd.cut(ages, bins)
cats

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

pandas返回的是一个特殊的Categorical对象。结果展示了pandas.cut划分的面元。可以将其看作一组表示面元名称的字符串。

它的底层含有一个表示不同分类名称的类型数组，以及一个codes属性中的年龄数据的标签。

cats.codes

array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1], dtype=int8)

cats.categories

IntervalIndex([(18, 25], (25, 35], (35, 60], (60, 100]],
              closed='right',
              dtype='interval[int64]')

pd.value_counts(cats)

(18, 25]     5
(35, 60]     3
(25, 35]     3
(60, 100]    1
dtype: int64

# 类似于数学符号一样，圆括号表示开区间，方括号表示闭区间。

# 具体那一边表示闭，可以通过right  = False
pd.cut(ages, [18, 26, 36, 61, 100], right=False)

[[18, 26), [18, 26), [18, 26), [26, 36), [18, 26), ..., [26, 36), [61, 100), [36, 61), [36, 61), [26, 36)]
Length: 12
Categories (4, interval[int64]): [[18, 26) < [26, 36) < [36, 61) < [61, 100)]

# 可以传递一个列表或者数组到labels,设置自己的面元名称。
group_names = ['Youth', 'YoungAdult', 'MiddleAged', 'Senior']
pd.cut(ages, bins, labels=group_names)

[Youth, Youth, Youth, YoungAdult, Youth, ..., YoungAdult, Senior, MiddleAged, MiddleAged, YoungAdult]
Length: 12
Categories (4, object): [Youth < YoungAdult < MiddleAged < Senior]

# 如果向cut传入的是面源的额数量而不是确切的面元边界，则他会根据数据的最小值和最大值计算等长的面元。
data = np.random.rand(20)
pd.cut(data, 4, precision=2)

[(0.49, 0.72], (0.02, 0.26], (0.02, 0.26], (0.49, 0.72], (0.49, 0.72], ..., (0.49, 0.72], (0.49, 0.72], (0.26, 0.49], (0.72, 0.96], (0.49, 0.72]]
Length: 20
Categories (4, interval[float64]): [(0.02, 0.26] < (0.26, 0.49] < (0.49, 0.72] < (0.72, 0.96]]

这里的选项precision=2，限定小数只有两位

# qcut是一个非常类似于cut的函数，它可以根据样本分位数对数据进行面元划分。根据数据的分布情况，

# cut可能无法使各个面元中含有相同数量的数据点。

# 而qcut由于使用的是样本分位数，因此可以得到大小基本相同的面元

data = np.random.randn(1000)  # Normally distributed
cats = pd.qcut(data, 4)  # Cut into quartiles
cats

[(-0.0453, 0.604], (-2.9499999999999997, -0.686], (-0.0453, 0.604], (-0.0453, 0.604], (-2.9499999999999997, -0.686], ..., (-0.686, -0.0453], (0.604, 3.928], (0.604, 3.928], (-0.0453, 0.604], (-0.686, -0.0453]]
Length: 1000
Categories (4, interval[float64]): [(-2.9499999999999997, -0.686] < (-0.686, -0.0453] < (-0.0453, 0.604] < (0.604, 3.928]]

pd.value_counts(cats)

(0.604, 3.928]                   250
(-0.0453, 0.604]                 250
(-0.686, -0.0453]                250
(-2.9499999999999997, -0.686]    250
dtype: int64

# 类似于cut,可以自定义分位数，从零到壹，包含端点
pd.qcut(data, [0, 0.1, 0.5, 0.9, 1.])

[(-0.0453, 1.289], (-1.191, -0.0453], (-0.0453, 1.289], (-0.0453, 1.289], (-2.9499999999999997, -1.191], ..., (-1.191, -0.0453], (1.289, 3.928], (1.289, 3.928], (-0.0453, 1.289], (-1.191, -0.0453]]
Length: 1000
Categories (4, interval[float64]): [(-2.9499999999999997, -1.191] < (-1.191, -0.0453] < (-0.0453, 1.289] < (1.289, 3.928]]

Detecting and Filtering Outliers 检测和过滤异常值

data = pd.DataFrame(np.random.randn(1000, 4))
data.describe()

	0	1	2	3
count	1000.000000	1000.000000	1000.000000	1000.000000
mean	-0.043288	0.046433	0.026352	-0.010204
std	0.998391	0.999185	1.010005	0.992779
min	-3.428254	-3.645860	-3.184377	-3.745356
25%	-0.740152	-0.599807	-0.612162	-0.699863
50%	-0.085000	0.043663	-0.008168	-0.031732
75%	0.625698	0.746527	0.690847	0.692355
max	3.366626	2.653656	3.525865	2.735527

# 假设要找出某一列中绝对值超过3的值；
col = data[2]
col[np.abs(col) > 3]

50     3.260383
225   -3.056990
312   -3.184377
772    3.525865
Name: 2, dtype: float64

# 要选出全部含有"超过3或者-3的值的行"，可以在布尔型DataFrame中使用any方法：
data[(np.abs(data) > 3).any(1)]

	0	1	2	3
31	-2.315555	0.457246	-0.025907	-3.399312
50	0.050188	1.951312	3.260383	0.963301
126	0.146326	0.508391	-0.196713	-3.745356
225	-0.293333	-0.242459	-3.056990	1.918403
249	-3.428254	-0.296336	-0.439938	-0.867165
312	0.275144	1.179227	-3.184377	1.369891
534	-0.362528	-3.548824	1.553205	-2.186301
626	3.366626	-2.372214	0.851010	1.332846
772	-0.658090	-0.207434	3.525865	0.283070
793	0.599947	-3.645860	0.255475	-0.549574

# 通过使用符号函数，实现将值限制在±3之间
data[np.abs(data) > 3] = np.sign(data) * 3
data.describe()

	0	1	2	3
count	1000.000000	1000.000000	1000.000000	1000.000000
mean	-0.043227	0.047628	0.025807	-0.009059
std	0.995841	0.995170	1.006769	0.988960
min	-3.000000	-3.000000	-3.000000	-3.000000
25%	-0.740152	-0.599807	-0.612162	-0.699863
50%	-0.085000	0.043663	-0.008168	-0.031732
75%	0.625698	0.746527	0.690847	0.692355
max	3.000000	2.653656	3.000000	2.735527

# 根据数据的值是正还是负，np.sign(data)可以生成1和-1
np.sign(data).head()

	0	1	2	3
0	-1.0	-1.0	-1.0	-1.0
1	-1.0	1.0	-1.0	-1.0
2	1.0	-1.0	-1.0	1.0
3	1.0	1.0	1.0	-1.0
4	1.0	1.0	1.0	1.0

Permutation and Random Sampling 排列和随机采样

利用numpy.random.permutation函数可以轻松实现对Series或者DataFrame的列的排列工作（permuting，随机重排序）。通过对需要排列的轴的长度调用permutation，可以产生一个表示新顺序的整数数组。

df = pd.DataFrame(np.arange(5 * 4).reshape((5, 4)))
sampler = np.random.permutation(5)
sampler

array([2, 0, 3, 4, 1])

df

	0	1	2	3
0	0	1	2	3
1	4	5	6	7
2	8	9	10	11
3	12	13	14	15
4	16	17	18	19

df.take(sampler)

	0	1	2	3
2	8	9	10	11
0	0	1	2	3
3	12	13	14	15
4	16	17	18	19
1	4	5	6	7

# 如果不想用替换的方式选取随机子集，可以在Series和DataFrame上使用sample方法：
df.sample(n=3)

	0	1	2	3
2	8	9	10	11
1	4	5	6	7
0	0	1	2	3

# 要通过替换的方式产生样本（允许重复选择），可以传递replace = True到sample
choices = pd.Series([5, 7, -1, 6, 4])
draws = choices.sample(n=10, replace=True)
draws

4    4
4    4
1    7
3    6
4    4
3    6
4    4
4    4
3    6
2   -1
dtype: int64

Computing Indicator/Dummy Variables 计算指标/哑变量

另一种常用于统计建模或机器学习的转换方式是：将分类变量（类别型变量）转换为"哑变量"或者"指标矩阵"

df = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'],
                   'data1': range(6)})
pd.get_dummies(df['key'])

	a	b	c
0	0	1	0
1	0	1	0
2	1	0	0
3	0	0	1
4	1	0	0
5	0	1	0

df

	key	data1
0	b	0
1	b	1
2	a	2
3	c	3
4	a	4
5	b	5

如果，DataFrame的某一列中含有k各不同的值，则可以派生出一个k列的矩阵或者DataFrame(其值全为1和0)

"""
有时候，可能想给指标DataFrame的列加上一个前缀，以便于能够跟其他的数据进行合并。

get_dummies的prefix参数可以实现该功能。
"""
dummies = pd.get_dummies(df['key'], prefix='key')
df_with_dummy = df[['data1']].join(dummies)
df_with_dummy

	data1	key_a	key_b	key_c
0	0	0	1	0
1	1	0	1	0
2	2	1	0	0
3	3	0	0	1
4	4	1	0	0
5	5	0	1	0

mnames = ['movie_id', 'title', 'genres']
movies = pd.read_table('datasets/movielens/movies.dat', sep='::',
                       header=None, names=mnames)
movies[:10]

	movie_id	title	genres
0	1	Toy Story (1995)	Animation\|Children's\|Comedy
1	2	Jumanji (1995)	Adventure\|Children's\|Fantasy
2	3	Grumpier Old Men (1995)	Comedy\|Romance
3	4	Waiting to Exhale (1995)	Comedy\|Drama
4	5	Father of the Bride Part II (1995)	Comedy
5	6	Heat (1995)	Action\|Crime\|Thriller
6	7	Sabrina (1995)	Comedy\|Romance
7	8	Tom and Huck (1995)	Adventure\|Children's
8	9	Sudden Death (1995)	Action
9	10	GoldenEye (1995)	Action\|Adventure\|Thriller

# 要为每个genre添加指标变量就需要做一些数据规整操作。首先，我们从数据集中抽取不同的genre值：
all_genres = []

for x in movies.genres:
    all_genres.extend(x.split('|'))
genres = pd.unique(all_genres)

genres

array(['Animation', "Children's", 'Comedy', 'Adventure', 'Fantasy',
       'Romance', 'Drama', 'Action', 'Crime', 'Thriller', 'Horror',
       'Sci-Fi', 'Documentary', 'War', 'Musical', 'Mystery', 'Film-Noir',
       'Western'], dtype=object)

zero_matrix = np.zeros((len(movies), len(genres)))
dummies = pd.DataFrame(zero_matrix, columns=genres)

gen = movies.genres[0]
gen.split('|')
dummies.columns.get_indexer(gen.split('|'))

array([0, 1, 2], dtype=int64)

for i, gen in enumerate(movies.genres):
    indices = dummies.columns.get_indexer(gen.split('|'))
    dummies.iloc[i, indices] = 1

movies_windic = movies.join(dummies.add_prefix('Genre_'))
movies_windic.iloc[0]

movie_id                                      1
title                          Toy Story (1995)
genres              Animation|Children's|Comedy
Genre_Animation                               1
Genre_Children's                              1
                               ...             
Genre_War                                     0
Genre_Musical                                 0
Genre_Mystery                                 0
Genre_Film-Noir                               0
Genre_Western                                 0
Name: 0, Length: 21, dtype: object

对于很大的数据，用这种方法构建多成员指标变量就会变得非常慢，最好使用更加低级的函数，将其写入到Numpy数组，然后将结果包装在DataFrame中。

np.random.seed(12345)
values = np.random.rand(10)
values

array([0.9296, 0.3164, 0.1839, 0.2046, 0.5677, 0.5955, 0.9645, 0.6532,
       0.7489, 0.6536])

bins = [0, 0.2, 0.4, 0.6, 0.8, 1]
pd.get_dummies(pd.cut(values, bins))

	(0.0, 0.2]	(0.2, 0.4]	(0.4, 0.6]	(0.6, 0.8]	(0.8, 1.0]
0	0	0	0	0	1
1	0	1	0	0	0
2	1	0	0	0	0
3	0	1	0	0	0
4	0	0	1	0	0
5	0	0	1	0	0
6	0	0	0	0	1
7	0	0	0	1	0
8	0	0	0	1	0
9	0	0	0	1	0

String Manipulation 字符串操纵

python本身能够处理字符串和文本，对于更加复杂的模式匹配和文本操作，就需要使用到正则表达式。pandas对此进行了加强，可以实现对：整租数据应用字符串表达式和正则表达式，而且可以处理烦人的缺失数据。

String Object Methods 字符串对象方法

# 根据逗号分隔，使用split函数进行字符串拆分
val = 'a,b,  guido'
val.split(',')

['a', 'b', '  guido']

# split通常和strip一起使用，从而实现去除空白符（包括换行符）
pieces = [x.strip() for x in val.split(',')]
pieces

['a', 'b', 'guido']

# 利用加法，可以实现将字符串以双冒号分隔符的形式连接起来，
first, second, third = pieces
first + '::' + second + '::' + third

'a::b::guido'

# 一种更加实用的方法是，向字符串"::"的join方法传入一个列表或者元组；
'::'.join(pieces)

'a::b::guido'

# 实现字串定位
'guido' in val

True

val.index(',')

val.find(':')

-1

find和index的区别是；如果找不到字符串，index将会引发一个异常，而不是返回-1

# 如下操作会产生异常
val.index(':')

---------------------------------------------------------------------------

ValueError                                Traceback (most recent call last)

 in 
----> 1 val.index(':')


ValueError: substring not found

# count可以返回指定字串的出现次数
val.count(',')

# replace用于将指定模式替换为另一个模式。通过传入空字符串，他也常常用于删除模式
val.replace(',', '::')

'a::b::  guido'

val.replace(',', '')

'ab  guido'

python内置的字符串方法

方法	说明
count	返回字串在字符串中出现的次数（非重叠）
endswith	字符串是否以某个后缀结尾，是则返回True
startswith	字符串是否以某个前缀开头，是则返回True
find, rfind	如果在字符串中找到字串，则返回第一次出现的位置，没有发现则返回-1，，后者返回最后一个发现的位置

Regular Expressions 正则表达式

re模块的函数可以分为三个大类：模式匹配，替换以及拆分

# 描述一个或者多个空白符的regex是："\s+"
import re
text = "foo    bar\t baz  \tqux"
re.split('\s+', text)

['foo', 'bar', 'baz', 'qux']

调用re.split(’\s+’,text)的时候，正则表达式会先被编译，然后会在text上调用其split方法。

regex = re.compile('\s+')
regex.split(text)

['foo', 'bar', 'baz', 'qux']

# 如果只希望匹配得到regex的所有模式，则可以使用findall发方法
regex.findall(text)

['    ', '\t ', '  \t']

如果想避免正则表达式中不需要的转移（\），则可以使用原始字符串字面量如：

r’C:\x’

如果打算对许多字符串应用同一条正则表达式，建议通过re.compile创建regex对象。这样子可以节省大量的cpu时间

findall返回的是：字符串中所有的匹配项，而search则只返回第一个匹配项。match则更加严格，仅仅匹配字符串的首部。

text = """Dave [email protected]
Steve [email protected]
Rob [email protected]
Ryan [email protected]
"""
pattern = r'[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}'

# re.IGNORECASE makes the regex case-insensitive
regex = re.compile(pattern, flags=re.IGNORECASE)

regex.findall(text)

['[email protected]', '[email protected]', '[email protected]', '[email protected]']

m = regex.search(text)
m

text[m.start():m.end()]

'[email protected]'

# 下面将返回None,因为他只匹配出现在字符串开头的模式：
print(regex.match(text))

None

# sub方法可以将匹配到的模式替换为指定的字符串，且返回所得到的新字符串
print(regex.sub('REDACTED', text))

Dave REDACTED
Steve REDACTED
Rob REDACTED
Ryan REDACTED

# 分别找出，用户名，域名，域后缀，将模式的各个部分使用圆括号包起来。
pattern = r'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})'
regex = re.compile(pattern, flags=re.IGNORECASE)

m = regex.match('[email protected]')
m.groups()

('wesm', 'bright', 'net')

regex.findall(text)

[('dave', 'google', 'com'),
 ('steve', 'gmail', 'com'),
 ('rob', 'gmail', 'com'),
 ('ryan', 'yahoo', 'com')]

print(regex.sub(r'Username: \1, Domain: \2, Suffix: \3', text))

Dave Username: dave, Domain: google, Suffix: com
Steve Username: steve, Domain: gmail, Suffix: com
Rob Username: rob, Domain: gmail, Suffix: com
Ryan Username: ryan, Domain: yahoo, Suffix: com

Vectorized String Functions in pandas pandas的矢量化字符串函数

data = {'Dave': '[email protected]', 'Steve': '[email protected]',
        'Rob': '[email protected]', 'Wes': np.nan}
data = pd.Series(data)
data

Dave     [email protected]
Steve    [email protected]
Rob        [email protected]
Wes                  NaN
dtype: object

data.isnull()

Dave     False
Steve    False
Rob      False
Wes       True
dtype: bool

# 可以通过str.sontains检查各个电子邮件是否含有"gmail"
data.str.contains('gmail')

Dave     False
Steve     True
Rob       True
Wes        NaN
dtype: object

pattern
data.str.findall(pattern, flags=re.IGNORECASE)

Dave     [(dave, google, com)]
Steve    [(steve, gmail, com)]
Rob        [(rob, gmail, com)]
Wes                        NaN
dtype: object

# 有两个办法可以实现矢量化的元素获取操作，要么使用：str.get, 要么在str属性上使用索引
matches = data.str.match(pattern, flags=re.IGNORECASE)
matches

Dave     True
Steve    True
Rob      True
Wes       NaN
dtype: object

matches.str[0]

data.str[:5]

pd.options.display.max_rows = PREVIOUS_MAX_ROWS

Conclusion

你可能感兴趣的:(python,数据分析,正则表达式,数据清洗,字符串)

API，异常 qq_42822008
API:应用程序编程接口，即jdk文档手册，里面以类的形式提供了很多常用的功能。常用的包与类：java.lang包：因为常用，所以不需要导包字符串，线程java.util包:数组工具类，日期，集合等java.net包:网络相关的类型java.io包:输入输出类型java.math包：数学应用的相关类型打包工具:javadoc(1)使用命令提示符界面：类信息中没有声明包，即使用默认包javadoc-
全平台QQ聊天数据库解密项目常见问题解决方案管旭韶
全平台QQ聊天数据库解密项目常见问题解决方案qq-win-db-keyQQNT/WindowsQQ聊天数据库解密项目地址:https://gitcode.com/gh_mirrors/qq/qq-win-db-key项目基础介绍本项目是一个开源项目，旨在为用户提供全平台QQ聊天数据库的解密方法。项目主要使用Python、JavaScript和C++等编程语言实现。新手常见问题及解决步骤问题一：如何
用鸿蒙打造真正的跨设备数据库：从零实现分布式存储网罗开发 HarmonyOS 实战源码实战 harmonyos 数据库分布式
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
从零掌握二叉树序列化：Swift实战详解，让你的树结构飞起来！网罗开发 Swift swift 开发语言 ios
文章目录摘要描述题解答案序列化思路反序列化思路题解代码分析示例测试及结果时间复杂度空间复杂度总结摘要今天咱们来聊聊二叉树的一个经典问题：序列化和反序列化。简单来说，就是把一棵二叉树转换成字符串形式（序列化），然后再把这个字符串还原成原来的二叉树（反序列化）。这个问题在实际开发中特别有用，比如你想把一棵树结构保存到文件里，或者通过网络传输给其他服务，都需要用到这种技术。描述想象一下，你正在开发一个社
Python Day58 别勉. python机器学习 python 信息可视化数据分析
Task：1.时序建模的流程2.时序任务经典单变量数据集3.ARIMA（p，d，q）模型实战4.SARIMA摘要图的理解5.处理不平稳的2种差分a.n阶差分—处理趋势b.季节性差分—处理季节性建立一个ARIMA模型，通常遵循以下步骤：数据可视化：观察原始时间序列图，判断是否存在趋势或季节性。平稳性检验：对原始序列进行ADF检验。如果p值>0.05，说明序列非平稳，需要进行差分。确定差分次数d:进行
Python Day56 别勉. python机器学习 python 开发语言
Task：1.假设检验基础知识a.原假设与备择假设b.P值、统计量、显著水平、置信区间2.白噪声a.白噪声的定义b.自相关性检验：ACF检验和Ljung-Box检验c.偏自相关性检验：PACF检验3.平稳性a.平稳性的定义b.单位根检验4.季节性检验a.ACF检验b.序列分解：趋势+季节性+残差记忆口诀：p越小，落在置信区间外，越拒绝原假设。1.假设检验基础知识a.原假设与备择假设原假设(Null
Python Day57 别勉. python机器学习 python 开发语言
Task：1.序列数据的处理：a.处理非平稳性：n阶差分b.处理季节性：季节性差分c.自回归性无需处理2.模型的选择a.AR§自回归模型：当前值受到过去p个值的影响b.MA(q)移动平均模型：当前值收到短期冲击的影响，且冲击影响随时间衰减c.ARMA(p,q)自回归滑动平均模型：同时存在自回归和冲击影响时间序列分析：ARIMA/SARIMA模型构建流程时间序列分析的核心目标是理解序列的过去行为，并
Python Day44 别勉. python机器学习 python 开发语言
Task：1.预训练的概念2.常见的分类预训练模型3.图像预训练模型的发展史4.预训练的策略5.预训练代码实战：resnet181.预训练的概念预训练（Pre-training）是指在大规模数据集上，先训练模型以学习通用的特征表示，然后将其用于特定任务的微调。这种方法可以显著提高模型在目标任务上的性能，减少训练时间和所需数据量。核心思想：在大规模、通用的数据（如ImageNet）上训练模型，学习丰
Python Day42 别勉. python机器学习 python 开发语言
Task：Grad-CAM与Hook函数1.回调函数2.lambda函数3.hook函数的模块钩子和张量钩子4.Grad-CAM的示例1.回调函数定义：回调函数是作为参数传入到其他函数中的函数，在特定事件发生时被调用。特点：便于扩展和自定义程序行为。常用于训练过程中的监控、日志记录、模型保存等场景。示例：defcallback_function():print("Epochcompleted!")
Python-什么是集合難釋懷 python 开发语言数据库
一、前言在Python中，除了我们常用的列表（list）、元组（tuple）和字典（dict），还有一种非常实用的数据结构——集合（set）。集合是一种无序且不重复的元素集合，常用于去重、交并差运算等场景。本文将带你全面了解Python中集合的基本用法、操作方法及其适用场景，并通过大量代码示例帮助你掌握这一重要数据类型。二、什么是集合（set）？✅定义：集合是Python中的一种可变数据类型，它存
Python Day53 别勉. python机器学习 python 开发语言
Task：1.对抗生成网络的思想：关注损失从何而来2.生成器、判别器3.nn.sequential容器：适合于按顺序运算的情况，简化前向传播写法4.leakyReLU介绍：避免relu的神经元失活现象1.对抗生成网络的思想：关注损失从何而来这是理解GANs的关键！传统的神经网络训练中，我们通常会直接定义一个损失函数（如均方误差MSE、交叉熵CE），然后通过反向传播来优化这个损失。这个损失的“来源”
〖Python零基础入门篇⑮〗- Python中的字典哈哥撩编程 #① -零基础入门篇 Python全栈白宝书 python 开发语言后端 python中的字典
>【易编橙·终身成长社群，相遇已是上上签！】-点击跳转～<作者：哈哥撩编程（视频号同名）图书作者：程序员职场效能宝典博客专家：全国博客之星第四名超级个体：COC上海社区主理人特约讲师：谷歌亚马逊分享嘉宾科技博主：极星会首批签约作者文章目录⭐️什么是字典？⭐️字典的结构与创建方法⭐️字典支持的数据类型⭐️在列表与元组中如何定义字典
python换行输出字典_Python基础入门：字符串和字典 weixin_39959236 python换行输出字典
10、字符串常用转义字符转义字符描述\\反斜杠符号\'单引号\"双引号\n换行\t横向制表符(TAB)\r回车三引号允许一个字符串跨多行，字符串中可以包含换行符、制表符以及其他特殊字符para_str="""这是一个多行字符串的实例多行字符串可以使用制表符TAB(\t)。也可以使用换行符[\n]。"""print(para_str)#这是一个多行字符串的实例#多行字符串可以使用制表符#TAB()。
Python----Python中的集合及其常用方法 redrose2100 Python python 开发语言后端
【原文链接】1集合的定义和特点（1）集合是用花括号括起来的，集合的特点是元素没有顺序，元素具有唯一性，不能重复>>>a={1,2,3,4}>>>type(a)>>>a={1,2,3,1,2,3}>>>a{1,2,3}2集合的常用运算（1）集合元素没有顺序，所以不能像列表和元组那样用下标取值>>>a={1,2,3}>>>a[0]Traceback(mostrecentcalllast):File""
langchain+langserver+langfuse整合streamlit构建基础智能体中心 Messi^ 人工智能-大模型应用 langchain 人工智能
ServerApi******#!/usr/bin/python--coding:UTF-8--importuvicornfromfastapiimportFastAPIfrombaseimportFaissEnginefromlangserve.serverimportadd_routesfromlangchain_core.promptsimportPromptTemplatefromlang
pycharm两种运行py之路径问题 hellopbc software #pycharm python pycahrm path
文章目录pycharm两种运行py之路径问题pycharm两种运行py之路径问题运行python代码在pycharm中有两种方式：一种是直接鼠标点击runxxx运行，还有一种是使用#In[]:点击该行左边的绿色三角形按钮运行有可能在pythonconsole窗口运行有可能在你当前运行文件的窗口（就是run之后产生的那个窗口）**问题：**你会发现，涉及到路径问题时（使用相对路径），可能在这两种运行
Python元组的遍历難釋懷 python 前端 linux
一、前言在Python中，元组（tuple）是一种非常基础且常用的数据结构，它与列表类似，都是有序的序列，但不同的是，元组是不可变的（immutable），一旦创建就不能修改。虽然元组不能被修改，但它支持高效的遍历操作，非常适合用于存储不会变化的数据集合。本文将系统性地介绍Python中元组的多种遍历方式，包括基本遍历、索引访问、元素解包、结合函数等，并结合大量代码示例帮助你掌握这一重要技能。二、
Python集合生成式
一、前言在Python中，我们已经熟悉了列表生成式（ListComprehension），它为我们提供了一种简洁高效的方式来创建列表。而除了列表之外，Python还支持一种类似的语法结构来创建集合——集合生成式（SetComprehension）。集合生成式不仅可以帮助我们快速构造一个无序且不重复的集合，还能有效提升代码的可读性和执行效率。本文将带你全面了解：✅什么是集合生成式✅集合生成式的语法结
Python开发从新手到专家：第三章列表、元组和集合 caifox菜狐狸 Python开发从新手到专家 python 元素集合列表元组数据结构字典
在Python开发的旅程中，数据结构是每一位开发者必须掌握的核心知识。它们是构建程序的基石，决定了代码的效率、可读性和可维护性。本章将深入探讨Python中的三种基本数据结构：列表、元组和集合。这三种数据结构在实际开发中有着广泛的应用，从简单的数据存储到复杂的算法实现，它们都扮演着不可或缺的角色。无论你是刚刚接触Python的新手，还是希望进一步提升编程技能的开发者，本章都将是你的宝贵指南。我们将
python入门之字典二十四桥_ python入门 python
文章目录一、字典定义二、字典插入三、字典删除四、字典修改五、字典查找六、字典遍历七、字典拆包一、字典定义#{}键值对各个键值对之间用逗号隔开#1.有数据的字典dict1={'name':'zmz','age':20,'gender':'boy'}print(dict1)#2.创建空字典dict2={}print(dict2)dict3=dict()print(dict3)二、字典插入dict1={
大模型智能运维详解：技术架构、落地挑战与行业实践 FreeTools FreeAiGuard 运维架构人工智能运维开发科技
大模型智能运维详解：技术架构、落地挑战与行业实践作者：开源大模型智能运维FreeAiOps在数字化转型加速的背景下，企业IT系统复杂度呈指数级增长，传统运维模式面临效率低下、故障定位困难、成本高昂等瓶颈。大模型技术的出现为智能运维提供了突破性解决方案，其通过自然语言处理、多模态数据分析与自动化决策能力，正在重塑运维工作的底层逻辑。本文将从技术原理、落地挑战、行业实践三个维度，系统解析大模型智能运维
python类的定义与使用菜鸟驿站2020 python
class01.py代码如下classTicket():#类的名称首字母大写#在类里定义的变量称为属性,第一个属性必须是selfdef__init__(self,checi,fstation,tstation,fdate,ftime,ttime,notes):self.checi=checiself.fstation=fstationself.tstation=tstationself.fdate
Python爬虫设置代理IP 菜鸟驿站2020 python
配置代理ipfrombs4importBeautifulSoupimportrequestsimportrandom#从ip代理网站获取ip列表defget_ip_list(url,headers):web_data=requests.get(url,headers=headers)soup=BeautifulSoup(web_data.text,'lxml')ips=soup.find_all(
Tensorflow 回归模型 FLASK + DOCKER 部署至 Ubuntu 虚拟机
准备工作：安装虚拟机，安装ubuntu，安装python3.x、pip和对应版本的tensorflow和其他库文件,安装docker。注意事项：1.windows系统运行的模型文件不能直接运行到虚拟机上，需在虚拟机上重新运行并生成模型文件2.虚拟机网络状态改为桥接Flask代码如下：fromflaskimportFlask,request,jsonifyimportpickleimportnump
10个可以快速用Python进行数据分析的小技巧_python 通径分析 2401_86043917 python 数据分析开发语言
df.iplot()![](https://img-blog.csdnimg.cn/img_convert/f3c1ad79e3c29ed0231d72af2988f6f9.jpeg)![](https://img-blog.csdnimg.cn/img_convert/dd456c392a2ddd14c649270707520e48.jpeg)df.iplot()vsdf.plot()右侧的可视
定制console.log的样式司徒小北 javascript 前端开发语言
在浏览器环境里，你能够借助CSS样式来自定义console.log输出内容的外观。具体做法是在console.log里添加%c占位符，接着在后面的参数中传入对应的CSS样式字符串。下面有几个具体的示例，展示了如何定制console.log的样式：//基础的彩色文本console.log('%c这是红色文字','color:red');console.log('%c这是蓝色文字','color:bl
【Python多线程】晟翰逸闻 Python python
文章目录前言一、Python等待event.set二、pythonracecondition和lock使用使用锁(Lock)三.pythonDeadLock使用等综合运用总结前言这篇技术文章讨论了多线程编程中的几个重要概念。它首先介绍了等待事件的使用，并强调了避免使用“ForLoop&Sleep”进行等待的重要性。接着，文档解释了竞态条件，并提供了处理共享资源的建议，即在使用共享资源时进行加锁和解
【pycharm专业版】【如何远程配置Python解释器】【SSH】资源存储库 python pycharm
Wejustlookedatconfiguringalocalinterpreter.Butwedon’talwayshavea“local”environment.Sometimes–andincreasinglyoften–ourenvironmentisoverthere.我们刚刚看了配置本地解释器。但我们并不总是有一个“本地”的环境。有时候–而且越来越多的时候–我们的环境就在那里。Let’
python线程同步锁_python的Lock锁，线程同步 weixin_39649660 python线程同步锁
一、Lock锁凡是存在共享资源争抢的地方都可以使用锁，从而保证只有一个使用者可以完全使用这个资源一旦线程获得锁，其他试图获取锁的线程将被阻塞acquire(blocking=True,timeout=-1):默认阻塞，阻塞可以设置超时时间，非阻塞时，timeout禁止设置，成功获取锁，返回True，否则返回Falsereleas():释放锁，可以从任何线程调用释放，已上锁的锁，会被重置为unloc
并发与并行：python多线程详解 m_merlon python 服务器 Python进阶教程 python
简介多进程和多线程都可以执行多个任务，线程是进程的一部分。线程的特点是线程之间可以共享内存和变量，资源消耗少，缺点是线程之间的同步和加锁比较麻烦。在cpython中，截止到3.12为止依然存在全局解释器锁（GIL）,不能发挥多核的优势，因此python多线程更适合IO密集型任务并发提高效率，CPU密集型任务推荐使用多进程并行解决。注：此说法仅适用于python（如：c++的多线程可以利用到多核并行
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

	(0.0, 0.2]	(0.2, 0.4]	(0.4, 0.6]	(0.6, 0.8]	(0.8, 1.0]
0	0	0	0	0	1
1	0	1	0	0	0
2	1	0	0	0	0
3	0	1	0	0	0
4	0	0	1	0	0
5	0	0	1	0	0
6	0	0	0	0	1
7	0	0	0	1	0
8	0	0	0	1	0
9	0	0	0	1	0

	(0.0, 0.2]	(0.2, 0.4]	(0.4, 0.6]	(0.6, 0.8]	(0.8, 1.0]
0	0	0	0	0	1
1	0	1	0	0	0
2	1	0	0	0	0
3	0	1	0	0	0
4	0	0	1	0	0
5	0	0	1	0	0
6	0	0	0	0	1
7	0	0	0	1	0
8	0	0	0	1	0
9	0	0	0	1	0

	(0.0, 0.2]	(0.2, 0.4]	(0.4, 0.6]	(0.6, 0.8]	(0.8, 1.0]
0	0	0	0	0	1
1	0	1	0	0	0
2	1	0	0	0	0
3	0	1	0	0	0
4	0	0	1	0	0
5	0	0	1	0	0
6	0	0	0	0	1
7	0	0	0	1	0
8	0	0	0	1	0
9	0	0	0	1	0