健浩

3 Python数据分析美国各州人口分析案例 Pandas高级操作美国大选献金案例 matplotlib

Python数据分析

1 案例美国各州人口分析

1.1 数据介绍

数据来源：https://github.com/jakevdp/data-USstates/

1.1.1 州人口数量表 state-population.csv

字段	字段名	备注
state/region	州/区域	州简称，与state-abbrevs.csv文件中的abbreviation字段对应
ages	人口年龄	选项包括18岁以下under18和全部年龄段total
year	年份
population	人口数量

1.1.2 州面积表 state-areas.csv

字段	字段名	备注
state	州名称	州全称，与state-abbrevs.csv文件中的state字段对应
area (sq. mi)	州面积

1.1.3 州简称对照表 state-abbrevs.csv

字段	字段名	备注
state	州全称
abbreviation	州简称

1.2 需求

将人口数据与各州简称数据进行合并，对合并数据中重复的abbreviation列进行删除；
找到使state的值为NaN的state/region，补上合适的值；
找到并删除area(sq.mi)列中的缺失数据所在行；
获取2010年的全民人口数据；
计算各州的人口密度，排序并获取人口密度最高的州。

1.3 分析：州人口数据-州简称数据

1.3.1 导入数据

import numpy as np
import pandas as pd
from pandas import Series, DataFrame

# 州人口数量表
popu_df = pd.read_csv('./state-population.csv')
popu_df.head()
'''
    state/region     ages    year    population
0             AL  under18    2012     1117489.0
1             AL    total    2012     4817528.0
2             AL  under18    2010     1130966.0
3             AL    total    2010     4785570.0
4             AL  under18    2011     1125763.0
'''

# 州面积表
area_df = pd.read_csv('./state-areas.csv')
area_df.head()
'''
        state   area (sq. mi)
0     Alabama           52423
1      Alaska          656425
2     Arizona          114006
3    Arkansas           53182
4  California          163707
'''

# 州简称对照表
abbr_df = pd.read_csv('./state-abbrevs.csv')
abbr_df.head()
'''
		state 	abbreviation
0 	  Alabama 			  AL
1 	   Alaska 			  AK
2 	  Arizona 			  AZ
3 	 Arkansas 			  AR
4  California 			  CA
'''

1.3.2 合并数据：州人口数据-州简称数据

将州人口数据与州简称数据进行合并，删除重复列。

# 合并
popu_abbr_df = pd.merge(left=popu_df, right=abbr_df, left_on='state/region', right_on='abbreviation', how='outer')
# 删除重复列abbreviation
popu_abbr_df.drop(labels='abbreviation', axis=1, inplace=True)

1.3.3 缺失值处理

判断是否存在缺失值

popu_abbr_df.info()
'''

Int64Index: 2544 entries, 0 to 2543
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   state         2448 non-null   object 
 1   state/region  2544 non-null   object 
 2   ages          2544 non-null   object 
 3   year          2544 non-null   int64  
 4   population    2524 non-null   float64
dtypes: float64(1), int64(1), object(3)
memory usage: 119.2+ KB
'''

可以看出，数据一共有2544条，但state列和population列数据量小于2544条，因此这两列中存在缺失数据。

popu_abbr_df.isnull().any(axis=0)
'''
state            True
state/region    False
ages            False
year            False
population       True
dtype: bool
'''

观察缺失值

nan_df = popu_abbr_df.loc[popu_abbr_df.isnull().any(axis=1)]
nan_df.head()
'''
        state   state/region     ages    year    population
2448      NaN             PR  under18    1990           NaN
2449      NaN             PR    total    1990           NaN
2450      NaN             PR    total    1991           NaN
2451      NaN             PR  under18    1991           NaN
2452      NaN             PR    total    1993           NaN
'''

nan_df['state/region'].unique()
# array(['PR', 'USA'], dtype=object)

说明简称PR和USA没有对应的全称。

pr_indexs = popu_abbr_df.loc[popu_abbr_df['state/region'] == 'PR'].index
popu_abbr_df.loc[pr_indexs, 'state'] = 'Puerto Rico'
usa_indexs = popu_abbr_df.loc[popu_abbr_df['state/region'] == 'USA'].index
popu_abbr_df.loc[usa_indexs, 'state'] = 'United State'

删除population列的缺失数据所在行

nan_indexs = popu_abbr_df.loc[popu_abbr_df['population'].isnull()].index
popu_abbr_df.drop(labels=nan_indexs, axis=0, inplace=True)
popu_abbr_df.info()
'''
popu_abbr_df.info()


Int64Index: 2524 entries, 0 to 2543
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   state         2524 non-null   object 
 1   state/region  2524 non-null   object 
 2   ages          2524 non-null   object 
 3   year          2524 non-null   int64  
 4   population    2524 non-null   float64
dtypes: float64(1), int64(1), object(3)
memory usage: 118.3+ KB
'''

1.3.4 ages列分析

ages列中的数据选项

popu_abbr_df['ages'].unique()
# array(['under18', 'total'], dtype=object)

查看ages列中不同选项出现的次数

popu_abbr_df['ages'].value_counts()
'''
total      1262
under18    1262
Name: ages, dtype: int64
'''

1.4 分析：州人口数据-州面积数据

1.4.1 合并数据：州人口数据-州面积数据

popu_area_df = pd.merge(left=popu_abbr_df, right=area_df, on='state', how='outer')
popu_area_df.info()
'''

Int64Index: 2524 entries, 0 to 2523
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   state          2524 non-null   object 
 1   state/region   2524 non-null   object 
 2   ages           2524 non-null   object 
 3   year           2524 non-null   int64  
 4   population     2524 non-null   float64
 5   area (sq. mi)  2476 non-null   float64
dtypes: float64(2), int64(1), object(3)
memory usage: 138.0+ KB
'''

1.4.2 缺失值处理

nan_indexs = popu_area_df.loc[popu_area_df['area (sq. mi)'].isnull()].index
popu_area_df.drop(labels=nan_indexs, axis=0, inplace=True)

popu_area_df.info()
'''

Int64Index: 2476 entries, 0 to 2475
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   state          2476 non-null   object 
 1   state/region   2476 non-null   object 
 2   ages           2476 non-null   object 
 3   year           2476 non-null   int64  
 4   population     2476 non-null   float64
 5   area (sq. mi)  2476 non-null   float64
dtypes: float64(2), int64(1), object(3)
memory usage: 135.4+ KB
'''

1.4.3 找出2010年的全民人口数据

条件查询

popu_area_df.query('year == 2010 & ages == "total"')

1.4.4 人口密度排序

计算人口密度

popu_area_df['population density'] = popu_area_df['population'] / popu_area_df['area (sq. mi)']

人口密度排序(降序)

popu_area_df.sort_values(by='population density', axis=0, ascending=False)

2 Pandas高级操作

2.1 替换操作 replace

df.replace(to_replace=原值, value=替换值)

替换操作可以作用于Series和DataFrame中。

2.1.1 单值替换

import numpy as np
import pandas as pd
from pandas import DataFrame

df = DataFrame(data=np.random.randint(0, 10, size=(3, 6)))
'''
 	0 	1 	2 	3 	4 	5
0 	2 	4 	8 	9 	8 	0
1 	6 	1 	3 	8 	0 	2
2 	3 	6 	7 	9 	8 	4
'''

普通替换：替换所有符合要求的元素。

re_df1 = df.replace(to_replace=0, value='zero') 
'''
	0 	1 	2 	3 		4 		5
0 	2 	4 	8 	9 		8 	 zero
1 	6 	1 	3 	8 	 zero 		2
2 	3 	6 	7 	9 		8 		4
'''

2.1.2 多值替换

re_df2 = df.replace(to_replace={
     6:'six', 2:'two'})
'''
		0 		1 	2 	3 	4 		5
0 	  two 	    4 	8 	9 	8 		0
1 	  six 		1 	3 	8 	0     two
2 	    3 	  six 	7 	9 	8 		4
'''

2.1.3 定列替换

将第3列的数字9替换为字符串nine。

re_df3 = df.replace(to_replace={
     3: 9}, value='nine')
'''
	0 	1 	2 		3 	4 	5
0 	2 	4 	8 	 nine 	8 	0
1 	6 	1 	3 		8 	0 	2
2 	3 	6 	7 	 nine 	8 	4
'''

2.2 映射操作 map

映射：根据映射关系表，把一个元素和一个特定的标签或字符串绑定在一起，可以为元素提供不同的表现形式。
map方法是调用者的数据作为参数依次传入到映射字典或函数中，得到映射后的值。
map方法是Series的方法，只能被Series对象调用。

name_salary_dict = {
     
    'name': ['Jay', 'Tom', 'Jay'],
    'salary': [1000, 2000, 1000]
}
name_salary_df = DataFrame(data=name_salary_dict)
'''
	name 	salary
0 	 Jay 	  1000
1 	 Tom 	  2000
2 	 Jay 	  1000
'''

映射关系列表

mapping_dict = {
     
    'Jay': '杰',
    'Tom': '汤姆'
}

name_salary_df['name_chs'] = name_salary_df['name'].map(mapping_dict)
'''
	name 	salary 	name_chs
0 	 Jay 	  1000 		  杰
1 	 Tom 	  2000 		汤姆
2 	 Jay 	  1000 		  杰
'''

2.3 运算操作 map，apply

参考上表中的数据，工资超过1000的部分需要扣除50%的费用，计算每个人的薪资。

def calc_salary(salary):
	if salary >= 1000:
		salary = (salary - 1000) * 0.5
	return salary

2.3.1 map

map方法将函数作用于调用者Series对象中的每个元素。
map方法只能被Series对象调用，只能传入一个参数。

name_salary_df['salary_real'] = name_salary_df['salary'].map(calc_salary)

2.3.2 apply

Series
apply支持传入多个参数。

工资超过基数base的部分需要扣除50%的费用，计算每个人的薪资。

def calc_salary(salary, base):
	if salary >= base:
		salary = (salary - base) * 0.5
	return salary

name_salary_df['salary_real'] = name_salary_df['salary'].apply(calc_salary, args=(500,))
'''
	name 	salary 	name_chs 	salary_real
0 	 Jay 	  1000 		  杰 		  250.0
1 	 Tom 	  2000 	    汤姆 		  750.0
2 	 Jay 	  1000 		  杰 		  250.0
'''

DataFrame
apply方法可以将函数作用于DataFrame中的每行或每列。

每人加工资100元。

name_salary_df.apply(lambda x: x + 100 if x.name in ['salary', 'salary_real'] else x, axis=0)
'''
 	name 	salary 	name_chs 	salary_real
0 	 Jay 	  1100 		  杰 		  350.0
1 	 Tom 	  2100 		 汤姆 		  850.0
2 	 Jay 	  1100 		  杰 		  350.0
'''

2.4 随机抽样

2.4.1 numpy.random.permutation

permutation方法用于打乱原来数据中元素的顺序。
输入整数，返回打乱顺序的数组；
输入数组或列表，返回打乱顺序的数组。

np.random.permutation(3)  # array([0, 2, 1])
np.random.permutation(['a', 'b', 'c', 'd'])  # array(['c', 'a', 'd', 'b'], dtype='

2.4.2 take

take方法用于沿指定轴向返回给定位置索引中的元素。
axis=0表示行，axis=1表示列。

2.4.3 take方法 + permutation方法实现随机抽样

随机抽样的本质是将原始数据的行/列索引打乱。

# 生成数据
df = DataFrame(data=np.random.randint(0, 100, size=(100, 3)),columns=['A', 'B', 'C'])
# 打乱列索引。
df1 = df.take(indices=np.random.permutation(3), axis=1)
# 在上面的基础上打乱行索引。
df2 = df1.take(indices=np.random.permutation(100), axis=0)

df2.head()
'''
	B 	A 	C
13 	94 	91 	46
34 	90 	32 	72
87 	85 	70 	49
48 	19 	2 	10
1 	80 	48 	36
'''

2.5 分类处理 groupby方法，groups属性

2.5.1 groupby方法，groups属性

groupby方法用于对数据内部进行分组处理。
groups属性用于查看分组结果。

df = DataFrame({
     
    'item': ['Apple', 'Banana', 'Orange', 'Banana', 'Orange', 'Apple'],
    'price': [4, 3, 3, 2.5, 4, 2],
    'color': ['red', 'yellow', 'yellow', 'green', 'green', 'green'],
    'weight': [12, 20, 50, 30, 20, 44],
})
'''
	item 	price 	color 	weight
0 	Apple 	4.0 	red 	12
1 	Banana 	3.0 	yellow 	20
2 	Orange 	3.0 	yellow 	50
3 	Banana 	2.5 	green 	30
4 	Orange 	4.0 	green 	20
5 	Apple 	2.0 	green 	44
'''

df.groupby(by='item').groups
'''
{'Apple': Int64Index([0, 5], dtype='int64'),
 'Banana': Int64Index([1, 3], dtype='int64'),
 'Orange': Int64Index([2, 4], dtype='int64')}
'''

计算每一种水果的平均价格。

mean_price_series = df.groupby(by='item')['price'].mean()
'''
item
Apple     3.00
Banana    2.75
Orange    3.50
Name: price, dtype: float64
'''

2.5.2 配合映射操作

配合映射操作(match)，将每种水果的平均价格汇总到源数据中。

mean_price_series = df.groupby(by='item')['price'].mean()
# 映射字典
mean_price_dict = mean_price_series.to_dict()  # {'Apple': 3.0, 'Banana': 2.75, 'Orange': 3.5}
df['mean_price'] = df['item'].map(mean_price_dict)

将每种颜色的水果的平均重量汇总到源数据中。

every_color_mean_weight_series = df.groupby(by='color')['weight'].mean()
df['every_color_mean_weight'] = df['color'].map(every_color_mean_weight_series.to_dict())

2.6 高级聚合操作

对数据使用groupby进行分组后，可以通过transform或apply提供函数或lambda表达式来实现更多自定义操作。

df.groupby(‘item’)[‘price’].sum() <=> df.groupby(‘item’)[‘price’].apply(sum)

def my_mean(s):
    sum = 0
    for i in s:
        sum += i
    return sum / len(s)

df.groupby(by='item')['price'].apply(my_mean)
'''
item
Apple     3.00
Banana    2.75
Orange    3.50
Name: price, dtype: float64
'''

df.groupby(by='item')['price'].transform(my_mean)
'''
0    3.00
1    2.75
2    3.50
3    2.75
4    3.50
5    3.00
Name: price, dtype: float64
'''

apply和transform的区别：
apply返回的是对分类后数据的操作结果，不会与原数据进行映射操作；
transform返回的结果是经过进一步映射后的结果。

2.7 数据加载 read_csv

2.7.1 读取.txt类型的文件数据

read_csv的参数header的默认值是infer，会将第一行数据作为列名。

df = pd.read_csv('./type-.txt')
'''
	你好-我好-他也好
0 	也许-大概-有可能
1 	然而-未必-不见得
'''

参数header=None表明原始文件数据没有列索引，read_csv会自动添加列索引。

df = pd.read_csv('./type-.txt', header=None)
'''
	0
0 	你好-我好-他也好
1 	也许-大概-有可能
2 	然而-未必-不见得
'''

参数sep用于指定分隔符。

df = pd.read_csv('./type-.txt', header=None, sep='-')
'''
	0 		1 		2
0 	你好 	我好 	他也好
1 	也许 	大概 	有可能
2 	然而 	未必 	不见得
'''

参数names用于手动指定列名。

df = pd.read_csv('./type-.txt', header=None, sep='-', names=['A', 'B', 'C'])
'''
	A 		B 		C
0 	你好 	我好 	他也好
1 	也许 	大概 	有可能
2 	然而 	未必 	不见得
'''
'''

2.7.2 读取数据库中的数据

import sqlite3 as sqlite3

# 连接数据库，获取连接对象。
conn = sqlite3.connect('./weather_2012.sqlite')
# 读取数据库中的数据。
sql_df = pd.read_sql('select * from weather_2012', conn)

# 将指定df中的数据值存储到数据库中。
df = pd.read_csv('./type-.txt', header=None, sep='-')
df.to_sql('type', conn)
pd.read_sql('select * from type', conn)
'''
 	index 	0 		1 		2
0 	0 		你好 	我好 	他也好
1 	1 		也许 	大概 	有可能
2 	2 		然而 	未必 	不见得
'''

2.8 透视表 pivot_table

数据透视表(Pivot Table)是一种可以对数据动态排布并且分类汇总的表格格式。

Pandas中的建立数据透视表的方法pivot_table

pivot_table(data, values=None, index=None, columns=None,aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')

重要参数：index，values，columns，aggfunc

2.8.1 准备数据

数据集是火箭队球星James Harden在某一赛季比赛数据。

df = pd.read_csv('./透视表-篮球赛.csv')
df.head()
'''
	对手 	胜负 	主客场 	命中 	投篮数 	投篮命中率 	3分命中率 	篮板 	助攻 	得分
0 	勇士 	胜 		客 		10 		23 		0.435 		0.444 		6 		11 		27
1 	国王 	胜 		客 		8 		21 		0.381 		0.286 		3 		9 		27
2 	小牛 	胜 		主 		10 		19 		0.526 		0.462 		3 		7 		29
3 	灰熊 	负 		主 		8 		20 		0.400 		0.250 		5 		8 		22
4 	76人 	胜 		客 		10 		20 		0.500 		0.250 		3 		13 		27
'''

2.8.2 index参数

index参数用于指定分类汇总的分类条件。

需求：查看哈登对阵每个对手在不同主客场下的数据。
分类条件为对手和主客场。

df.pivot_table(index=['对手','主客场'])
'''
 				3分命中率 	助攻 	命中 	得分 	投篮命中率 	投篮数 	篮板
对手 	主客场
76人 	主 		0.4290 		7.0 	8.0 	29.0 	0.381 		21.0 	4.0
		客 		0.2500 		13.0 	10.0 	27.0 	0.500 		20.0 	3.0
勇士 	客 		0.4440 		11.0 	10.0 	27.0 	0.435 		23.0 	6.0
...
'''

2.8.3 values参数

values参数用于对数据进行筛选。
需求：查看哈登在不同主客场和不同胜负情况下的平均得分、平均篮板和平均助攻三项数据。

df.pivot_table(index=['主客场', '胜负'], values=['得分', '篮板', '助攻'])
'''
 				助攻 		得分 		篮板
主客场 	胜负 			
主 		胜 		10.555556 	34.222222 	5.444444
		负 		8.666667 	29.666667 	5.000000
客 		胜 		9.000000 	32.000000 	4.916667
		负 		8.000000 	20.000000 	4.000000
'''

2.8.4 aggfunc参数

aggfunc参数用于指定对数据聚合时进行的函数操作，默认操作是计算均值mean。
需求：查看哈登在不同主客场和不同胜负情况下的总得分、总篮板、总助攻三项数据。

df.pivot_table(index=['主客场', '胜负'], values=['得分', '篮板', '助攻'], aggfunc='sum')
'''
				助攻 	得分 	篮板
主客场 	胜负 			
主 		胜 		95 		308 	49
		负 		26 		89 		15
客 		胜 		108 	384 	59
		负 		8 		20 		4
'''

2.8.5 columns参数

columns参数用于设置列层次字段，对values字段进行分类。
需求：查看主客场下对阵的每个对手的得分情况。

总得分

df.pivot_table(index='主客场', values='得分', aggfunc='sum')
'''
 		得分
主客场 	
主 		397
客 		404
'''

在总得分的基础上查看在每个对手维度上的得分部分，空值补0。

df.pivot_table(index='主客场', values='得分', aggfunc='sum', columns='对手', fill_value=0)
'''
对手 	76人 	勇士 	国王 	太阳 	小牛 	尼克斯 	开拓者 	掘金 	步行者 	湖人 	灰熊 	爵士 	猛龙 	篮网 	老鹰 	骑士 	鹈鹕 	黄蜂
主客场
主 		29 		0		0		0		29		37		0		21		29		0		60		56		38		37		0		35		26		0
客 		27 		27		27		48		0		31		48		0		26		36		49		29		0		0		29		0		0		27
'''

2.9 交叉表 crosstab

交叉表(Cross Tabulations)是一种常用的分类汇总表格，是用于计算分组的特殊透视表。

df.crosstab(index, colums)

index用于指定交叉表的行索引；
columns用于指定交叉表的列索引。

准备数据

df = DataFrame({
     
    'sex': ['man', 'man', 'women', 'women', 'man', 'women', 'man', 'women', 'women'],
    'age': [15, 23, 25, 17, 35, 57, 24, 31, 22],
    'smoke': [True, False, False, True, True, False, False, True, False],
    'height': [168, 179, 181, 166, 173, 178, 188, 190, 160]
})
'''
	sex 	age 	smoke 	height
0 	man 	15 		True 	168
1 	man 	23 		False 	179
2 	women 	25 		False 	181
3 	women 	17 		True 	166
4 	man 	35 		True 	173
5 	women 	57 		False 	178
6 	man 	24 		False 	188
7 	women 	31 		True 	190
8 	women 	22 		False 	160
'''

需求1：获取各性别的抽烟人数。

pd.crosstab(index=df.smoke, columns=df.sex)
'''
sex 	man 	women
smoke 		
False 	2 		3
True 	2 		2
'''

需求2：判断各个年龄段的人是否抽烟。

pd.crosstab(index=df.age, columns=df.smoke)
'''
smoke 	False 	True
age 		
15 		0 		1
17 		0 		1
22 		1 		0
23 		1 		0
24 		1 		0
25 		1 		0
31 		0 		1
35 		0 		1
57 		1 		0
'''

3 案例 2012年美国大选献金数据分析

3.1 数据介绍

导入数据

import numpy as np
import pandas as pd

df = pd.read_csv('./data/usa_election.txt')

重要字段介绍

字段名	描述
cand_nm	候选人姓名
contbr_nm	捐赠人姓名
contbr_st	捐赠人所在州
contbr_employer	捐赠人所在公司
contbr_occupation	捐赠人职业
contb_receipt_amt	捐赠数额(美元)
contb_receipt_dt	捐款日期

3.2 需求

导入数据，并进行统计描述；
处理缺失值，空值填充为NOT PROVIDE；
处理异常值，将捐款金额小于0的数据删除；
新建列party，表示各个候选人所在党派；
查看party列中有哪些不同的元素；
统计party列中各个值出现的次数；
查看各个党派收到的政治献金总额contb_receipt_amt；
查看具体每天各个党派收到的政治献金总额contb_receipt_amt；
将表中日期格式转换为’yyyy-mm-dd’；
查看老兵(捐献者职业为DISABLED VETERAN)主要支持谁。

3.3 准备数据

3.3.1 导入数据

df = pd.read_csv('./usa_election.txt')
df.shape  # (536041, 16)
df.head()
'''
	cmte_id 	cand_id 	cand_nm 			contbr_nm 			contbr_city 		contbr_st 		contbr_zip 		contbr_employer 		contbr_occupation 		contb_receipt_amt 	contb_receipt_dt 	receipt_desc 	memo_cd 	memo_text 	form_tp 	file_num
0 	C00410118 	P20002978 	Bachmann, Michelle 	HARVEY, WILLIAM 	MOBILE 				AL 				3.6601e+08 		RETIRED 				RETIRED 				250.0 				20-JUN-11 			NaN 			NaN 		NaN 		SA17A 		736166
1 	C00410118 	P20002978 	Bachmann, Michelle 	HARVEY, WILLIAM 	MOBILE 				AL 				3.6601e+08 		RETIRED 				RETIRED 				50.0 				23-JUN-11 			NaN 			NaN 		NaN 		SA17A 		736166
2 	C00410118 	P20002978 	Bachmann, Michelle 	SMITH, LANIER 		LANETT 				AL 				3.68633e+08 	INFORMATION REQUESTED 	INFORMATION REQUESTED 	250.0 				05-JUL-11 			NaN 			NaN 		NaN 		SA17A 		749073
3 	C00410118 	P20002978 	Bachmann, Michelle 	BLEVINS, DARONDA 	PIGGOTT 			AR 				7.24548e+08 	NONE 					RETIRED 				250.0 				01-AUG-11 			NaN 			NaN 		NaN 		SA17A 		749073
4 	C00410118 	P20002978 	Bachmann, Michelle 	WARDENBURG, HAROLD 	HOT SPRINGS NATION 	AR 				7.19016e+08 	NONE 					RETIRED 				300.0 				20-JUN-11 			NaN 			NaN 		NaN 		SA17A 		736166
'''

3.3.2 查看是否存在缺失数据

df.info()
'''

RangeIndex: 536041 entries, 0 to 536040
Data columns (total 16 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   cmte_id            536041 non-null  object 
 1   cand_id            536041 non-null  object 
 2   cand_nm            536041 non-null  object 
 3   contbr_nm          536041 non-null  object 
 4   contbr_city        536026 non-null  object 
 5   contbr_st          536040 non-null  object 
 6   contbr_zip         535973 non-null  object 
 7   contbr_employer    525088 non-null  object 
 8   contbr_occupation  530520 non-null  object 
 9   contb_receipt_amt  536041 non-null  float64
 10  contb_receipt_dt   536041 non-null  object 
 11  receipt_desc       8479 non-null    object 
 12  memo_cd            49718 non-null   object 
 13  memo_text          52740 non-null   object 
 14  form_tp            536041 non-null  object 
 15  file_num           536041 non-null  int64  
dtypes: float64(1), int64(1), object(14)
memory usage: 65.4+ MB
'''

3.3.3 统计描述

df.describe()
'''
 		contb_receipt_amt 	file_num
count 	5.360410e+05 		536041.000000
mean 	3.750373e+02 		761472.107800
std 	3.564436e+03 		5148.893508
min 	-3.080000e+04 		723511.000000
25% 	5.000000e+01 		756218.000000
50% 	1.000000e+02 		763233.000000
75% 	2.500000e+02 		763621.000000
max 	1.944042e+06 		767394.000000
'''

3.4 处理缺失值和异常值

3.4.1 处理缺失值

将缺失值填充为NOT PROVIDE。

df.fillna(value='NOT PROVIDE', inplace=True)

3.4.2 处理异常值

将捐款金额小于0的数据删除。

df = df.loc[~(df['contb_receipt_amt'] <= 0)]

3.5 党派列

3.5.1 新建列party

候选人与所属党派对应关系字典。

party_dict = {
     
    'Bachmann, Michelle': 'Republican',
    'Romney, Mitt': 'Republican',
    'Obama, Barack': 'Democrat',
    "Roemer, Charles E. 'Buddy' III": 'Reform',
    'Pawlenty, Timothy': 'Republican',
    'Johnson, Gary Earl': 'Libertarian',
    'Paul, Ron': 'Republican',
    'Santorum, Rick': 'Republican',
    'Cain, Herman': 'Republican',
    'Gingrich, Newt': 'Republican',
    'McCotter, Thaddeus G': 'Republican',
    'Huntsman, Jon': 'Republican',
    'Perry, Rick': 'Republican'
}

新建列party，表示各个候选人所在党派。

df['party'] = df['cand_nm'].map(party_dict)

3.5.2 分析列party

查看party列中有哪些不同的元素。

df['party'].unique()  # array(['Republican', 'Democrat', 'Reform', 'Libertarian'], dtype=object)

统计party列中各个值出现的次数。

df['party'].value_counts()
'''
Democrat       289999
Republican     234300
Reform           5313
Libertarian       702
Name: party, dtype: int64
'''

查看各个党派收到的政治献金总额contb_receipt_amt。

df.groupby(by='party')['contb_receipt_amt'].sum()
'''
party
Democrat       8.259441e+07
Libertarian    4.132769e+05
Reform         3.429658e+05
Republican     1.251181e+08
Name: contb_receipt_amt, dtype: float64
'''

查看具体每天各个党派收到的政治献金总额contb_receipt_amt。

df.groupby(by=['contb_receipt_dt','party'])['contb_receipt_amt'].sum()
'''
contb_receipt_dt  party      
01-APR-11         Reform             50.00
                  Republican      12635.00
01-AUG-11         Democrat       182198.00
                  Libertarian      1000.00
                  Reform           1847.00
                                   ...    
31-MAY-11         Republican     313839.80
31-OCT-11         Democrat       216971.87
                  Libertarian      4250.00
                  Reform           3205.00
                  Republican     751542.36
Name: contb_receipt_amt, Length: 1183, dtype: float64
'''

3.6 日期格式转换

将表中日期格式转换为yyyy-mm-dd。

def transform_date(d):
    day, month, year = d.split('-')
    month = months[month]
    return '20' + year + '-' + str(month) + '-' + day

# df['contb_receipt_dt'].map(transform_date)
df['contb_receipt_dt'] = df['contb_receipt_dt'].apply(transform_date)

3.7 查看老兵主要的支持谁

查看老兵(捐献者职业为DISABLED VETERAN)主要支持谁，就是看给谁捐的钱最多。

# 老兵对应的行数据
veteran_df = df.loc[df['contbr_occupation'] == 'DISABLED VETERAN']
# 根据候选人分组
veteran_df.groupby(by='cand_nm')['contb_receipt_amt'].sum()
'''
cand_nm
Cain, Herman       300.00
Obama, Barack     4205.00
Paul, Ron         2425.49
Santorum, Rick     250.00
Name: contb_receipt_amt, dtype: float64
'''

可以看出，候选人Obama, Barack获得老兵的捐赠最多，因此老兵主要支持Obama, Barack。

4 matplotlib

4.1 介绍

Matplotlib是Python的数据绘图包，可以与NumPy配合使用。

基本绘图流程

创建figure画布对象；
根据figure对象进行布局设置；
figure对象(画布)上可以有多个作图区域，即axes坐标系。
获取对应位置的axes坐标系对象；
调用axes对象，在对应位置进行图形绘制；
传入数据进行绘图，并设置图形细节。
显示图形 plt.show()，保存图形 fig.savefig('./demo.png')。

导入包

import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

Jupyter Notebook中，魔法指令%matplotlib inline可以让绘制出来的图例展示在当前文件中，inline表示将图表嵌入到文件中。

4.2 条线图

4.2.1 单条线图

x = np.array([1, 2, 3, 4, 5])
y = x + 2
plt.plot(x, y)

4.2.2 多条线图

x = np.arange(1, 11)
y = x + 2
# 在一个坐标系中绘制多条线。
plt.plot(x, y)
plt.plot(x - 2, y + 3)
# 坐标系设置
plt.xlabel('x axis')
plt.ylabel('y axis')
plt.title('Matplotlib Demo')

4.3 图片显示设置

4.3.1 修改坐标系的显示比例

x = np.arange(1, 11)
y = x + 2
# 在绘图操作之前设置坐标系的显示比例
# 坐标的刻度不会发生改变。
plt.figure(figsize=(5, 2))
# 在一个坐标系中绘制多条线。
plt.plot(x, y)
plt.plot(x - 2, y + 3)
# 坐标系设置
plt.xlabel('x axis')
plt.ylabel('y axis')
plt.title('Matplotlib Demo')

4.3.2 设置图例

x = np.arange(1, 11)
y = x + 2
# 设置图例
plt.plot(x, y, label='Line 1')
plt.plot(x - 2, y + 3, label='Line 2')
plt.legend()
# 坐标系设置
plt.xlabel('x axis')
plt.ylabel('y axis')
plt.title('Matplotlib Demo')

4.3.3 保存图片

# 1. 生成figure对象
fig = plt.figure()
# 2. 绘图
x = np.array([1, 2, 3, 4, 5])
y = x + 2
plt.plot(x, y)
# 3. 显示图片
plt.show()
# 4. 保存图片
plt.savefig('./demo.png')

4.4 其它类型图表绘制

4.4.1 柱状图 plt.bar

bar(x, height, width=0.8...)

x：索引；
height：柱高，即数据值；
width：条形宽度。

x_list = [1, 2, 3, 4, 5]
height_list = [3, 8, 5, 7, 6] 
plt.bar(x_list, height=height_list, width=0.5)

4.4.2 直方图(密度图) plt.hist

plt.hist(x, bins=None, normed=None, orientation='vertical', color=None...)

bins：指定条形数量的整数值；
normed：是否进行归一化处理，即形成概率密度，默认值为False；
orientation：指定直方图的方向，horizontal表示水平，vertical表示垂直(默认)；
color：指定直方图的颜色，可以是颜色值或颜色序列。

x = [1, 1, 1, 1, 2, 3, 3, 3, 4, 5, 5, 6, 6, 6, 6, 6, 6, 6, 7, 8, 9]
plt.hist(x, bins=20)
'''
(array([4., 0., 1., 0., 0., 3., 0., 1., 0., 0., 2., 0., 7., 0., 0., 1., 0.,
        1., 0., 1.]),
 array([1. , 1.4, 1.8, 2.2, 2.6, 3. , 3.4, 3.8, 4.2, 4.6, 5. , 5.4, 5.8,
        6.2, 6.6, 7. , 7.4, 7.8, 8.2, 8.6, 9. ]),
 )
'''
'''
返回值解读：1至1.4之间柱子高度为4，1.4至1.8之间柱子高度为0，...
'''

x = [1, 1, 1, 1, 2, 3, 3, 3, 4, 5, 5, 6, 6, 6, 6, 6, 6, 6, 7, 8, 9]
plt.hist(x, bins=20, normed=True, orientation='horizontal', color='r')
'''
(array([0.47619048, 0.        , 0.11904762, 0.        , 0.        ,
        0.35714286, 0.        , 0.11904762, 0.        , 0.        ,
        0.23809524, 0.        , 0.83333333, 0.        , 0.        ,
        0.11904762, 0.        , 0.11904762, 0.        , 0.11904762]),
 array([1. , 1.4, 1.8, 2.2, 2.6, 3. , 3.4, 3.8, 4.2, 4.6, 5. , 5.4, 5.8,
        6.2, 6.6, 7. , 7.4, 7.8, 8.2, 8.6, 9. ]),
 )
'''

4.4.3 散点图 plt.scatter

x = np.linspace(-np.pi, np.pi, num=20)
y = np.random.randint(0, 20, size=(20,))
plt.scatter(x, y)

4.4.4 饼图 plt.pie

plt.pie(x,...)

arr=[11, 22, 31, 15]
plt.pie(arr)

arr=[0.2, 0.3, 0.1]
plt.pie(arr)

arr = [11, 22, 31, 15]
plt.pie(arr, labels=['a', 'b', 'c', 'd'])

arr = [11, 22, 31, 15]
plt.pie(arr, labels=['a', 'b', 'c', 'd'], labeldistance=0.3)

arr = [11, 22, 31, 15]
plt.pie(arr, labels=['a', 'b', 'c', 'd'], labeldistance=0.3, autopct='%.6f%%')

arr = [11, 22, 31, 15]
plt.pie(arr, labels=['a', 'b', 'c', 'd'], labeldistance=0.3, shadow=True, explode=[0.2, 0.3, 0.2, 0.4])

你可能感兴趣的:(Python数据分析,python,数据分析)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

3 Python数据分析 美国各州人口分析案例 Pandas高级操作 美国大选献金案例 matplotlib