落@槿（nick）

python 数据分析--数据处理工具Pandas(2)

数据处理模块--Pandas

4. Pandas处理字符串和日期数据
5. Pandas 数据清洗

5.1 重复观测处理
5.2 缺失值处理

5.2.1 删除法
5.2.2 替换法

5.3 异常值处理

6. 获取数据子集
7. 透视表、合并与连接、分组聚合

7.1 透视表
7.2 多表合并
7.3 多表连接
7.4 分组聚合

在前面的学习中主要了解了Pandas如何构造序列和数据框，如何读取和写入各种格式的数据，以及如何对数据进行初步描述，本文将进一步了解Pandas如何处理字符串和日期数据，数据清洗，获取数据子集，透视表，分组聚合操作等内容。

4. Pandas处理字符串和日期数据

待处理的数据表

数据处理要求:

更改出生日期birthday和手机号tel两个字段的数据类型。

根据出生日期birthday和开始工作日期start_work两个字段新增年龄和工龄两个字段。

将手机号tel的中间四位隐藏起来。

根据邮箱信息新增邮箱域名字段。

基于other字段取出每个人员的专业信息。

import pandas as pd

#读入数据
employee_info = pd.read_excel(r"E:/Data/3/data_test03.xlsx",header=0)
employee_info.dtypes

name                  object
gender                object
birthday              object
start_work    datetime64[ns]
income                 int64
tel                    int64
email                 object
other                 object
dtype: object

# 更改数据类型
employee_info.birthday = pd.to_datetime(employee_info.birthday, format="%Y/%m/%d")
employee_info.tel = employee_info.tel.astype('str')
employee_info.dtypes

name                  object
gender                object
birthday      datetime64[ns]
start_work    datetime64[ns]
income                 int64
tel                   object
email                 object
other                 object
dtype: object

# 新增年龄和工龄字段
# 年龄 = 当天日期的年份 - 生日那一天的年份
# 工龄 = 当天日期的年份 - 开始工作那一天的年份
employee_info['age'] = pd.datetime.today().year - employee_info.birthday.dt.year
employee_info['workage'] = pd.datetime.today().year - employee_info.start_work.dt.year

# 新增邮箱域名字段
# 字符串分割、巧用了匿名函数 lambda
# split分出来的数据有两部分[邮箱名,域名]，域名的索引为1

employee_info['email_domain'] = employee_info.email.apply(func = lambda x: x.split('@')[1])  
employee_info

	name	gender	birthday	start_work	income	tel	email	other	age	workage	email_domain
0	赵一	男	1989-08-10	2012-09-08	15000	13611011234	[email protected]	{教育：本科，专业：电子商务，爱好：运动}	31	8	qq.com
1	王二	男	1990-10-02	2014-03-06	12500	13500012234	[email protected]	{教育：大专，专业：汽修，爱好：}	30	6	163.com
2	张三	女	1987-03-12	2009-01-08	18500	13515273330	[email protected]	{教育：本科，专业：数学，爱好：打篮球}	33	11	qq.com
3	李四	女	1991-08-16	2014-06-04	13000	13923673388	[email protected]	{教育：硕士，专业：统计学，爱好：唱歌}	29	6	gmail.com
4	刘五	女	1992-05-24	2014-08-10	8500	17823117890	[email protected]	{教育：本科，专业：美术，爱好：}	28	6	qq.com
5	雷六	女	1986-12-10	2010-03-10	15000	13712345612	[email protected]	{教育：本科，专业：化学，爱好：钓鱼}	34	10	126.com
6	贾七	男	1993-04-10	2015-08-01	9000	13178734511	[email protected]	{教育：硕士，专业：物理，爱好：健身}	27	5	136.com
7	吴八	女	1988-07-19	2014-10-12	13500	17822335317	[email protected]	{教育：本科，专业：政治学，爱好：读书}	32	6	qq.com

# 隐藏电话号码中间四位数
# 字符串替换，巧用了匿名函数lambda
employee_info.tel = employee_info.tel.apply(func = lambda x: x.replace(x[3:7],'****'))
employee_info

	name	gender	birthday	start_work	income	tel	email	other	age	workage	email_domain
0	赵一	男	1989-08-10	2012-09-08	15000	136****1234	[email protected]	{教育：本科，专业：电子商务，爱好：运动}	31	8	qq.com
1	王二	男	1990-10-02	2014-03-06	12500	135****2234	[email protected]	{教育：大专，专业：汽修，爱好：}	30	6	163.com
2	张三	女	1987-03-12	2009-01-08	18500	135****3330	[email protected]	{教育：本科，专业：数学，爱好：打篮球}	33	11	qq.com
3	李四	女	1991-08-16	2014-06-04	13000	139****3388	[email protected]	{教育：硕士，专业：统计学，爱好：唱歌}	29	6	gmail.com
4	刘五	女	1992-05-24	2014-08-10	8500	178****7890	[email protected]	{教育：本科，专业：美术，爱好：}	28	6	qq.com
5	雷六	女	1986-12-10	2010-03-10	15000	137****5612	[email protected]	{教育：本科，专业：化学，爱好：钓鱼}	34	10	126.com
6	贾七	男	1993-04-10	2015-08-01	9000	131****4511	[email protected]	{教育：硕士，专业：物理，爱好：健身}	27	5	136.com
7	吴八	女	1988-07-19	2014-10-12	13500	178****5317	[email protected]	{教育：本科，专业：政治学，爱好：读书}	32	6	qq.com

# 根据other 字段提取每个人的专业信息
# 用正则表达式匹配专业字段，主要在匹配时 ： 和 ， 均为中文输入法，英文无法匹配的
employee_info['profession'] = employee_info.other.str.findall('专业：(.*?)，')

# findall 提取出来的数据带[] 去除[]
employee_info.profession = employee_info.profession.astype('str')
employee_info.profession = employee_info.profession.apply(func = lambda x: x.replace(x[:],x[1:-1]))
employee_info.profession = employee_info.profession.apply(func = lambda x: x.replace(x[0],' '))
employee_info.head()

	name	gender	birthday	start_work	income	tel	email	other	age	workage	email_domain	profession
0	赵一	男	1989-08-10	2012-09-08	15000	136****1234	[email protected]	{教育：本科，专业：电子商务，爱好：运动}	31	8	qq.com	电子商务
1	王二	男	1990-10-02	2014-03-06	12500	135****2234	[email protected]	{教育：大专，专业：汽修，爱好：}	30	6	163.com	汽修
2	张三	女	1987-03-12	2009-01-08	18500	135****3330	[email protected]	{教育：本科，专业：数学，爱好：打篮球}	33	11	qq.com	数学
3	李四	女	1991-08-16	2014-06-04	13000	139****3388	[email protected]	{教育：硕士，专业：统计学，爱好：唱歌}	29	6	gmail.com	统计学
4	刘五	女	1992-05-24	2014-08-10	8500	178****7890	[email protected]	{教育：本科，专业：美术，爱好：}	28	6	qq.com	美术

# 剔除birthday,start_work和other变量
# 需要将axis参数设置为1，因为默认drop方法是用来删除数据框中的行记录。
employee_info.drop(['birthday','start_work','other'], axis=1,inplace=True)
employee_info

	name	gender	income	tel	email	age	workage	email_domain	profession
0	赵一	男	15000	136****1234	[email protected]	31	8	qq.com	电子商务
1	王二	男	12500	135****2234	[email protected]	30	6	163.com	汽修
2	张三	女	18500	135****3330	[email protected]	33	11	qq.com	数学
3	李四	女	13000	139****3388	[email protected]	29	6	gmail.com	统计学
4	刘五	女	8500	178****7890	[email protected]	28	6	qq.com	美术
5	雷六	女	15000	137****5612	[email protected]	34	10	126.com	化学
6	贾七	男	9000	131****4511	[email protected]	27	5	136.com	物理
7	吴八	女	13500	178****5317	[email protected]	32	6	qq.com	政治学

5. Pandas 数据清洗

在数据处理过程中，一般都需要进行数据的清洗工作，数据清洗过程主要负责看数据集是否存在重复、是否存在缺失、数据是否具有完整性和一致性、数据中是否存在异常值等。这些问题都不利于数据分析，需要加以处理。

5.1 重复观测处理

在搜集数据过程中，可能会存在重复观测的出现，例如通过网络爬虫，就比较容易产生重复数据。

上面的数据就是通过爬虫获得某APP市场中电商类APP的下载量数据（部分），通过肉眼，是能够发现这10行数据中的重复项的，例如，唯品会出现了两次、当当出现了三次。如果搜集上来的数据不是10行，而是10万行，甚至更多时，就无法通过肉眼的方式检测数据是否存在重复项了。

import pandas as pd 

dsapp = pd.read_excel(r"E:/Data/3/data_test04.xlsx")

# 重复观测检测
#使用duplicated方法进行验证，但是该方法返回的是数据集每一行的检验结果，即10行数据会返回10个bool值。
# 加any进行判断，只要有一个检测到，就代表有

print("是否存在重复观测:\n",any(dsapp.duplicated()))

是否存在重复观测:
 True

#删除重复数据

dsapp.drop_duplicates(inplace=True)
dsapp

	appcategory	appname	comments	install	love	size	update
0	网上购物-商城-团购-优惠-快递	每日优鲜	1297	204.7万	89.00%	15.16MB	2017年10月11日
1	网上购物-商城	苏宁易购	577	7996.8万	73.00%	58.9MB	2017年09月21日
2	网上购物-商城-优惠	唯品会	2543	7090.1万	86.00%	41.43MB	2017年10月13日
4	网上购物-商城	拼多多	1921	3841.9万	95.00%	13.35MB	2017年10月11日
5	网上购物-商城-优惠	寺库奢侈品	1964	175.4万	100.00%	17.21MB	2017年09月30日
6	网上购物-商城	淘宝	14244	4.6亿	68.00%	73.78MB	2017年10月13日
7	网上购物-商城-团购-优惠	当当	134	1615.3万	61.00%	37.01MB	2017年10月17日

5.2 缺失值处理

缺失值是指数据集中的某些观测存在遗漏的指标值，缺失值的存在同样会影响到数据分析和挖掘的结果。导致观测的缺失可能有两方面原因，一方面是人为原因（如记录过程中的遗漏、个人隐私而不愿透露等），另一方面是机器或设备的故障所导致（如断电或设备老化等原因）。一般而言，当遇到缺失值（Python中用NaN表示）时，可以采用三种方法处置，分别是删除法、替换法和插补法。

上面的数据来自于某游戏公司的用户注册信息（仅以10行记录为例，该数据集中存在4条红色标注的缺失观测。

import pandas as pd 

Game_user = pd.read_excel(r"E:\Data\3\data_test05.xlsx")
print("数据集是否存在缺失值:\n",any(Game_user.isnull()))

数据集是否存在缺失值:
 True

5.2.1 删除法

# 1. 删除法处理
# 在副本上删除所有缺失的行，Game_user 不变
Game_user.dropna()

	uid	regit_date	gender	age	income
0	81200457	2016-10-30	M	23.0	6500.0
1	81201135	2016-11-08	M	27.0	10300.0
3	84639281	2017-04-17	M	26.0	6000.0
6	63881943	2015-10-07	M	21.0	10000.0
8	77638351	2016-07-12	M	25.0	18000.0

# 删除缺失值最多的那一列变量
Game_user.drop('age',axis=1)

	uid	regit_date	gender	income
0	81200457	2016-10-30	M	6500.0
1	81201135	2016-11-08	M	10300.0
2	80043782	2016-10-13	F	13500.0
3	84639281	2017-04-17	M	6000.0
4	73499801	2016-03-21	NaN	4500.0
5	72399510	2016-01-18	M	NaN
6	63881943	2015-10-07	M	10000.0
7	35442690	2015-04-10	F	5800.0
8	77638351	2016-07-12	M	18000.0
9	85200189	2017-05-18	M	NaN

5.2.2 替换法

# 2. 替换法
# 缺失值用前一行值填充
Game_user.fillna(method='ffill')

	uid	regit_date	gender	age	income
0	81200457	2016-10-30	M	23.0	6500.0
1	81201135	2016-11-08	M	27.0	10300.0
2	80043782	2016-10-13	F	27.0	13500.0
3	84639281	2017-04-17	M	26.0	6000.0
4	73499801	2016-03-21	M	26.0	4500.0
5	72399510	2016-01-18	M	19.0	4500.0
6	63881943	2015-10-07	M	21.0	10000.0
7	35442690	2015-04-10	F	21.0	5800.0
8	77638351	2016-07-12	M	25.0	18000.0
9	85200189	2017-05-18	M	22.0	18000.0

# 缺失值用后一行填充
Game_user.fillna(method='bfill')

	uid	regit_date	gender	age	income
0	81200457	2016-10-30	M	23.0	6500.0
1	81201135	2016-11-08	M	27.0	10300.0
2	80043782	2016-10-13	F	26.0	13500.0
3	84639281	2017-04-17	M	26.0	6000.0
4	73499801	2016-03-21	M	19.0	4500.0
5	72399510	2016-01-18	M	19.0	10000.0
6	63881943	2015-10-07	M	21.0	10000.0
7	35442690	2015-04-10	F	25.0	5800.0
8	77638351	2016-07-12	M	25.0	18000.0
9	85200189	2017-05-18	M	22.0	NaN

method参数可以接受’ffill’和’bfill’两种值，分别代表前向填充和后向填充。前向填充是指用缺失值的前一个值替换（如左表所示），而后向填充则表示用缺失值的后一个值替换（如右表所示）。右表中的最后一个记录仍包含缺失值，是因为后向填充法找不到该缺失值的后一个值用于替换。缺失值的前向填充或后向填充一般适用于时间序列型的数据集，因为这样的数据前后具有连贯性，而一般的独立性样本并不适用该方法。

# 常数替换
Game_user.fillna(value = 0)

	uid	regit_date	gender	age	income
0	81200457	2016-10-30	M	23.0	6500.0
1	81201135	2016-11-08	M	27.0	10300.0
2	80043782	2016-10-13	F	0.0	13500.0
3	84639281	2017-04-17	M	26.0	6000.0
4	73499801	2016-03-21	0	0.0	4500.0
5	72399510	2016-01-18	M	19.0	0.0
6	63881943	2015-10-07	M	21.0	10000.0
7	35442690	2015-04-10	F	0.0	5800.0
8	77638351	2016-07-12	M	25.0	18000.0
9	85200189	2017-05-18	M	22.0	0.0

# 统计值替换
Game_user.fillna(value= {'gender':Game_user.gender.mode()[0],
                         'age':Game_user.age.median(),
                        'income':Game_user.income.mean()})

	uid	regit_date	gender	age	income
0	81200457	2016-10-30	M	23.0	6500.0
1	81201135	2016-11-08	M	27.0	10300.0
2	80043782	2016-10-13	F	23.0	13500.0
3	84639281	2017-04-17	M	26.0	6000.0
4	73499801	2016-03-21	M	23.0	4500.0
5	72399510	2016-01-18	M	19.0	9325.0
6	63881943	2015-10-07	M	21.0	10000.0
7	35442690	2015-04-10	F	23.0	5800.0
8	77638351	2016-07-12	M	25.0	18000.0
9	85200189	2017-05-18	M	22.0	9325.0

如上代码并没有实际改变df数据框的结果，因为dropna、drop和fillna方法并没有使inplace参数设置为True。可以在实际的学习和工作中挑选一个适当的缺失值处理方法，然后将该方法中的inplace参数设置为True，进而可以真正地改变你所处理的数据集。

5.3 异常值处理

异常值是指那些远离正常值的观测，即“不合群”观测。导致异常值的出现一般是人为的记录错误或者是设备的故障等，异常值的出现会对模型的创建和预测产生严重的后果。当然异常值也不一定都是坏事，有些情况下，通过寻找异常值就能够给业务带来良好的发展，如销毁“钓鱼”网站、关闭“薅羊毛”用户的权限等。

这两种方法的选择标准如下，如果数据近似服从正态分布时，优先选择n个标准差法，因为数据的分布相对比较对称；否则优先选择箱线图法，因为分位数并不会受到极端值的影响。当数据存在异常时，一般可以使用删除法将异常值删除（前提是异常观测的比例不能太大）、替换法（可以考虑使用低于判别上限的最大值或高于判别下限的最小值替换、使用均值或中位数替换等）。下面将以年为单位的太阳黑子个数为例（时间范围：1700—1988），识别并处理异常值：

# 1. 看两种方法是否都存在异常值

import pandas as pd

#数据读入
sunspots = pd.read_table(r"E:\Data\3\sunspots.csv", sep = ',')

# 标准差法检测异常值
xmean = sunspots.counts.mean()
xstd = sunspots.counts.std()
print("标准差法异常上限检测:\n",any(sunspots > xmean + 2 * xstd))
print("标准差法异常下限检测:\n",any(sunspots < xmean - 2 * xstd))

# 箱线法检测异常值
Q1 = sunspots.counts.quantile(q = 0.25)
Q3 = sunspots.counts.quantile(q = 0.75)
IQR = Q3 - Q1
print("箱线法异常上限检测:\n",any(sunspots  > Q3 + 1.5 * IQR ))
print("箱线法异常下限检测:\n",any(sunspots < Q1 - 1.5 * IQR ))

标准差法异常上限检测:
 True
标准差法异常下限检测:
 True
箱线法异常上限检测:
 True
箱线法异常下限检测:
 True

不管是标准差检验法还是箱线图检验法，都发现太阳黑子数据中存在异常值，而且异常值都是超过上限临界值的。接下来，通过绘制太阳黑子数量的直方图和核密度曲线图，用于检验数据是否近似服从正态分布，进而选择一个最终的异常值判别方法：

# 2. 绘制直方图和核密度曲线图，确定采用何种异常判别法。
import matplotlib.pyplot as plt

plt.style.use('ggplot')
sunspots.counts.plot(kind = 'hist', bins =30, normed = True)
sunspots.counts.plot(kind = 'kde')
plt.show()

很明显，不管是直方图还是核密度曲线，都不服从正太分布，所以采用箱线法进行异常检测，此处也选用替换法来处理异常值。

# 替换法处理异常值：
print("异常值替换前的数据统计特征:\n", sunspots.counts.describe())
print("\n")

#箱线图中的异常值判别上限
UL = Q3 + 1.5 * IQR
print("判别异常值的上限临界值:\n", UL)

# 从数据中找出低于判别上限的最大值
replace_value = sunspots.counts[sunspots.counts < UL].max()
sunspots.counts[sunspots.counts > UL] = replace_value
print("\n")
print("异常值替换后的数据统计特征:\n", sunspots.counts.describe())

异常值替换前的数据统计特征:
 count    289.000000
mean      48.613495
std       39.474103
min        0.000000
25%       15.600000
50%       39.000000
75%       68.900000
max      190.200000
Name: counts, dtype: float64


判别异常值的上限临界值:
 148.85000000000002


异常值替换后的数据统计特征:
 count    289.000000
mean      48.066090
std       37.918895
min        0.000000
25%       15.600000
50%       39.000000
75%       68.900000
max      141.700000
Name: counts, dtype: float64


D:\Anaconda\lib\site-packages\ipykernel_launcher.py:11: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  # This is added back by InteractiveShellApp.init_path()

6. 获取数据子集

有时数据读入后并不是对整体数据进行分析，而是数据中的部分子集，例如，对于地铁乘客量可能只关心某些时间段的流量、对于商品的交易可能只需要分析某些颜色的价格变动、对于医疗诊断数据可能只对某个年龄段的人群感兴趣等。

在Pandas模块中实现数据框子集的获取可以使用iloc、loc和ix三种“方法”，这三种方法既可以对数据行进行筛选，也可以实现变量的挑选它们的语法可以表示成[rows_select,cols_select]。

df1 = pd.DataFrame({'name':['张三','李四','王二','丁一','李五'],
                    'gender':['男','女','女','女','男'],
                    'age':[23,26,22,25,27]},
                    columns = ['name','gender','age'])
df1

	name	gender	age
0	张三	男	23
1	李四	女	26
2	王二	女	22
3	丁一	女	25
4	李五	男	27

# 取出所有女性的姓名和年龄
df1.iloc[1:4,[0,2]]

	name	age
1	李四	26
2	王二	22
3	丁一	25

df1.loc[1:3,['name','age']]

	name	age
1	李四	26
2	王二	22
3	丁一	25

df1.ix[1:3,[0,2]]

	name	age
1	李四	26
2	王二	22
3	丁一	25

# 假如数据没有行号
df2 = df1.set_index('name')
df2

df2.iloc[1:4,:]
df2.loc[['李四','王二','丁一'],:]

	gender	age
name
李四	女	26
王二	女	22
丁一	女	25

# df2.ix[1:4,:]

在上面的df1数据集中，如何返回所有男性的姓名和年龄,如果是基于条件的记录筛选，只能使用loc和ix两种方法。正如代码所示，对iloc方法的那行代码做注释，是因为iloc不允许使用条件筛选。

# 使用筛选条件，取出所有男性的姓名和年龄
# df1.iloc[df1.gender == '男',]
df1.loc[df1.gender == '男',['name','age']]
df1.ix[df1.gender == '男',['name','age']]

	name	age
0	张三	23
4	李五	27

7. 透视表、合并与连接、分组聚合

7.1 透视表

Pandas模块提供了实现透视表功能的pivot_table函数，*该功能的主要目的就是实现数据的汇总统计。例如，按照某个分组变量统计商品的平均价格、销售数量、最大利润等，或者按照某两个分组变量构成统计学中的列联表（计数统计），甚至是基于多个分组变量统计各组合下的均值、中位数、总和等。

data：指定需要构造透视表的数据集。
values：指定需要拉入“数值”框的字段列表。
index：指定需要拉入“行标签”框的字段列表。
columns：指定需要拉入“列标签”框的字段列表。
aggfunc：指定数值的统计函数，默认为统计均值，也可以指定numpy模块中的其他统计函数。
fill_value：指定一个标量，用于填充缺失值。
margins：bool类型参数，是否需要显示行或列的总计值，默认为False。
dropna：bool类型参数，是否需要删除整列为缺失的字段，默认为True。
margins_name：指定行或列的总计名称，默认为All。

# 数据读取
diamonds = pd.read_table(r"E:/Data/3/diamonds.csv", sep = ',')

# 单个分组变量的均值统计
pd.pivot_table(data= diamonds, index = 'color',values = 'price', 
               margins=True, margins_name='总计')

	price
color
D	3169.954096
E	3076.752475
F	3724.886397
G	3999.135671
H	4486.669196
I	5091.874954
J	5323.818020
总计	3932.799722

import numpy as np
pd.pivot_table(data=diamonds, index='clarity', columns='cut', values = 'carat', 
               aggfunc= np.size, margins=True, margins_name='总计')

cut	Fair	Good	Ideal	Premium	Very Good	总计
clarity
I1	210.0	96.0	146.0	205.0	84.0	741.0
IF	9.0	71.0	1212.0	230.0	268.0	1790.0
SI1	408.0	1560.0	4282.0	3575.0	3240.0	13065.0
SI2	466.0	1081.0	2598.0	2949.0	2100.0	9194.0
VS1	170.0	648.0	3589.0	1989.0	1775.0	8171.0
VS2	261.0	978.0	5071.0	3357.0	2591.0	12258.0
VVS1	17.0	186.0	2047.0	616.0	789.0	3655.0
VVS2	69.0	286.0	2606.0	870.0	1235.0	5066.0
总计	1610.0	4906.0	21551.0	13791.0	12082.0	53940.0

7.2 多表合并

Pandas模块同样提供了关于多表之间的合并操作concat函数:

objs：指定需要合并的对象，可以是序列、数据框或面板数据构成的列表。
axis：指定数据合并的轴，默认为0，表示合并多个数据的行，如果为1，就表示合并多个数据的列。
join：指定合并的方式，默认为outer，表示合并所有数据，如果改为inner，表示合并公共部分的数据。
join_axes：合并数据后，指定保留的数据轴。
ignore_index：bool类型的参数，表示是否忽略原数据集的索引，默认为False，如果设True，就表示忽略原索引并生成新索引。
keys：为合并后的数据添加新索引，用于区分各个数据部分。

df1 = pd.DataFrame({'name':['张三','李四','王二'],
                    'gender':['男','女','女'],
                    'age':[23,26,22,]} )
df2 = pd.DataFrame({'name':['丁一','李五'],
                    'gender':['女','男'],
                    'age':[25,27]} )
pd.concat([df1,df2],keys = ['df1','df2'], axis=0)

		age	gender	name
df1	0	23	男	张三
	1	26	女	李四
	2	22	女	王二
df2	0	25	女	丁一
df2	1	27	男	李五

df2 = pd.DataFrame({'Name':['丁一','李五'],
                    'gender':['女','男'],
                    'age':[25,27]} )
pd.concat([df1,df2],keys = ['df1','df2'])

		Name	age	gender	name
df1	0	NaN	23	男	张三
	1	NaN	26	女	李四
	2	NaN	22	女	王二
df2	0	丁一	25	女	NaN
df2	1	李五	27	男	NaN

7.3 多表连接

Pandas模块同样提供了关于多表之间的连接操作merge函数，函数的最大缺点是，每次只能操作两张数据表的连接，如果有n张表需要连接，则必须经过n-1次的merge函数使用。

left：指定需要连接的主表。
right：指定需要连接的辅表。
how：指定连接方式，默认为inner内连，还有其他选项，如左连left、右连right和外连
outer。on：指定连接两张表的共同字段。
left_on：指定主表中需要连接的共同字段。
right_on：指定辅表中需要连接的共同字段。
left_index：bool类型参数，是否将主表中的行索引用作表连接的共同字段，默认为False。
right_index：bool类型参数，是否将辅表中的行索引用作表连接的共同字段，默认为False。
sort：bool类型参数，是否对连接后的数据按照共同字段排序，默认为False。
suffixes：如果数据连接的结果中存在重叠的变量名，则使用各自的前缀进行区分。

# 构造数据集
df3 = pd.DataFrame({'id':[1,2,3,4,5],'name':['张三','李四','王二','丁一','赵五'],'age':[27,24,25,23,25],'gender':['男','男','男','女','女']})
df4 = pd.DataFrame({'Id':[1,2,2,4,4,4,5],'kemu':['科目1','科目1','科目2','科目1','科目2','科目3','科目1'],'score':[83,81,87,75,86,74,88]})
df5 = pd.DataFrame({'id':[1,3,5],'name':['张三','王二','赵五'],'income':[13500,18000,15000]})

# 三表的数据连接
# 首先df3和df4连接
merge1 = pd.merge(left = df3, right = df4, how = 'left', left_on='id', right_on='Id')
merge1

# 再将连接结果与df5连接
merge2 = pd.merge(left = merge1, right = df5, how = 'left')
merge2

	age	gender	id	name	Id	kemu	score	income
0	27	男	1	张三	1.0	科目1	83.0	13500.0
1	24	男	2	李四	2.0	科目1	81.0	NaN
2	24	男	2	李四	2.0	科目2	87.0	NaN
3	25	男	3	王二	NaN	NaN	NaN	18000.0
4	23	女	4	丁一	4.0	科目1	75.0	NaN
5	23	女	4	丁一	4.0	科目2	86.0	NaN
6	23	女	4	丁一	4.0	科目3	74.0	NaN
7	25	女	5	赵五	5.0	科目1	88.0	15000.0

7.4 分组聚合

# 通过groupby方法，指定分组变量
grouped = diamonds.groupby(by = ['color','cut'])

# 对分组变量进行统计汇总
result = grouped.aggregate({'color':np.size, 'carat':np.min, 'price':np.mean})

# 调整变量名的顺序
result = pd.DataFrame(result, columns=['color','carat','price'])

# 数据集重命名
result.rename(columns={'color':'counts','carat':'min_weight','price':'avg_price'}, inplace=True)

# 将行索引变量数据框的变量
# result.reset_index(inplace=True)
result

		counts	min_weight	avg_price
color	cut
D	Fair	163	0.25	4291.061350
	Good	662	0.23	3405.382175
	Ideal	2834	0.20	2629.094566
	Premium	1603	0.20	3631.292576
	Very Good	1513	0.23	3470.467284
E	Fair	224	0.22	3682.312500
	Good	933	0.23	3423.644159
	Ideal	3903	0.20	2597.550090
	Premium	2337	0.20	3538.914420
	Very Good	2400	0.20	3214.652083
F	Fair	312	0.25	3827.003205
	Good	909	0.23	3495.750275
	Ideal	3826	0.23	3374.939362
	Premium	2331	0.20	4324.890176
	Very Good	2164	0.23	3778.820240
G	Fair	314	0.23	4239.254777
	Good	871	0.23	4123.482204
	Ideal	4884	0.23	3720.706388
	Premium	2924	0.23	4500.742134
	Very Good	2299	0.23	3872.753806
H	Fair	303	0.33	5135.683168
	Good	702	0.25	4276.254986
	Ideal	3115	0.23	3889.334831
	Premium	2360	0.23	5216.706780
	Very Good	1824	0.23	4535.390351
I	Fair	175	0.41	4685.445714
	Good	522	0.30	5078.532567
	Ideal	2093	0.23	4451.970377
	Premium	1428	0.23	5946.180672
	Very Good	1204	0.24	5255.879568
J	Fair	119	0.30	4975.655462
	Good	307	0.28	4574.172638
	Ideal	896	0.23	4918.186384
	Premium	808	0.30	6294.591584
	Very Good	678	0.24	5103.513274

你可能感兴趣的:(数据分析)

Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
python读写CSV文件 bcbobo21cn .Net python 开发语言机器学习 CSV
做数据分析，有时候要分析的数据在CSV文件里；先看一下python读写CSV文件；importpandasaspddf=pd.read_csv('test1.csv')print(df)print('')print(df.head(2))companyname=["A1","B2","E3","F4"]legperson=["lier","yanqi","wangwu","zhangsan"]le
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
python数据分析知识点大全编程零零七 python数据分析 python 开发语言 python数据分析数据分析知识点大全 python数据分析知识点 python教程 python基础
Python数据分析知识点大全可以归纳为以下几个主要方面：一、基础概念与目的数据分析定义：数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论，对数据加以详细研究和概括总结的过程。其目的在于从数据中挖掘规律、验证猜想、进行预测。Python在数据分析中的优势：Python因其易学性、快速开发、丰富的扩展库（如NumPy、Pandas等）和成熟的框架，成为数据分析领域的
数据分析-24-时间序列预测之基于keras的VMD-LSTM和VMD-CNN-LSTM预测风速皮皮冰燃数据分析数据分析
文章目录1普通的LSTM模型1.1数据重采样1.2数据标准化1.3切分窗口1.4划分数据集1.5建立模型1.6预测效果2VMD-LSTM模型2.1VMD分解时间序列2.2对每一个IMF建立LSTM模型2.2.1IMF1—LSTM2.2.2IMF2-LSTM2.2.3统一代码2.3评估效果3CNN-LSTM模型3.1数据预处理3.2建立模型3.3效果预测4VMD-CNN-LSTM模型4.1VMD分解
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
OmicsTools除b站教学视频外已整理的零代码生信全流程分析文档邢博士谈科教医学科研生信分析 r语言数据可视化数据挖掘数据分析生信医学生信分析
OmicsTools软件介绍和下载安装配置软件简介我开发了一款本地电脑无限使用的零代码生信数据分析作软图神器电脑软件OmicsTools，欢迎大家使用OmicsTools进行生物医学科研数据分析和作图，该软件件能让大家在不需要任何编程和代码编写的基础上，分析次数没有限制，可以无限使用，让您在自己电脑上快速进行大量的生信分析和加速大家的科研。OmicsTools生信分析电脑软件可以做医学生物生信各个
【数据分析】利用Python+AI+工作流实现自动化数据分析-全流程讲解 z千鑫 AI领域 FLASK基础 Python基础人工智能数据分析 python AI编程 AI工作流 ai 自动化
文章目录一、为什么要用AI进行自动化分析？二、AI自动化分析场景三、编写Python脚本示例1、用flask实现让AI分析数据内容使用说明：示例2、用定时任务的方式，定时处理AI数据代码说明四、把AI分析的数据，放到AI工作流中做展示五、openAI的key结尾在信息爆炸的时代，如何快速获取有价值的洞察力成为了各行各业的迫切需求。传统的内容分析方法往往又耗时又费力，并且难以满足快速变化的市场需求。
Mall4j商城实战 - 部署 canal 数据库增量日志解析 yueerba126 Mall4j商城实战数据库 spring cloud 微服务架构
Canal简介Canal是基于MySQL数据库增量日志解析的工具，主要用于增量数据的订阅和消费。Canal主要用途基于MySQL数据库增量日志解析详细功能：实时解析MySQL的二进制日志（Binlog）。捕获数据库中的所有增量变更，如插入、更新和删除操作。使用场景：适用于实时监控数据库变化的应用，比如数据复制、数据备份或实时数据分析等。提供增量数据订阅和消费服务
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
Rust: duckdb和polars读csv文件比较 songroom rust 开发语言后端
duckdb在数据分析上，有非常多不错的特质。1、快；2、客户体验好，特别是可以同时批量读csv（在一个目录下的csv等文件）。polars的性能比pandas有非常多的超越。但背后的一些基于arrow的技术栈有很多相同之类。今天想比较一下两者在csv数据读写的情况。一、文件准备csv样本内容，是N行9列的csv标准格式，有字符串，有浮点数，有整型。具体如下：本次准备了两个csv文件，一个大约是2
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
Java基于spring boot的国产电影数据分析与可视化python+java+node.js QQ_511008285 java spring boot 数据分析 python django vue.js flask
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以该系统使用进行大数据处理和
Python最全的股票数据API接口 w_traveler python 开发语言大数据
python最全的股票数据API接口使用python是一种有效的方式来获取高频股票数据，以便进行股票行情数据分析和量化交易。python是一种广泛应用于金融数据领域的编程语言，可用于与股票数据API接口进行交互。通过调用股票数据API接口，我们可以获取实时的股票数据，包括tick数据和k线历史数据。tick数据提供了每次交易的详细信息，而k线历史数据则提供了一段时间内港股、美股、A股、沪深行情数据
R 地图绘制-比例尺与指北针 jamesjin63
ggplot绘制mapR语言可以进行数据分析，也可以进行地图绘制，而且非常简洁，快速。虽然Arcgis基于桌面可视化操作，能够进行空间分析，但是唯一不足的就是操作步骤繁琐而且一不小心，就要从头再来，可重复性较低。这篇文章主要讲述如何利用R语言中的ggplot与sf绘制带有指北针、图列与标尺的地图屏幕快照2020-06-28下午9.27.59.png数据我们下载非洲地区54个国家的图层Afirca.
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
新质农业-再生农业的应用橙蜂智农人工智能制造创业创新
橙蜂智能公司致力于提供先进的人工智能和物联网解决方案，帮助企业优化运营并实现技术潜能。公司主要服务包括AI数字人、AI翻译、埃域知识库、大模型服务等。其核心价值观为创新、客户至上、质量、合作和可持续发展。橙蜂智农的智慧农业产品涵盖了多方面的功能，如智能化推荐、数据分析、远程监控和决策支持系统。用户可以通过应用获得个性化的作物种植建议、实时的生长状态监控以及精确的灌溉和施肥指导，提升农业生产效率。文
利用发电量和气象数据分析来判断光伏仿真系统的准确性鹧鸪云光伏与储能软件开发数据分析数据挖掘光伏发电大数据光伏新能源
随着光伏产业的迅速发展，光伏仿真系统通过集成气象数据分析、发电量分析、投融资分析及损耗估算等功能，为光伏项目的全生命周期管理提供了科学依据。光伏仿真系统集成了气象数据分析、发电量预测、投融资分析、损耗估算及光伏设计等功能。其中，气象数据分析是仿真系统的基石，通过整合权威的气象数据（如Meteonorm、Nasa等），模拟光伏电站所在区域的历史气象条件及未来气象预测。基于这些气象数据，发电量分析功能
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。