临风而眠

pandas入门(2)

Pandas入门(2)

准备工作：

#导入库
import pandas as pd 
import numpy as np

先读入pandas入门(1)中保存的movie_data.xlsx

#路径相同，只要写文件名
df=pd.read_excel('movie_data.xlsx')

df.head()

	Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
0	0	0	肖申克的救赎	692795	剧情/犯罪	美国	1994-09-10 00:00:00	142	1994	9.6	多伦多电影节
1	1	1	控方证人	42995	剧情/悬疑/犯罪	美国	1957-12-17 00:00:00	116	1957	9.5	美国
2	2	2	美丽人生	327855	剧情/喜剧/爱情	意大利	1997-12-20 00:00:00	116	1997	9.5	意大利
3	3	3	阿甘正传	580897	剧情/爱情	美国	1994-06-23 00:00:00	142	1994	9.4	洛杉矶首映
4	4	4	霸王别姬	478523	剧情/爱情/同性	中国大陆	1993-01-01 00:00:00	171	1993	9.4	香港

一.数据格式转换

由于各种各样的原因,原始数据可能会有数据格式问题,而数据格式的错误可能会造成严重后果

并且，很多异常值也是我们经过格式转换之后才发现,所以数据格式转换对规整数据，数据清洗有重要的作用

1.查看格式

查看格式使用dtype

查看投票人数的格式

df['投票人数'].dtype

运行结果:

dtype('int64')

查看产地

df['产地'].dtype

运行结果:

dtype('O')

什么是dtype（‘O’）

2.转化格式

转换格式用.astype()

①将产地转为字符串

df['产地']=df['产地'].astype('str')

②将年份转换为整数格式

转换的过程中也可能发现异常值，因为有些类型无法正常转换

df['年代'] = df['年代'].astype('int')

此时报错:

通过条件判断来找到异常数据

df[df.年代=='2008\u200e']

	Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
15203	15205	15205	狂蟒惊魂	544	恐怖	中国大陆	2008-04-08 00:00:00	93	2008‎	2.7	美国

查看具体的值

df[df.年代 == '2008\u200e']['年代'].values

运行结果:

array(['2008\u200e'], dtype=object)

\u200e是unicode的格式控制字符，使2008靠左

那么修改这条数据:

df.loc[15203,'年代']=2008

修改完了，查看数据

df.loc[15203]

运行结果:

Unnamed: 0                    15205
Unnamed: 0.1                  15205
名字                             狂蟒惊魂
投票人数                            544
类型                               恐怖
产地                             中国大陆
上映时间            2008-04-08 00:00:00
时长                               93
年代                             2008
评分                              2.7
首映地点                             美国
Name: 15203, dtype: object

这事就可以修改数据类型了

df['年代']=df['年代'].astype('int')

查看转化结果

df['年代'].dtype

运行结果:

dtype('int32')

df['年代']

运行结果:

0        1994
1        1957
2        1997
3        1994
4        1993
         ... 
38723    1983
38724    1935
38725    1986
38726    1986
38727    1977
Name: 年代, Length: 38728, dtype: int32

③将时长转化为整数格式

df['时长']

运行结果:

0        142
1        116
2        116
3        142
4        171
        ... 
38723     58
38724     98
38725     91
38726     78
38727     97
Name: 时长, Length: 38728, dtype: object

df['时长']=df['时长'].astype('int')

也报错了

df[df['时长']=='8U']

	Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
31636	31644	31644	一个被隔绝的世界	46	纪录片/短片	瑞典	2001-10-25 00:00:00	8U	1948	7.8	美国

并不知道8U到底是多长时间,可以直接删除这条数据

#inplace=True 直接在原数据上面修改
df.drop([31636],inplace=True)

df['时长']=df['时长'].astype('int')

又报错了！

df[df.时长 == '12J']

	Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
32941	32949	32949	渔业危机	41	纪录片	英国	2009-06-19 00:00:00	12J	2008	8.2	USA

同样，删掉这条数据

df.drop([32941],inplace=True)

再次替换

df['时长'] = df['时长'].astype('int')

df['时长']

运行结果:

0        142
1        116
2        116
3        142
4        171
        ... 
38723     58
38724     98
38725     91
38726     78
38727     97
Name: 时长, Length: 38726, dtype: int32

终于没有幺蛾子了

二.排序

默认排序

df[:7]

	Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
0	0	0	肖申克的救赎	692795	剧情/犯罪	美国	1994-09-10 00:00:00	142	1994	9.6	多伦多电影节
1	1	1	控方证人	42995	剧情/悬疑/犯罪	美国	1957-12-17 00:00:00	116	1957	9.5	美国
2	2	2	美丽人生	327855	剧情/喜剧/爱情	意大利	1997-12-20 00:00:00	116	1997	9.5	意大利
3	3	3	阿甘正传	580897	剧情/爱情	美国	1994-06-23 00:00:00	142	1994	9.4	洛杉矶首映
4	4	4	霸王别姬	478523	剧情/爱情/同性	中国大陆	1993-01-01 00:00:00	171	1993	9.4	香港
5	5	5	泰坦尼克号	157074	剧情/爱情/灾难	美国	2012-04-10 00:00:00	194	2012	9.4	中国大陆
6	6	6	辛德勒的名单	306904	剧情/历史/战争	美国	1993-11-30 00:00:00	195	1993	9.4	华盛顿首映

按投票人数排序

要用sort_values()

df.sort_values(by='投票人数')[:5]

	Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
37264	37273	37273	生生舞不息	21	剧情/歌舞	法国	2002-04-12 00:00:00	100	2002	6.8	美国
35586	35595	35595	川崎的玫瑰	21	剧情	其他	2009-12-21 00:00:00	100	2009	6.1	美国
37032	37041	37041	魂惊一线	21	惊悚/恐怖	美国	2003-08-21 00:00:00	108	2002	5.3	美国
22867	22875	22875	少年邓恩铭	21	剧情/传记	中国大陆	2011-07-01 00:00:00	90	2011	3.8	美国
1990	1990	1990	爱和一颗子弹	21	动作/犯罪	美国	2002-08-30 00:00:00	85	2002	7.0	美国

默认是升序排序,ascending默认是为True,降序要改为False

ascending中文意思:上升的

df.sort_values(by='投票人数',ascending=False)[:5]

	Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
0	0	0	肖申克的救赎	692795	剧情/犯罪	美国	1994-09-10 00:00:00	142	1994	9.6	多伦多电影节
9	9	9	这个杀手不太冷	662552	剧情/动作/犯罪	法国	1994-09-14 00:00:00	133	1994	9.4	法国
22	22	22	盗梦空间	642134	剧情/动作/科幻/悬疑/冒险	美国	2010-09-01 00:00:00	148	2010	9.2	中国大陆
3	3	3	阿甘正传	580897	剧情/爱情	美国	1994-06-23 00:00:00	142	1994	9.4	洛杉矶首映
99	99	99	三傻大闹宝莱坞	549808	剧情/喜剧/爱情/歌舞	印度	2011-12-08 00:00:00	171	2009	9.1	中国大陆

按照年代进行排序

df.sort_values(by='年代')[:10]

	Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
1700	1700	1700	朗德海花园场景	650	短片	英国	1888-10-14	60	1888	8.7	美国
14046	14048	14048	利兹大桥	126	短片	英国	1888-10	60	1888	7.2	美国
26162	26170	26170	恶作剧	51	短片	美国	1905-03-04 00:00:00	60	1890	4.8	美国
10626	10627	10627	可怜的比埃洛	176	喜剧/爱情/动画/短片	法国	1892-10-28	60	1892	7.5	法国
21757	21765	21765	胚胎植入前遗传学筛查	69	纪录片/短片	美国	1894-05-18	60	1894	5.7	美国
12372	12374	12374	更衣室之旁	148	动画/短片	法国	1894-12	60	1894	7.0	法国
14453	14455	14455	迪克森实验音膜	121	短片	美国	1905-03-08 00:00:00	60	1894	7.2	美国
616	616	616	水浇园丁	2675	喜剧/短片	法国	1895-12-28	60	1895	8.5	美国
932	932	932	婴儿的午餐 R	1417	纪录片/短片	法国	1895-12-28	60	1895	7.7	法国
590	590	590	工厂大门 L	2849	纪录片/短片	法国	1895-03-22	60	1895	8.4	法国

根据多个值排序

给by参数设置多个值即可

先按照评分，评分相同的情况下再按照投票人数

df.sort_values(by=['评分','投票人数'],ascending=False)[:20]

	Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
9278	9278	9278	平安结祈平安結	208	音乐	日本	2012-02-24 00:00:00	60	2012	9.9	美国
13880	13882	13882	武之舞	128	纪录片	中国大陆	1997-02-01 00:00:00	60	34943	9.9	美国
1110	1110	1110	未知电影	76	科幻/纪录片	美国	1905-06-23 00:00:00	75	2001	9.9	美国
23551	23559	23559	未作回答的问题：伯恩斯坦哈佛六讲	61	纪录片	美国	1905-05-29 00:00:00	60	1973	9.9	美国
35461	35470	35470	未知电影	46	纪录片/音乐	韩国	2013-10-31 00:00:00	90	2013	9.9	韩国
25265	25273	25273	索科洛夫：巴黎现场	43	音乐	法国	2002-11-04 00:00:00	127	2002	9.9	美国
11477	11479	11479	公园现场	163	音乐	英国	2012-12-03 00:00:00	60	2012	9.8	美国
35900	35909	35909	未知电影	157	纪录片/音乐	美国	1988-02-02 00:00:00	60	1988	9.8	美国
1289	1289	1289	Sant	143	脱口秀	日本	2003-01-01 00:00:00	135	2014	9.8	美国
26017	26025	26025	天使之声：自由童声合唱团	97	纪录片/音乐	美国	2007-10-02 00:00:00	75	2007	9.8	美国
19426	19428	19428	绿洲乐队海洋现场演唱会	82	音乐	英国	1995-08-28 00:00:00	60	1995	9.8	美国
698	698	698	未知电影	52	纪录片	英国	2008-07-25 00:00:00	40	2008	9.8	美国
27013	27021	27021	阿森纳 - 2	48	运动	英国	2008-06-09 00:00:00	60	2008	9.8	美国
27323	27331	27331	阿森纳：再见海布里 -	47	运动	英国	2006-06-19 00:00:00	60	2006	9.8	美国
35093	35102	35102	自由颂：柏林墙拆除庆祝音乐会	41	纪录片/音乐	其他	1989-12-25 00:00:00	94	1989	9.8	美国
31084	31092	31092	急救精英	37	纪录片	美国	1905-06-27 00:00:00	60	2008	9.8	美国
33377	33385	33385	未知电影	31	音乐	英国	1999-11-23 00:00:00	60	1999	9.8	美国
14207	14209	14209	久石让在武道馆：与宫崎骏动画一同走过的25年久石譲 in 武道館 ~宮崎アニ	8601	纪录片/音乐	日本	2008-08-05 00:00:00	116	2008	9.7	日本
19555	19557	19557	涅磐纽约不插电演唱会	5840	纪录片/音乐	USA	1993-12-16 00:00:00	72	1993	9.7	美国
14367	14369	14369	剧院魅影：25周年纪念	2417	剧情/音乐/歌舞	英国	2011-10-02 00:00:00	137	2011	9.7	美国

三.基本统计分析

1.描述性统计

dataframe.describe():对dataframe中的数值型数据进行统计性描述

df.describe()

	Unnamed: 0	Unnamed: 0.1	投票人数	评分
count	38728.000000	38728.000000	38728.000000	38728.000000
mean	19368.021509	19368.021509	6187.424912	6.935636
std	11183.434153	11183.434153	26146.706294	1.270194
min	0.000000	0.000000	21.000000	2.000000
25%	9681.750000	9681.750000	98.000000	6.300000
50%	19365.500000	19365.500000	341.000000	7.100000
75%	29053.250000	29053.250000	1741.000000	7.800000
max	38737.000000	38737.000000	692795.000000	9.900000

遇到的问题:Unnamed

官方文档上说，describe默认会显示数值类型的列，但是为啥我的电影年代都没显示？

而且，为啥我的数据会有unnamed？

原始数据是没有unnamed，然后我第一次读取"豆瓣电影数据.xlsx"，多了一列Unnamed:0,第二次读取’movie_data.xlsx’多了一列Unnamed:0.1

去查了一下，确实有不少人pandas读取excel的时候出现了这个问题，看到这个教程

教程里面说的index_col=0有效，但那个index=False是写入数据的时候用的，我还没试过

看到一个解释的更详细的教程

df_test1 = pd.read_excel('豆瓣电影数据.xlsx', index_col=0)
df_test1.head()

	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
0	肖申克的救赎	692795.0	剧情/犯罪	美国	1994-09-10 00:00:00	142	1994	9.6	多伦多电影节
1	控方证人	42995.0	剧情/悬疑/犯罪	美国	1957-12-17 00:00:00	116	1957	9.5	美国
2	美丽人生	327855.0	剧情/喜剧/爱情	意大利	1997-12-20 00:00:00	116	1997	9.5	意大利
3	阿甘正传	580897.0	剧情/爱情	美国	1994-06-23 00:00:00	142	1994	9.4	洛杉矶首映
4	霸王别姬	478523.0	剧情/爱情/同性	中国大陆	1993-01-01 00:00:00	171	1993	9.4	香港

df_test1.describe()

	投票人数	评分
count	38738.000000	38738.000000
mean	6185.833702	6.935704
std	26143.518786	1.270101
min	-118.000000	2.000000
25%	98.000000	6.300000
50%	341.000000	7.100000
75%	1739.750000	7.800000
max	692795.000000	9.900000

额，还是没有显示投票人数？dtype一下

df['年代'].dtype

运行结果:

dtype('O')

知道了…是我jupyter notebook两次登录，前面的单元格没有重新运行的原因…

df.describe()

	Unnamed: 0	Unnamed: 0.1	投票人数	时长	年代	评分
count	38726.000000	38726.000000	38726.000000	38726.000000	38726.000000	38726.000000
mean	19367.353819	19367.353819	6187.742215	89.054356	1998.791716	6.935581
std	11183.335993	11183.335993	26147.344193	83.343070	253.231215	1.270203
min	0.000000	0.000000	21.000000	1.000000	1888.000000	2.000000
25%	9681.250000	9681.250000	98.000000	60.000000	1990.000000	6.300000
50%	19364.500000	19364.500000	341.000000	92.000000	2005.000000	7.100000
75%	29051.750000	29051.750000	1741.000000	106.000000	2010.000000	7.800000
max	38737.000000	38737.000000	692795.000000	11500.000000	39180.000000	9.900000

前面验证了df_test1那个index_col=0的方法可行，但对于df的前两列还是直接删掉吧

df = df.drop(['Unnamed: 0'],axis=1)

df.head()

	Unnamed: 0.1	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
0	0	肖申克的救赎	692795	剧情/犯罪	美国	1994-09-10 00:00:00	142	1994	9.6	多伦多电影节
1	1	控方证人	42995	剧情/悬疑/犯罪	美国	1957-12-17 00:00:00	116	1957	9.5	美国
2	2	美丽人生	327855	剧情/喜剧/爱情	意大利	1997-12-20 00:00:00	116	1997	9.5	意大利
3	3	阿甘正传	580897	剧情/爱情	美国	1994-06-23 00:00:00	142	1994	9.4	洛杉矶首映
4	4	霸王别姬	478523	剧情/爱情/同性	中国大陆	1993-01-01 00:00:00	171	1993	9.4	香港

再删一列

df = df.drop(['Unnamed: 0.1'], axis=1)
df.head()

	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
0	肖申克的救赎	692795	剧情/犯罪	美国	1994-09-10 00:00:00	142	1994	9.6	多伦多电影节
1	控方证人	42995	剧情/悬疑/犯罪	美国	1957-12-17 00:00:00	116	1957	9.5	美国
2	美丽人生	327855	剧情/喜剧/爱情	意大利	1997-12-20 00:00:00	116	1997	9.5	意大利
3	阿甘正传	580897	剧情/爱情	美国	1994-06-23 00:00:00	142	1994	9.4	洛杉矶首映
4	霸王别姬	478523	剧情/爱情/同性	中国大陆	1993-01-01 00:00:00	171	1993	9.4	香港

,下面来看describe

df.describe()

	投票人数	时长	年代	评分
count	38726.000000	38726.000000	38726.000000	38726.000000
mean	6187.742215	89.054356	1998.791716	6.935581
std	26147.344193	83.343070	253.231215	1.270203
min	21.000000	1.000000	1888.000000	2.000000
25%	98.000000	60.000000	1990.000000	6.300000
50%	341.000000	92.000000	2005.000000	7.100000
75%	1741.000000	106.000000	2010.000000	7.800000
max	692795.000000	11500.000000	39180.000000	9.900000

通过统计性描述，可以发现异常值

很显然，我不是来自几万年后的人，所以这个年代39180应该是异常值，还有这个最大时长11500，我得看接近10天才看完的电影maybe也不存在吧，也是异常值

df[df['年代']>2021]

	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
13880	武之舞	128	纪录片	中国大陆	1997-02-01 00:00:00	60	34943	9.9	美国
17113	妈妈回来吧-中国打工村的孩子	49	纪录片	日本	2007-04-08 00:00:00	109	39180	8.9	美国

df[df['时长']>1000]

	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
19688	怒海余生	54	剧情/家庭/冒险	美国	1937-09-01 00:00:00	11500	1937	7.9	美国
38720	喧闹村的孩子们	36	家庭	瑞典	1986-12-06 00:00:00	9200	1986	8.7	瑞典

直接删掉就行了,这时要删除的是index,注意下面的.index技巧

df.drop(df[df['年代']>2021].index,inplace=True)
df.drop(df[df['时长']>1000].index, inplace=True)

要注意的是删除行的同时，连带的索引也删掉了，所以要重新给索引赋值

#不太明确有多少行，用len
df.index=range(1,len(df)+1)

df.head()

	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
1	肖申克的救赎	692795	剧情/犯罪	美国	1994-09-10 00:00:00	142	1994	9.6	多伦多电影节
2	控方证人	42995	剧情/悬疑/犯罪	美国	1957-12-17 00:00:00	116	1957	9.5	美国
3	美丽人生	327855	剧情/喜剧/爱情	意大利	1997-12-20 00:00:00	116	1997	9.5	意大利
4	阿甘正传	580897	剧情/爱情	美国	1994-06-23 00:00:00	142	1994	9.4	洛杉矶首映
5	霸王别姬	478523	剧情/爱情/同性	中国大陆	1993-01-01 00:00:00	171	1993	9.4	香港

2.最值

df['评分'].max()

运行结果:

9.9

df['评分'].min()

运行结果:

2.0

df['年代'].min()

运行结果:

3.均值和中值

mean()均值，median()中位数

df['年代'].median()

运行结果:

2005.0

df['评分'].mean()

运行结果:

6.935382986415921

df['评分'].median()

运行结果:

7.1

4.方差和标准差

方差:var(),标准差：std()

df['评分'].var()

运行结果:

1.6131523403400334

df['评分'].std()

运行结果:

1.270099342705142

5.求和

df['时长'].sum()

运行结果:

6.相关系数,协方差

相关系数.corr(),协方差.cov()

这好像得到的是相关系数矩阵和协方差矩阵… 麻了…数学知识忘了

df[['年代','评分']].corr()

运行结果:

	年代	评分
年代	1.000000	-0.244311
评分	-0.244311	1.000000

df[['年代', '评分']].cov()

	年代	评分
年代	397.391863	-6.185716
评分	-6.185716	1.613152

7.计数

统计电影数量

len(df)

运行结果:

想看一下这些电影来自多少个国家和地区

也就是说，产地这一列的取值有多少种(而不是有多少个)

用.unique()统计唯一值的个数

df['产地'].unique()

运行结果:

array(['美国', '意大利', '中国大陆', '日本', '法国', '英国', '韩国', '中国香港', '阿根廷', '德国',
       '印度', '其他', '加拿大', '波兰', '泰国', '澳大利亚', '西班牙', '俄罗斯', '中国台湾', '荷兰',
       '丹麦', '比利时', 'USA', '苏联', '墨西哥', '巴西', '瑞典', '西德'], dtype=object)

len(df['产地'].unique())

运行结果:

由此可知，来自28个，但是好像有些重复，比如说美国和USA

那就可以用数据替换来合并数据

#把USA换成美国，  覆盖数据inplace=True 
df['产地'].replace('USA','美国',inplace=True)

df['产地'].unique()

运行结果:

array(['美国', '意大利', '中国大陆', '日本', '法国', '英国', '韩国', '中国香港', '阿根廷', '德国',
       '印度', '其他', '加拿大', '波兰', '泰国', '澳大利亚', '西班牙', '俄罗斯', '中国台湾', '荷兰',
       '丹麦', '比利时', '苏联', '墨西哥', '巴西', '瑞典', '西德'], dtype=object)

虽然有历史原因，emm，但我还是想把苏联换成俄罗斯，西德换成德国

一起换的话要用列表

df['产地'].replace(['西德','苏联'],['德国','俄罗斯'],inplace=True)

df['产地'].unique()

运行结果:

array(['美国', '意大利', '中国大陆', '日本', '法国', '英国', '韩国', '中国香港', '阿根廷', '德国',
       '印度', '其他', '加拿大', '波兰', '泰国', '澳大利亚', '西班牙', '俄罗斯', '中国台湾', '荷兰',
       '丹麦', '比利时', '墨西哥', '巴西', '瑞典'], dtype=object)

len(df['产地'].unique())

运行结果:

看一下涉及了多少年份

df['年代'].unique()

运行结果:

array([1994, 1957, 1997, 1993, 2012, 2013, 2003, 2016, 2009, 2008, 2001,
       1931, 1961, 2010, 2004, 1998, 1972, 1939, 2015, 1946, 2011, 1982,
       1960, 2006, 1988, 2002, 1995, 1996, 1984, 2014, 1953, 2007, 2000,
       1967, 1983, 1963, 1977, 1966, 1971, 1974, 1985, 1987, 1973, 1962,
       1969, 1989, 1979, 1981, 1936, 1954, 1992, 1970, 1991, 2005, 1920,
       1933, 1990, 1999, 1896, 1965, 1921, 1947, 1975, 1964, 1943, 1928,
       1986, 1895, 1949, 1932, 1919, 1956, 1955, 1951, 1905, 1940, 1908,
       1900, 1978, 1958, 1898, 1976, 1938, 1907, 1913, 1968, 1912, 1937,
       1952, 1903, 1948, 1926, 1906, 1959, 1934, 1944, 1888, 1909, 1925,
       1923, 1945, 1904, 1980, 1917, 1935, 1942, 1950, 1902, 1941, 1930,
       1922, 1916, 1929, 1927, 1914, 1924, 1918, 1899, 1901, 1915, 1892,
       1894, 1910, 1897, 1911, 1890])

len(df['年代'].unique())

运行结果:

如果要计算每一年的电影数量呢？

df['年代'].value_counts

运行结果:

查看电影产出前五的国家地区

df['产地'].value_counts()[:5]

运行结果:

美国      11976
日本       5048
中国大陆     3802
中国香港     2851
法国       2815
Name: 产地, dtype: int64

保存数据

试一试之前查的避免unnamed的方法

df.to_excel('movie_data2.xlsx',index=False)

四.数据透视

读取刚刚的数据

df2=pd.read_excel("movie_data2.xlsx")
df2.head()

	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
0	肖申克的救赎	692795	剧情/犯罪	美国	1994-09-10 00:00:00	142	1994	9.6	多伦多电影节
1	控方证人	42995	剧情/悬疑/犯罪	美国	1957-12-17 00:00:00	116	1957	9.5	美国
2	美丽人生	327855	剧情/喜剧/爱情	意大利	1997-12-20 00:00:00	116	1997	9.5	意大利
3	阿甘正传	580897	剧情/爱情	美国	1994-06-23 00:00:00	142	1994	9.4	洛杉矶首映
4	霸王别姬	478523	剧情/爱情/同性	中国大陆	1993-01-01 00:00:00	171	1993	9.4	香港

确实，写入excel用index=False,读入excel用index_col=0，两者选其一即可

Excel中数据透视表的使用非常广泛，其实Pandas也提供了一个类似的功能，名为pivot_table。pivot_table非常有用，

使用pandas中pivot table的一个挑战是，你需要确保你理解你的数据，并清楚地知道你想通过透视表解决什么问题。虽然pivot_table看起来只是一个简单的函数，但是它能够快速地对数据进行强大的分析。

1.基础形式

第一个参数是dataframe，第二个参数索引

默认是均值计算

#以年代为索引，统计各个数值型变量的均值
pd.pivot_table(df2,index='年代')

	投票人数	时长	评分
年代
1888	388.000000	60.000000	7.950000
1890	51.000000	60.000000	4.800000
1892	176.000000	60.000000	7.500000
1894	112.666667	60.000000	6.633333
1895	959.875000	60.000000	7.575000
...	...	...	...
2012	7086.204312	85.097501	6.457717
2013	7603.723138	84.902049	6.392604
2014	7723.302597	85.997880	6.259777
2015	7846.329353	89.859837	6.142238
2016	7176.019380	91.329457	5.868217

126 rows × 3 columns

想要多显示可以这样设置：如最多显示500行： pd.set_option(‘max_rows’,500),最多显示50列：
pd.set_option(‘max_columns’,500)

2.多个索引

用列表

pd.pivot_table(df2,index=['年代','产地'])

		投票人数	时长	评分
年代	产地
1888	英国	388.000000	60.000000	7.950000
1890	美国	51.000000	60.000000	4.800000
1892	法国	176.000000	60.000000	7.500000
1894	法国	148.000000	60.000000	7.000000
1894	美国	95.000000	60.000000	6.450000
...	...	...	...	...
2016	日本	579.763158	73.815789	7.181579
	法国	39.000000	93.250000	7.475000
	美国	10563.848485	91.984848	6.540909
	英国	14607.272727	85.545455	7.200000
	韩国	1739.850000	106.100000	5.730000

1584 rows × 3 columns

3.指定需要统计汇总的数据

比如上面那个，只想看评分

pd.pivot_table(df2, index=['年代', '产地'],values='评分')

		评分
年代	产地
1888	英国	7.950000
1890	美国	4.800000
1892	法国	7.500000
1894	法国	7.000000
1894	美国	6.450000
...	...	...
2016	日本	7.181579
	法国	7.475000
	美国	6.540909
	英国	7.200000
	韩国	5.730000

1584 rows × 1 columns

4.指定函数

默认是看均值，可以指定看其他的，参数是aggfunc

pd.pivot_table(df2, index=['年代', '产地'], values='投票人数',aggfunc=np.sum)

		投票人数
年代	产地
1888	英国	776
1890	美国	51
1892	法国	176
1894	法国	148
1894	美国	190
...	...	...
2016	日本	22031
	法国	156
	美国	697214
	英国	160680
	韩国	34797

1584 rows × 1 columns

通过将"投票人数"和"评分"列进行对应分组，对"产地"实现数据聚合和总结

#以产地为索引，看每个产地的投票人数、评分的均值和总和
pd.pivot_table(df2,index='产地',values=['投票人数','评分'],aggfunc=[np.sum,np.mean])

	sum		mean
	投票人数	评分	投票人数	评分
产地
中国台湾	5237466	4367.2	8474.864078	7.066667
中国大陆	41435313	23058.0	10898.293793	6.064703
中国香港	23285389	18457.7	8167.446159	6.474114
丹麦	394784	1434.7	1993.858586	7.245960
俄罗斯	486127	3603.5	1019.134172	7.554507
其他	3054077	13888.7	1591.494007	7.237467
加拿大	1384765	4868.4	1915.304288	6.733610
印度	1146271	2453.4	3210.843137	6.872269
墨西哥	139613	843.4	1173.218487	7.087395
巴西	357136	733.5	3536.000000	7.262376
德国	2680983	7428.4	2597.851744	7.198062
意大利	2502215	5377.3	3340.740988	7.179306
日本	18000545	36318.2	3565.876585	7.194572
比利时	170987	1003.3	1230.122302	7.217986
法国	10213954	20379.0	3628.402842	7.239432
波兰	159577	1347.0	881.640884	7.441989
泰国	1564881	1796.1	5322.724490	6.109184
澳大利亚	1415713	2093.4	4719.043333	6.978000
瑞典	290077	1423.3	1510.817708	7.413021
美国	101805883	83193.5	8500.825234	6.946685
英国	13249562	20789.4	4797.089790	7.526937
荷兰	144836	1114.5	934.425806	7.190323
西班牙	1486733	3139.9	3326.024609	7.024385
阿根廷	258271	843.7	2226.474138	7.273276
韩国	8761080	8596.4	6484.885270	6.362990

5.处理非数值(NAN)

用fill_value将其设置为0

将非数值处理掉之后再进行一些计算，更加合理

pd.pivot_table(df,index=['产地'],aggfunc=[np.sum,np.mean],fill_value=0)

	sum				mean
	年代	投票人数	时长	评分	年代	投票人数	时长	评分
产地
中国台湾	1235388	5237466	53925	4367.2	1999.009709	8474.864078	87.257282	7.066667
中国大陆	7621488	41435313	309608	23058.0	2004.599684	10898.293793	81.432930	6.064703
中国香港	5676627	23285389	252431	18457.7	1991.100316	8167.446159	88.541214	6.474114
丹麦	395820	394784	17444	1434.7	1999.090909	1993.858586	88.101010	7.245960
俄罗斯	946797	486127	45753	3603.5	1984.899371	1019.134172	95.918239	7.554507
其他	3835623	3054077	167146	13888.7	1998.761334	1591.494007	87.100573	7.237467
加拿大	1447780	1384765	57919	4868.4	2002.461964	1915.304288	80.109267	6.733610
印度	716133	1146271	43203	2453.4	2005.974790	3210.843137	121.016807	6.872269
墨西哥	237145	139613	10929	843.4	1992.815126	1173.218487	91.840336	7.087395
巴西	201987	357136	8869	733.5	1999.871287	3536.000000	87.811881	7.262376
德国	2059937	2680983	95008	7428.4	1996.062984	2597.851744	92.062016	7.198062
意大利	1487142	2502215	77902	5377.3	1985.503338	3340.740988	104.008011	7.179306
日本	10095531	18000545	427593	36318.2	1999.907092	3565.876585	84.705428	7.194572
比利时	277930	170987	11447	1003.3	1999.496403	1230.122302	82.352518	7.217986
法国	5606796	10213954	253073	20379.0	1991.757016	3628.402842	89.901599	7.239432
波兰	359652	159577	14613	1347.0	1987.027624	881.640884	80.734807	7.441989
泰国	590684	1564881	26002	1796.1	2009.129252	5322.724490	88.442177	6.109184
澳大利亚	600896	1415713	25549	2093.4	2002.986667	4719.043333	85.163333	6.978000
瑞典	381491	290077	17898	1423.3	1986.932292	1510.817708	93.218750	7.413021
美国	23887010	101805883	1070021	83193.5	1994.573313	8500.825234	89.347111	6.946685
英国	5514959	13249562	244005	20789.4	1996.726647	4797.089790	88.343592	7.526937
荷兰	310199	144836	11685	1114.5	2001.283871	934.425806	75.387097	7.190323
西班牙	894710	1486733	40455	3139.9	2001.588367	3326.024609	90.503356	7.024385
阿根廷	232468	258271	10638	843.7	2004.034483	2226.474138	91.706897	7.273276
韩国	2712969	8761080	134734	8596.4	2008.119171	6484.885270	99.729090	6.362990

6.margins=True，可以在下方显示一些总和数据

这里的总和不是求和的意思，是比如说：求和，就对上面所有数据求和，求平均，就对上面所有数据求平均

pd.pivot_table(df2,index='产地',aggfunc=[np.sum,np.mean],fill_value=0,margins=True)

	sum				mean
	年代	投票人数	时长	评分	年代	投票人数	时长	评分
产地
中国台湾	1235388	5237466	53925	4367.2	1999.009709	8474.864078	87.257282	7.066667
中国大陆	7621488	41435313	309608	23058.0	2004.599684	10898.293793	81.432930	6.064703
中国香港	5676627	23285389	252431	18457.7	1991.100316	8167.446159	88.541214	6.474114
丹麦	395820	394784	17444	1434.7	1999.090909	1993.858586	88.101010	7.245960
俄罗斯	946797	486127	45753	3603.5	1984.899371	1019.134172	95.918239	7.554507
其他	3835623	3054077	167146	13888.7	1998.761334	1591.494007	87.100573	7.237467
加拿大	1447780	1384765	57919	4868.4	2002.461964	1915.304288	80.109267	6.733610
印度	716133	1146271	43203	2453.4	2005.974790	3210.843137	121.016807	6.872269
墨西哥	237145	139613	10929	843.4	1992.815126	1173.218487	91.840336	7.087395
巴西	201987	357136	8869	733.5	1999.871287	3536.000000	87.811881	7.262376
德国	2059937	2680983	95008	7428.4	1996.062984	2597.851744	92.062016	7.198062
意大利	1487142	2502215	77902	5377.3	1985.503338	3340.740988	104.008011	7.179306
日本	10095531	18000545	427593	36318.2	1999.907092	3565.876585	84.705428	7.194572
比利时	277930	170987	11447	1003.3	1999.496403	1230.122302	82.352518	7.217986
法国	5606796	10213954	253073	20379.0	1991.757016	3628.402842	89.901599	7.239432
波兰	359652	159577	14613	1347.0	1987.027624	881.640884	80.734807	7.441989
泰国	590684	1564881	26002	1796.1	2009.129252	5322.724490	88.442177	6.109184
澳大利亚	600896	1415713	25549	2093.4	2002.986667	4719.043333	85.163333	6.978000
瑞典	381491	290077	17898	1423.3	1986.932292	1510.817708	93.218750	7.413021
美国	23887010	101805883	1070021	83193.5	1994.573313	8500.825234	89.347111	6.946685
英国	5514959	13249562	244005	20789.4	1996.726647	4797.089790	88.343592	7.526937
荷兰	310199	144836	11685	1114.5	2001.283871	934.425806	75.387097	7.190323
西班牙	894710	1486733	40455	3139.9	2001.588367	3326.024609	90.503356	7.024385
阿根廷	232468	258271	10638	843.7	2004.034483	2226.474138	91.706897	7.273276
韩国	2712969	8761080	134734	8596.4	2008.119171	6484.885270	99.729090	6.362990
All	77327162	239626238	3427850	268551.9	1996.982646	6188.374516	88.524611	6.935383

7.对不同值执行不同函数

看了前面的代码，会想：对年代求均值，对时长求总和这些好像意义不大，但是要对评分求均值

将字典传给aggfunc会使得数据分析更具有针对性

对各个地区的投票人数求和，对评分求均值

pd.pivot_table(df2,index=['产地'],values=['评分','投票人数'],aggfunc={
     '投票人数':np.sum,'评分':np.mean},fill_value=0)

	投票人数	评分
产地
中国台湾	5237466	7.066667
中国大陆	41435313	6.064703
中国香港	23285389	6.474114
丹麦	394784	7.245960
俄罗斯	486127	7.554507
其他	3054077	7.237467
加拿大	1384765	6.733610
印度	1146271	6.872269
墨西哥	139613	7.087395
巴西	357136	7.262376
德国	2680983	7.198062
意大利	2502215	7.179306
日本	18000545	7.194572
比利时	170987	7.217986
法国	10213954	7.239432
波兰	159577	7.441989
泰国	1564881	6.109184
澳大利亚	1415713	6.978000
瑞典	290077	7.413021
美国	101805883	6.946685
英国	13249562	7.526937
荷兰	144836	7.190323
西班牙	1486733	7.024385
阿根廷	258271	7.273276
韩国	8761080	6.362990

对各个年份的投票人数求和，对评分求均值

pd.pivot_table(df2,index=['年代'],values=['投票人数','评分'],aggfunc={
     "投票人数":np.sum,"评分":np.mean})

	投票人数	评分
年代
1888	776	7.950000
1890	51	4.800000
1892	176	7.500000
1894	338	6.633333
1895	7679	7.575000
...	...	...
2012	14462943	6.457717
2013	15215050	6.392604
2014	14573872	6.259777
2015	12483510	6.142238
2016	1851413	5.868217

126 rows × 2 columns

8.透视表过滤

table = pd.pivot_table(df2, index=['年代'], values=['投票人数', '评分'], aggfunc={
     
                       "投票人数": np.sum, "评分": np.mean})

type(table)

运行结果:

pandas.core.frame.DataFrame

由此可见，数据透视表本身也是dataframe，所以相关操作都可以用

table.head()

	投票人数	评分
年代
1888	776	7.950000
1890	51	4.800000
1892	176	7.500000
1894	338	6.633333
1895	7679	7.575000

table[table.index==1994]

	投票人数	评分
年代
1994	5670752	7.262348

根据评分排个序

table.sort_values('评分',ascending=False)[:10]

	投票人数	评分
年代
1924	10410	8.053571
1888	776	7.950000
1928	16193	7.945000
1912	761	7.920000
1923	7668	7.883333
1922	16876	7.804545
1925	27607	7.788000
1926	10203	7.773913
1916	7364	7.758333
1927	20163	7.751724

层次化索引

pd.pivot_table(df2, index=['年代','产地'], values=['投票人数', '评分'], aggfunc={
     
                       "投票人数": np.sum, "评分": np.mean})

		投票人数	评分
年代	产地
1888	英国	776	7.950000
1890	美国	51	4.800000
1892	法国	176	7.500000
1894	法国	148	7.000000
1894	美国	190	6.450000
...	...	...	...
2016	日本	22031	7.181579
	法国	156	7.475000
	美国	697214	6.540909
	英国	160680	7.200000
	韩国	34797	5.730000

1584 rows × 2 columns

pd.pivot_table(df2, index=['产地','年代' ], values=['投票人数', '评分'], aggfunc={
     
    "投票人数": np.sum, "评分": np.mean})

		投票人数	评分
产地	年代
中国台湾	1963	121	6.400000
	1965	461	6.800000
	1966	51	7.900000
	1967	4444	8.000000
	1968	178	7.400000
...	...	...	...
韩国	2012	610829	6.064151
	2013	1130983	6.098198
	2014	453152	5.650833
	2015	349808	5.423853
	2016	34797	5.730000

1584 rows × 2 columns

你可能感兴趣的:(数据分析,pandas,python,数据分析,豆瓣电影数据分析)

光买学区房可感动不了观众首席影评官
随着《学区房72小时》登录院线，国产现实主义电影中又有了新的枝杈。学区房问题，终于被搬上电影院荧幕。2018年，国产现实主义电影已出现力能扛鼎的《我不是药神》，拥有了7拳。下面，通过《学区房72小时》，看看国产现实电影的7拳。地气处境国产现实主义电影里，涉及的环境肯定是当下的、接地气的。《我不是药神》，故事虽在大城市上海，但男主程勇从事印度保健品，欠着房租。《过昭关》，爷爷李福长爬梯子，顶砖瓦房的
《最初的梦想》观影心理实践者周周
被帕塔克寄予厚望的儿子拉加夫高考失利，因无法忍受当一个“失败者”选择跳楼自杀。送医院经抢救虽勉强保住性命，却被医生告知孩子病情一直恶化，原因是孩子没有求生的欲望，面对病床前丧失信心的儿子，心痛不已的父亲帕塔克给儿子讲述了他在大学时代自己与朋友们以及前妻玛雅，为了完成“失败者”的逆袭，在冠军联赛中如何摆脱失败者标签拼尽权力的故事。电影用鼓励孩子增强活下去的勇气和冠军联赛逆袭两条故事线将整部剧联系在一
Python day18 赵英英俊 Python训练 python
@浙大疏锦行pythonday18.内容：昨天学习了聚类算法的一些基本内容，今天继续学习相关知识分析簇的特征和相关含义（使用可视化来进行分析，也可以使用ai）代码：shap.initjs()#初始化SHAP解释器explainer=shap.TreeExplainer(model)shap_values=explainer.shap_values(x1)#这个计算耗时shap_values.sha
【完全掌握】PyPDF2/PyPDF4深度指南：Python轻松实现PDF读取与操作的15个高级技巧莫比乌斯@卷技术技巧 #文档处理扩展 python pdf 服务器
【完全掌握】PyPDF2/PyPDF4深度指南：Python轻松实现PDF读取与操作的15个高级技巧1.PDF库基础了解1.1PyPDF2与PyPDF4的关系与选择PyPDF2是一个历史悠久的PythonPDF处理库，而PyPDF4是其改进和维护的分支版本：#安装PyPDF2pipinstallPyPDF2#或安装PyPDF4（推荐）pipinstallPyPDF4PyPDF4相比PyPDF2有以
【华为OD机试真题 2025C卷】161、机器人可活动的最大网格点数目 | 机试真题+思路参考+代码解析（C++、Java、Py、C语言、JS） KFickle 最新华为OD机试(C++Java Py C JS)+OJ 华为od 机器人 c++华为OD机试真题 java 机器人可活动的最大网格点数目 c语言
文章目录一、题目题目描述输入输出样例1二、代码与思路参考C++代码Java代码Python代码C语言代码JS代码订阅本专栏后即可解锁在线OJ刷题权限个人博客首页：KFickle专栏介绍：最新的华为OD机试真题，使用C++，Java，Python，C语言，JS五种语言进行解答，每个题目都包含解题思路，五种语言的解法，每日持续更新中，订阅后支持开通在线OJ测试刷题！！！一次订阅永久享受更新，有代码问题
教育内卷-不论生几个，都能给你卷进去手曲一指
今天咱们来说一说一个热门的概念——教育内卷。许多人把内卷比喻成电影院现象。就是说大家在电影院看电影，第一排的人站起来了，挡住了第二排，然后第二排就站起来了，挡住了第三排，以此类推，最后整个电影院的人都站起来了，可是这其中并没有人受益，只是多付出了成本。这个比喻很形象的解释了只要总收益不变，内部所有人的额外付出都是一场零和博弈。其实，这个例子并不贴切，因为电影院现象并不能反应内卷的两个独特状态：第一
零基础Python入门（1）——手把手安装PyCharm并打印Hello World 名字都被谁用了 Python入门 python pycharm 开发语言
一、Python开发环境全攻略1.1Python的"身份证"——版本选择指南Python目前主流版本分为2.x和3.x两大分支，官方已于2020年正式停止对Python2的维护。对于新手，我们强烈建议选择Python3.10及以上版本。这个版本区间既保留了经典语法特性，又支持最新语法糖（如模式匹配），同时具备良好的第三方库兼容性。版本号小知识：3.10.6中的3表示大版本10代表功能版本6是维护版
用ESP8266和MicroPython打造WiFi智能遥控小车：从入门到实战
项目概述：WiFi控制的创新体验在物联网技术飞速发展的今天，传统遥控小车早已无法满足创客们的探索欲望。本文将介绍一个基于ESP8266和MicroPython的WiFi遥控小车项目，通过两个ESP8266模块实现无线通信，让你摆脱传统遥控器的束缚，体验物联网控制的乐趣。核心功能亮点WiFi无线控制：无需传统射频模块，通过WiFi网络实现远程操控双ESP8266架构：一个作为车载接收端，一个作为手持
看电影，看的是什么南希之声
图片发自App进修英语那一年，为了能练听力，同学们常常约在宿舍一起看欧美电影。看得多了，似乎还起了一些效用，于是对看电影这件事越来越认同，不再跟随大众认为“那是情侣才做的事”。工作后，喜欢跟着做事稳重老练的同事，于是被推荐看《三国》之类充满权术的影视剧。最后权术没学会，倒迷上了这样打发空闲时间的方式。婚后，看电影也不知不觉成了我和先生共同的爱好。过去那么长时间和电影互动的岁月里，大多数情况都只是把
PyCharm高效入门指南：快速提升Python开发效率 famenzhiling python pycharm ide
1.引言PyCharm简介：JetBrains开发的Python集成开发环境（IDE），适用于专业开发者和初学者。为什么选择PyCharm：高效代码编辑、智能工具集成和强大的调试功能。目标读者：Python新手或有其他IDE经验但想快速上手PyCharm的用户。2.安装与初始配置下载与安装：访问JetBrains官网下载PyCharmCommunity（免费版）或Professional（付费版）
生为女人真的很难陈拾肆儿
图片发自App不是鸡汤文，不是电影影评，单纯想聊聊自己的一些想法。这些想法最先开始于跟同事一起看《找到你》的时候。我清楚的记得马伊琍所饰演的保姆孙芳问姚晨饰演的职场律师李捷离婚原因时的那句话“他打你呀。”我当时心一紧，就好像被谁狠狠的攥了一下。在李捷看来婚姻的结束有各种各样的原因，但孙芳心中只有“他打你”可能是最常见的原因。造成孙芳悲剧人生的原因很多。生活在偏远乡村，没有受过高等教育，没有见过世面
Postman + Newman + Jenkins 接口自动化测试 Thomas Kant 自动化测试 postman newman jenkins allure
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Postman
Python 装饰器使用详解
文章目录0.引言1.什么是装饰器？2.装饰器的基本语法3.装饰器的工作原理4.常见装饰器应用场景4.1.日志记录4.2.权限校验4.3.缓存5.多重装饰器的执行顺序6.装饰器的高级用法6.1.带参数的装饰器6.2.使用`functools.wraps`6.3.类装饰器7.图示说明7.1.单一装饰器的执行流程2.多重装饰器的执行流程3.带参数装饰器的执行流程总结8参考资料0.引言Python装饰器(
豆包教你如何用Python向女生表白 51reboot
一年一度的考试大会又拉开了帷幕其中的一个重头戏就是python了不知道正处于手机前的你为python又掉了多少头发呢but！！！python绝不只是你脱发的工具善于使用你将收获多多比如你知道如何利用python向女生表白吗如果不知道少年，你可要当心啦考试很危险的呢后记：某年月日，某许愿池推文：震惊！某旦python考试题新鲜出炉，考题震惊十几亿中国人！原因竟是。。。待豆包点开推文：一看考试题，嘿哈
无人值守人工智能智慧系统数据分析：深度洞察与未来展望呆码科技人工智能数据分析数据挖掘
无人值守人工智能智慧系统数据分析：深度洞察与未来展望随着科技的飞速发展，人工智能（AI）技术已逐渐渗透到社会经济的各个领域，其中无人值守人工智能智慧系统作为AI技术应用的前沿阵地，正引领着一场深刻的行业变革。这类系统通过集成高级算法、大数据分析、物联网（IoT）及云计算等先进技术，实现了对复杂环境的自主监控、智能决策与高效管理，极大地提升了运营效率，降低了人力成本，并开启了数据驱动决策的新纪元。本
抖米多多怎么赚钱抖米多多是什么平台高省爱氧惠
抖米多多怎么赚钱抖米多多是什么平台购物、看电影、点外卖、用氧惠APP！更优惠！氧惠（全网优惠上氧惠）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面，送1:1超级补贴(邀请好友自购多少，你就推广得多少，非常厉害)，欢迎各位团队长体验！也期待你的加入。氧惠邀请码123456，注册就帮你推广，一起做到百万团队！抖米多多王炸实体项目来袭一周内首码发布，一千万团队粉丝滑落，
python ffmpeg pipe_如何使用python从ffmpeg输出管道？ weixin_39611725 python ffmpeg pipe
我正在尝试将FFmpeg的输出用管道输送到Python中。我正在从一个视频采集卡读取图像，我成功地使用dshow从命令行将其读入输出文件。我正在尝试从卡抓取图像到我的OpenCv代码，以便能够进一步处理数据。不幸的是，当我通过管道输出图像时，我只得到视频的显示，如链接所示：link:s000.tinyupload.com/?file_id=15940665795196022618.我使用的代码如下
python ffmpeg pipe,管道的ffmpeg的输入和输出在python 呼呼啦啦就瘸了 python ffmpeg pipe
I'musingffmpegtocreateavideo,fromalistofbase64encodedimagesthatIpipeintoffmpeg.Outputtingtoafile(usingtheattachedcodebelow)worksperfectly,butwhatIwouldliketoachieveistogettheoutputtoaPythonvariableins
Linux+Python实战课堂：笔记、练习与应用
本文还有配套的精品资源，点击获取简介：本压缩包提供全面的Linux学习资源和Python编程练习，旨在帮助初学者和IT从业者深入理解Linux系统及其技能，并通过Python编程练习巩固相关技能。涵盖Linux基础概念、文件系统、命令行操作、文本编辑器使用、用户和组管理、软件管理、进程监控、网络配置以及系统性能监控等多个方面。同时，包含Python基础语法、函数与模块、面向对象编程、文件操作、异常
D269-20220706《当下的力量》p238 Yiqu
D269-20220706《当下的力量》p238这不是说你不需要做任何计划，或许这个计划就是你现在需要做的一件事。我所说的是请不要开始播放心理电影，把你自己投身于未来之中，从而丢失了当下。你现在所采取的行动也许不会立即有结果，但在结果出现前，请接纳当前的事实。如果你无法采取任何行动，也无法从你的状况中离开，那么请你臣服，更深地进入当下时刻以及本体意识。当你进入本体的无时间状态时，你有时不需要做很多
过年七天乐的生活粉色紫罗兰
虎年春节，整整6天时间，一家人聚在一起，海吃海喝、看电视睡懒觉，真是好好放松了一整个春节。总结起来，开心和快乐！不过细数起来，也干了几件事，每日的锻炼打卡，早上和晚上合起来大概一个多小时的跑步和散步，坚持了下来，感觉很爽。完成了一篇公众号文章，化解了心中的一些郁气。看了一本书，鬼脚七的《人生处处是修行》，很有收获和启发。看了一部电影《长津湖之水门桥》，太让人感动，然后带孩子们吃火锅，味道不是一般的
猫眼电影优惠券免费领取？哪里可以领猫眼电影的优惠券? 高省APP珊珊
猫眼电影优惠券可以通过多种方式免费领取，以下是一些常见的方式：【高省APP】（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。高省是公认的返利最高的软件。珊珊导师高省邀请码666123，注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。猫眼
Python脚本批量修复文件时间戳，根据文件名或拍摄日期 3D_DLW 储存服务器 python 图片整理修改时间批处理脚本拍摄时间
实现以下功能更正文件的修改时间批量修改指定文件夹中的特定后缀的文件根据文件名中的日期修改（优先）根据jpg文件属性中的拍摄日期修改根据mp4文件属性中的创建媒体日期修改模拟运行（DryRun）模式依赖若需要基于jpg文件属性中的拍摄日期修改，需要python的piexif包pipinstallpiexif若需要基于mp4文件属性中的创建媒体日期修改，需要ffmpegsudoaptinstallff
去做，才有结果！哺乳指导王梅
美丽老师说：先完成，再完美。给了我很大的启发，其实很多事情，只有做了才有结果。不去迈开第一步，永远都不知道结果怎么样。这周原创7篇朋友圈小文案，购买清大师，成功分销2人购买次卡，第二遍阅读爆款文案，陪儿子看一场电影。图片发自App对于原创文案，一直感觉是道坎，因为文字功底不够好，缺少逻辑性。自从参加了美丽老师21天蜕变，坚持原创，同时又参加了燕飞老师的80分文案，改变了这种想法，没有人天生什么都会
深入Python闭包内存泄漏：从原理到实战修复指南清水白石008 Python题库 python python 开发语言
深入Python闭包内存泄漏：从原理到实战修复指南引言：闭包与内存管理的双重挑战在Python编程中，闭包（Closure）作为函数式编程的重要特性，被广泛应用于装饰器、回调函数等场景。然而，当闭包与类实例结合使用时，若处理不当极易引发内存泄漏问题。本文将通过一个典型案例，深入剖析闭包导致内存泄漏的机理，并演示从检测到修复的完整流程，最终提炼出防御性编程的最佳实践。一、内存泄漏闭包案例实录1.1典
Python装饰器与闭包：实战应用与深入理解
背景简介本章深入探讨了Python装饰器与闭包的核心概念，展示了它们在实际编程中的灵活应用和强大功能。装饰器的魔力：保持元数据与链式应用在Python中，装饰器是一种修改或增强函数行为的强大工具，它能够让我们在不改变原始函数代码的情况下，为其添加新功能。保持函数的元数据是装饰器的一个重要特性，它确保了装饰后的函数保持其身份和文档字符串信息。这对于代码的可读性和维护性至关重要。当需要将多个装饰器应用
python闭包的应用场景_简单谈谈Python中的闭包 weixin_39587113 python闭包的应用场景
Python中的闭包前几天又有人留言，关于其中一个闭包和re.sub的使用不太清楚。我在脚本之家搜索了下，发现没有写过闭包相关的东西，所以决定总结一下，完善Python的内容。1.闭包的概念首先还得从基本概念说起，什么是闭包呢？来看下维基上的解释:在计算机科学中，闭包(Closure)是词法闭包(LexicalClosure)的简称，是引用了自由变量的函数。这个被引用的自由变量将和这个函数一同存在
网络爬虫——python爬取豆瓣评论 SSeaflower 爬虫 python 开发语言
网络爬虫——python爬取豆瓣评论一、网络爬虫概述1.1网络爬虫定义网络爬虫，又被称为网络蜘蛛（WebSpider）、网络机器人等。它根据网页地址（URL）爬取网页内容，网页地址（URL）就是我们在浏览器中输入的网站链接。例如：https://www.baidu.com；https://movie.douban.com/。网络爬虫不仅能够复制网页信息和下载音视频，还可以做到网站的模拟登录和行为链
Python 中的深拷贝、浅拷贝与等号赋值：理解对象复制的本质小羊苏八 python 开发语言
目录1.等号赋值（=）2.浅拷贝（copy.copy()）3.深拷贝（copy.deepcopy()）4.不可变对象与可变对象5.性能对比6.实际应用场景7.总结前言在Python中，对象的复制是一个常见的操作，但很多人对深拷贝、浅拷贝和等号赋值之间的区别感到困惑。本文将通过详细的示例和解释，帮助你深入理解这三种操作的本质和应用场景。1.等号赋值（=）在Python中，等号赋值是最基本的对象操作之
Python中的分支结构小羊苏八 #python python 开发语言
文章目录前言一、Python分支结构概述二、if语句详解三、if-else语句详解四、if-elif-else语句详解五、嵌套分支结构六、分支结构的注意事项七、实际应用场景八、总结前言在Python编程的世界里，分支结构如同现实中的道路岔口，根据不同的条件引导程序流向不同的执行路径。它是构建复杂逻辑、实现智能决策的关键所在。本文将带你全面了解Python的分支结构，从基础语法到实际应用，让你轻松掌
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/