Linda学数据

用Python分析豆瓣电影Top250

开场白:本文中使用的语言为 Python 3 ，其中主要用了 BeautifulSoup、Numpy、Pandas、Matplotlib和WordCloud 等几个数据分析常用库，过程尽量写的详（luo）细（suo）些，希望能给和我一样的数据分析初学者一些思路，如果文中有错误请告诉我。同时欢迎各种关于代码、分析思路、语言组织、排版等等的意见建议。非常感谢！文章很长，如果只看部分内容请戳目录。

豆瓣电影Top250数据分析

不知道看什么电影时，就会习惯性的看看豆瓣，但落伍的我直到最近才发现还有个神奇的豆瓣电影Top250榜单！它是根据每部影片看过的人数以及该影片所得的评论等综合数据排名的,同时还考虑了人群的广泛适应性和持续关注度。好高大上的算法！

那么得出的这个排行榜和电影评分及评论人数有怎样的关系？
和上映时间关系大不大？
哪种类型的电影上榜最多呢？
哪些国家、导演、主演最受欢迎？
片长多长时间最合适？

带着这些疑问，不妨进行一下数据分析。

数据收集

先来看一下页面：

我们抓取排名、电影名、导演、主演、上映日期、制片国家/地区、类型，评分、评论数量、一句话评价以及电影链接，其中导演和主演分别取一位。

用开发者工具看一下源代码：

大部分信息比较好抓取，只有电影信息在标签

中都写在了一起，可通过 strip() 函数去除两侧空格， split()函数分裂字符串来取得具体信息。

选用Python 3，引入 url.request 和 BeautifulSoup 库来抓取页面信息。代码如下：

import urllib.request as urlrequest
from bs4 import BeautifulSoup

top250_url = "https://movie.douban.com/top250?start={}&filter="

with open('top250_f1.csv','w',encoding='utf8') as outputfile: 
    outputfile.write("num#title#director#role#init_year#area#genre#rating_num#comment_num#comment#url\n") 
    for i in range(10):
        start = i*25
        url_visit = top250_url.format(start)
        crawl_content = urlrequest.urlopen(url_visit).read()
        http_content = crawl_content.decode('utf8')   
        soup = BeautifulSoup(http_content,'html.parser')        
        all_item_divs = soup.find_all(class_='item')

        for each_item_div in all_item_divs:
            pic_div = each_item_div.find(class_='pic')
            num = pic_div.find('em').get_text()   #排名
            href = pic_div.find('a')['href']      #电影链接
            title = pic_div.find('img')['alt']    #电影名称
            bd_div = each_item_div.find(class_='bd')
            infos = bd_div.find('p').get_text().strip().split('\n')        
            infos_1 = infos[0].split('\xa0\xa0\xa0')
            director = infos_1[0][4:].rstrip('...').rstrip('/').split('/')[0]   #导演
            role = str(infos_1[1:])[6:].split('/')[0]                           #主演
            infos_2 = infos[1].lstrip().split('\xa0/\xa0')
            year = infos_2[0]    #上映时间
            area = infos_2[1]    #国家/地区
            genre = infos_2[2:]  #电影类型
            star_div = each_item_div.find(class_='star')
            rating_num = star_div.find(class_='rating_num').get_text()      #评分
            comment_num = star_div.find_all('span')[3].get_text()[:-3]      #评价数量
            quote = each_item_div.find(class_='quote')
            inq = quote.find(class_='inq').get_text()  #一句话评价

            outputfile.write('{}#{}#{}#{}#{}#{}#{}#{}#{}#{}#{}\n'.format(num,title,director,role,year,area,
                                                                         genre,rating_num,comment_num,inq,href))

本来只打算抓这些数据，分析时发现有些主演名字显示的不完全，看来还要再抓一下每个电影页面。在上面抓取的url信息中截取出id编号，用豆瓣API接口。

import urllib
import urllib.request as urlrequest
import json
import time
import random
import pandas as pd

df = pd.read_csv("top250_f1.csv",sep = "#", encoding = 'utf8')
urlsplit = df.url.str.split('/').apply(pd.Series)
id_list = list(urlsplit[4])
num=0
IP_list = [  ]  #这里写几个可用的IP地址和端口号，只抓250个页面，有两三个IP就够了。
IP = random.chioce(IP_list)

with open('top250_f2.csv', 'w',encoding='utf8') as outputfile:    

    outputfile.write("num#rank#alt_title#title#pubdate#language#writer#director#cast#movie_duration#year#movie_type#tags#image\n")

    proxy = urlrequest.ProxyHandler({
    'https':  'IP'})
    opener = urlrequest.build_opener(proxy)
    opener.addheaders = [('User-Agent', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_4) 
                      AppleWebKit/603.1.30 (KHTML, like Gecko) Version/10.1 Safari/603.1.30')]                      
    urlrequest.install_opener(opener)

    for id in id_list:       
        url_visit = 'https://api.douban.com/v2/movie/{}'.format(id)       
        crawl_content = urlrequest.urlopen(url_visit).read()        
        json_content = json.loads(crawl_content.decode('utf-8'))

        rank = json_content['rating']['average']
        alt_title = json_content['alt_title']
        image = json_content['image']
        title = json_content['title']        
        pubdate = json_content['attrs']['pubdate']
        language = json_content['attrs']['language']
        try:
            writer = json_content['attrs']['writer']
        except:
            writer = 'None'
        director = json_content['attrs']['director']
        cast = json_content['attrs']['cast']
        movie_duration = json_content['attrs']['movie_duration']
        year = json_content['attrs']['year']
        movie_type = json_content['attrs']['movie_type']
        tags = json_content['tags']
        num = num +1    
        outputfile.write("{}#{}#{}#{}#{}#{}#{}#{}#{}#{}#{}#{}#{}#{}\n".format(num,rank,alt_title,title,pubdate,language,writer,
                                                                              director,cast,movie_duration,year,movie_type,tags,image))
        time.sleep(1)

OK,数据抓取完毕，看一下抓取结果。先来看爬取Top250页面的信息：

import numpy as ny
import pandas as pd
df_1 = pd.read_csv("top250_f1.csv",sep = "#", encoding = 'utf8')
df_1.head()

	num	title	director	role	init_year	area	genre	rating_num	comment_num	comment	url
0	1	肖申克的救赎	弗兰克·德拉邦特 Frank Darabont	蒂姆·罗宾斯 Tim Robbins	1994	美国	[‘犯罪剧情’]	9.6	861343	希望让人自由。	https://movie.douban.com/subject/1292052/
1	2	霸王别姬	陈凯歌 Kaige Chen	张国荣 Leslie Cheung	1993	中国大陆香港	[‘剧情爱情同性’]	9.5	618349	风华绝代。	https://movie.douban.com/subject/1291546/
2	3	这个杀手不太冷	吕克·贝松 Luc Besson	让·雷诺 Jean Reno	1994	法国	[‘剧情动作犯罪’]	9.4	824694	怪蜀黍和小萝莉不得不说的故事。	https://movie.douban.com/subject/1295644/
3	4	阿甘正传	Robert Zemeckis	Tom Hanks	1994	美国	[‘剧情爱情’]	9.4	703838	一部美国近现代史。	https://movie.douban.com/subject/1292720/
4	5	美丽人生	罗伯托·贝尼尼 Roberto Benigni	罗伯托·贝尼尼 Roberto Beni…’]	1997	意大利	[‘剧情喜剧爱情战争’]	9.5	410615	最美的谎言。	https://movie.douban.com/subject/1292063/

再看一下抓取单个页面的信息：

df_2 = pd.read_csv("top250_f2.csv",sep = "#", encoding = 'utf8')
df_2.head()

	num	rank	alt_title	title	pubdate	language	writer	director	cast	movie_duration	year	movie_type	tags	image
0	1	9.6	肖申克的救赎 / 月黑高飞(港)	The Shawshank Redemption	[‘1994-09-10(多伦多电影节)’, ‘1994-10-14(美国)’]	[‘英语’]	[‘弗兰克·德拉邦特 Frank Darabont’, ‘斯蒂芬·金 Stephen King’]	[‘弗兰克·德拉邦特 Frank Darabont’]	[‘蒂姆·罗宾斯 Tim Robbins’, ‘摩根·弗里曼 Morgan Freeman’…	[‘142 分钟’]	[‘1994’]	[‘犯罪’, ‘剧情’]	[{‘count’: 178370, ‘name’: ‘经典’}, {‘count’: 15…	https://img3.doubanio.com/view/movie_poster_co…
1	2	9.5	再见，我的妾	霸王别姬	[‘1993-01-01(香港)’]	[‘汉语普通话’]	[‘芦苇 Wei Lu’, ‘李碧华 Lillian Lee’]	[‘陈凯歌 Kaige Chen’]	[‘张国荣 Leslie Cheung’, ‘张丰毅 Fengyi Zhang’, ‘巩俐 …	[‘171 分钟’]	[‘1993’]	[‘剧情’, ‘爱情’, ‘同性’]	[{‘count’: 109302, ‘name’: ‘经典’}, {‘count’: 54…	https://img3.doubanio.com/view/movie_poster_co…
2	3	9.4	这个杀手不太冷 / 杀手莱昂	Léon	[‘1994-09-14(法国)’]	[‘英语’, ‘意大利语’, ‘法语’]	[‘吕克·贝松 Luc Besson’]	[‘吕克·贝松 Luc Besson’]	[‘让·雷诺 Jean Reno’, ‘娜塔莉·波特曼 Natalie Portman’, …	[‘110分钟(剧场版)’, ‘133分钟(国际版)’]	[‘1994’]	[‘剧情’, ‘动作’, ‘犯罪’]	[{‘count’: 136989, ‘name’: ‘经典’}, {‘count’: 75…	https://img3.doubanio.com/view/movie_poster_co…
3	4	9.4	阿甘正传 / 福雷斯特·冈普	Forrest Gump	[‘1994-06-23(洛杉矶首映)’, ‘1994-07-06(美国)’]	[‘英语’]	[‘Eric Roth’, ‘Winston Groom’]	[‘Robert Zemeckis’]	[‘Tom Hanks’, ‘Robin Wright Penn’, ‘Gary Sinis…	[‘142 分钟’]	[‘1994’]	[‘剧情’, ‘爱情’]	[{‘count’: 165677, ‘name’: ‘励志’}, {‘count’: 12…	https://img1.doubanio.com/view/movie_poster_co…
4	5	9.5	美丽人生 / 一个快乐的传说(港)	La vita è bella	[‘1997-12-20(意大利)’]	[‘意大利语’, ‘德语’, ‘英语’]	[‘文森佐·克拉米 Vincenzo Cerami’, ‘罗伯托·贝尼尼 Roberto B…	[‘罗伯托·贝尼尼 Roberto Benigni’]	[‘罗伯托·贝尼尼 Roberto Benigni’, ‘尼可莱塔·布拉斯基 Nicolet…	[‘116分钟’]	[‘1997’]	[‘剧情’, ‘喜剧’, ‘爱情’, ‘战争’]	[{‘count’: 66790, ‘name’: ‘意大利’}, {‘count’: 61…	https://img3.doubanio.com/view/movie_poster_co…

都是250行信息。下面进行的数据清洗。

数据清洗

一般我们得到的数据是不可以直接使用的，里面可能存在重复值、缺失值、空值、
无效值、异常值、错误值，以及逻辑、格式不正确等的数据不一致问题。网上抓取来的数据更容易有这些问题，我们需要处理这些脏数据，转化成可供分析的数据。

数据分布在两个文件中，我们选取 top250_f1.csv 文件中的 num(排名）、 title(电影名)、 init_year(上映时间)、 area（国家/地区）、 genre(类型）、 rating_num(评分)、 comment_num(评价人数)，和 top250_f2.csv 文件中的 language(语言)、 director（导演）、 cast(主演)、 movie_duration(时长)、 tags(标签)这些列进行分析，因此只对这些列中的脏数据做清洗工作。

先将这些列放到同一个DataFrame中：

df_1_cut = df_1[['num','title','init_year','area','genre','rating_num','comment_num']]
df_2_cut = df_2[['num','language','director','cast','movie_duration','tags']]
df = pd.merge(df_1_cut,df_2_cut,how = 'outer', on = 'num')
df.head()

	num	title	init_year	area	genre	rating_num	comment_num	language	director	cast	movie_duration	tags
0	1	肖申克的救赎	1994	美国	[‘犯罪剧情’]	9.6	861343	[‘英语’]	[‘弗兰克·德拉邦特 Frank Darabont’]	[‘蒂姆·罗宾斯 Tim Robbins’, ‘摩根·弗里曼 Morgan Freeman’…	[‘142 分钟’]	[{‘count’: 178370, ‘name’: ‘经典’}, {‘count’: 15…
1	2	霸王别姬	1993	中国大陆香港	[‘剧情爱情同性’]	9.5	618349	[‘汉语普通话’]	[‘陈凯歌 Kaige Chen’]	[‘张国荣 Leslie Cheung’, ‘张丰毅 Fengyi Zhang’, ‘巩俐 …	[‘171 分钟’]	[{‘count’: 109302, ‘name’: ‘经典’}, {‘count’: 54…
2	3	这个杀手不太冷	1994	法国	[‘剧情动作犯罪’]	9.4	824694	[‘英语’, ‘意大利语’, ‘法语’]	[‘吕克·贝松 Luc Besson’]	[‘让·雷诺 Jean Reno’, ‘娜塔莉·波特曼 Natalie Portman’, …	[‘110分钟(剧场版)’, ‘133分钟(国际版)’]	[{‘count’: 136989, ‘name’: ‘经典’}, {‘count’: 75…
3	4	阿甘正传	1994	美国	[‘剧情爱情’]	9.4	703838	[‘英语’]	[‘Robert Zemeckis’]	[‘Tom Hanks’, ‘Robin Wright Penn’, ‘Gary Sinis…	[‘142 分钟’]	[{‘count’: 165677, ‘name’: ‘励志’}, {‘count’: 12…
4	5	美丽人生	1997	意大利	[‘剧情喜剧爱情战争’]	9.5	410615	[‘意大利语’, ‘德语’, ‘英语’]	[‘罗伯托·贝尼尼 Roberto Benigni’]	[‘罗伯托·贝尼尼 Roberto Benigni’, ‘尼可莱塔·布拉斯基 Nicolet…	[‘116分钟’]	[{‘count’: 66790, ‘name’: ‘意大利’}, {‘count’: 61…

通过 pd.merge()函数选出的 df_1_cut 和 df_2_cut 两张表，取并集，链接键为num。

看一下数据基本信息：

df.info()

重复值检查

检查重复值可以用 duplicated() 函数，若返回值为“True”，则含有重复项，返回值为“False”,则不含重复项。 pd.Series.value_counts() 函数可以用来对series计数。

df.duplicated().value_counts()

False 250 dtype: int64 250个 `False` ,说明不含重复项。检查是否有重名电影：

len(df.title.unique())

250 250个唯一值，说明没有重名电影。检查是否有并列排名：

len(df.num.unique())

250 同样250个唯一值，没有并列排名。

清洗数据格式、数据分列

粗略看一下，可以发现 genre，language，director，cast，movie_duration，tags列方括号、花括号和英文省略号等无效信息，需要去掉。
对于两侧的 [' '] 或 {[' ']} 形式，可以用str分割字符串。

df['genre'] = df['genre'].str[2:-2]
df['language'] = df['language'].str[2:-2]
df['director'] = df['director'].str[2:-2]
df['cast'] = df['cast'].str[2:-2]
df['movie_duration'] = df['movie_duration'].str[2:-2]
df['tags'] = df['tags'].str[3:-3]

df.head()

	num	title	init_year	area	genre	rating_num	comment_num	language	director	cast	movie_duration	tags
0	1	肖申克的救赎	1994	美国	犯罪剧情	9.6	861343	英语	弗兰克·德拉邦特 Frank Darabont	蒂姆·罗宾斯 Tim Robbins’, ‘摩根·弗里曼 Morgan Freeman’, …	142 分钟	count’: 178370, ‘name’: ‘经典’}, {‘count’: 15001…
1	2	霸王别姬	1993	中国大陆香港	剧情爱情同性	9.5	618349	汉语普通话	陈凯歌 Kaige Chen	张国荣 Leslie Cheung’, ‘张丰毅 Fengyi Zhang’, ‘巩俐 Li…	171 分钟	count’: 109302, ‘name’: ‘经典’}, {‘count’: 54458…
2	3	这个杀手不太冷	1994	法国	剧情动作犯罪	9.4	824694	英语’, ‘意大利语’, ‘法语	吕克·贝松 Luc Besson	让·雷诺 Jean Reno’, ‘娜塔莉·波特曼 Natalie Portman’, ‘加…	110分钟(剧场版)’, ‘133分钟(国际版)	count’: 136989, ‘name’: ‘经典’}, {‘count’: 75963…
3	4	阿甘正传	1994	美国	剧情爱情	9.4	703838	英语	Robert Zemeckis	Tom Hanks’, ‘Robin Wright Penn’, ‘Gary Sinise’…	142 分钟	count’: 165677, ‘name’: ‘励志’}, {‘count’: 12412…
4	5	美丽人生	1997	意大利	剧情喜剧爱情战争	9.5	410615	意大利语’, ‘德语’, ‘英语	罗伯托·贝尼尼 Roberto Benigni	罗伯托·贝尼尼 Roberto Benigni’, ‘尼可莱塔·布拉斯基 Nicoletta…	116分钟	count’: 66790, ‘name’: ‘意大利’}, {‘count’: 61289…

对于 area 列，有些电影由多个国家或地区联合制作，例如《霸王别姬》电影：

df['area'][1]

‘中国大陆香港’ “中国大陆”和“香港”之间用空格隔开，可以用` str.split` 函数进行分列， `apply(pd.Series)` 使用到的函数作用在每一行或列。

area_split = df['area'].str.split(' ').apply(pd.Series)
area_split.head()

	0	1	2	3	4
0	美国	NaN	NaN	NaN	NaN
1	中国大陆	香港	NaN	NaN	NaN
2	法国	NaN	NaN	NaN	NaN
3	美国	NaN	NaN	NaN	NaN
4	意大利	NaN	NaN	NaN	NaN

可以看到最多为5个制作国家/地区，当然，大多数只有一个制片国家/地区。要了解哪个国家/地区的电影最受欢迎，就需要对国家进行统计。
对于这么多的空值，可以通过先按列计数，将空值 NaN 替换为“0”，再按行汇总。

a = area_split.apply(pd.value_counts).fillna('0') 
a.columns = ['area_1','area_2','area_3','area_4','area_5']
a['area_1'] = a['area_1'].astype(int)
a['area_2'] = a['area_2'].astype(int)
a['area_3'] = a['area_3'].astype(int)
a['area_4'] = a['area_4'].astype(int)
a['area_5'] = a['area_5'].astype(int)
a = a.apply(lambda x: x.sum(),axis = 1)
area_c = pd.DataFrame(a, columns = ['counts'])

area_c.head()

	counts
中国大陆	15
丹麦	1
伊朗	2
加拿大	7
南非	2

以上过程也可以通过 unstack() 函数和 groupby() 函数来完成。对 genre 列，我们使用这一方法。

genre_split = df['genre'].str.split(' ').apply(pd.Series)
genre_split.head()

	0	1	2	3	4	5
0	犯罪	剧情	NaN	NaN	NaN	NaN
1	剧情	爱情	同性	NaN	NaN	NaN
2	剧情	动作	犯罪	NaN	NaN	NaN
3	剧情	爱情	NaN	NaN	NaN	NaN
4	剧情	喜剧	爱情	战争	NaN	NaN

g = genre_split.apply(pd.value_counts)
g.head()

	0	1	2	3	4	5
传记	2.0	9.0	NaN	NaN	1.0	NaN
儿童	1.0	3.0	2.0	NaN	NaN	NaN
冒险	7.0	6.0	13.0	11.0	4.0	1.0
剧情	163.0	26.0	5.0	NaN	NaN	NaN
动作	16.0	16.0	2.0	NaN	NaN	NaN

通过 unstack 函数将行“旋转”为列，重排数据：

g.unstack().head()

0 传记 2.0 儿童 1.0 冒险 7.0 剧情 163.0 动作 16.0 dtype: float64 此时数据为 `Series` ,去掉空值,并通过 `reset_index()` 转化为 `Dataframe` ：

g = g.unstack().dropna().reset_index()
g.head()

	level_1	0
0	传记	2.0
1	儿童	1.0
2	冒险	7.0
3	剧情	163.0
4	动作	16.0

g.columns = ['level_0','level_1', 'counts']
genre_c = g.drop(['level_0'],axis = 1).groupby('level_1').sum()

genre_c.head()

	counts
level_1
传记	12.0
儿童	6.0
冒险	42.0
剧情	194.0
动作	34.0

此时 counts 列即为电影类型的统计计数。

类似的方法来处理以下几项。
language 列：

language_split = df['language'].str.replace('\', \'',' ').str.split(' ').apply(pd.Series)
l = language_split.apply(pd.value_counts).stack().dropna().reset_index()
l.columns = ['level_0','level_1', 'counts']
language_c = l.groupby('level_0').sum()
language_c = language_c.drop(['level_1'],axis = 1)
language_c.head()

	counts
level_0
Ungwatsi	1.0
上海话	4.0
世界语	1.0
丹麦语	3.0
乌克兰语	1.0

director 列：

director_split = df['director'].str.replace('\', \'','#').str.split('#').apply(pd.Series)
director_split.head()

	0	1	2
0	弗兰克·德拉邦特 Frank Darabont	NaN	NaN
1	陈凯歌 Kaige Chen	NaN	NaN
2	吕克·贝松 Luc Besson	NaN	NaN
3	Robert Zemeckis	NaN	NaN
4	罗伯托·贝尼尼 Roberto Benigni	NaN	NaN

选取第一位导演作为分析对象：

director = director_split[0].str.strip()
df['director'] = director

`cast` 列：

cast_split = df['cast'].str.replace('\', \'','#').str.split('#').apply(pd.Series)  #[[0,1,2,3]].columns=['performer_1','performer_2','performer_3','performer_4']
cast_split.head()

	0	1	2	3	4	5	6	7	8	9	…	34	35	36	37	38	39	40	41	42	43
0	蒂姆·罗宾斯 Tim Robbins	摩根·弗里曼 Morgan Freeman	鲍勃·冈顿 Bob Gunton	威廉姆·赛德勒 William Sadler	克兰西·布朗 Clancy Brown	吉尔·贝罗斯 Gil Bellows	马克·罗斯顿 Mark Rolston	詹姆斯·惠特摩 James Whitmore	杰弗里·德曼 Jeffrey DeMunn	拉里·布兰登伯格 Larry Brandenburg	…	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
1	张国荣 Leslie Cheung	张丰毅 Fengyi Zhang	巩俐 Li Gong	葛优 You Ge	英达 Da Ying	蒋雯丽 Wenli Jiang	吴大维 David Wu	吕齐 Qi Lü	雷汉 Han Lei	尹治 Zhi Yin	…	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2	让·雷诺 Jean Reno	娜塔莉·波特曼 Natalie Portman	加里·奥德曼 Gary Oldman	丹尼·爱罗 Danny Aiello	彼得·阿佩尔 Peter Appel	迈克尔·巴达鲁科 Michael Badalucco	艾伦·格里尼 Ellen Greene	伊丽莎白·瑞根 Elizabeth Regen	卡尔·马图斯维奇 Carl J. Matusovich	弗兰克·赛格 Frank Senger	…	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
3	Tom Hanks	Robin Wright Penn	Gary Sinise	Mykelti Williamson	Sally Field	Michael Conner Humphreys	Haley Joel Osment	NaN	NaN	NaN	…	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
4	罗伯托·贝尼尼 Roberto Benigni	尼可莱塔·布拉斯基 Nicoletta Braschi	乔治·坎塔里尼 Giorgio Cantarini	朱斯蒂诺·杜拉诺 Giustino Durano	塞尔吉奥·比尼·布斯特里克 Sergio Bini Bustric	玛丽莎·佩雷德斯 Marisa Paredes	豪斯特·巴奇霍兹 Horst Buchholz	利迪娅·阿方西 Lidia Alfonsi	朱利亚娜·洛约迪切 Giuliana Lojodice	亚美利哥·丰塔尼 Amerigo Fontani	…	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN

5 rows × 44 columns

选取前六位演员作为分析对象。

c = cast_split[[0,1,2,3,4,5]] #.columns=['performer_1','performer_2','performer_3','performer_4','performer_5','performer_6']
c.columns=['performer_1','performer_2','performer_3','performer_4','performer_5','performer_6']
c = cast_split.unstack().dropna().reset_index()
c.head()

	level_1	0
0	0	蒂姆·罗宾斯 Tim Robbins
1	1	张国荣 Leslie Cheung
2	2	让·雷诺 Jean Reno
3	3	Tom Hanks
4	4	罗伯托·贝尼尼 Roberto Benigni

c.columns=['level_0','level_1','performers']
c['performers'] = c['performers'].str.strip()
c.head()

	level_1	performers
0	0	蒂姆·罗宾斯 Tim Robbins
1	1	张国荣 Leslie Cheung
2	2	让·雷诺 Jean Reno
3	3	Tom Hanks
4	4	罗伯托·贝尼尼 Roberto Benigni

演员表中有些人名中英文都标注了，有些只写了中文或英文名，例如“Tom Hanks”和“汤姆·汉克斯 Tom Hanks”是指一个人。下面的步骤是找出单独的中文或英文名，补全为中英两种语言的名字。

for i in c['performers']:
    for j in c[c['performers'].str.contains(i)]['performers']:
        if (len(j) > len(i)):
            c[c['performers']==i] = j
        else:
            continue

d:\ProgramData\Anaconda3\lib\site-packages\ipykernel\__main__.py:2: UserWarning: This pattern has match groups. To actually get the groups, use str.extract. from ipykernel import kernelapp as app

c['performers'].head()

0 蒂姆·罗宾斯 Tim Robbins 1 张国荣 Leslie Cheung 2 让·雷诺 Jean Reno 3 汤姆·汉克斯 Tom Hanks 4 罗伯托·贝尼尼 Roberto Benigni Name: performers, dtype: object

c = c.groupby('performers').count()

此时 `level_0` 和 `level_1` 的数据是完全一样的，都是表示演员出现的次数,删除 `Level_0` 列。

c = c.drop(['level_0'], axis = 1)
c.columns = ['counts']
cast_c = c
cast_c.head()

	counts
performers
1326270	1
1976 (乐团)	1
Agnese Nano	1
Aldo Giuffrè	1
Alexandre Rodrigues	1

movie_duration 列：

movie_duration_split = df['movie_duration'].str.strip().str.replace('\', \'','#').str.split('#').apply(pd.Series)
movie_duration_split.head()

	0	1	2	3	4	5
0	142 分钟	NaN	NaN	NaN	NaN	NaN
1	171 分钟	NaN	NaN	NaN	NaN	NaN
2	110分钟(剧场版)	133分钟(国际版)	NaN	NaN	NaN	NaN
3	142 分钟	NaN	NaN	NaN	NaN	NaN
4	116分钟	NaN	NaN	NaN	NaN	NaN

有些电影时长存在多种版本，一般情况下第一个时长为国内最普通、观看数量较多的版本，因此仅取第一个时长。

duration = movie_duration_split[0].str.split('分').apply(pd.Series)[0].str.strip()
duration.head()

0 142 1 171 2 110 3 142 4 116 Name: 0, dtype: object 类型为object，需改为int类型。此时若是直接用 `duration.astype(int)` ，会报错： `ValueError: invalid literal for int() with base 10: ‘Australia: 80’` ,错误信息显示有一行为“Australia: 80”,混有其他字符串，所以无法转换成int类型。我们需要找出非数值型数据。电影时长应该为两位数或三位数，可以看一下数字长度：

duration.str.len().value_counts()

3 187 2 61 13 1 9 1 Name: 0, dtype: int64 字符串长度有两个不合理的值，找出来：

duration[duration.str.len() > 3]

74 Australia: 80 226 Japan: 75 Name: 0, dtype: object

duration[74] = duration[74].split(' ')[1]
duration[226] = duration[226].split(' ')[1]

现在更改数据类型：

duration = duration.astype(int)
duration.dtypes

dtype(‘int32’)

df['movie_duration'] = duration
df['movie_duration'].head()

0 142 1 171 2 110 3 142 4 116 Name: movie_duration, dtype: int32 对于 `tags` 列，先看一下第一项基本情况：

df.tags[0]

“count’: 178370, ‘name’: ‘经典’}, {‘count’: 150016, ‘name’: ‘励志’}, {‘count’: 131943, ‘name’: ‘信念’}, {‘count’: 117510, ‘name’: ‘自由’}, {‘count’: 90200, ‘name’: ‘美国’}, {‘count’: 82546, ‘name’: ‘人性’}, {‘count’: 61162, ‘name’: ‘人生’}, {‘count’: 53244, ‘name’: ‘剧情” 其中的数值和汉字部分是需要提取的，其余无关信息可用 `str.replace()` 函数替换掉，用 `str.split()` 函数分列：

tags_split = df['tags'].str.replace('count\': ',' ').str.replace(', \'name\': \'',' ').str.replace('\'}, {\'','').str.split(' ').apply(pd.Series)
tags_split.head()

	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16
0	178370	经典	150016	励志	131943	信念	117510	自由	90200	美国	82546	人性	61162	人生	53244	剧情
1	109302	经典	54458	中国电影	53522	爱情	49358	文艺	46339	人性	45374	同志	37368	人生	28356	剧情
2	136989	经典	75963	爱情	73361	温情	51532	人性	47454	剧情	36808	动作	31271	犯罪	19390	1994
3	165677	励志	124126	经典	94060	美国	82929	人生	61445	信念	59325	成长	34048	剧情	24545	人性
4	66790	意大利	61289	经典	60683	二战	58827	亲情	36662	战争	21463	温情	18881	爱情	18695	人性

删除“0”列：

del tags_split[0]
tags_split.head(2)

	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16
0	178370	经典	150016	励志	131943	信念	117510	自由	90200	美国	82546	人性	61162	人生	53244	剧情
1	109302	经典	54458	中国电影	53522	爱情	49358	文艺	46339	人性	45374	同志	37368	人生	28356	剧情

一般阅读习惯是先看标签类别，再看标签数量，调整一下位置比较便于阅读：

tags_split = tags_split.reindex(columns = [2,1,4,3,6,5,8,7,10,9,12,11,14,13,16,15])
tags_split.head(2)

	2	1	4	3	6	5	8	7	10	9	12	11	14	13	16	15
0	经典	178370	励志	150016	信念	131943	自由	117510	美国	90200	人性	82546	人生	61162	剧情	53244
1	经典	109302	中国电影	54458	爱情	53522	文艺	49358	人性	46339	同志	45374	人生	37368	剧情	28356

更改列名：

tags_split.columns = ['tags_1','tags_counts_1','tags_2','tags_counts_2','tags_3','tags_counts_3','tags_4','tags_counts_4','tags_5','tags_counts_5','tags_6','tags_counts_6','tags_7','tags_counts_7','tags_8','tags_counts_8']

tags_split.head()

	tags_1	tags_counts_1	tags_2	tags_counts_2	tags_3	tags_counts_3	tags_4	tags_counts_4	tags_5	tags_counts_5	tags_6	tags_counts_6	tags_7	tags_counts_7	tags_8	tags_counts_8
0	经典	178370	励志	150016	信念	131943	自由	117510	美国	90200	人性	82546	人生	61162	剧情	53244
1	经典	109302	中国电影	54458	爱情	53522	文艺	49358	人性	46339	同志	45374	人生	37368	剧情	28356
2	经典	136989	爱情	75963	温情	73361	人性	51532	剧情	47454	动作	36808	犯罪	31271	1994	19390
3	励志	165677	经典	124126	美国	94060	人生	82929	信念	61445	成长	59325	剧情	34048	人性	24545
4	意大利	66790	经典	61289	二战	60683	亲情	58827	战争	36662	温情	21463	爱情	18881	人性	18695

有的电影给出了不同多家上映的时间，其中第一个最早，因此对于好几个年份的情况取第一个值。

year_split = df['init_year'].str.split('/').apply(pd.Series)[0].str.strip() 
year_split = pd.to_datetime(year_split).dt.year
df['init_year'] = year_split
df['init_year'].head()

0 1994 1 1993 2 1994 3 1994 4 1997 Name: init_year, dtype: int64

缺失值检查

df[df.isnull().values == True]

	num	title	init_year	area	genre	rating_num	comment_num	language	director	cast	movie_duration	tags

没有缺失值。
关于 area_c 、 genre_c 、 language_c 、cast_c 、 tags_c 都经过缺失值处理，也不存在缺失值。

现在再来看一下基本信息：

df.info()

数据分析

用 describe() 函数看一下数值型数据的统计信息：

df.describe()

	num	init_year	rating_num	comment_num	movie_duration
count	250.000000	250.000000	250.00000	250.000000	250.00000
mean	125.500000	1998.248000	8.76360	240455.728000	121.61200
std	72.312977	15.491237	0.27637	146992.725348	29.96178
min	1.000000	1931.000000	8.20000	40150.000000	45.00000
25%	63.250000	1994.000000	8.60000	133187.000000	99.25000
50%	125.500000	2002.000000	8.70000	206992.000000	118.00000
75%	187.750000	2009.000000	8.90000	305383.750000	136.00000
max	250.000000	2016.000000	9.60000	861343.000000	238.00000

在“豆瓣电影Top250”榜单中，上映时间最早为1931年，最晚为2016年；评分最低为8.2分，最高9.6分，平均分为8.76分；评论数量最低40150条，最高861343条；电影时长最短为45分钟，最长238分，平均时长121.61分钟，第一四分位书为99.25分钟，看来绝多数电影时长还是大于90分钟的。

总排名、按评分排名、按评价数量排名Top10

df[['num','title']].head(10)

	num	title
0	1	肖申克的救赎
1	2	霸王别姬
2	3	这个杀手不太冷
3	4	阿甘正传
4	5	美丽人生
5	6	千与千寻
6	7	辛德勒的名单
7	8	泰坦尼克号
8	9	盗梦空间
9	10	机器人总动员

Top10_rating_num = df[['rating_num','title']].sort_values(by = ['rating_num'],ascending = False).head(10).reset_index()
Top10_rating_num.index = [1,2,3,4,5,6,7,8,9,10]
Top10_rating_num

	index	rating_num	title
1	0	9.6	肖申克的救赎
2	51	9.6	控方证人
3	4	9.5	美丽人生
4	1	9.5	霸王别姬
5	2	9.4	这个杀手不太冷
6	3	9.4	阿甘正传
7	6	9.4	辛德勒的名单
8	25	9.4	十二怒汉
9	9	9.3	机器人总动员
10	40	9.3	海豚湾

Top10_comment_num = df[['comment_num','title']].sort_values(by = ['comment_num'],ascending = False).head(10).reset_index()
Top10_comment_num.index = [1,2,3,4,5,6,7,8,9,10]
Top10_comment_num

	index	comment_num	title
1	0	861343	肖申克的救赎
2	2	824694	这个杀手不太冷
3	8	755328	盗梦空间
4	3	703838	阿甘正传
5	11	667516	三傻大闹宝莱坞
6	5	655541	千与千寻
7	7	647165	泰坦尼克号
8	1	618349	霸王别姬
9	78	605629	让子弹飞
10	10	594740	海上钢琴师

《申肖克的救赎》无论评分、评论人数还是总排名稳居榜首，居于第二位的《霸王别姬》的评分排名并列第三，评论数排名第8位，可见，总排名还有其他因素有关。

上榜次数最多导演

df['director'].value_counts().head()

克里斯托弗·诺兰 Christopher Nolan 7 宫崎骏 Hayao Miyazaki 7 王家卫 Kar Wai Wong 5 史蒂文·斯皮尔伯格 Steven Spielberg 5 大卫·芬奇 David Fincher 4 Name: director, dtype: int64 “克里斯托弗·诺兰 Christopher Nolan”和“宫崎骏 Hayao Miyazaki ”上榜次数最多，同为7次。 **上榜次数最多演员**

cast_c.sort_values(by = ['counts'], ascending = False).head(10)

	counts
performers
张国荣 Leslie Cheung	8
汤姆·汉克斯 Tom Hanks	7
梁朝伟 Tony Leung Chiu Wai	7
布拉德·皮特 Brad Pitt	7
张曼玉 Maggie Cheung	7
莱昂纳多·迪卡普里奥 Leonardo DiCaprio	7
琼·艾伦 Joan Allen	6
雨果·维文 Hugo Weaving	6
马特·达蒙 Matt Damon	6
拉尔夫·费因斯 Ralph Fiennes	5

上榜次数最多的演员是“张国荣 Leslie Cheung”，高达8次，这也是每年大家对他纪念的一个原因吧，这么多经典的作品，永远被铭记。

排名与评分的关系

import matplotlib.pyplot as plt
import matplotlib
%matplotlib inline

matplotlib.rcParams['font.family'] = 'SimHei' #配置中文字体
matplotlib.rcParams['font.size'] = 15   # 更改默认字体大小

plt.scatter(df['rating_num'], df['num']) #绘制散点图
plt.xlabel('rating_num')    #x轴标签
plt.ylabel('ranking list')  #y轴标签

排名越靠前，即num越小，分数越高，但看着有些别扭，因为我们习惯了排名靠前的在 y 轴的上方，可以用 invert_yaxis() 函数来改变 y 轴标签的顺序。

plt.figure(figsize=(14,6)) 
plt.subplot(1,2,1)
plt.scatter(df['rating_num'], df['num'])
plt.xlabel('rating_num')
plt.ylabel('ranking list')
plt.gca().invert_yaxis()

plt.subplot(1,2,2)
plt.hist(df['rating_num'],bins = 15)
plt.xlabel('rating_num')

df['num'].corr(df['rating_num'])

-0.69514425033437766

豆瓣评分大多是集中在 8.3 - 9.2 之间，随评分的升高，豆瓣Top250排名名次大致提前，Pearson相关系数为 -0.6951 ，呈强相关性。

排名与评论人数的关系

plt.figure(figsize=(14,6)) 
plt.subplot(1,2,1)
plt.scatter(df['comment_num'], df['num'])
plt.xlabel('comment_num')
plt.ylabel('ranking list')
plt.gca().invert_yaxis()

plt.subplot(1,2,2)
plt.hist(df['comment_num'])
plt.xlabel('comment_num')

df['num'].corr(df['comment_num'])

-0.66233823687751237

评价人数呈右偏分布，随评价人数的增多，豆瓣Top250排名名次有提前趋势，Pearson相关系数为 -0.6623 ，呈强相关性。

排名与电影时长的关系

plt.figure(1)
plt.figure(figsize=(14,6)) 
plt.subplot(1,2,1)
plt.scatter(df['movie_duration'], df['num'])
plt.xlabel('movie_duration')
plt.ylabel('ranking list')
plt.gca().invert_yaxis()

plt.subplot(1,2,2)
plt.hist(df['movie_duration'],bins = 50)
plt.xlabel('movie_duration')

df['num'].corr(df['movie_duration'])

-0.24202220203968391

电影时长多数集中在 80-120 分钟之间，与豆瓣电影Top250之间关系不大，Pearson相关系数为 -0.2420 ，为弱相关性。

排名与上映年份的关系

plt.figure(1)
plt.figure(figsize=(14,6)) 
plt.subplot(1,2,1)
plt.scatter(df['init_year'], df['num'])
plt.xlabel('init_year')
plt.ylabel('ranking list')
plt.gca().invert_yaxis()

plt.subplot(1,2,2)
plt.hist(df['init_year'],bins = 30)
plt.xlabel('init_year')

df['num'].corr(df['init_year'])

0.086228239751655111

上映年份多数其中在1990年之后，pearson相关系数为0.0862，与豆瓣电影Top250没有相关性。

国家/地区

area_c.sort_values(by = 'counts',ascending = False).plot(kind ='bar', figsize = (6,6))

上榜电影中，美国电影数量最多，中国大陆排第七位。

语言

language_c.sort_values(by = 'counts',ascending = False)[:30].plot(kind ='bar', figsize = (10,6))

上榜电影使用最多的语言为英语，汉语普通话排第四位。

电影类型

genre_c.sort_values(by = 'counts',ascending = False).plot(kind ='bar', figsize = (6,6))

最多的电影类型是剧情，其次是爱情。

电影标签

标签比较多，用WordCloud制作词云：

from wordcloud import WordCloud

text = tags_split[['tags_1','tags_2','tags_3','tags_4','tags_5','tags_6','tags_7','tags_8']].to_string(header=False, index=False )
wordcloud = WordCloud(font_path='msyh.ttf',background_color='white',width=5000, height=3000, margin=2).generate(text)
plt.figure(figsize=(16,8))
plt.imshow(wordcloud)
plt.axis('off')
plt.show()

结论

豆瓣电影Top250排行榜和电影评分及评论人数有强相关性，和上映时间无相关性。
剧情、爱情、喜剧、犯罪、冒险类型的电影上榜较多。常用标签为“美国”、“剧情”、“经典”、“人性”、“爱情”。
美国的电影最受欢迎，用的最多的语言是英语。
上榜次数最多的导演是“克里斯托弗·诺兰 Christopher Nolan”和“宫崎骏 Hayao Miyazaki ”，同为7次。
上榜次数最多的主演是“张国荣 Leslie Cheung”，高达8次。
片长和排名关系不大，多数集中在80-120之间。

—————————————————————————————————————————————————————————————————————

后记:

本文只做了初步的分析，如果您感兴趣，还可以继续深挖，例如抓一下标注“看过”的人数，用机器学习的方法看一下评分、评价人数、“看过”人数与Top250的排名关系，等等等等。

本文从头到尾只用了Python语言，其实完全可以选择其他工具，或者多种工具同时使用，所谓“黑猫白猫，抓到老鼠就是好猫”。

你可能感兴趣的:(数据分析,Python,python,数据分析,排行榜,豆瓣)

Python高效移除列表中符合条件的元素：5种方法详解 Ven% python python 算法开发语言
文章目录1.列表推导式（推荐首选）2.filter()函数（函数式编程）3.倒序删除法（原地修改）4.while循环（正向删除）5.切片赋值（原地高效修改）方法对比与选择指南注意事项总结在Python开发中，经常需要对列表进行过滤操作，移除不符合条件的元素。本文将全面介绍5种常用方法，并分析各自的适用场景和性能特点。1.列表推导式（推荐首选）最简洁高效的方式，特别适合中小型列表numbers=[1
由浅入深：Python异步函数调用的艺术 - 从脚本到API架构设计 Ven% python python 网络开发语言
文章目录引言：异步编程的新范式一、基础篇：事件循环中的直接调用1.1理解异步执行模型1.2简单调用示例1.3关键注意事项二、进阶篇：API接口中的异步调用2.1为什么需要API封装？2.2FastAPI实现示例2.3调用对比分析三、架构篇：分层设计的最佳实践3.1问题：紧耦合的陷阱3.2解决方案：三层架构设计3.2.1核心业务层(core/retrieval.py)3.2.2API接口层(api/
Python中字符串isalpha()函数详解
在Python中，isalpha()是字符串（string）类型的内置方法，用于检查字符串中的所有字符是否都是字母字符（alphabeticcharacter）。以下是详细说明：一、基本功能返回值：布尔值（True或False）判断规则：如果字符串中所有字符都是字母（包括Unicode字母，如中文、日文等），且至少有一个字符→返回True如果字符串中包含任何非字母字符（如数字、空格、标点、特殊符号
python内置哪些装饰器_Python内置装饰器 weixin_39968820 python内置哪些装饰器
1、staticmethod()a）描述原文：staticmethod(function)->methodConvertafunctiontobeastaticmethod.Astaticmethoddoesnotreceiveanimplicitfirstargument.Todeclareastaticmethod,usethisidiom:classC:@staticmethoddeff(a
python爬虫爬百度云盘的资源 oaa608868 百度云爬虫 python
最近百度云盘不知道为啥不提供资源检索，正好最近看了一下python，正好来练练手，写歌爬虫爬一下百度云盘的资源。分析了一下百度云盘的网友源码和js文件，里面有大量ajax的东西，利用json传输数据，前端显示。话说，这样数据爬去就方便多了，也不要用scrapy啥的，直接解析json数据就好。分析js文件提炼了下面三个链接：URL_SHARE='http://yun.baidu.com/pclo
Python通过字符串调用函数_python 面向对象根据字符串调动对应函数(1) m0_61418142 python 数据库 linux
textprocess(file,language)但是textprocess(file=‘data.txt’,language=‘english’)language(text)TypeError:‘str’objectisnotcallable百度谷歌一番，我查到以下几种方式####1-字典最简单，易上手的方式，使用字典配对。defchinese(text):print(‘jieba分词’)de
python-内置装饰器大风起于云兮测试开发学习 python
类方法classMethodsdemo:param_a=0#定义类方法必须要加classmethod装饰器@classmethoddefclass_method_demo(cls):"""这是一个类方法，类方法的第一个参数必须为cls，以区别实例方法的self参数:return:"""print('这是一个类方法',cls.param_a)if__name__=='__main__':Method
【python第三方库】Hydra库在AI项目中使用简介
文章目录一、前言1.omegaconf与Hydra库的关系2.Hydra优势二、实际用法展示1.项目结构2.配置文件3.Python代码4.运行示例4.1默认配置运行4.2从命令行覆盖配置4.3多运行模式5.超参数优化5.1安装Optuna插件5.2修改config.yaml5.3运行超参数优化一、前言Hydra是一个开源Python框架，可简化研究和其他复杂应用程序的开发。关键特性是能够通过组合
大学专业科普 | 计算机应用、视觉与算法鸭鸭鸭进京赶烤计算机应用
一、专业概述计算机应用专业是一门实践性很强的学科，专注于将计算机技术转化为实际应用，服务于各个行业和领域，为社会的数字化转型提供人才支撑。二、课程设置专业基础课程：包括计算机组成原理、操作系统、数据结构、计算机网络等，为学生构建坚实的理论基础。专业核心课程：聚焦于程序设计语言（如C、C++、Java、Python等）、数据库原理与应用、软件工程、Web前端开发等，使学生具备开发各类软件系统的能力。
字符串篇(python)—如何统计字符串中连续的重复字符个数_python随机给出字符串,统计连续且相同个数 2401_84141337 程序员 python 开发语言
"""递归实现一个求字符串中连续出现相同字符的最大值例如字符串"aaabbcc"最大值为a3解题思路遍历字符串的时候定义两个变量curMaxLen记录当前遍历字符重复的连续字符个数maxLen遍历到目前为止找到最长的连续重复字符的个数"""defgetMaxDupChar(s,startIndex,curMaxLen,maxLen):ifstartIndex==len(s)-1:returnmax
【Python】Hydra 用法详解行码棋 #Python python 开发语言
Hydra官方文档Hydra（Python配置管理工具）1.引言在机器学习、深度学习和软件开发中，管理复杂的配置是一个常见的挑战。Hydra是一个强大的Python库，允许开发者轻松地管理和组织配置文件，支持动态参数覆盖、多层次配置和可组合配置等特性。2.安装HydraHydra可以通过pip直接安装：pipinstallhydra-core安装完成后，你可以使用hydra进行配置管理。3.基础用
Python 时间处理实战：4 个 datetime 模块的高效应用场景李智 - 重庆 Python 精讲精练 -从入门到实战 python 案例学习编程技巧经验分享经典范例
Python时间处理实战：4个datetime模块的高效应用场景Python的datetime模块是标准库中用于处理日期和时间的核心模块。它提供了多种类和工具，方便开发者操作日期、时间、时间间隔以及时区信息。以下是其主要功能及组件：一、基础速递1.主要类及用途1.1datetime.date功能：处理日期（年、月、日）。示例：fromdatetimeimportdatetoday=date.tod
Python实战案例，requests模块，Python实现获取动态图表小雁子学Python Python技术分享 python 实战案例 requests模块动态图表
前言利用Python实现获取动态图表，废话不多说~让我们愉快地开始吧~开发工具Python版本：3.6.4相关模块：re模块；requests模块；urllib模块；pandas模块；以及一些Python自带的模块。环境搭建安装Python并添加到环境变量，pip安装需要的相关模块即可。看一下B站2019年「数据可视化」版块的情况，第一个视频超2百万的播放量，4万+的弹幕百度指数获取百度指数，首先
onnx模型部署 python_深度学习模型转换与部署那些事(含ONNX格式详细分析) weixin_39759270 onnx模型部署 python
背景深度学习模型在训练完成之后，部署并应用在生产环境的这一步至关重要，毕竟训练出来的模型不能只接受一些公开数据集和榜单的检验，还需要在真正的业务场景下创造价值，不能只是为了PR而躺在实验机器上在现有条件下，一般涉及到模型的部署就要涉及到模型的转换，而转换的过程也是随着对应平台的不同而不同，一般工程师接触到的平台分为GPU云平台、手机和其他嵌入式设备对于GPU云平台来说，在上面部署本应该是最轻松的事
Python - 爬虫；Scrapy框架之插件Extensions（四） MinggeQingchun Python Python 爬虫 Scrapy extensions
阅读本文前先参考https://blog.csdn.net/MinggeQingchun/article/details/145904572在Scrapy中，扩展（Extensions）是一种插件，允许你添加额外的功能到你的爬虫项目中。这些扩展可以在项目的不同阶段执行，比如启动、关闭、处理请求、处理响应等。Extensions官网文档：Extensions—Scrapy2.12.0document
python中的高级变量V hbwhmama python学习 python
定义一个元组(常规)info_tuple=("Tom",18,1.85)print(type(info_tuple))#查看info_tuple的类型print(info_tuple)#输出元祖中的所有元素('Tom',18,1.85)print(info_tuple[0])#指定索引直输出指定数据Tom定义一个空元组info_tuple_01=()print(type(info_tuple_01
Python应用指南：利用高德地图API获取公交+地铁可达圈（二）图说交通高德API系列 python 开发语言信息可视化 shp 高德地图api
副标题：利用Python自动化调用高德API并批量处理可达圈在上一篇文章中，我们详细探讨了如何利用高德地图API获取单一位置的公交可达圈数据。通过构建请求URL、发送HTTP请求、解析返回的JSON数据，并对其中的坐标进行从GCJ-02（高德火星坐标系）到WGS84（通用地理坐标系）的转换，最终将结果整理为CSV格式输出，实现了对单个出发点在指定时间范围内可到达区域的精确描绘。这一过程不仅帮助我们
SQL Server 进阶：递归 CTE+CASE WHEN 实现复杂树形统计(第二课) AI、少年郎 java 数据库开发语言 sql递归树形递归
在《SQLServer函数实战：一条SQL替代3000行代码的计算逻辑》基础上，我们进一步拓展业务需求，实现更复杂的层级数据统计。本次将重点解决两个核心问题：一是统计每个部门（含所有下级部门）请假天数大于3天的记录数量；二是让上级部门的统计结果自动汇总所有下级部门数据，实现树形结构的递归统计。通过递归CTE、CASEWHEN函数与分组聚合的深度结合，完成从基础数据统计到层级化数据分析的跨越。一、业
筑牢医疗AI安全防线：四重防护体系全解析 Allen_Lyb 数智化教程（第二期）人工智能安全
一、引言：医疗AI发展中的安全困境在数字化浪潮席卷下，医疗领域正经历着一场由人工智能（AI）驱动的深刻变革。医疗AI凭借其强大的数据分析与处理能力，在疾病诊断、药物研发、健康管理等诸多环节展现出巨大潜力，成为推动医疗行业进步的关键力量。而这一切的背后，医疗数据作为AI发展的“燃料”，以及AI算力作为运行的“引擎”，起着不可或缺的核心作用。医疗数据涵盖了患者从基本信息、病史、症状描述到各种检查检验报
UI自动化-Selenium WebDriver Oooon_the_way ui 自动化 selenium
前言SeleniumWebDriver是Selenium项目中最核心、最强大的组件，它是一个用于自动化控制网页浏览器的开源API（应用程序编程接口）。简单来说，SeleniumWebDriver就是一个允许你用编程语言（如Java、Python、C#、JavaScript、Ruby等）编写脚本来模拟真实用户操作网页浏览器（如Chrome,Firefox,Edge,Safari等）的工具。核心功能：
《从0到1搭建短剧广告APP：商业模式设计×技术架构×运营策略全解析》 ywyy6798 短剧推客系统小程序推客小程序短剧看广告APP 短剧系统短剧看广告APP系统开发
引言：短剧+广告模式的市场机遇近年来，短剧行业呈现爆发式增长，用户对碎片化娱乐内容的需求激增。与此同时，广告变现模式在短视频、免费阅读等领域已得到充分验证。“看广告解锁剧情”的模式，结合了短剧的高粘性和广告变现的高效率，成为开发者、内容方和广告主三方共赢的新赛道。然而，这类APP的开发并非简单的“广告SDK+短剧播放器”组合，而是涉及商业模式设计、广告系统优化、用户体验平衡、数据分析和合规运营等多
[使用Python轻松提取YouTube视频转录：从零开始的指南] mmlihaio python 开发语言 linux
#使用Python轻松提取YouTube视频转录：从零开始的指南##引言在当今信息爆炸的时代，YouTube已成为获取信息的重要平台。随着视频内容的激增，自动化获取视频转录内容的需求日益增加。本文将带您探索如何使用Python从YouTube视频中提取转录信息，并分享一些实用的技巧和编码示例。##主要内容###1.YouTube转录加载器简介借助`langchain_community`库的`Yo
深入解析youtube-dl模块：视频与播放列表信息提取指南
深入解析youtube-dl模块：视频与播放列表信息提取指南youtube-dl项目地址:https://gitcode.com/gh_mirrors/you/youtube-dl前言youtube-dl作为一款强大的多媒体内容下载工具，其核心功能通过Python模块的形式提供了丰富的编程接口。本文将深入探讨如何使用youtube-dl模块来提取视频和播放列表信息，帮助开发者更好地集成这一功能到自
Python 爬虫实战：从图片网站抓取图片并进行特征提取（2025 最新版） Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 github chrome 数据库
一、引言在当今的数字时代，图像数据在各个领域中扮演着至关重要的角色。无论是计算机视觉、机器学习，还是数据分析，图像数据的获取和处理都是基础。然而，获取大量高质量的图像数据并非易事。幸运的是，互联网上充斥着丰富的图像资源，只需借助合适的工具和技术，我们就能高效地从中获取所需的图像数据。本文将详细介绍如何使用Python构建一个完整的爬虫系统，从图片网站抓取图像，并对其进行特征提取。我们将涵盖从网页分
解决web服务中在线查看minio上文件提示CORS的问题 Hong.1948 前端网络 javascript
web页面访问excel、word之类的文件时，由于浏览器的安全机制，如果目标地址和源地址不同源，就会报CORS，即跨域访问的问题。解决跨域的问题，主要有2个思路：方案1：修改目标服务的CORS策略，允许跨域访问方案2：强行同源，然后使用nginx转发请求。此前使用s3服务的时候，使用方案1解决了跨域访问的问题。s3服务，不管是客户端还是pythonsdk，都可以直接修改指定桶的CORS策略，配置
【Python】Synonyms 宅男很神经 python 开发语言
当然，我完全理解您的需求，并且将竭尽全力为您提供一个前所未有的、极其深入和全面的关于“Python库Synonyms，用于中文词性分析和相似度计算”的专属学习指南。我将从最底层、最核心的原理开始，逐步向上构建知识体系，确保每一个细节都被剖析得淋漓尽致，不放过任何一个学习角度。所有内容都将是原创生成，绝无抄袭，并辅以大量我独立设计的实战代码示例，每行代码都将附带详尽的中文解释。由于您要求极高的字数（
Python包管理工具UV：告别龟速pip，体验秒级安装，你的生产力引擎即将升级 wylee python uv pip
摘要：还在为Python包的龟速安装和复杂的依赖管理而抓狂吗？还在苦苦等待CI/CD流水线中漫长的pipinstall完成吗？今天，我要向你隆重介绍一个划时代的Python包管理工具——UV！它由Python生态巨头Astral团队倾力打造，采用Rust编写，旨在彻底颠覆你对Python包安装、虚拟环境管理和依赖解析的认知。UV不仅是pip和virtualenv的闪电替代品，更是pip-tools
python拷贝文件到指定路径不存在_Python实现文件夹递归拷贝 weixin_39717825
维护一个网站，数据库可以自动备份，但用户上传的文件很多，手动备份很麻烦，所以想用Python实现自动备份目标：1.多层文件夹嵌套，在要备份的文件夹中嵌套多个文件夹2.增量备份，因为文件较多，且之前已有部分备份，所以只需对新增的文件进行备份，提升效率Python安装：1.下载安装包，http://www.python.org/getit/，可以选择Python2或3，2的兼容性更好2.添加Pytho
Python 单例模式与魔法方法深度剖析：从原理到实践女码农的重启开发语言单例模式
在Python面向对象编程领域，单例模式和魔法方法是极具特色且功能强大的技术。单例模式确保一个类在程序运行过程中仅有一个实例，常用于资源管理、全局状态维护等场景；魔法方法则是Python类中以双下划线__开头和结尾的特殊方法，赋予类丰富的行为定制能力。本文将深入探讨二者的原理、实现方式、应用场景，以及它们之间的紧密联系。一、单例模式：实例唯一性的保障1.1单例模式的核心概念单例模式（Singlet
Gradio全解3——Gradio三种客户端：python、javascript与curl（三）——curl 龙焰智能 Gradio全解教程 gradio client curl awk/read post/get 嵌入式url
Gradio全解3——Gradio三种客户端：python、javascript与curl（三）——curl前言3.3Curl查询GradioApps3.3.1安装3.3.2获取Gradio程序的URL3.3.3HF_TOKEN和身份认证1.POST/GET示例2.整合命令：awk和read3.HF_TOKEN4.身份认证3.3.4POST：请求预测1.基本语法2.常用示例3.3.5GET：获取结
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l