SongpingWang

Pandas-Numpy-Matplotlib-PyEcharts——综合案例（豆瓣电影Top_250数据分析）

豆瓣电影Top_250_Data_analysis( 运行在jupyter notebook环境)

- - 一、数据收集、加载数据并查看
    - - 1.1 收集数据爬虫详细过程请点击
      - 1.2 抓取数据问题：
      - 1.3 加载数据并查看：
  - 二、数据合并（将这两个互有缺失值的DataFrame合并）
  - 三、数据清洗（消耗40%时间）
    - - 3.1 查看所有数据 : 数据去重 df.duplicated()
        
        3.2 数据格式，内容清洗
        
        3.2.1 国家（地区）内容清洗
        
        3.2.2 电影类型genre（类似于区域内容清洗）
        
        3.2.3 电影语言:
        
        3.2.4 导演
        
        3.2.5 演员（cast）
        
        3.2.5 时长(movie_duration)
        
        3.2.6 电影标记（tags）
        
        3.2.7 上映时间(init_year)
      - 3.2 缺失值检查与查看
  - 四、数据统计与分析
    - - 4.1 数值型列的数据统计
      - 4.2 电影排名分析
      - 4.3 按评分-top10分析
      - 4.4 上榜次数统计分析
  - 五、数据分析与可视化展示（matplotlib）
    - - 5.1 matplotlib 可视化包基本环境配置
      - 5.2 评分与排名
      - 5.3 评论人数与排名
      - 5.4 电影时长与排名
      - 5.5 上映年份与排名
      - 5.6 国家/地区与排名
      - 5.7 语言与排名
      - 5.8 电影类型与排名
      - 5.9 电影标签热度词云统计与排名
  - 六、数据分析与可视化展示
    - - 6.1 安装pyecharts 可视化基本环境配置
      - 6.2 电影类型-排名
      - 6.3 按评分占比统计
      - 6.4 国家地区-排名

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from pyecharts import Bar,Line,Pie
from pandas import DataFrame,Series

一、数据收集、加载数据并查看

1.1 收集数据爬虫详细过程请点击

抓取排名，电影名，导演，主演，上映日期，制片国家/地区，类型。
评分，评论数量，一句话评价，已经电影链接

top250 网址：https://movie.douban.com/top250
选用Python3 引入 url.requests BeautifulSoup4 来抓取

1.2 抓取数据问题：

    原来页面的缺失信息（如：导演，演员等）
    原来页面的本来就没有电影语言，时长，tag
解决方法：
    取出当前数据的最后一列的url
    解析url取出电影唯一的id
    根据id得到详细页面，抓取信息
    https://api.douban.com/v2/movie/id

1.3 加载数据并查看：

df_1 = pd.read_csv('./csv/top250_f1.csv',sep = '#')
df_2 = pd.read_csv('./csv/top250_f2.csv',sep = '#')
df_1.head()     #查看前五条数据
 #df_2.head()   #查看前五条数据

	num	title	director	role	init _year	area	genre	rat ing_ num	com ment_ num	comment	url
0	1	肖申克的救赎	弗兰克·德拉邦特 Frank Darabont	蒂姆·罗宾斯 Tim Robbins	1994	美国	[‘犯罪剧情’]	9.6	964842	希望让人自由。	https://movie. douban.com /subject/1292052/
1	2	霸王别姬	陈凯歌 Kaige Chen	张国荣 Leslie Cheung	1993	中国大陆香港	[‘剧情爱情同性’]	9.5	699930	风华绝代。	https://movie. douban.com /subject/1291546/
2	3	这个杀手不太冷	吕克·贝松 Luc Besson	让·雷诺 Jean Reno	1994	法国	[‘剧情动作犯罪’]	9.4	912435	怪蜀黍和小萝莉不得不说的故事。	https://movie. douban.com /subject/1295644/
3	4	阿甘正传	Robert Zemeckis	Tom Hanks	1994	美国	[‘剧情爱情’]	9.4	775889	一部美国近现代史。	https://movie. douban.com/ subject/1292720/
4	5	美丽人生	罗伯托·贝尼尼 Roberto Benigni	罗伯托·贝尼尼 Roberto Beni…’]	1997	意大利	[‘剧情喜剧爱情战争’]	9.5	453651	最美的谎言。	https://movie. douban.com/ subject/1292063/

二、数据合并（将这两个互有缺失值的DataFrame合并）

将df_1与df_2合并数据

数据分布在两个文件中：
取 top250_f1.csv 中的 num(排名）,title(电影名),init_year(上映时间),area（国家/地区）
和 top250_f2.csv 中的 language(语言),director（导演）,cast(主演),movie_duration(时长),\
tags(标签)这些列进行分析。

df_1_cut = df_1[['num','title','init_year','area','genre','rating_num','comment_num']]
df_2_cut = df_2[['num','language','director','cast','movie_duration','tags']]
df = df.merge(df_1_cut,df_2_cut,how = 'outer',on = 'num')   #外连接，合并标准on = 'num'
df.head()           #查看前五条信息
       #df.tail()   查看后五条信息
       #df.info()   查看整个数据集的信息

	nu m	title	init _year	area	genre	rat ing_ num	com ment_ num	lang uage	director	cast	movie_ duration	tags
0	1	肖申克的救赎	1994	美国	[‘犯罪剧情’]	9.6	964842	[‘英语’]	[‘弗兰克·德拉邦特 Frank Darabont’]	[‘蒂姆·罗宾斯 Tim Robbins’, ‘摩根·弗里曼 Morgan Freeman’…	[‘142 分钟’]	[{‘count’: 197742, ‘name’: ‘经典’}, {‘count’: 16…
1	2	霸王别姬	1993	中国大陆香港	[‘剧情爱情同性’]	9.5	699930	[‘汉语普通话’]	[‘陈凯歌 Kaige Chen’]	[‘张国荣 Leslie Cheung’, ‘张丰毅 Fengyi Zhang’, ‘巩俐 …	[‘171 分钟’]	[{‘count’: 124150, ‘name’: ‘经典’}, {‘count’: 63…
2	3	这个杀手不太冷	1994	法国	[‘剧情动作犯罪’]	9.4	912435	[‘英语’, ‘意大利语’, ‘法语’]	[‘吕克·贝松 Luc Besson’]	[‘让·雷诺 Jean Reno’, ‘娜塔莉·波特曼 Natalie Portman’, …	[‘110分钟(剧场版)’, ‘133分钟(国际版)’]	[{‘count’: 150097, ‘name’: ‘经典’}, {‘count’: 85…
3	4	阿甘正传	1994	美国	[‘剧情爱情’]	9.4	775889	[‘英语’]	[‘Robert Zemeckis’]	[‘Tom Hanks’, ‘Robin Wright Penn’, ‘Gary Sinis…	[‘142 分钟’]	[{‘count’: 179046, ‘name’: ‘励志’}, {‘count’: 13…
4	5	美丽人生	1997	意大利	[‘剧情喜剧爱情战争’]	9.5	453651	[‘意大利语’, ‘德语’, ‘英语’]	[‘罗伯托·贝尼尼 Roberto Benigni’]	[‘罗伯托·贝尼尼 Roberto Benigni’, ‘尼可莱塔·布拉斯基 Nicolet…	[‘116分钟’]	[{‘count’: 70710, ‘name’: ‘意大利’}, {‘count’: 67…

三、数据清洗（消耗40%时间）

3.1 查看所有数据 : 数据去重 df.duplicated()

df.duplicated().head() #返回 True,则有重复项，反之亦然
df.duplicated().value_counts()
df.title.unique()      #检查某一列是否有重复电影名
df.num.unique()        #检查某一列是否有并列排名

3.2 数据格式，内容清洗

◆去除多余字段-去除字段两侧['']形式，可以用str分数字符串
df['genre'] = df['genre'].str[2:-2]
df['language'] = df['language'].str[2:-2]
df['director'] = df['director'].str[2:-2]
df['cast'] = df['cast'].str[2:-2]
df['movie_duration'] = df['movie_duration'].str[2:-2]
df.head()

	num	…	genre	rating _num	comme nt_num	lang uage	director	cast	movie_ duration	tags
0	1	…	犯罪剧情	9.6	964842	英语	弗兰克·德拉邦特 Frank Darabont	蒂姆·罗宾斯 Tim Robbins’, ‘摩根·弗里曼 Morgan Freeman’, …	142 分钟	[{‘count’: 197742, ‘name’: ‘经典’}, {‘count’: 16…
1	2	…	剧情爱情同性	9.5	699930	汉语普通话	陈凯歌 Kaige Chen	张国荣 Leslie Cheung’, ‘张丰毅 Fengyi Zhang’, ‘巩俐 Li…	171 分钟	[{‘count’: 124150, ‘name’: ‘经典’}, {‘count’: 63…
2	3	…	剧情动作犯罪	9.4	912435	英语’, ‘意大利语’, ‘法语	吕克·贝松 Luc Besson	让·雷诺 Jean Reno’, ‘娜塔莉·波特曼 Natalie Portman’, ‘加…	110分钟(剧场版)’, ‘133分钟(国际版)	[{‘count’: 150097, ‘name’: ‘经典’}, {‘count’: 85…
3	4	…	剧情爱情	9.4	775889	英语	Robert Zemeckis	Tom Hanks’, ‘Robin Wright Penn’, ‘Gary Sinise’…	142 分钟	[{‘count’: 179046, ‘name’: ‘励志’}, {‘count’: 13…
4	5	…	剧情喜剧爱情战争	9.5	453651	意大利语’, ‘德语’, ‘英语	罗伯托·贝尼尼 Roberto Benigni	罗伯托·贝尼尼 Roberto Benigni’, ‘尼可莱塔·布拉斯基 Nicoletta…	116分钟	[{‘count’: 70710, ‘name’: ‘意大利’}, {‘count’: 67…

3.2.1 国家（地区）内容清洗

 #对于area列，由多个国家地区之间合作的电影，中间用空格隔开，
 #用str.split()分列，再应用apply(pd.Series)作用到每一行或列

area_split = df['area'].str.split('').apply(pd.Series)
area_split.head()

 #对每列的值重合的作了一个汇总统计，同时NaN用0填充
a = area_split.apply(df.value_counts).fillna('0')

 #更改列名，转换数据类型（object->int）
a.columns = ['area_1','area_2','area_3','area_4','area_5']
a['area_1'] = a['area_1'].astype(int)
a['area_2'] = a['area_2'].astype(int)
a['area_3'] = a['area_3'].astype(int)
a['area_4'] = a['area_4'].astype(int)
a['area_5'] = a['area_5'].astype(int)

 #将每一行的数据汇总后，变成一列显示（行汇总）
a = a.apply(lambda x:x.sum().axis=1)

 #包装成一个标准的 DataFrame 
area_c = df.DataFrame(a,column = ['counts'])
area_c.head()

Pandas-Numpy-Matplotlib-PyEcharts——综合案例（豆瓣电影Top_250数据分析）_第1张图片

3.2.2 电影类型genre（类似于区域内容清洗）

 #对于genre列，中间用空格隔开的，用str.split()分列，再应用apply(pd.split)作用到每一行或列
genre_split = df['genre'].str.split('').apply(pd.Series)
genre_split.head()

 #拆分列，Na 用 0 填充
genre_split = genre_split.apply(pd.value_counts).fillna(0)
genre_split.head()

 #统计电影类型
g = genre_split.apply(lambda row : row.sum(),axis = 1)
g.head()

 #将Series转成DataFrame
g = DataFrame(g,columns = ['counts'])
g.head()
-------------------------------方法2----------------------------------
 #对每列的值重合的作了一个汇总统计
a = genre_split.apply(df.value_counts)

 #利用 unstack() 函数做一个行列转换，同时删除NaN，转换成DataFrame
g = g.unstack().dropna().reset_index()
g.head()

 #数据行列重命名
g.columns = ['level_0','level_1','counts']
 #删除（level_0）第一列，同时按照'level_1'字段的值进行分组，同时汇总
genre_c = g.drop(['level_0'],axis = 1).groupby('level_1').sum()
 #按 'counts' 字段降序排列
genre_c.sort_values('counts'.ascending = False).head()

Pandas-Numpy-Matplotlib-PyEcharts——综合案例（豆瓣电影Top_250数据分析）_第2张图片

3.2.3 电影语言:

 #类似的方法处理 language 列
language_split = df['language'].str.replace("\', \'",' ').str.split(' ').apply(pd.Series)
l = language_split.apply(pd.value_counts).stack().dropna().reset_index()
language = ['level_0','level_1','counts']
language_c = l.groupby('level_0').sum()
language_c = language_c.drop(['level_1'],axis = 1)
language_c.head()

3.2.4 导演

df.director
director_split = df['director'].str.replace("\', \'",'#').str.split('#').apply(pd.Series)
director_split.head()
director = director.split[0].str.strip()
df['director'] = director
df['director'].head()

3.2.5 演员（cast）

df.cast
cast_split = df['cast'].str.replace("\', \'",'#').str.split('#').apply(pd.Series)
 #[[0,1,2,3]].column = ['performar_1','performar_2','performar_3','performar_4']
out_split.head()

选取六位演员分析
c = cast_split[[0,1,2,3,4,5]]   #column = ['performar_1','performar_2'...'performar_6']
c.columns = ['performar_1','performar_2','performar_3','performar_4','performar_5','performar_6']
c = cast_split.unstack().dropna().reset_index()
c.head()

c.columns = ['level_0','level_1','performars']
c['performars'] = c['performars'].str.strip()
c.head()

 #演员表中名字有：中英文，只有中文，只有英文
 #下面是单独找出中文/英文命，并将其补全
for i in c['performars']:
    for j in [c['performars'].str.contains(i)]['performars']:
        if (len(j) > len(i)):
            row = c[c['performars'] == i]
            level_0 = row['level_0']
            level_1 = row['level_1']
            c[c['performars'] == i] = [level_0,level_1,j]
        else:
            continue
c.head()

 #根据演员名臣进行分组并计数
c = c.groupby('performars').count()
c.head()

 #此时，'level_0'和'level_1'的数据完全是一样的，删除'level_0'列
c = c.drop(['level_0'],axis = 1)
c.columns = ['counts']
cats_c = c

3.2.5 时长(movie_duration)

df['movie_duration']
movie_duration_split = df['movie_duration'].str.strip().str.replace('\',\'','#').str.split('#').apply(pd.Series)
movie_duration_split.head()

 #有些电影存在多种版本，一般情况下，第一个版本观看数量较多，因此取第一个
duration = movie_duration_split[0].str.split('分').apply(pd.Series)[0].str.strip()
duration.head()

 #观看数量发现：
 #duration.str.len().value_counts() 检查放映时间是否大于三位数
duration[duration.str.len() > 3]

 #放映时间大于三位数，数据异常，要额外处理
duration[244] = duration[244].split(' ')[1]

 #现在更改数据类型：
duration = duration.astyle(int)
duration.dtypes

df['movie_duration'] = duration
df['movie_duration'].head()

3.2.6 电影标记（tags）

先查看'tags'列，先看一下基本情况
df['tags'][0]   

tags_split = df['tags'].str.replace('count\':',' ').str.replace(',\'name\':\'',' ').str.replace('\'},{\'','').str.split(' ').apply(pd.Series)
tags_split
 #删除第一列
del tags_split[0]
 #处理掉最后一列的特殊字符：'}]
tags_split[] = tags_split[16].str.replace('\}]','')
tags_split.head()

 #一般阅读习惯是先看标签类别，再看标签数量，调整一下位置比较便于阅读
tags_split = tags_split.reindex(columns = [2,1,3,6,5,8,7,10,9,12,11,14,13,16,15])
tags_split.head()

 #更改列名
tags_split.columns= [
                    'tags_1','tags_count_1','tags_2','tags_count_2',
                    'tags_3','tags_count_3','tags_4','tags_count_4',
                    'tags_5','tags_count_5','tags_6','tags_count_6',
                    'tags_7','tags_count_7','tags_8','tags_count_8',
                    ]
tags_split.head()

3.2.7 上映时间(init_year)

 #有的电影给出多个不同上映时间，为方便，我们取第一个。

year_split = df['init_year'].str.split('/').apply(pd.Series)[0].str.strip()
 #主要为了处理第78条：大闹天宫：1961（中国大陆）/1964（中国大陆）/1978（中国大陆）/2004（中国大陆）/
year_split = year_split.str.slice(0,4)

df['init_year'] = year_split.astyle(int)
df['init_year'].head()

3.2 缺失值检查与查看

df[df.isnull().values == True] 
df.info()

四、数据统计与分析

4.1 数值型列的数据统计

    df.describe()           #用 describe() 看数值型数据的统计信息

4.2 电影排名分析

    df[['num','title']].head(10)   #先看数据（查看前10名数据）

4.3 按评分-top10分析

Top10_rating_num = df[['rating_num','title']].sort_values(by = ['rating_num'],ascending = False).head(10).reset_index()
 #Top10_rating_num.index = [1,2,3,4,5,6,7,8,9,10]
Top10_rating_num

按评价数量排名-top10分析
Top10_comment_num = df[['comment_num','title']].srot_values(by = ['comment_num'],ascending = False).head(10).reset_index()
 #Top10_comment_num.index = [1,2,3,4,5,6,7,8,9,10]
Top10_comment_num

4.4 上榜次数统计分析

4.4.1上榜次数最多的导演
df['director'].value_counts().head()

4.4.2 上榜次数最多的演员
cast_c.sort_values(by = ['counts'],ascending = False).head()

五、数据分析与可视化展示（matplotlib）

5.1 matplotlib 可视化包基本环境配置

import matplotlib.pyplot as plt
import matplotlib
matplotlib.rcParams['font.family'] = 'SimHei'   #配置中文字体
matplotlib.rcParams['font.size'] = 15           #更改默认字体大小

5.2 评分与排名

plt.scatter(df['rating_num'].df['num']) #绘制散点图
plt.xlabel('rating_num')                # x 轴标签
plt.ylabel('ranking list')              # y 轴标签
plt.show()

由于观看不便，可以通过 invert_yaxis() 改变y轴标签顺序
重构：
    plt.figure(figsize = (14,6))            #画布大小（14，6）
    plt.subplot(1,2,1)
    plt.scatter(df['rating_num'].df['num']) #绘制散点图
    plt.xlabel('rating_num')                # x 轴标签
    plt.ylabel('ranking list')              # y 轴标签
    plt.gca().invert_yaxis()                #更改y轴标签顺序

    plt.subplot(1,2,2)
    plt.hist(df['rating_num'],bins = 15)
    plt.xlabel('rating_num')

    plt.show()

Pandas-Numpy-Matplotlib-PyEcharts——综合案例（豆瓣电影Top_250数据分析）_第3张图片

    df['num'].corr(df['rating_num'])    #利用 泊松分布 显示相关性

5.3 评论人数与排名

plt.figure(figsize = (14,6))                #画布大小（14，6）
plt.subplot(1,2,1)
plt.scatter(df['comment_num'].df['num'])    #绘制散点图
plt.xlabel('comment_num')                   # x 轴标签
plt.ylabel('ranking list')                  # y 轴标签
plt.gca().invert_yaxis()                    #更改y轴标签顺序

plt.subplot(1,2,2)
plt.hist(df['comment_num'])
plt.xlabel('comment_num')

plt.show()

Pandas-Numpy-Matplotlib-PyEcharts——综合案例（豆瓣电影Top_250数据分析）_第4张图片

df['num'].corr(df['comment_num'])           #利用 泊松分布 显示相关性

5.4 电影时长与排名

plt.figure(1)
plt.figure(figsize = (14,6))                #画布大小（14，6）
plt.subplot(1,2,1)
plt.scatter(df['movie_duration'].df['num']) #绘制散点图
plt.xlabel('movie_duration')                # x 轴标签
plt.ylabel('ranking list')                  # y 轴标签
plt.gca().invert_yaxis()                    #更改y轴标签顺序

plt.subplot(1,2,2)
plt.hist(df['movie_duration']bins = 50)
plt.xlabel('movie_duration')

plt.show()

Pandas-Numpy-Matplotlib-PyEcharts——综合案例（豆瓣电影Top_250数据分析）_第5张图片

df['num'].corr(df['movie_duration'])       #利用 泊松分布 显示相关性

5.5 上映年份与排名

plt.figure(1)
plt.figure(figsize = (14,6))            #画布大小（14，6）
plt.subplot(1,2,1)
plt.scatter(df['init_year'].df['num'])  #绘制散点图
plt.xlabel('init_year')                 # x 轴标签
plt.ylabel('ranking list')              # y 轴标签
plt.gca().invert_yaxis()                #更改y轴标签顺序

plt.subplot(1,2,2)
plt.hist(df['init_year']bins = 30)
plt.xlabel('init_year')

plt.show()

df['num'].corr(df['init_year'])        #利用 泊松分布 显示相关性

5.6 国家/地区与排名

area_c.sort_values(by='counts',ascending = False).plot(king='bar',figsize = (12,6))
plt/show()

5.7 语言与排名

language_c.sort_values(by = 'counts',ascending = False)[:30].plot(king='bar',figsize = (12,6))
plt.show()

5.8 电影类型与排名

genre_c.sort_values(by = 'counts',ascending = False).plot(king='bar',figsize = (12,6))
plt.show()

5.9 电影标签热度词云统计与排名

tag_name = tags_split[['tags_1','tags_2','tags_3','tags_4','tags_5','tags_6','tags_7','tags_8']]
tag_name = tag_name.values.flatten()
len(tag_name)

from pyecharts import WordCloud
values=np.arange(10000,step=5)
wordcloud = WordCloud(width=1300, height=620)  #板块
wordcloud.add("",tag_name,values, 
              word_size_range=[20, 100])#单词大小区间范围
wordcloud.render("wordcloud.html")

Pandas-Numpy-Matplotlib-PyEcharts——综合案例（豆瓣电影Top_250数据分析）_第7张图片

六、数据分析与可视化展示

6.1 安装pyecharts 可视化基本环境配置

import pip
def import(package):
    pip.main(['install',package])
install('pyecharts==0.1.8')

6.2 电影类型-排名

from pyecharts import Bar
mybar = Bar('电影类型分析')
new_g = g.sort_values(by = 'counts',ascending = False)
attr = new_g.index
value = new_g.counts
mybar.add('电影类型',attr,value,mark_line = ['max'],mark_point = ['average'])
mybar.render('movie_01.html')
mybar

Pandas-Numpy-Matplotlib-PyEcharts——综合案例（豆瓣电影Top_250数据分析）_第8张图片

6.3 按评分占比统计

from pyecharts import Pie
Top10_rating_num = df[['rating_num','title']].sort_values(by = 'rating_num',ascending = False).head(10).reset_index()
sttr = data['level_1'].tolist()
v1 = data['rating_num'].tolist()

pie = Pie('排名前10电影评分占比'，title_pos = 'center')
pie.add('',sttr,v1，is_label_show = True,legend_orient = 'vertical',legend_pos = 'right')
bar.render_notebook()

6.4 国家地区-排名

from pyecharts import Line
areas = area_c.reset_index()
v1 = area['counts'].tolist()
attr = area['index'].tolist

line = Line('国家地区电影排名')
line.add('国家'，attr,v1,mark_point = ['min','max'],is_smooth=True,mark_line['max','average'])
line.render_notebook()

你可能感兴趣的:(科学计算库与可视化)

java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &

Pandas-Numpy-Matplotlib-PyEcharts——综合案例（豆瓣电影Top_250数据分析）

一、 数据收集、加载数据 并查看

1.1 收集数据 爬虫详细过程请点击

1.2 抓取数据问题：

1.3 加载数据并查看：

二、数据合并（将这两个互有缺失值的DataFrame合并）

三、数据清洗（消耗40%时间）

3.1 查看所有数据 : 数据去重 df.duplicated()

3.2 数据格式，内容清洗

3.2.1 国家（地区）内容清洗

3.2.2 电影类型genre（类似于区域内容清洗）

3.2.3 电影语言:

3.2.4 导演

3.2.5 演员（cast）

3.2.5 时长(movie_duration)

3.2.6 电影标记（tags）

3.2.7 上映时间(init_year)

3.2 缺失值检查与查看

四、数据统计与分析

4.1 数值型列的数据统计

4.2 电影排名分析

4.3 按评分-top10分析

4.4 上榜次数统计分析

五、数据分析与可视化展示（matplotlib）

5.1 matplotlib 可视化包基本环境配置

5.2 评分 与排名

5.3 评论人数 与排名

5.4 电影时长 与排名

5.5 上映年份 与排名

5.6 国家/地区 与排名

5.7 语言 与排名

5.8 电影类型 与排名

5.9 电影标签热度词云统计 与排名

六、数据分析与可视化展示

6.1 安装pyecharts 可视化基本环境配置

6.2 电影类型-排名

6.3 按评分占比统计

6.4 国家地区-排名

你可能感兴趣的:(科学计算库与可视化)

一、数据收集、加载数据并查看

1.1 收集数据爬虫详细过程请点击

5.2 评分与排名

5.3 评论人数与排名

5.4 电影时长与排名

5.5 上映年份与排名

5.6 国家/地区与排名

5.7 语言与排名

5.8 电影类型与排名

5.9 电影标签热度词云统计与排名