阿优乐扬

数据分析入门之好莱坞百万级评论数据分析

文章目录

1、数据的加载与集成

1.1、导入相关的包
1.2、导入数据

1.2.1、读取用户数据
1.2.2、读取电影数据
1.2.3、读取评分数据

1.3、数据合并
1.4、查看数据

1.4.1、查看数据形状
1.4.2、查看前5行
1.4.3、查看去重后大小

2、平均分较高的电影

2.1、调用透视表
2.2、查看前五行
2.3、排序
2.4、查看前10名
2.5、查看后10名

3、不同性别对电影平均评分
4、不同性别争议最大的电影

4.1、评分差距
4.2、排序
4.3、查看差距情况
4.4、男女数据集联
4.5、分析结果

5、评分次数最多热门的电影

5.1、pandas 分组运算
5.2、排序

6、查看不同年龄段争议最大的电影

6.1、查看用户的年龄分布情况
6.2、用pandas.cut()函数将用户年龄分组
6.3、每个年龄段用户评分人数和打分偏好

6.3.1、年龄范围评分的平均分
6.3.2、年龄范围评分的人数
6.3.3、同时求每个年龄段评分人数及平均分

7、优化数据，真实可靠

7.1加入评分次数限制来分析不同性别对电影的平均评分

7.1.1、建立索引
7.1.2、找出这50行数据
7.1.3、数据可视化分析

7.2、加入评分次数限制来分析平均分高的电影

7.2.1、建立索引
7.2.2、索引出符合条件的数据

操作环境： window10，Python3.7，Jupyter notebook
数据资料： https://www.lanzous.com/i96rt3e

数据分析要求：

数据的加载与集成
平均分较高的电影
不同性别对电影平均评分
不同性别争议最大电影
评分次数最多热门的电影
不同年龄段争议最大的电影

1、数据的加载与集成

1.1、导入相关的包

import numpy as np
import pandas as pd
from pandas import Series, DataFrame
import matplotlib.pyplot as plt
%matplotlib inline

1.2、导入数据

这里一共有三个.dat 数据，还有一个是数据的说明文档(README)，我们可以直接把它们分别拖进浏览器打开查看，如我打开README文件，查看其他三个文件的表头

1.2.1、读取用户数据

# UserID::Gender::Age::Occupation::Zip-code
labels = ['UserID', 'Gender', 'Age', 'Occupation', 'Zip-code']
users = pd.read_csv('users.dat', sep='::', header=None, names=labels, engine ='python')
users.shape

(6040, 5)

查看前五行：

users.head()

	UserID	Gender	Age	Occupation	Zip-code
0	1	F	1	10	48067
1	2	M	56	16	70072
2	3	M	25	15	55117
3	4	M	45	7	02460
4	5	M	25	20	55455

1.2.2、读取电影数据

# MovieID::Title::Genres
labels = ['MovieID', 'Title', 'Genres']
movies = pd.read_csv('movies.dat', sep='::', header=None, names=labels, engine ='python')
movies.shape

(3883, 3)

查看前五行：

	MovieID	Title	Genres
0	1	Toy Story (1995)	Animation\|Children's\|Comedy
1	2	Jumanji (1995)	Adventure\|Children's\|Fantasy
2	3	Grumpier Old Men (1995)	Comedy\|Romance
3	4	Waiting to Exhale (1995)	Comedy\|Drama
4	5	Father of the Bride Part II (1995)	Comedy

1.2.3、读取评分数据

# UserID::MovieID::Rating::Timestamp
labels = ['UserID', 'MovieID', 'Rating', 'Timestamp']
ratings = pd.read_csv('ratings.dat', sep='::', header=None, names=labels, engine ='python')
ratings.shape

(1000209, 4)

查看前五行：

	UserID	MovieID	Rating	Timestamp
0	1	1193	5	978300760
1	1	661	3	978302109
2	1	914	3	978301968
3	1	3408	4	978300275
4	1	2355	5	978824291

1.3、数据合并

数据分布于三个表，可以将数据合并到一个表；数据合并专业词汇，数据集成

展示这三个数据：

display(users.head(), movies.head(), users.head())

movies和ratings有共同的head(MovieID)，先进行合并

df1 = pd.merge(left=movies, right=ratings)
df1.head()

	MovieID	Title	Genres	UserID	Rating	Timestamp
0	1	Toy Story (1995)	Animation\|Children's\|Comedy	1	5	978824268
1	1	Toy Story (1995)	Animation\|Children's\|Comedy	6	4	978237008
2	1	Toy Story (1995)	Animation\|Children's\|Comedy	8	4	978233496
3	1	Toy Story (1995)	Animation\|Children's\|Comedy	9	5	978225952
4	1	Toy Story (1995)	Animation\|Children's\|Comedy	10	5	978226474

df1 和 users 合并：

movie_data = pd.merge(df1, users)

1.4、查看数据

1.4.1、查看数据形状

movie_data.shape

(1000209, 10)

1.4.2、查看前5行

movie_data.head()

	MovieID	Title	Genres	UserID	Rating	Timestamp	Gender	Age	Occupation	Zip-code
0	1	Toy Story (1995)	Animation\|Children's\|Comedy	1	5	978824268	F	1	10	48067
1	48	Pocahontas (1995)	Animation\|Children's\|Musical\|Romance	1	5	978824351	F	1	10	48067
2	150	Apollo 13 (1995)	Drama	1	5	978301777	F	1	10	48067
3	260	Star Wars: Episode IV - A New Hope (1977)	Action\|Adventure\|Fantasy\|Sci-Fi	1	4	978300760	F	1	10	48067
4	527	Schindler's List (1993)	Drama\|War	1	5	978824195	F	1	10	48067

1.4.3、查看去重后大小

movie_data['Title'].unique().size

2、平均分较高的电影

2.1、调用透视表

movie_rate_mean = pd.pivot_table(movie_data, values=['Rating'], index=['Title'], aggfunc='mean')
movie_rate_mean.shape

(3706, 1)

2.2、查看前五行

	Rating
Title
$1,000,000 Duck (1971)	3.027027
'Night Mother (1986)	3.371429
'Til There Was You (1997)	2.692308
'burbs, The (1989)	2.910891
...And Justice for All (1979)	3.713568

2.3、排序

movie_rate_mean.sort_values(by='Rating', ascending=False, inplace=True)

2.4、查看前10名

直接截取出前面10条数据

movie_rate_mean[0: 10]

	Rating
Title
Ulysses (Ulisse) (1954)	5.0
Lured (1947)	5.0
Follow the Bitch (1998)	5.0
Bittersweet Motel (2000)	5.0
Song of Freedom (1936)	5.0
One Little Indian (1973)	5.0
Smashing Time (1967)	5.0
Schlafes Bruder (Brother of Sleep) (1995)	5.0
Gate of Heavenly Peace, The (1995)	5.0
Baby, The (1973)	5.0

2.5、查看后10名

movie_rate_mean[-10: ]

3、不同性别对电影平均评分

透视表透视数据的结构

方法一：

movie_gender_rating_mean = pd.pivot_table(movie_data, values=['Rating'], index=['Title', 'Gender'], aggfunc='mean')
movie_gender_rating_mean.shape #(7152, 1)
movie_gender_rating_mean.head()

		Rating
Title	Gender
$1,000,000 Duck (1971)	F	3.375000
$1,000,000 Duck (1971)	M	2.761905
'Night Mother (1986)	F	3.388889
'Night Mother (1986)	M	3.352941
'Til There Was You (1997)	F	2.675676

方法二：

movie_gender_rating_mean = pd.pivot_table(movie_data, values='Rating', index=['Title'], columns=['Gender'], aggfunc='mean')
movie_gender_rating_mean.shape #(3706, 2)
movie_gender_rating_mean.head()

Gender	F	M
Title
$1,000,000 Duck (1971)	3.375000	2.761905
'Night Mother (1986)	3.388889	3.352941
'Til There Was You (1997)	2.675676	2.733333
'burbs, The (1989)	2.793478	2.962085
...And Justice for All (1979)	3.828571	3.689024

4、不同性别争议最大的电影

原理： 用女性的评分减去男性的评分得出它们评分得差距

4.1、评分差距

# 新增一列，男女用户对电影评分的差异
movie_gender_rating_mean['diff'] = movie_gender_rating_mean['F'] - movie_gender_rating_mean['M']
movie_gender_rating_mean.head()

Gender	F	M	diff
Title
$1,000,000 Duck (1971)	3.375000	2.761905	0.613095
'Night Mother (1986)	3.388889	3.352941	0.035948
'Til There Was You (1997)	2.675676	2.733333	-0.057658
'burbs, The (1989)	2.793478	2.962085	-0.168607
...And Justice for All (1979)	3.828571	3.689024	0.139547

4.2、排序

movie_gender_rating_mean.sort_values(by='diff', ascending=False, inplace=True)

4.3、查看差距情况

● 女性用户和男性用户差异最大，前面为正，女性用户最喜欢的前10个

movie_gender_rating_mean[:10]

Gender	F	M	diff
Title
James Dean Story, The (1957)	4.000000	1.000000	3.000000
Spiders, The (Die Spinnen, 1. Teil: Der Goldene See) (1919)	4.000000	1.000000	3.000000
Country Life (1994)	5.000000	2.000000	3.000000
Babyfever (1994)	3.666667	1.000000	2.666667
Woman of Paris, A (1923)	5.000000	2.428571	2.571429
Cobra (1925)	4.000000	1.500000	2.500000
Other Side of Sunday, The (S鴑dagsengler) (1996)	5.000000	2.928571	2.071429
Theodore Rex (1995)	3.000000	1.000000	2.000000
For the Moment (1994)	5.000000	3.000000	2.000000
Separation, The (La S閜aration) (1994)	4.000000	2.000000	2.000000

● 女性用户和男性用户差异最大，后面为负，男性用户最喜欢的前10个，也就是倒数10个

movie_gender_rating_mean[-10: ]

Gender	F	M	diff
Title
White Boys (1999)	NaN	1.000000	NaN
Wild Bill (1995)	NaN	3.146341	NaN
Windows (1980)	NaN	1.000000	NaN
Wings of Courage (1995)	NaN	3.000000	NaN
With Byrd at the South Pole (1930)	NaN	2.000000	NaN
With Friends Like These... (1998)	NaN	4.000000	NaN
Wooden Man's Bride, The (Wu Kui) (1994)	NaN	3.000000	NaN
Year of the Horse (1997)	NaN	3.250000	NaN
Zachariah (1971)	NaN	3.500000	NaN
Zero Kelvin (Kj鎟lighetens kj鴗ere) (1995)	NaN	3.500000	NaN

出现空值的原因： 由于有写电影女性不观看和不评论，所以出现空值，需要去掉空值再查看数据。

movie_gender_rating_mean.dropna()[-10: ]

Gender	F	M	diff
Title
Jamaica Inn (1939)	1.0	3.142857	-2.142857
Flying Saucer, The (1950)	1.0	3.300000	-2.300000
Rosie (1998)	1.0	3.333333	-2.333333
In God's Hands (1998)	1.0	3.333333	-2.333333
Dangerous Ground (1997)	1.0	3.333333	-2.333333
Killer: A Journal of Murder (1995)	1.0	3.428571	-2.428571
Stalingrad (1993)	1.0	3.593750	-2.593750
Enfer, L' (1994)	1.0	3.750000	-2.750000
Neon Bible, The (1995)	1.0	4.000000	-3.000000
Tigrero: A Film That Was Never Made (1994)	1.0	4.333333	-3.333333

4.4、男女数据集联

diff = pd.concat([f, m])

4.5、分析结果

# 分析结果，数据可视化
diff.plot(kind='barh', figsize=(12, 9)) #barh水平方向

5、评分次数最多热门的电影

5.1、pandas 分组运算

rating_count = movie_data.groupby(['Title']).size()#统计电影名称出现的次数
rating_count

Title
$1,000,000 Duck (1971)                       37
'Night Mother (1986)                         70
'Til There Was You (1997)                    52
'burbs, The (1989)                          303
...And Justice for All (1979)               199
                                           ... 
Zed & Two Noughts, A (1985)                  29
Zero Effect (1998)                          301
Zero Kelvin (Kj鎟lighetens kj鴗ere) (1995)      2
Zeus and Roxanne (1997)                      23
eXistenZ (1999)                             410
Length: 3706, dtype: int64

5.2、排序

rating_count.sort_values(ascending=False) #ascending=False不进行升序

Title
American Beauty (1999)                                   3428
Star Wars: Episode IV - A New Hope (1977)                2991
Star Wars: Episode V - The Empire Strikes Back (1980)    2990
Star Wars: Episode VI - Return of the Jedi (1983)        2883
Jurassic Park (1993)                                     2672
                                                         ... 
Anna (1996)                                                 1
McCullochs, The (1975)                                      1
Shadows (Cienie) (1988)                                     1
Night Tide (1961)                                           1
Another Man's Poison (1952)                                 1
Length: 3706, dtype: int64

6、查看不同年龄段争议最大的电影

6.1、查看用户的年龄分布情况

直方图展示：

movie_data['Age'].plot(kind='hist', bins=20)

求最大值：

movie_data.Age.max()

6.2、用pandas.cut()函数将用户年龄分组

labels = ['0-9', '10-19', '20-29', '30-39', '40-49', '50-59']
movie_data['Age_range'] = pd.cut(movie_data['Age'], bins=range(0, 61, 10), labels=labels)
movie_data.head()

	MovieID	Title	Genres	UserID	Rating	Timestamp	Gender	Age	Occupation	Zip-code	Age_range
0	1	Toy Story (1995)	Animation\|Children's\|Comedy	1	5	978824268	F	1	10	48067	0-9
1	48	Pocahontas (1995)	Animation\|Children's\|Musical\|Romance	1	5	978824351	F	1	10	48067	0-9
2	150	Apollo 13 (1995)	Drama	1	5	978301777	F	1	10	48067	0-9
3	260	Star Wars: Episode IV - A New Hope (1977)	Action\|Adventure\|Fantasy\|Sci-Fi	1	4	978300760	F	1	10	48067	0-9
4	527	Schindler's List (1993)	Drama\|War	1	5	978824195	F	1	10	48067	0-9

6.3、每个年龄段用户评分人数和打分偏好

6.3.1、年龄范围评分的平均分

movie_data.groupby('Age_range')['Rating'].mean()

Age_range
0-9      3.549520
10-19    3.507573
20-29    3.545235
30-39    3.618162
40-49    3.673559
50-59    3.766632
Name: Rating, dtype: float64

6.3.2、年龄范围评分的人数

movie_data.groupby('Age_range')['Rating'].size()

Age_range
0-9       27211
10-19    183536
20-29    395556
30-39    199003
40-49    156123
50-59     38780
Name: Rating, dtype: int64

6.3.3、同时求每个年龄段评分人数及平均分

movie_data.groupby('Age_range').agg({'Rating':[np.size, np.mean]})

	Rating
	size	mean
Age_range
0-9	27211	3.549520
10-19	183536	3.507573
20-29	395556	3.545235
30-39	199003	3.618162
40-49	156123	3.673559
50-59	38780	3.766632

7、优化数据，真实可靠

问题： 为什么那些平均分高的电影，我们重来没有看过？甚至有些听都没有听说过？这个问题是不是不符合常理，毕竟国内外好的电影大家案例说都应该耳熟能详的，所有这其中一定存在错误

movie_rate_mean[:10]

	Rating
Title
Ulysses (Ulisse) (1954)	5.0
Smashing Time (1967)	5.0
Baby, The (1973)	5.0
Gate of Heavenly Peace, The (1995)	5.0
Schlafes Bruder (Brother of Sleep) (1995)	5.0
Lured (1947)	5.0
One Little Indian (1973)	5.0
Song of Freedom (1936)	5.0
Bittersweet Motel (2000)	5.0
Follow the Bitch (1998)	5.0

这是为什么？ 因为评分次数相差悬殊，看的人少，少数人评分反而很高

解决方案：

加入评分次数限制来分析不同性别对电影的平均评分
加入评分次数限制来分析平均分高的电影

7.1加入评分次数限制来分析不同性别对电影的平均评分

7.1.1、建立索引

#以Title进行分组，统计次数大小，排序，数据反转，前50列，索引
top_movie_title = movie_data.groupby('Title').size().sort_values()[::-1][:50].index
top_movie_title.size

7.1.2、找出这50行数据

flag = movie_gender_rating_mean.index.isin(top_movie_title)
df1 = movie_gender_rating_mean[flag].sort_values(by='diff')
df1.head()

Gender	F	M	diff
Title
Airplane! (1980)	3.656566	4.064419	-0.407854
Godfather: Part II, The (1974)	4.040936	4.437778	-0.396842
Aliens (1986)	3.802083	4.186684	-0.384601
Terminator 2: Judgment Day (1991)	3.785088	4.115367	-0.330279
Alien (1979)	3.888252	4.216119	-0.327867

7.1.3、数据可视化分析

查看被评价过最多次的50部电影在不同年龄段之间的打分差异

df1.plot(kind='barh', figsize=(12, 9))

7.2、加入评分次数限制来分析平均分高的电影

7.2.1、建立索引

index = movie_data.groupby('Title').size().sort_values()[::-1][:50].index
index.shape

(50,)

7.2.2、索引出符合条件的数据

flag = movie_rating_mean.index.isin(index)
# 热门电影平均分
movie_rating_top_mean = movie_rating_mean[flag]
movie_rating_top_mean.sort_values(by='Rating', ascending=False)

	Rating
Title
Shawshank Redemption, The (1994)	4.554558
Godfather, The (1972)	4.524966
Usual Suspects, The (1995)	4.517106
Schindler's List (1993)	4.510417
Raiders of the Lost Ark (1981)	4.477725
Star Wars: Episode IV - A New Hope (1977)	4.453694
Sixth Sense, The (1999)	4.406263
One Flew Over the Cuckoo's Nest (1975)	4.390725
Godfather: Part II, The (1974)	4.357565
Silence of the Lambs, The (1991)	4.351823
Saving Private Ryan (1998)	4.337354
American Beauty (1999)	4.317386
Matrix, The (1999)	4.315830
Princess Bride, The (1987)	4.303710
Star Wars: Episode V - The Empire Strikes Back (1980)	4.292977
Pulp Fiction (1994)	4.278213
Blade Runner (1982)	4.273333
Fargo (1996)	4.254676
Wizard of Oz, The (1939)	4.247963
Braveheart (1995)	4.234957
L.A. Confidential (1997)	4.219406
Alien (1979)	4.159585
Terminator, The (1984)	4.152050
Toy Story (1995)	4.146846

数据分析入门初解 Mikhail_G 数据分析 python 大数据运维开发语言
大家好!在当今数字化时代，数据分析已成为一项备受瞩目的技能。它就像一把神奇的钥匙，能够打开隐藏在数据背后世界的大门，帮助我们更好地理解周围的一切并做出明智的决策。如果你是数据分析的初学者，这篇文章将为你开启一段简单易懂的探索之旅。一、什么是数据分析数据分析就是对收集到的数据进行整理、处理和分析，从中提取有价值的信息和知识。想象一下，你有一大堆杂乱无章的考试成绩，通过数据分析，你可以找出最高分、最低
如何进行Python数据分析？正确的“入门之路”三部曲！_python医学数据分析入门 2401_84301948 程序员网络安全学习面试
给大家的福利零基础入门对于从来没有接触过网络安全的同学，我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。同时每个成长路线对应的板块都有配套的视频提供：因篇幅有限，仅展示部分资料网络安全面试题绿盟护网行动还有大家最喜欢的黑客技术网络安全源码合集+工具包所有资料共282G，朋友们如果有需要全套《网络安全入门+黑客进阶学习资源包》，可以扫描下方二维码
数据分析入门指南：从历史到实践搞程序的心海数据分析数据分析人工智能大数据
在信息爆炸的时代，数据分析已经成为各行各业不可或缺的技能，无论是商业决策、医疗研究，还是社会科学，数据分析都在其中扮演着关键角色。本文将带你深入了解数据分析的历史、定义、流程、数据来源与处理、常用工具，并通过实际案例，让你对数据分析有更加全面的认识。目录一、数据分析的历史沿革二、什么是数据分析三、数据分析的流程1、明确问题2、收集数据3、数据处理4、数据分析5、结果解释6、报告撰写与展示四、数据来
数据分析基础：需要掌握的入门知识数字天下数据分析数据库人工智能
数据分析基础：你需要掌握的入门知识数据分析是一项令人着迷的技能，它不仅仅关乎处理数字，更是将复杂的数据转化为有意义的洞察，推动决策并创造价值。作为一名数据分析的从业者，我常常被问及如何入门这个领域，特别是对于那些刚开始接触数据分析的人来说，掌握哪些基础知识是关键。这篇文章将结合我的经验和个人见解，为你详细解析数据分析入门所需的核心知识。统计学基础：数据分析的灵魂在我刚开始数据分析职业生涯时，统计学
【数据分析入门】R语言读写文本文件及RDATA文件如果我是温帅帅数据分析 r语言
一、读入文件x<-read.table("input.txt")head(x)x<-read.table("input.csv")x<-read.table("input.csv",sep=",")x<-read.table("input.csv",sep=",",header=T)x<-read.table("input.test.txt",sep=",",header=T,skip=5)x<-
【Python使用】嘿马python数据分析教程第4篇：特征工程,特征衍生【附代码文档】 python后端
教程总体简介：Excel的使用全渠道业务概述1.Excel的使用(预计4小时)2.全渠道业务分析(预计4小时)第01章Pandas基础第02章DataFrame基本操作第03章数据分析入门第04章选取数据子集第05章布尔索引第06章分组聚合、过滤、转换第09章时间序列分析第10章用Matplotlib、Pandas、Seaborn进行可视化完整笔记资料代码：https://gitee.com/yi
python数据分析入门与实战王静_Keras快速上手：基于Python的深度学习实战 weixin_39724362
1准备深度学习的环境11.1硬件环境的搭建和配置选择.........................11.1.1通用图形处理单元..........................31.1.2你需要什么样的GPU加速卡....................61.1.3你的GPU需要多少内存.......................61.1.4是否应该用多个GPU..............
Python数据分析入门与Pandas master_chenchengg python python 办公效率 python开发 IT
Python数据分析入门与Pandas一、开启Python之旅：为什么选择Python进行数据分析缘起：从Excel到Python的转变为何Python是数据分析的首选语言Python的魅力：简洁与强大并存二、初识Pandas：解锁数据处理的超级能力Pandas是什么：从零开始了解Series与DataFrame：Pandas的核心数据结构如何创建第一个DataFrame：动手试试看三、数据清洗：
3.Python数据分析—数据分析入门知识图谱&索引(知识体系中篇) 以山河作礼。 Python数据分析项目数据分析知识图谱数据挖掘 python 开发语言
3.Python数据分析—数据分析入门知识图谱&索引-知识体系中篇一·个人简介二·数据获取和处理2.1数据来源：2.2数据清洗：2.2.1缺失值处理：2.2.2异常值处理：2.3数据转换：2.3.1数据类型转换：2.3.2数据编码：2.4数据合并与重塑：2.4.1数据合并：2.4.2数据拼接：2.4.3数据重塑：三·数据探索与分析3.1描述性统计分析3.2数据可视化原则和技巧3.3探索性数据分析（
第十三届脑电数据分析入门班（训练营：2023.11.15~11.28）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑电图具有高时间分辨率、成本低、无创以及便于操作等特点，在认知神经科学领域具有独特的应用优势。熟悉脑电的神经生理学基
第十三届脑电数据分析入门班（训练营：2023.11.15~11.28）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑电图具有高时间分辨率、成本低、无创以及便于操作等特点，在认知神经科学领域具有独特的应用优势。熟悉脑电的神经生理学基
QGIS数据分析入门——Qgis下载及界面介绍（一） shishi521 qgis 数据分析数据挖掘 qgis
QGIS是免费的地图数据展示和分析工具。课程任务本教程使用QGIS3.20建议您按照本教程中的详细制图步骤，通过QGIS使用示范数据一步一步实际动手操作，完成教程中的制图任务。将会学到的其他技巧如何查看和修改QGIS下载安装，设置中文。如何使用QGIS界面介绍。软件下载1.软件下载直接百度搜索“qgis下载”，从.org这样的结尾的官网上下载2.直接点击我分享的下载地址下载QGIShttps://
第十二届脑电数据分析入门班（训练营：2023.9.6~9.19）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑电图具有高时间分辨率、成本低、无创以及便于操作等特点，在认知神经科学领域具有独特的应用优势。熟悉脑电的神经生理学基
RNA-seq转录组数据分析医学小白学生信
B站：RNA-seq转录组数据分析入门实战1linux常用命令touchtext.txt#新建文件rm-rf/var/log/httpd/access#将会删除/var/log/httpd/access目录以及其下所有文件、文件夹rm-f*html#删除所有html格式文件rm-f*zip#删除所有zip格式文件tarzxvf#解压tar.gz文件tarjxvfsamtools-1.11.tar.
第十一届脑电数据分析入门班（训练营：2023.7.19~8.1）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑电图具有高时间分辨率、成本低、无创以及便于操作等特点，在认知神经科学领域具有独特的应用优势。熟悉脑电的神经生理学基
Python数据分析入门书籍推荐！ IT青年
在当下这个数据驱动的时代，毫不夸张的说各行各业的商业决策和运营管理都离不开数据分析，因此数据分析已经成为当前每个人的必备技能和加分项。对于许多初学者来讲，想要入门Python数据分析常常不知道从何下手。本文将为大家推荐一些适合零基础学习者阅读的Python数据分析入门书籍，感兴趣的话就接着看下去吧！为了帮助大家更轻松的学好Python开发，Python爬虫技术，Python数据分析等相关知识,给大
DAY7+ 学习笔记 by 康康 ReneeeeKKKK
《R与tidyverse——数据分析入门》学习笔记R与tidyverse——数据分析入门3.dataframe和tibbleR中的多变量数据的标准保存形式是dataframe；tibble是dataframe的进化版。一个正确的dataframe书中截图创建tibble3.1新建一个tibbletbble()【注意】tibble是按列写入的举例：my_tibble_1=4&Petal.Length
空间数据分析入门POI与莫兰指数基础知识笔记肖永威数据分析人工智能及Python 数据分析空间数据分析 POI 莫兰指数 python
1.空间分析与POI1.1.什么是POIPOI是“PolntofInformation”的缩写，中文可以翻译为“信息点”。POI是地图上任何非地理意义的有意义的点，如商店、酒吧、加油站、医院、车站等。这些点通常包括名称、类别、经纬度和地址等基本信息。此外，POI数据还可以进一步扩展，包括营业时间、联系电话、人均消费等信息，以满足不同应用场景的需求。POI数据的应用场景非常广泛，包括但不限于：城市规
数据分析入门指南：用 Python 开启数据之旅东离与糖宝合作推广数据分析 python 数据挖掘
文章目录前言发现宝藏为什么选择Python进行数据分析？准备工作数据分析基础1.数据加载2.数据探索3.数据清洗4.数据可视化探索更多可能性好书推荐总结前言为了巩固所学的知识，作者尝试着开始发布一些学习笔记类的博客，方便日后回顾。当然，如果能帮到一些萌新进行新技术的学习那也是极好的。作者菜菜一枚，文章中如果有记录错误，欢迎读者朋友们批评指正。（博客的参考源码可以在我主页的资源里找到，如果在学习的过
后天开课 | 第十一届脑电数据分析入门班（训练营：2023.7.19~8.1）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑电图具有高时间分辨率、成本低、无创以及便于操作等特点，在认知神经科学领域具有独特的应用优势。熟悉脑电的神经生理学基
第十二届脑电数据分析入门班（训练营：2023.9.6~9.19）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑电图具有高时间分辨率、成本低、无创以及便于操作等特点，在认知神经科学领域具有独特的应用优势。熟悉脑电的神经生理学基
第十三届脑电数据分析入门班（训练营：2023.11.15~11.28）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑电图具有高时间分辨率、成本低、无创以及便于操作等特点，在认知神经科学领域具有独特的应用优势。熟悉脑电的神经生理学基
浅谈数据分析思维戏说猫狗
笔名：戏说猫狗全文共2331字，阅读需要6分钟我之前有写过数据分析系列《数据分析从简入手，一招让你更专业》（点击可跳转入门篇），是以案例入手讲数据分析入门的。但这次我不讲如何进行数据分析，而是来浅谈一下数据分析的思维和现状。因为数据驱动产品一定少不了数据分析这个话题，我尽量以最简单通俗的语言来聊一聊。——BEGIN——数据分析是个什么东西？我们把这个名词分解来看：数据和分析。这里面最主要的不是数据
第十二届脑电数据分析入门班（训练营：2023.9.6~9.19）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑电图具有高时间分辨率、成本低、无创以及便于操作等特点，在认知神经科学领域具有独特的应用优势。熟悉脑电的神经生理学基
探索数据的奥秘：一份深入浅出的数据分析入门指南 uncle_ll 数据库数据分析数据挖掘入门
数据分析书籍推荐入门读物深入浅出数据分析啤酒与尿布数据之美数学之美数据分析ScipyandNumpyPythonforDataAnalysisBadDataHandbook集体智慧编程MachineLearninginAction机器学习实战BuildingMachineLearningSystemswithPython数据挖掘导论MachineLearningforHackers专业读物Intr
明天开课 | 第十一届脑电数据分析入门班（训练营：2023.7.19~8.1）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑电图具有高时间分辨率、成本低、无创以及便于操作等特点，在认知神经科学领域具有独特的应用优势。熟悉脑电的神经生理学基
Python数据分析入门到进阶：数据清洗（含详细代码） Python_魔力猿 python 数据分析开发语言
在上一篇文章中，介绍了如何使用python导入数据，导入数据后的第二步往往就是数据清洗，下面我们来看看如何使用pandas进行数据清洗工作导入相关库importpandasaspddataframe=pd.read_csv(r'C:/Users/DELL/data-science-learning/python数据分析笔记/探索性数据分析/train.csv')dataframe.head(5)P
数据分析入门准备小跳蛙leapfrog 数据分析数据挖掘人工智能
目标：数据挖掘，数据分析偏数据挖掘方向春招找到工作，11月找到实习入门参考资料：1.数据分析求职面试指南拿下Offer：数据分析师求职面试指南（掌阅）2.stone教你如何做数据分析项目Stone教你如何做数据分析项目（上）_哔哩哔哩_bilibili计划：三天看完并修改简历
第十二届脑电数据分析入门班（训练营：2023.9.6~9.19）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑电图具有高时间分辨率、成本低、无创以及便于操作等特点，在认知神经科学领域具有独特的应用优势。熟悉脑电的神经生理学基
从零开始了解大数据(七)：总结橘子-青衫从零开始了解大数据大数据大数据 hadoop hive big data hdfs 数据仓库
系列文章目录从零开始了解大数据(一)：数据分析入门篇-CSDN博客从零开始了解大数据(二)：Hadoop篇-CSDN博客从零开始了解大数据(三)：HDFS分布式文件系统篇-CSDN博客从零开始了解大数据(四)：MapReduce篇-CSDN博客从零开始了解大数据(五)：YARN篇-CSDN博客从零开始了解大数据(六)：数据仓库Hive篇-CSDN博客目录系列文章目录前言一、数据分析1.企业数据分析
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

数据分析入门之好莱坞百万级评论数据分析

文章目录

1、数据的加载与集成

1.1、导入相关的包

1.2、导入数据

1.2.1、读取用户数据

1.2.2、读取电影数据

1.2.3、读取评分数据

1.3、数据合并

1.4、查看数据

1.4.1、查看数据形状

1.4.2、查看前5行

1.4.3、查看去重后大小

2、平均分较高的电影

2.1、调用透视表

2.2、查看前五行

2.3、排序

2.4、查看前10名

2.5、查看后10名

3、不同性别对电影平均评分

4、不同性别争议最大的电影

4.1、评分差距

4.2、排序

4.3、查看差距情况

4.4、男女数据集联

4.5、分析结果

5、评分次数最多热门的电影

5.1、pandas 分组运算

5.2、排序

6、查看不同年龄段争议最大的电影

6.1、查看用户的年龄分布情况

6.2、用pandas.cut()函数将用户年龄分组

6.3、每个年龄段用户评分人数和打分偏好

6.3.1、年龄范围评分的平均分

6.3.2、年龄范围评分的人数

6.3.3、同时求每个年龄段评分人数及平均分

7、优化数据，真实可靠

7.1加入评分次数限制来分析不同性别对电影的平均评分

7.1.1、建立索引

7.1.2、找出这50行数据

7.1.3、数据可视化分析

7.2、加入评分次数限制来分析平均分高的电影

7.2.1、建立索引

7.2.2、索引出符合条件的数据

你可能感兴趣的:(数据分析入门)