黑夜中奔跑

hive 练习影评案列

一、案列说明:

现有如此三份数据：

1、users.dat 数据格式为： 2::M::56::16::70072，

共有6040条数据
对应字段为：UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String
对应字段中文解释：用户id，性别，年龄，职业，邮政编码

2、movies.dat 数据格式为： 2::Jumanji (1995)::Adventure|Children’s|Fantasy，

共有3883条数据
对应字段为：MovieID BigInt, Title String, Genres String
对应字段中文解释：电影ID，电影名字，电影类型

3、ratings.dat 数据格式为： 1::1193::5::978300760，

共有1000209条数据
对应字段为：UserID BigInt, MovieID BigInt, Rating Double, Timestamped String
对应字段中文解释：用户ID，电影ID，评分，评分时间戳

题目要求
　　数据要求：
　　　　（1）写shell脚本清洗数据。（hive不支持解析多字节的分隔符，也就是说hive只能解析’:’, 不支持解析’::’，所以用普通方式建表来使用是行不通的，要求对数据做一次简单清洗）
　　　　（2）使用Hive能解析的方式进行

Hive要求：
　　　　（1）正确建表，导入数据（三张表，三份数据），并验证是否正确

（2）求被评分次数最多的10部电影，并给出评分次数（电影名，评分次数）

（3）分别求男性，女性当中评分最高的10部电影（性别，电影名，影评分）

（4）求movieid = 2116这部电影各年龄段（因为年龄就只有7个，就按这个7个分就好了）的平均影评（年龄段，影评分）

（5）求最喜欢看电影（影评次数最多）的那位女性评最高分的10部电影的平均影评分（观影者，电影名，影评分）

（6）求好片（评分>=4.0）最多的那个年份的最好看的10部电影

（7）求1997年上映的电影中，评分最高的10部Comedy类电影

（8）该影评库中各种类型电影中评价最高的5部电影（类型，电影名，平均影评分）

（9）各年评分最高的电影类型（年份，类型，影评分）

（10）每个地区最高评分的电影名，把结果存入HDFS（地区，电影名，影评分）

二、数据下载

(https://files.cnblogs.com/files/qingyunzong/hive%E5%BD%B1%E8%AF%84%E6%A1%88%E4%BE%8B.zip)
解析
之前已经使用MapReduce程序将3张表格进行合并，所以只需要将合并之后的表格导入对应的表中进行查询即可.

三、前提准备

1、正确创建表,导入数据(三张表,三份数据),并验证是否正确.

1.分析需求

需要创建一个数据库movie,在movie数据库中创建3张表,t_user,t_movice,t_rating

t_user: userid bigint, sex string, age int, occupation string, zipcode string
t_movie: movieid bigint, moviename string, movietype string
t_rating: userid bigint, movieid bigint, rate double, times string

原数据是以::进行切分的,所以需要使用能解析多字节分隔符的Serde即可
使用RegexSerde, 需要两个参数：

input.regex = "(.*)::(.*)::(.*)"
output.format.string = "%1$s %2$s %3$s"

2.创建数据库

drop database if exists movie;
create database if not exists movie;
use movie;

3.创建t_user表

create table t_user(
userid bigint,
sex string,
age int,
occupation string,
zipcode string) 
row format serde 'org.apache.hadoop.hive.serde2.RegexSerDe' 
with serdeproperties('input.regex'='(.*)::(.*)::(.*)::(.*)::(.*)','output.format.string'='%1$s %2$s %3$s %4$s %5$s')
stored as textfile;

4.创建t_movie表

create table t_movie(
movieid bigint,
moviename string,
movietype string) 
row format serde 'org.apache.hadoop.hive.serde2.RegexSerDe' 
with serdeproperties('input.regex'='(.*)::(.*)::(.*)','output.format.string'='%1$s %2$s %3$s')
stored as textfile;

5.创建t_rating表

create table t_rating(
userid bigint,
movieid bigint,
rate double,
times string) 
row format serde 'org.apache.hadoop.hive.serde2.RegexSerDe' 
with serdeproperties('input.regex'='(.*)::(.*)::(.*)::(.*)','output.format.string'='%1$s %2$s %3$s %4$s')
stored as textfile;

四、导入数据

上传文件目录


查询所有导入文件

select t.* from t_user t;
select t.* from t_movie t;
select t.* from t_rating t;

五、分析查询数据

5.1 求被评分次数最多的10部电影,并给出评分次数(电影名,评分次数)

HIVE显示表头:set hive.cli.print.header=true;

(1) 思路分析:

1.需求字段: 电影名 t_movie.moviename
评分次数 t_rating.rate count()
2.核心SQL:按电影名进行分组统计,求出每部电影的评分次数并按照评分次数降序排序.

(2)完整SQL

create table answer2 as 
select a.moviename as moviename,count(a.moviename) as total 
from t_movie a join t_rating b on a.movieid=b.movieid 
group by a.moviename 
order by total desc 
limit 10;

select * from answer2;

5.2 分别求男性，女性当中评分最高的10部电影（性别，电影名，影评分）

(1) 分析思路:

1、需求字段：性别 t_user.sex
　　　　　　电影名　 t_movie.moviename
　　　　　　影评分 t_rating.rate
　　　　　　
2、核心SQL：三表联合查询，按照性别过滤条件，电影名作为分组条件，影评分作为排序条件进行查询

(2)完整SQL

女性当中评分最高的10部电影（性别，电影名，影评分）评论次数大于等于50次

create table answer3_F as 
select "F" as sex, c.moviename as name, avg(a.rate) as avgrate, count(c.moviename) as total  
from t_rating a 
join t_user b on a.userid=b.userid 
join t_movie c on a.movieid=c.movieid 
where b.sex="F" 
group by c.moviename 
having total >= 50
order by avgrate desc 
limit 10;

select * from answer3_F

5.3 男性当中评分最高的10部电影(性别,电影名,影评分)评分次数大于等于50次.

create table answer3_M as 
select "M" as sex, c.moviename as name, avg(a.rate) as avgrate, count(c.moviename) as total  
from t_rating a 
join t_user b on a.userid=b.userid 
join t_movie c on a.movieid=c.movieid 
where b.sex="M" 
group by c.moviename 
having total >= 50
order by avgrate desc 
limit 10;

select * from answer3_M;

5.4 求movieid=2116这部电影各年龄段(因为年龄就只有7个,就按这个分就好了)的平均影评(年龄段,影评分)

(1) 分析思路:

1、需求字段：年龄段　　t_user.age
影评分　t_rating.rate

2、核心SQL：t_user和t_rating表进行联合查询，用movieid=2116作为过滤条件，用年龄段作为分组条件

(2)完整SQL:

create table answer4 as 
select a.age as age, avg(b.rate) as avgrate 
from t_user a join t_rating b on a.userid=b.userid 
where b.movieid=2116 
group by a.age;

select * from answer4;

5.5、求最喜欢看电影(影评次数最多)的那位女性评分最高的10部电影的平均影评分(观影者,电影名,影评分)

(1)分析思路

1、需求字段：观影者　t_rating.userid
电影名　t_movie.moviename
影评分　t_rating.rate

2、核心SQL：
A.需要先求出最喜欢看电影的那位女性
需要查询的字段：性别：t_user.sex
影次数：count(t_rating.userid)
　　　
　　　　B.根据A中求出的女性userid作为where过滤条件，以看过的电影的影评分rate作为排序条件进行排序，求出评分最高的10部电影需要查询的字段：电影的ID：t_rating.movieid
　　　　
　　　　C.求出B中10部电影的平均影评分
　　　　需要查询的字段：电影的ID：answer5_B.movieid
　　　　影评分：t_rating.rate

(2)完整SQL

A 求需要先求出最喜欢看电影的那位女性

select a.userid, count(a.userid) as total 
from t_rating a join t_user b on a.userid = b.userid 
where b.sex="F" 
group by a.userid 
order by total desc 
limit 1;

B 根据A中求出的女性userid作为where过滤条件,以看过的电影的评分rate作为排序条件进行排序,求出评分最高的10部电影.

create table answer5_B as 
select a.movieid as movieid, a.rate as rate  
from t_rating a 
where a.userid=1150 
order by rate desc 
limit 10;

select * from answer5_B;

C.求出B中10部电影的平均影评分.

create table answer5_C as 
select b.movieid as movieid, c.moviename as moviename, avg(b.rate) as avgrate 
from answer5_B a 
join t_rating b on a.movieid=b.movieid 
join t_movie c on b.movieid=c.movieid 
group by b.movieid,c.moviename;

select * from answer5_C;

5.6、求好评(评分>=4.0)最多的那个年份的最好看的10部电影.

(1)分析思路:

1、需求字段：电影id　t_rating.movieid
　　　　　　电影名　t_movie.moviename（包含年份）
影评分　t_rating.rate
上映年份　xxx.years

2、核心SQL：
A.需要将t_rating和t_movie表进行联合查询，将电影名当中的上映年份截取出来，保存到临时表answer6_A中
需要查询的字段：电影id　t_rating.movieid
电影名　t_movie.moviename（包含年份）
影评分　t_rating.rate

B.从answer6_A按照年份进行分组条件，按照评分>=4.0作为where过滤条件，按照count(years)作为排序条件进行查询
　　　　需要查询的字段：电影的ID：answer6_A.years

            C.从answer6_A按照years=1998作为where过滤条件，按照评分作为排序条件进行查询
            需要查询的字段：电影的ID：answer6_A.moviename
            影评分：answer6_A.avgrate

(2) 完整SQL

A.需要将t_rating和t_movie表进行联合查询，将电影名当中的上映年份截取出来

create table answer6_A as
select  a.movieid as movieid, a.moviename as moviename, substr(a.moviename,-5,4) as years, avg(b.rate) as avgrate
from t_movie a join t_rating b on a.movieid=b.movieid 
group by a.movieid, a.moviename;

select * from answer6_A;

B.从answer6_A按照年份进行分组,按照评分>40作为where的过滤条件,按照count(years)作为排序条件进行查询.

select years, count(years) as total 
from answer6_A a 
where avgrate >= 4.0 
group by years 
order by total desc 
limit 1;

C.从answer6_A按照years=1998作为where过滤条件,按照评分作为排序条件进行查询.

create table answer6_C as
select a.moviename as name, a.avgrate as rate 
from answer6_A a 
where a.years=1998 
order by rate desc 
limit 10;

select 	* from answer6_c;

5.7求1997年上映的电影中,评分最高的10部Comedy类电影

(1)分析思路:

1、需求字段：电影id　t_rating.movieid
电影名　t_movie.moviename（包含年份）
影评分　t_rating.rate
上映年份　xxx.years（最终查询结果可不显示）
电影类型　xxx.type（最终查询结果可不显示）

2、核心SQL：
A.需要电影类型，所有可以将第六步中求出answer6_A表和t_movie表进行联合查询
需要查询的字段：电影id　answer6_A.movieid
电影名　answer6_A.moviename
影评分　answer6_A.rate
电影类型　t_movie.movietype　
　　　　　　　　　　　上映年份　answer6_A.years

B.从answer7_A按照电影类型中是否包含Comedy和按上映年份作为where过滤条件，按照评分作为排序条件进行查询，将结果保存到answer7_B中
　　　　要查询的字段：电影的ID：answer7_A.id
电影的名称：answer7_A.name
电影的评分：answer7_A.rate

完整SQL:

A.需要电影类型，所有可以将第六步中求出answer6_A表和t_movie表进行联合查询

create table answer7_A as 
select b.movieid as id, b.moviename as name, b.years as years, b.avgrate as rate, a.movietype as type 
from t_movie a join answer6_A b on a.movieid=b.movieid;

select t.* from answer7_A t;

B.从answer7_A按照电影类型中是否包含Comedy和按照评分>=4.0作为where过滤条件，按照评分作为排序条件进行查询，将结果保存到answer7_B中

create table answer7_B as 
select t.id as id, t.name as name, t.rate as rate 
from answer7_A t 
where t.years=1997 and instr(lcase(t.type),'comedy') >0 
order by rate desc
limit

select * from answer7_B;

5.8 该影片库中各种类型电影中平均最高的5部电影(类型,电影名,平均影评分)

(1) 分析思路

1、需求字段：电影id　movieid
电影名　moviename
影评分　rate（排序条件）
电影类型　type（分组条件）

2、核心SQL：
A.需要电影类型，所有需要将answer7_A中的type字段进行裂变，将结果保存到answer8_A中
需要查询的字段：电影id　answer7_A.id

电影名　answer7_A.name（包含年份）

上映年份　answer7_A.years

影评分　answer7_A.rate

                            电影类型　answer7_A.movietype

B.求TopN，按照type分组，需要添加一列来记录每组的顺序，将结果保存到answer8_B中

row_number() ：用来生成 num字段的值
distribute by movietype ：按照type进行分组
sort by avgrate desc ：每组数据按照rate排降序
num：新列， 值就是每一条记录在每一组中按照排序规则计算出来的排序值

C.从answer8_B中取出num列序号<=5的

(2)完整SQL:

A.需要按照电影类型和上映年份进行分组，按照影评分进行排序，将结果保存到answer9_A中

create table answer8_A as 
select a.id as id, a.name as name, a.years as years, a.rate as rate, tv.type as type 
from answer7_A a 
lateral view explode(split(a.type,"\\|")) tv as type;

select * from answer8_A;

B.求TopN，按照type分组，需要添加一列来记录每组的顺序，将结果保存到answer8_B中

create table answer8_B as 
select id,name,years,rate,type,row_number() over(distribute by type sort by rate desc ) as num
from answer8_A;

select * from answer8_B;

C.从answer8_B中取出num列序号<=5的

5.9、求年评分最高的电影类型(年份，类型，影评分）

(1)分析思路

1、需求字段：电影id　movieid

电影名　moviename

影评分　rate（排序条件）

电影类型　type（分组条件）

上映年份　years（分组条件）
2、核心SQL：

A.需要按照电影类型和上映年份进行分组，按照影评分进行排序，将结果保存到answer9_A中

需要查询的字段：

上映年份　answer7_A.years

影评分　answer7_A.rate

电影类型　answer7_A.movietype

B.求TopN，按照years分组，需要添加一列来记录每组的顺序，将结果保存到answer9_B中

C.按照num=1作为where过滤条件取出结果数据

（2）完整SQL

A.需要按照电影类型和上映年份进行分组，按照影评分进行排序，将结果保存到answer9_A中

create table answer9_A as 
select a.years as years, a.type as type, avg(a.rate) as rate 
from answer8_A a 
group by a.years,a.type 
order by rate desc;

select * from answer9_A

B.求TopN，按照years分组，需要添加一列来记录每组的顺序，将结果保存到answer9_B中

create table answer9_B as 
select years,type,rate,row_number() over (distribute by years sort by rate) as num
from answer9_A;

select * from  answer9_B;

C.按照num=1作为where过滤条件取出结果数据

5.10、每个地区最高评分的电影名,把结果存入HDFS(地区,电影名,影评分)

(1) 分析思路

1、需求字段：电影id　t_movie.movieid

电影名　t_movie.moviename

影评分　t_rating.rate（排序条件）

地区　t_user.zipcode（分组条件）

2、核心SQL：
A.需要把三张表进行联合查询，取出电影id、电影名称、影评分、地区，将结果保存到answer10_A表中

需要查询的字段：电影id　t_movie.movieid

电影名　t_movie.moviename

影评分　t_rating.rate（排序条件）

地区　t_user.zipcode（分组条件）

B.求TopN，按照地区分组，按照平均排序，添加一列num用来记录地区排名，将结果保存到answer10_B表中

C.按照num=1作为where过滤条件取出结果数据

(2)完整的SQL

A.需要把三张表进行联合查询，取出电影id、电影名称、影评分、地区，将结果保存到answer10_A表中

create table answer10_A as
select c.movieid, c.moviename, avg(b.rate) as avgrate, a.zipcode
from t_user a 
join t_rating b on a.userid=b.userid 
join t_movie c on b.movieid=c.movieid 
group by a.zipcode,c.movieid, c.moviename;

select t.* from answer10_A t;

B.求TopN，按照地区分组，按照平均排序，添加一列num用来记录地区排名，将结果保存到answer10_B表中

create table answer10_B as
select movieid,moviename,avgrate,zipcode, row_number() over (distribute by zipcode sort by avgrate) as num 
from answer10_A;

select t.* from answer10_B t;

C.按照num=1作为where过滤条件取出结果数据并保存到HDFS上

insert overwrite directory "/movie/answer10/" select t.* from answer10_B t where t.num=1;

PL/SQL语言的文件操作云端架构师包罗万象 golang 开发语言后端
PL/SQL语言的文件操作引言PL/SQL（ProceduralLanguage/SQL）是Oracle数据库提供的一种过程化编程语言，它结合了SQL的强大数据处理能力和过程性编程的灵活性。PL/SQL不仅可以用于数据库的操作和处理用户输入的数据，还可以进行丰富的文件操作。随着数据量的增加和信息处理需求的提高，掌握PL/SQL中的文件操作技术，对于数据库管理员和开发人员而言，显得尤为重要。本文将对
大数据学习（五）：如何使用 Livy提交spark批量任务--转载 zuoseve01 livy
Livy是一个开源的REST接口，用于与Spark进行交互，它同时支持提交执行代码段和完整的程序。Livy封装了spark-submit并支持远端执行。启动服务器执行以下命令，启动livy服务器。./bin/livy-server这里假设spark使用yarn模式，所以所有文件路径都默认位于HDFS中。如果是本地开发模式的话，直接使用本地文件即可（注意必须配置livy.conf文件，设置livy.
Spark Livy 指南及livy部署访问实践 house.zhang 大数据-Spark 大数据
背景：ApacheSpark是一个比较流行的大数据框架、广泛运用于数据处理、数据分析、机器学习中，它提供了两种方式进行数据处理，一是交互式处理：比如用户使用spark-shell，编写交互式代码编译成spark作业提交到集群上去执行；二是批处理，通过spark-submit提交打包好的spark应用jar到集群中进行执行。这两种运行方式都需要安装spark客户端配置好yarn集群信息，并打通集群网
大数据学习（四）：Livy的安装配置及pyspark的会话执行猪笨是念来过倒大数据 pyspark
一个基于Spark的开源REST服务，它能够通过REST的方式将代码片段或是序列化的二进制代码提交到Spark集群中去执行。它提供了以下这些基本功能：提交Scala、Python或是R代码片段到远端的Spark集群上执行；提交Java、Scala、Python所编写的Spark作业到远端的Spark集群上执行；提交批处理应用在集群中运行。从Livy所提供的基本功能可以看到Livy涵盖了原生Spar
网络爬虫——分布式爬虫架构好看资源分享网络爬虫 Python 爬虫分布式架构
分布式爬虫在现代大数据采集中是不可或缺的一部分。随着互联网信息量的爆炸性增长，单机爬虫在性能、效率和稳定性上都面临巨大的挑战。分布式爬虫通过任务分发、多节点协作以及结果整合，成为解决大规模数据抓取任务的核心手段。本节将从Scrapy框架的基本使用、Scrapy-Redis的分布式实现、分布式爬虫的优化策略等多个方面展开，结合实际案例，帮助开发者掌握分布式爬虫的设计与实现。1.Scrapy框架的核心
Python-玩转数据-数据分析之分析思维人猿宇宙数据分析 python big data
一、说明当下时代的社会生产发展，人们都开始习惯于用数据来说明某个观点和反映事物的内在规律或享用自动化和人工智能带来的便利。但这些轻松快捷的方便背后，都是相关工作者的专业流程作为源源不断的支撑。二、大数据思维自从几年前大数据开始兴起，大数据思维已经逐渐被更动的人接受，随着其进一步发展，产生了巨大的生产效果。三、数据驱动的生产力作为一个数据工程师，仅仅知道跑数据是不够的，还需要通过数据发现生产环节出现
火星数据电竞数据，世界杯数据接口api，足球数据资料库 Tina0898 数据分析
电竞数据包含的内容有很多，比如说基础数据（实时比分，关键事件，赛后数据等等），统计数据（阵容分析，选手分析，地图分析等），还有资料库数据（赛事战队，赛程赛果，赛况榜单等等），众多的数据组合而成形成如今的电竞大数据。在当今电竞世界中，电子竞技的大数据可以用在多个方面，从自身来说：可以用来分析自己的强势点，可以分析对手的弱点，从而运用更好的策略来战胜对手。通过电竞大数据也可以更好地了解游戏，了解当下游
构建高效GPU算力平台：挑战、策略与未来展望 Mr' 郑 gpu算力
引言随着深度学习、高性能计算和大数据分析等领域的快速发展，GPU（图形处理器）因其强大的并行计算能力和浮点运算速度而成为首选的计算平台。然而，随着模型规模的增长和技术的进步，构建高效稳定的GPU算力平台面临着新的挑战。本文旨在探讨这些挑战、应对策略以及对未来发展的展望。当前挑战算力分配与资源优化在多用户共享GPU集群的环境下，合理分配计算资源并确保每个任务能够高效运行是一项挑战。这不仅涉及到硬件资
Databricks:打造数据国度的“金砖四国” weixin_33832340 大数据
Databricks，一个并不算熟悉的名字，是大数据国度的后起之星。成立不够一年，但却阵容强大，创始人都是开源圈子里面的重要级人物，值得关注。从公司名Databricks似乎就能看出一些深意——data(数据)+bricks（金砖四国）。不知道，在数据国度里Databricks是否具有“金砖四国”的发展前景呢？可以先从公司的创始背景谈起，打开Databricks官网，“We'reworkingto
一文详解大厂数据中台架构 isNotNullX 架构大数据性能优化
在大数据发展的黄金期，几乎所有的高科技企业都在思考一个问题：海量数据作为大多数企业发展不可避免的一个趋势之后，企业该怎么去应用这部分数据资产，会对其商业产生什么影响，如何使数据对企业产生正面的推动而不是成为企业的负担。作为国内的主要大数据玩家，阿里在2015年提出了“大中台、小前台”的战略，奠定了其内部发展数据中台的基础。2018年因为“腾讯数据中台论”，中台再度成为了人们谈论的焦点。至此，关于“
大数据公司 Databricks 详解 Bj陈默大数据
Databricks是一家在大数据和人工智能领域具有重要影响力的美国企业软件公司，以下是关于它的详细技术解析：1.起源与背景：Databricks成立于2013年，由来自加州大学伯克利分校AMP实验室的Spark大数据处理系统的多位创始人联合创立，包括AliGhodsi、AndyKonwinski、IonStoica、PatrickWendell、ReynoldXin、MateiZaharia、A
hive小文件合并机制_hive小文件的问题弊端以及合并做生活的创作者 hive小文件合并机制
小文件的弊端1、HDFS中每个文件的元数据信息，包括位置大小分块信息等，都保存在NN内存中，在小文件数较多的情况下，会造成占用大量内存空间，导致NN性能下降；2、在读取小文件多的目录时，MR会产生更多map数，造成GC频繁，浪费集群资源；3、现在大数据平台文件总数超过30亿，单个NS文件数超过4亿的时候，读写性能会急剧下降，影响到所有读写该NS的任务性能；4、如果队列限制最大map数是20000，
数仓建模（五）选择数仓技术栈：Hive & ClickHouse & 其它昊昊该干饭了数仓建模大数据 hive clickhouse hadoop
在大数据技术的飞速发展下，数据仓库（DataWarehouse，简称数仓）成为企业处理和分析海量数据的核心工具。市场上主流数仓技术栈丰富，如Hive、ClickHouse、Druid、Greenplum等，对于初学者而言，选择合适的技术栈是一项挑战。本文将详细解析Hive、ClickHouse及其他数仓技术，帮助读者根据场景需求选择最佳工具。目录一、数据仓库的基础概念和技术选型原则1.1什么是数据
Hive 数据类型全解析：大数据开发者的实用指南大鳥 sql hive 数据仓库
在大数据处理领域，Hive作为一款基于Hadoop的数据仓库工具，被广泛应用于数据的存储、查询和分析。而理解Hive的数据类型是有效使用Hive的基础，本文将深入探讨Hive的数据类型，帮助大家更好地掌握Hive的使用。Hive数据类型概述Hive支持多种数据类型，主要可分为数值类型、日期/时间类型、字符类型、Misc类型以及复杂类型。这些数据类型为存储和处理各种不同格式的数据提供了有力的支持。以
2024年网络安全最全CTF —— 网络安全大赛_ctf网络安全大赛网安墨雨 web安全安全
前言随着大数据、人工智能的发展，人们步入了新的时代，逐渐走上科技的巅峰。\⚔科技是一把双刃剑，网络安全不容忽视，人们的隐私在大数据面前暴露无遗，账户被盗、资金损失、网络诈骗、隐私泄露，种种迹象表明，随着互联网的发展，网络安全需要引起人们的重视。\互联网安全从其本质上来讲就是互联网上的信息安全。从广义来说，凡是涉及到互联网上信息的保密性、完整性、可用性、真实性和可控性的相关技术和理论都是网络安全的研
基于Python大数据的王者荣耀战队数据分析及可视化系统计算机学姐大数据精选实战项目源码 Python精选实战项目源码 Vue源码 1024程序员节 python 大数据数据分析数据挖掘 django vue.js
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示【2025最新】基于大数据+大屏可视化+Python+D
Apache Hive--排序函数解析大鳥 apache hive hadoop
在大数据处理与分析中，ApacheHive是一个至关重要的数据仓库工具。其丰富的函数库为数据处理提供了诸多便利，排序函数便是其中一类非常实用的工具。通过排序函数，我们能够在查询结果集中为每一行数据分配一个排名值，这对于数据分析、报表生成等工作具有重要意义。本文将深入探讨ApacheHive中的排序函数，通过具体的HQL代码和数据实例进行说明，并阐述它们之间的区别。0.排序函数：ORDER、SORT
基于微信小程序的健身房预约管理系统计算机学姐微信小程序源码微信小程序小程序 spring boot vue.js java mysql 后端
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示基于微信小程序+Java+SpringBoot+Vue+
Java 大视界 -- Java 大数据文本分析与自然语言处理：从文本挖掘到智能对话（十）青云交大数据新视界 Java 大视界大数据文本分析自然语言处理文本挖掘机器翻译智能对话智能客服 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、本博客的精华专栏：
Java 大视界 -- Java 大数据物联网应用：数据处理与设备管理（八）青云交大数据新视界 Java 大视界大数据物联网数据处理设备管理车联网智能家居预测性维护 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、本博客的精华专栏：
Java 大视界 -- Java 大数据分布式缓存：提升数据访问性能（五）青云交大数据新视界 Java 大视界大数据分布式缓存数据访问性能 Redis Memcached 缓存一致性缓存击穿 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
Java 大视界 -- Java 微服务架构在大数据应用中的实践：服务拆分与数据交互（一）青云交大数据新视界 Java 大视界 Java 微服务架构大数据应用服务拆分数据交互性能优化安全考量分布式事务处理 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
Java 大视界 -- Java 驱动大数据流处理：Storm 与 Flink 入门（六）青云交大数据新视界 Java 大视界 Flink Storm 大数据流处理实时数据处理架构实时监控数据分析 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 -- Hive 数据仓库设计的优化原则（2 - 16 - 4）青云交大数据新视界 #Hive 之道 Hive 数据仓库优化原则数据分区存储格式查询优化 B 树索引查询性能大数据
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 -- 大数据大厂之 Impala 性能优化：基于数据特征的存储格式选择（上）（19/30）青云交大数据新视界 #Impala 之道大数据 Impala 存储格式选择数据特征性能优化社交媒体数据金融数据
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 --大数据大厂之 Hudi 数据湖框架性能提升：高效处理大数据变更青云交 Hudi 之道大数据新视界大数据 Hudi 数据湖框架大数据变更数据版本控制性能提升数据存储优化
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
【Delete 删除数据语法合集】.NET开源ORM框架 SqlSugar 系列 Microi风闲【ORM】‌SqlSugar .net 开源微软技术后端 sqlsugar orm
系列文章目录.NET开源ORM框架SqlSugar系列文章目录系列文章目录前言一、根据实体删除1.1强类型实体2.2无主键实体删除2.3Object、接口、抽象类删除二、根据主键三、根据主键数组四、根据表达式五、联表删除六、无实体删除七、全局过滤器八、逻辑删除8.1逻辑删除方式1：8.2逻辑删除方式2：九、初始化表十、导航删除十一、常用案例11.1除最新N条清空11.2N到N条删除11.3大数据删
【大数据】Flink CDC 实时同步mysql数据小码农叔叔 springboot 入门到精通大数据 Flink CDC Flink CDC同步数据 Flink CDC数据同步
目录一、前言二、FlinkCDC介绍2.1什么是FlinkCDC2.2FlinkCDC特点2.3FlinkCDC核心工作原理2.4FlinkCDC使用场景三、常用的数据同步方案对比3.1数据同步概述3.1.1数据同步来源3.2常用的数据同步方案汇总3.3为什么推荐FlinkCDC3.4FlinkCDC适用范围3.5FlinkCDC不同版本对比3.5.1FlinkCDC1.x3.5.2FlinkCD
使用 Hadoop 实现大数据的高效存储与查询王子良. 经验分享大数据 hadoop 分布式
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
《守护数据隐私的堡垒：构建基于差分隐私的MySQL匿名化处理系统》墨夶数据库学习资料2 mysql android 数据库
在大数据时代，个人隐私保护的重要性日益凸显。随着全球范围内对用户信息保护意识的增强以及相关法律法规（如GDPR、CCPA等）的出台，企业面临着前所未有的挑战——如何在利用海量数据创造价值的同时，确保这些数据不会泄露用户的敏感信息。为了应对这一难题，差分隐私（DifferentialPrivacy,DP）作为一种强大的数学工具应运而生。它不仅能够有效地抵御各种形式的重识别攻击，而且还可以保持数据集统
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&

hive 练习影评案列

一、案列说明:

1、users.dat 数据格式为： 2::M::56::16::70072，

2、movies.dat 数据格式为： 2::Jumanji (1995)::Adventure|Children’s|Fantasy，

3、ratings.dat 数据格式为： 1::1193::5::978300760，

二、数据下载

三、前提准备

1、正确创建表,导入数据(三张表,三份数据),并验证是否正确.

1.分析需求

2.创建数据库

3.创建t_user表

4.创建t_movie表

5.创建t_rating表

四、导入数据

五、分析查询数据

5.1 求被评分次数最多的10部电影,并给出评分次数(电影名,评分次数)

(1) 思路分析:

(2)完整SQL

5.2 分别求男性，女性当中评分最高的10部电影（性别，电影名，影评分）

(1) 分析思路:

(2)完整SQL

5.3 男性当中评分最高的10部电影(性别,电影名,影评分)评分次数大于等于50次.

5.4 求movieid=2116这部电影各年龄段(因为年龄就只有7个,就按这个分就好了)的平均影评(年龄段,影评分)

(1) 分析思路:

(2)完整SQL:

5.5、求最喜欢看电影(影评次数最多)的那位女性评分最高的10部电影的平均影评分(观影者,电影名,影评分)

(1)分析思路

(2)完整SQL

5.6、求好评(评分>=4.0)最多的那个年份的最好看的10部电影.

(1)分析思路:

(2) 完整SQL

5.7求1997年上映的电影中,评分最高的10部Comedy类电影

(1)分析思路:

完整SQL:

5.8 该影片库中各种类型电影中平均最高的5部电影(类型,电影名,平均影评分)

(1) 分析思路

(2)完整SQL:

5.9、求年评分最高的电影类型(年份，类型，影评分）

(1)分析思路

（2）完整SQL

5.10、每个地区最高评分的电影名,把结果存入HDFS(地区,电影名,影评分)

(1) 分析思路

(2)完整的SQL

你可能感兴趣的:(大数据)