不想写bug第n天

Hive day03

目录

1.table

1.内部表、外部表

2.普通表、分区表

3.静态分区和动态分区

2.相互转换

3.复杂数据类型

1.arrays

2.maps

3.structs: java bean

4.开窗函数

1.table

1.内部表、外部表
- 内部表(Managed tables)：手hive管控的表
- 外部表(External tables)：
- 案例
  - 创建一个内部表（默认为内部表）
    create table emp_mannger as select * from emp;
    - 查看信息：desc formatted emp;
  - 创建一个外部表
```
CREATE External TABLE emp_manager2 (
  empno decimal(4,0) ,
  ename string ,
  job string ,
  mgr decimal(4,0) ,
  hiredate string ,
  sal decimal(7,2) ,
  comm decimal(7,2) ,
  deptno decimal(2,0) 
) 
row format  delimited fields terminated by ','
stored as textfile;
```
    - 查看信息： desc formatted emp_manager2;

2.普通表、分区表

区别
- 普通表：一般维护的数据量较少
- 分区表：dt
普通表
- 内部表
- 外部表

分区表

提高查询效率

内部表
外部表
1. hive中多一个或者多个分区
2.过程
- 创建数据
- 创建分区表
- 插入数据
- 查看表中分区：show partitions 表名;
- 删除分区： alter table order_info drop PARTITION(dt='dt值');

案例（emp创建分区表）

数据

7369,SMITH,CLERK,7902,1980-12-17 ,800,,20
7499,ALLEN,SALESMAN,7698,1981-2-20 ,1600,300,30
7521,WARD,SALESMAN,7698,1981-2-22 ,1250,500,30
7566,JONES,MANAGER,7839,1981-4-2 ,2975,,20
7654,MARTIN,SALESMAN,7698,1981-9-28 ,1250,1400,30
7698,BLAKE,MANAGER,7839,1981-5-1 ,2850,,30
7782,CLARK,MANAGER,7839,1981-6-9 ,2450,,10
7788,SCOTT,ANALYST,7566,1982-12-9 ,3000,,20
7839,KING,PRESIDENT,,1981-11-17 ,5000,,10
7844,TURNER,SALESMAN,7698,1981-9-8 ,1500,0,30
7876,ADAMS,CLERK,7788,1983-1-12 ,1100,,20
7900,JAMES,CLERK,7698,1981-12-3 ,950,,30
7902,FORD,ANALYST,7566,1981-12-3 ,3000,,20
7934,MILLER,CLERK,7782,1982-1-23 ,1300,,10

创建表

CREATE  TABLE emp_p (
  empno decimal(4,0) ,
  ename string ,
  job string ,
  mgr decimal(4,0) ,
  hiredate string ,
  sal decimal(7,2) ,
  comm decimal(7,2)
) 
PARTITIONED BY (deptno decimal(2,0))
row format  delimited fields terminated by '，'
stored as textfile;

导入数据

load data local inpath "/home/hadoop/tmp/emp_p.txt" into table emp_p partition(deptno=30);
这种方法会将表格中所有数据导入，并将deptno赋值30
如要使用需修改emp_p.txt中数据

常用方法

insert into table emp_p partition(deptno=20)
select
empno,
ename,
job  ,
mgr  ,
hiredate,
sal  ,
comm 
from emp where deptno=20;

//覆盖数据
insert overwrite table emp_p partition(deptno=20)
select
empno,
ename,
job  ,
mgr  ,
hiredate,
sal  ,
comm 
from emp where deptno=20;

一个sql 把所有数据落到对应的分区里面

set hive.exec.dynamic.partition.mode=nonstrict;
insert overwrite table emp_p partition(deptno)
select
empno,
ename,
job  ,
mgr  ,
hiredate,
sal  ,
comm ,
deptno
from emp;

3.静态分区和动态分区
- 静态分区
  insert overwrite table emp_p paritition(deptno=xxx)
  select
  xx
  from emp where deptno=xxxx
- 动态分区
  动态分区：正确的数据落到正确的分区
  set hive.exec.dynamic.partition.mode=nonstrict;
  insert overwrite table emp_p paritition(deptno)
  select
  xx
  from emp;
  - hive 分区表插入数据： deptno
```
insert overwrite table emp_p partition(deptno)
select
empno,
ename,
job  ,
mgr  ,
hiredate,
sal  ,
comm ,
deptno
from emp where deptno=20;

insert overwrite table emp_p partition(deptno)
select
empno,
ename,
job  ,
mgr  ,
hiredate,
sal  ,
comm ,
20 as deptno
from emp where deptno=20;
```

2.相互转换
- alter table emp_manager set tblproperties ("EXTERNAL"="false");
- alter table emp_external set tblproperties ("EXTERNAL"="true");

3.复杂数据类型

1.arrays
- 在表里面有一个字段定义成数据类型放不同的数据类型的数据
- 案例
  - 数据
    路径：/home/hadoop/tmp/hive_array.txt
    内容：zhangsan beijing,shanghai,dalian,shenyang
    lisi chengdu,hangzhou,shanghai,wuxi
  - 建表
```
create table hive_array(
name string,
locations array
)
row format  delimited fields terminated by '\t'
collection items terminated by ',';
```
  - 插入数据：load data local inpath '/home/hadoop/tmp/hive_array.txt' into table hive_array;
  - 问题：
    - 1.查询每个用户第一个工作地点？
```
select  name ,locations[0] as first_loc_work from  hive_array;
```
    - 2.查询每个人工作地点的数量
```
select  name , size(locations) from  hive_array ;
```
    - 3.查询在shanghai 工作的有哪些人
```
select  * from hive_array  where array_contains(locations,'shanghai');
```
    - 4.行转列
```
select name,location
from hive_array lateral view explode(locations) loc_table as location;
```

2.maps

案例

数据
- 路径：/home/hadoop/tmp/hive_map.txt
- 内容：1,zhangsan,father:xiaoming#mother:xiaohuang#brother:xiaoxu,28
  2,lisi,father:mayun#mother:huangyi#brother:guanyu,22
  3,wangwu,father:wangjianlin#mother:ruhua#sister:jingtian,29
  4,mayun,father:mayongzhen#mother:angelababy,26

建表

create table hive_map(
id int  comment '用户id',
name string comment '用户名字',
relation map comment '家庭成员',
age int comment '年龄'
)
row format  delimited fields terminated by ','
collection items terminated by '#'
map keys terminated by ':';

插入数据：load data local inpath '/home/hadoop/tmp/hive_map.txt' into table hive_map;

问题

1.查询表中每个人的father的名字

select id,name,age,relation['father'] as father from hive_map;

2.查询表中每个人的家庭成员

select id,name,age,map_keys(relation) as members from hive_map;

3.查询表中每个人的家庭成员的名字 values

select id,name,age,map_values(relation) as members from hive_map;

4.查询表中有brother的人以及brother的名字

select  
 id,name,age,relation['brother'] as brother
from hive_map 
where 
relation['brother'] is not null;

或者 
select  
 id,name,age,relation['brother'] as brother
from hive_map 
where 
array_contains(map_keys(relation), 'brother');

3.structs: java bean
- STRUCT
- 案例
  - 数据
    - 路径：/home/hadoop/tmp/hive_structs.txt
    - 内容：192.168.1.1#zhangsan:40
      192.168.1.2#lisi:50
      192.168.1.3#wangwu:60
      192.168.1.4#zhaoliu:70
  - 建表
```
create table hive_struct(
ip string,
userinfo STRUCT
)
row format  delimited fields terminated by '#'
collection items terminated by ':';
```
  - 插入数据：load data local inpath '/home/hadoop/tmp/hive_struct.txt' into table hive_struct;
  - 执行命令：select ip,userinfo.name as name ,userinfo.age as age from hive_struct;

4.开窗函数

函数：
- 1.开窗函数自带的
  - 1.排序相关的
  - 2.串行
- 2.聚合函数：多行数据按照一定规则进行聚合为一行
  理论上聚合后的行数 <=聚合前的行数
  - rank()
    rank() over(partition by xx order by xxx) as rk
    从1开始按照顺序生产分组内记录的编号，排序相同会重复在名次中留下空位
  - row_number()
    row_number() over(partition by xx order by xxx) as rn
    从1开始按照顺序生产分组内记录的编号，排序相同不会重复
  - dense_rank()
    dense_rank() over(partition by xx order by xxx) as dk
    从1开始按照顺序生产分组内记录的编号，排序相同会重复在名次中不会留下空位
  - 举例
    - 数据
```
甜甜,2022-11-10,1
甜甜,2022-11-11,5
甜甜,2022-11-12,5
甜甜,2022-11-13,3
甜甜,2022-11-14,2
甜甜,2022-11-15,4
甜甜,2022-11-16,4  
```
    - 创表：create table user_mt3 like user_mt2;
    - 插入数据：load data local inpath '/home/hadoop/tmp/date/mt_test.txt'into table user_mt3;
    - 命令
```
select 
name,
dt,
cnt,
rank() over(partition by name order by cnt desc) as rk,
row_number() over(partition by name order by cnt desc) as rn,
dense_rank() over(partition by name order by cnt desc) as dk
from user_mt3;
```
案例
既要显示聚合前的数据，又要显示聚合后的数据
id name sal
1 zs 3w
2 ls 2.5w
3 ww 2w
- 需求：按照工资降序排列还显示对应的排名
     id name sal rank
     1 zs 3w 1
     2 ls 2.5w 2
     3 ww 2w 3

案例一

数据

haige,2022-11-10,1
haige,2022-11-11,5
haige,2022-11-12,7
haige,2022-11-13,3
haige,2022-11-14,2
haige,2022-11-15,4
haige,2022-11-16,4

创建表

create table user_mt2 (
name string,
dt string,
cnt int
)
row format  delimited fields terminated by ',' ;

插入数据：load data local inpath '/home/hadoop/tmp/mt.txt' into table user_mt2;

问题：统计累计问题，每个用户每天累计点外卖次数

select 
name ,
dt ,
cnt ,
sum(cnt) over(partition by name  order by dt ) as sum_cnt
from user_mt2;

补充：单单一个基本查询开窗函数和 group by 不能一起使用

指定窗口大小

select 
name ,
dt ,
cnt ,
sum(cnt) over(partition by name  order by dt ) as sum_cnt,
sum(cnt) over(partition by name  order by dt  ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW  ) as sum_cnt2,
sum(cnt) over(partition by name  order by dt  ROWS BETWEEN 3 PRECEDING AND CURRENT ROW  ) as sum_cnt3,
sum(cnt) over(partition by name  order by dt  ROWS BETWEEN CURRENT ROW AND 1 FOLLOWING  ) as sum_cnt4
from user_mt2;

ROWS BETWEEN 3 PRECEDING AND CURRENT ROW ：上三行 + 本行
ROWS BETWEEN CURRENT ROW AND 1 FOLLOWING ：下一行 + 本行

select 
name ,
dt ,
cnt ,
sum(cnt) over(partition by name  order by dt ) as sum_cnt,
sum(cnt) over(  order by dt ) as sum_cnt1
from user_mt2;

案例二

数据

userid  dt    cnt 
u01,2017/01/21,5
u02,2017/01/23,6
u03,2017/01/22,8
u04,2017/01/20,3
u01,2017/01/23,6
u01,2017/02/21,8
u02,2017/01/23,6
u01,2017/02/22,4

需求：
使用sql 统计出每个用户每个月的累计访问次数
用户id 月份小计累计
u01 2017-01 11 11
u01 2017-02 12 23
u02 2017-01 12 12

建表

create table user_log(
userid string,
dt string,
cnt int
)
row format  delimited fields terminated by ',' ;

插入数据
load data local inpath "/home/hadoop/tmp/data/exemple/user_visit.txt" into table user_log;

问题

1.求出每个用户每个月的访问次数

dt:2017/01/21 => 2017-01-21
moth:2017-01

select  
userid,
date_format(replace(dt,'/','-'),'YYYY-MM') as moth,
sum(cnt) cnt_sum
from user_log
group by 
userid,date_format(replace(dt,'/','-'),'YYYY-MM');

2.基于result 进一步求累计访问次数

select 
userid,
moth,
cnt_sum,
sum(cnt_sum) over(partition by userid  order by moth ) as cnt_all
from 
(
select  
userid,
date_format(replace(dt,'/','-'),'YYYY-MM') as moth,
sum(cnt) as  cnt_sum
from user_log
group by 
userid,date_format(replace(dt,'/','-'),'YYYY-MM')
) as a ;

需求：
京东店铺

数据
```
[hadoop@bigdata33 data]$ cat user_shop.txt
user_id  shop
u1,a
u2,b
u1,b
u1,a
u3,c
u4,b
u1,a
u2,c
u5,b
u4,b
u6,c
u2,c
u1,b
u2,a
u2,a
u3,a
u5,a
u5,a
u5,a
```
pv =》页面浏览量 3个用户每个人访问了 10次页面 30
uv =》访客次数 3个用户每个人访问了 10次页面 3

需求：

1.每个店铺的uv

建表

create table taobao(
user_id string,
shop string
)
row format delimited fields terminated by ',' ;

插入数据：load data local inpath '/home/hadoop/tmp/data/taobao.txt' into table taobao;

命令

count(distinct user_id) 先聚合后join

select 
shop, 
count(distinct user_id) as uv
from taobao
group by shop;

2.一共有几家店铺

select 
count(distinct shop) as shop_cnt
from taobao;

3.店铺的访问次数排名

select
shop,
cnt,
rk
from
(
select
shop,
cnt,
rank() over(order by cnt desc) as rk
from
(
select
shop,
count(1) as cnt
from taobao
group by shop     
)as a
)as a
where rk < 4;

4.每个店铺访问次数 top3 的用户记录
输出：店铺名次访客id 访问次数

select
shop,
user_id,
cnt,
rk
from
(
select
shop,
user_id,
cnt,
rank() over(partition by shop order by cnt desc) as rk
from
(
select
shop,
user_id,
count(1) as cnt
from taobao
group by shop, user_id   
)as a
)as a
where rk < 4;

数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
Presto【基础 01】简介+架构+数据源+数据模型 2401_84254343 程序员架构
一个Catalog包含Schema和Connector。例如，配置JMX的Catalog，通过JXMConnector访问JXM信息。当执行一条SQL语句时，可以同时运行在多个Catalog。Presto处理table时，是通过表的完全限定（fully-qualified）名来找到Catalog。例如，一个表的权限定名是hive.test_data.test，则test是表名，test_data是
数据仓库介绍阿龙的代码在报错数据分析数据仓库数据库
数据仓库数据仓库的概念数据仓库的主要特征数据仓库的主流开发语言-sql结构化数据sql语句数据仓库的概念数据仓库（英语：DataWarehouse，简称数仓、DW）,是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持（DecisionSupport）。就是数据仓库只分析数据并不产生数据数据仓库的主要特征1、面向主题主题是一个抽象的概念，是
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
hive血缘关系之输入表与目标表的解析 zxfBdd hive 大数据治理大数据
接了一个新需求：需要做数据仓库的血缘关系。正所谓兵来将挡水来土掩，那咱就动手吧。血缘关系是数据治理的一块，其实有专门的第三方数据治理框架，但考虑到目前的线上环境已经趋于稳定，引入新的框架无疑是劳民伤财，伤筋动骨，所以就想以最小的代价把这个事情给做了。目前我们考虑做的血缘关系呢只是做输入表和输出表，最后会形成一张表与表之间的链路图。这个东西的好处就是有助于仓库人员梳理业务，后面可能还会做字段之间的血
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
初级练习[3]:Hive SQL子查询应用大数据深度洞察 Hive hive sql hadoop 数据仓库大数据数据库
目录环境准备看如下链接子查询查询所有课程成绩均小于60分的学生的学号、姓名查询没有学全所有课的学生的学号、姓名解释：没有学全所有课，也就是该学生选修的课程数<总的课程数。查询出只选修了三门课程的全部学生的学号和姓名环境准备看如下链接环境准备https://blog.csdn.net/qq_45115959/article/details/142057624?spm=1001.2014.3001.5
Linux下载压缩包：tar.gz、zip、tar.bz2格式全攻略 promise524 Linux linux 运维服务器后端 bash shell
在Linux中，下载各种格式的压缩包（如.tar.gz、.zip、.tar.bz2等）通常使用命令行工具如wget和curl。1.使用wget下载压缩包wget是Linux中最常用的文件下载工具，支持HTTP、HTTPS、FTP等协议，可以直接从命令行下载文件。基本命令：wget[URL]下载.tar.gz文件wgethttps://test.com/archive.tar.gz此命令将从指定的U
Anaconda版本和Python版本对应关系纬领网络 python anaconda3
官网下载地址：https://repo.anaconda.com/archive/下载地址：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/anaconda3版本基础python版本Anaconda3-2024.06-1Python3.12.4Anaconda3-2024.02-1Python3.11.7Anaconda3-2023.09
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
hadoop启动HDFS命令 m0_67401228 java 搜索引擎 linux 后端
启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh
影响数据分析导致数据建模错误！你可能都没发觉的几个小细节丨程序之道丨
如果你有一个目标，想获得所有这些数据的可操作的见解，并一直在收集。那么，你如何确定模型的数据，以便实际上可以获得这些见解，并回答你的业务问题?你的计划。当规划阶段不充分或不完全，其结果是可怕的。那么分析和性能、数据完整性和安全性的问题接踵而至，将会使日常的维护和发展的成本达到了不必要的水平。避免常见的建模错误1.开始实施时没有明确的行动计划当涉及到的分析，如数据仓库或Elasticube建模数据资
从零到一建设数据中台 - 架构概览我码玄黄从零到一建设数据中台架构数据中台中台架构
数据中台功能架构概览数据中台相关名词解释1.数据仓库：数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。因此，其重点在于数据的集合。数据仓库可使用维度建模方法论从业务过程中抽象出通用维度与度量，组成数据模型，为决策分析提供通用的数据分析能力。数据仓库重在建数据，而数据中台则将建、治、管、服放到同样的高度，数据仓库只是数据中台的一个子集。用一个蔬菜储存的例子来简
R语言包AMORE安装报错问题以及RStudio与Rtools环境配置卡卡_R-Python R语言数据分析与可视化 r语言开发语言
在使用R语言进行AMORE安装时会遇到报错，这时候需要采用解决办法：'''AMORE包安装，需要离线官网下载安装包：Indexof/src/contrib/Archive/AMORE(r-project.org)https://cran.r-project.org/src/contrib/Archive/AMORE/一、出现的问题最近开始学习R语言，安装了最新版的R4.4.1和RStudio，但安
中级练习[3]：Hive SQL用户行为与商品销售数据分析大数据深度洞察 Hive hive 数据仓库大数据 sql
目录1.用户累计消费金额及VIP等级查询1.1题目需求1.2代码实现2.首次下单后第二天连续下单的用户比率查询2.1题目需求2.2代码实现3.每个商品销售首年的年份、销售数量和销售金额统计3.1题目需求3.2代码实现1.用户累计消费金额及VIP等级查询1.1题目需求从订单信息表(order_info)中统计每个用户截止其每个下单日期的累积消费金额，以及每个用户在其每个下单日期的VIP等级。VIP等
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
【计算机毕设-大数据方向】基于Hadoop的电商交易数据分析可视化系统的设计与实现程序员-石头山大数据实战案例大数据 hadoop 毕业设计毕设
博主介绍：✌全平台粉丝5W+,高级大厂开发程序员，博客之星、掘金/知乎/华为云/阿里云等平台优质作者。【源码获取】关注并且私信我【联系方式】最下边感兴趣的可以先收藏起来，同学门有不懂的毕设选题，项目以及论文编写等相关问题都可以和学长沟通，希望帮助更多同学解决问题前言随着电子商务行业的迅猛发展，电商平台积累了海量的数据资源，这些数据不仅包括用户的基本信息、购物记录，还包括用户的浏览行为、评价反馈等多
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st

Hive day03

1.table

1.内部表、外部表

2.普通表、分区表

3.静态分区和动态分区

2.相互转换

3.复杂数据类型

1.arrays

2.maps

3.structs: java bean

4.开窗函数

你可能感兴趣的:(hive,hive,hadoop,数据仓库)