hive--DQL

Hive--DQL

内置运算符

  • 查看函数

  • 关系运算符

    • 大小比较

    • 空值判断

    • 模糊查询

    • 正则查询

  • 算数运算符

    • 加减乘除

    • 取整取余

    • 位运算

  • 逻辑运算符

    • 与或非

     
        
    • 在范围内

     

内置函数

  • 字符串函数

 
  
  • 时间日期函数

 
  
  • 数学函数

 
  
  • 集合函数

 
  
  • 条件函数

 
  
  • 类型转换

 
  
  • 数据脱敏

 
  
  • 其他

 
  

自定义函数(UDF)(了解)

  • UDF

  • UDAF

  • UDTF

Hive函数进阶

  • explode(UDTF)

    • NBA总冠军球队

    create table the_nba_championship(
        team_name string,
        champion_year array
    ) row format delimited
    fields terminated by ','
    collection items terminated by '|';
    
  • lateral View

  • 行列转换

    • 列转行

    create table row2col2(
       col1 string,
       col2 string,
       col3 int
    )row format delimited fields terminated by '\t';
    
    • 行转列

    create table col2row2(
       col1 string,
       col2 string,
       col3 string
    )row format delimited fields terminated by '\t';
    
  • json数据处理

    • 单个

    create table tb_json_test1 (
      json string
    );
    
    • 多个

    create table tb_json_test2 (
       device string,
       deviceType string,
       signal double,
       `time` string
     )
    ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'
    STORED AS TEXTFILE;
    
    • serder

    create table tb_json_test2 (
       device string,
       deviceType string,
       signal double,
       `time` string
     )
    ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'
    STORED AS TEXTFILE;
    

窗口函数

  • 建表

---建表并且加载数据
create table website_pv_info(
   cookieid string,
   createtime string,   --day
   pv int
) row format delimited
fields terminated by ',';

create table website_url_info (
    cookieid string,
    createtime string,  --访问时间
    url string       --访问页面
) row format delimited
fields terminated by ','
  • 求出每个用户总pv数sum+group by普通常规聚合操作

 
  
  • 求出网站总的pv数 所有用户所有访问加起来

 
  
  • 求出每个用户总pv数

 
  
  • 求出每个用户截止到当天,累积的总pv数

 
  
  • 第一行到当前行

 
  
  • 找出每个用户访问pv最多的Top3重复并列的不考虑

 
  
  • 统计每个用户pv数最多的前3分之1天

 
  
  • lag

 
  
  • lead

 
  
  • first_value()

 
  

  • last_value()

 
  

数据压缩

  • 压缩算法

数据存储格式

  • 行存储和列存储

  • TextFILE

  • ORC

  • PAROUET

  • 格式对比

  • 查询速度对比

你可能感兴趣的:(笔记,总结,大数据)