李昊哲小课

hive sql 行列转换开窗函数炸裂函数

准备原始数据集

学生表 student.csv
讲师表 teacher.csv
课程表 course.csv
分数表 score.csv
员工表 emp.csv
雇员表 employee.csv
电影表 movie.txt

学生表 student.csv

001,彭于晏,1995-05-16,男
002,胡歌,1994-03-20,男
003,周杰伦,1995-04-30,男
004,刘德华,1998-08-28,男
005,唐国强,1993-09-10,男
006,陈道明,1992-11-12,男
007,陈坤,1999-04-09,男
008,吴京,1994-02-06,男
009,郭德纲,1992-12-05,男
010,于谦,1998-08-23,男
011,潘长江,1995-05-27,男
012,杨紫,1996-12-21,女
013,蒋欣,1997-11-08,女
014,赵丽颖,1990-01-09,女
015,刘亦菲,1993-01-14,女
016,周冬雨,1990-06-18,女
017,范冰冰,1992-07-04,女
018,李冰冰,1993-09-24,女
019,邓紫棋,1994-08-31,女
020,宋丹丹,1991-03-01,女

讲师表 teacher.csv

1001,张高数
1002,李体音
1003,王子文
1004,刘丽英

课程表 course.csv

01,语文,1003
02,数学,1001
03,英语,1004
04,体育,1002
05,音乐,1002

分数表 score.csv

员工表 emp.csv

7369,张三,研发,800.00,30
7499,李四,财务,1600.00,20
7521,王五,行政,1250.00,10
7566,赵六,销售,2975.00,40
7654,侯七,研发,1250.00,30
7698,马八,研发,2850.00,30
7782,金九,行政,2450.0,30
7788,银十,行政,3000.00,10
7839,小芳,销售,5000.00,40
7844,小明,销售,1500.00,40
7876,小李,行政,1100.00,10
7900,小元,讲师,950.00,30
7902,小海,行政,3000.00,10
7934,小红明,讲师,1300.00,30
7934,小红,讲师,1300.00,

雇员表 employee.csv

张无忌,男,1980/02/12,2022/08/09,销售,3000,12000,阿朱_小昭,张小无:8_张小忌:9
赵敏,女,1982/05/18,2022/09/10,行政,9000,2000,阿三_阿四,赵小敏:8
宋青书,男,1981/03/15,2022/04/09,研发,18000,1000,王五_赵六,宋小青:7_宋小书:5
周芷若,女,1981/03/17,2022/04/10,研发,18000,1000,王五_赵六,宋小青:7_宋小书:5
郭靖,男,1985/03/11,2022/07/19,销售,2000,13000,南帝_北丐,郭芙,5_郭襄:4
黄蓉,女,1982/12/13,2022/06/11,行政,12000,null,东邪_西毒,郭芙,5_郭襄:4
杨过,男,1988/01/30,2022/08/13,前台,5000,null,郭靖_黄蓉,杨小过:2
小龙女,女,1985/02/12,2022/09/24,前台,6000,null,张三_李四,杨小过:2

电影表 movie.txt

《疑犯追踪》-悬疑,动作,科幻,剧情
《Lie to me》-悬疑,警匪,动作,心理,剧情
《战狼2》-战争,动作,灾难

订单表 order.csv

1,1001,小元,2022-01-01,10
2,1002,小海,2022-01-02,15
3,1001,小元,2022-02-03,23
4,1002,小海,2022-01-04,29
5,1001,小元,2022-01-05,46
6,1001,小元,2022-04-06,42
7,1002,小海,2022-01-07,50
8,1001,小元,2022-01-08,50
9,1003,小辉,2022-04-08,62
10,1003,小辉,2022-04-09,62
11,1004,小猛,2022-05-10,12
12,1003,小辉,2022-04-11,75
13,1004,小猛,2022-06-12,80
14,1003,小辉,2022-04-13,94

创建数据库和数据表

create database chap06;
use chap06;

-- 学生表 student.csv
create external table student (
	stu_id string comment '学生ID',
	stu_name string comment '学生姓名',
    birthday string comment '出生日期',
    gender string comment '学生性别'
)
 row format delimited fields terminated by ','
 lines terminated by '\n'
 stored as textfile
 location '/quiz03/student';

load data local inpath '/root/data/data02/student.csv' overwrite into table student;

select * from student;

-- 讲师表 teacher.csv
create external table teacher (
	tea_id string comment '课程ID',
	tea_name string comment '课程名称'
)
 row format delimited fields terminated by ','
 lines terminated by '\n'
 stored as textfile
 location '/quiz03/teacher';

load data local inpath '/root/data/data02/teacher.csv' overwrite into table teacher;

select * from teacher;

-- 课程表 course.csv
create external table course (
	course_id string comment '课程ID',
	course_name string comment '课程名称',
    tea_id string comment '讲师ID'
)
 row format delimited fields terminated by ','
 lines terminated by '\n'
 stored as textfile
 location '/quiz03/course';

load data local inpath '/root/data/data02/course.csv' overwrite into table course;

select * from course;

-- 分数表 score.csv
create external table score (
	stu_id string comment '学生ID',
	course_id string comment '课程ID',
    score int comment '成绩'
)
 row format delimited fields terminated by ','
 lines terminated by '\n'
 stored as textfile
 location '/quiz03/score';

load data local inpath '/root/data/data02/score.csv' overwrite into table score;
select * from score;

-- 员工表 emp.csv
create external table emp (
	emp_id int comment '员工ID',
	emp_name string comment '员工姓名',
    emp_job string comment '员工岗位',
    emp_salary decimal(8,2) comment '员工薪资',
    dept_id int comment '员工隶属部门ID'
)
 row format delimited fields terminated by ','
 lines terminated by '\n'
 stored as textfile
 location '/quiz01/emp';
load data local inpath '/root/data/data02/emp.csv' overwrite into table emp;
select * from emp;

-- 雇员表 employee.csv
create external table employee(
    name string comment '姓名',
    sex  string comment '性别',
    birthday string comment '出生年月',
    hiredate string comment '入职日期',
    job string comment '岗位',
    salary int comment '薪资',
    bonus int comment '奖金',
    friends array<string> comment '朋友',
    children map<string,int> comment '孩子'
)
 row format delimited fields terminated by ','
 collection items terminated by '_'
 map keys terminated by ':'
 lines terminated by '\n'
 stored as textfile
 location '/quiz04/employee';
load data local inpath '/root/data/data02/employee.csv' into table employee;
select * from employee;

-- 电影表 movie.txt
create external table movie(
    name string comment '电影名称',
    category string comment '电影分类'
)
 row format delimited fields terminated by '-'
 lines terminated by '\n'
 stored as textfile
 location '/quiz04/movie';
load data local inpath '/root/data/data02/movie.txt' into table movie;
select * from movie;

-- 订单表 order.csv
create external table `order`
(
    order_id     string comment '订单id',
    user_id      string comment '用户id',
    user_name    string comment '用户姓名',
    order_date   string comment '下单日期',
    order_amount int comment '订单金额'
)
 row format delimited fields terminated by ','
 lines terminated by '\n'
 stored as textfile
 location '/quiz04/order';
load data local inpath '/root/data/data02/order.csv' into table `order`;
select * from `order`;

行列转换

列转行

create table test (
    stu_name string,
    course_name string,
    score int
);
insert into test values ('张三','语文','80'),('张三','数学','90'), ('李四','语文','85'),('李四','数学','95');
select * from test;

select stu_name,
       max(case when course_name = '语文' then score end) as yuwen,
       max(case when course_name = '数学' then score end) as shuxue
       from test group by stu_name;

-- 多个值转为集合 collect_list 不会去重
select collect_list(emp_job) job_list from emp;
-- 多个值转为集合 collect_set 会去重
select collect_set(emp_job) job_set from emp;
-- size 获取结合中元素的数量
select size(collect_set(emp_job)) job_count from emp;
-- concat_ws 将多个数据 以分隔符形式 拼接 concat_ws(分隔符,数据1,数据2,...)
select concat_ws('-',collect_set(emp_job)) job_string from emp;
-- split 字符串切分 以分隔符切分字符串 为集合
select split(concat_ws('-',collect_set(emp_job)),'-') job_item from emp;

行专列

create table sales (
    emp_name string,
    january int,
    february int,
    march int
);
insert into sales values ('张三',1000,2000,3000),('李四',1500,2500,3500);
select * from sales;

将转换后的结果还原

select t1.emp_name,
    sale_list[0] january,
    sale_list[1] february,
    sale_list[2] march
    from(
        select t.emp_name,collect_list(sale) sale_list from(
            select emp_name,'january' yue, january sale from sales
            union all
            select emp_name,'february' yue,february sale from sales
            union all
            select emp_name,'march' yue,march sale from sales) t
            group by t.emp_name) t1;

UDF UDTF UDAF

UDF，即用户定义函数(user-defined function)，作用于单行数据，并且产生一个数据行作为输出。
Hive中大多数函数都属于这一类，比如数学函数和字符串函数。UDF函数的输入与输出值是1:1关系。

UDTF，即用户定义表生成函数（user-defined table-generating function），
作用于单行数据，并且产生多个数据行。UDTF函数的输入与输出值是1:n的关系。

UDAF，用户定义聚集函数（user-defined aggregate function），作用于多行数据，产生一个输出数据行。
Hive中像COUNT、MAX、MIN和SUM这样的函数就是聚集函数。UDAF函数的输入与输出值是n:1的关系。

explode

array

select explode(array('java','python','scala','go')) as course;

map

select explode(map('name','李昊哲','gender','1')) as (key,value);

posexplode

select posexplode(array('java','python','scala','go')) as (pos,course);

inline

select inline(array(named_struct('id',1,'name','李昊哲','gender','1'),
                named_struct('id',2,'name','李哲','gender','0'),
                named_struct('id',3,'name','李大宝','gender','1')))
    as (id,name,gender);

lateral view

select * from employee lateral view explode(friends) t as friend;

select * from employee lateral view explode(children) t as children_name,children_age;

select * from employee
    lateral view explode(friends) t1 as friend
    lateral view explode(children) t2 as children_name,children_age;

select name, sex, birthday, hiredate, job, salary, bonus, friend,children_name,children_age  from employee e
    lateral view explode(friends) t1 as friend
    lateral view explode(children) t2 as children_name,children_age;

UDTF 案例

根据电影信息表，统计各分类的电影数量

select cate,count(name) as quantity  from movie
    lateral view explode(split(category,',')) tmp as cate
    group by cate;

窗口函数(开窗函数)

能为每行数据划分一个窗口，然后对窗口范围内的数据进行计算，最后将计算结果返回给该行
Function(arg1,…, argn) OVER ([PARTITION BY <…>] [ORDER BY <…>] [])
其中Function(arg1,…, argn) 可以是下面分类中的任意一个
聚合函数：比如sum max min avg count等
分析函数：比如lead lag first_value last_value等
排序函数：比如row_number rank dense_rank等
OVER [PARTITION BY <…>] 类似于group by 用于指定分组每个分组你可以把它叫做窗口
如果没有PARTITION BY 那么整张表的所有行就是一组
[ORDER BY <…>] 用于指定每个分组内的数据排序规则支持ASC、DESC
[] 用于指定每个窗口中操作的数据范围默认是窗口中所有行

聚合函数

聚合函数
rows 基于行
range 基于值
函数() over(rows between and 3)

unbounded preceding 表示从前面的起点

number preceding 往前

current row 当前行

number following 往后

unbounded following 表示到后面的终点

统计每个用户截至每次下单的累计下单总额

select *,
       sum(order_amount) over (
           partition by user_id ,substr(order_date,1,7)
           order by order_date
           rows between unbounded preceding and current row
           ) sum_order_amount
       from `order`;

select *,
       sum(order_amount) over (
           partition by user_id ,substr(order_date,1,7)
           order by order_date
           rows unbounded preceding
           ) sum_order_amount
       from `order`;

统计每个用户截至每次下单的当月累积下单总额

select *,
       sum(order_amount) over (
           partition by user_id ,substr(order_date,1,7)
           order by order_date
           rows between unbounded preceding and unbounded following
           ) sum_order_amount
       from `order`;

最近三笔订单总金额

当前订单金额与前两笔订单金额的总和

当前订单金额与后两笔订单金额的总和

当前订单金额与前一笔订单和后一笔订单金额的总和

当前订单金额与前两笔订单金额的总和

select *,
       sum(order_amount) over (
           partition by user_id
           order by order_date
           rows 2 preceding
           ) sum_order_amount
       from `order`;

当前订单金额与后两笔订单金额的总和

select *,
       sum(order_amount) over (
           partition by user_id
           order by order_date
           rows 2 following
           ) sum_order_amount
       from `order`;

当前订单金额与前一笔订单和后一笔订单金额的总和

select *,
       sum(order_amount) over (
           partition by user_id
           order by order_date
           rows between 1 preceding and 1 following
           ) sum_order_amount
       from `order`;

分析函数 lag lead first_value last_value

lag lead

lag() over() 与 lead() over() 函数是跟偏移量相关的两个分析函数，
通过这两个函数可以在一次查询中取出同一字段的前 N 行的数据 (lag) 和后 N 行的数据 (lead) 作为独立的列,
从而更方便地进行进行数据过滤。这种操作可以代替表的自联接，并且 LAG 和 LEAD 有更高的效率。
over() 表示 lag() 与 lead() 操作的数据都在 over() 的范围内，可以使用 partition by 语句（用于分组） order by 语句（用于排序）。
partition by a order by b 表示以 a 字段进行分组，再以 b 字段进行排序，对数据进行查询。
例如：lag(field, num, defaultvalue) field 需要查找的字段，num 往前查找的 num 行的数据，defaultvalue 没有符合条件的默认值
例如：lead(field, num, defaultvalue) field 需要查找的字段，num 往后查找的 num 行的数据，defaultvalue 没有符合条件的默认值

统计每个用户每次下单距离上次下单相隔的天数（首次下单按0天算）

select order_id, user_id, user_name, order_date, order_amount from (
    select order_id, user_id, user_name, order_date, order_amount,
       lag(order_date,1,order_date) over (partition by user_id order by order_date) pre_order_date
       from `order`) t where datediff(order_date,pre_order_date) = 0;

每个用户每个月首笔订单时间

select order_id, user_id, user_name, order_date, order_amount from (
    select order_id, user_id, user_name, order_date, order_amount,
       lag(order_date,1,order_date) over (partition by user_id,substr(order_date,1,7) order by order_date) pre_order_date
       from `order`) t where datediff(order_date,pre_order_date) = 0;

每个用户每个月最后笔订单时间

select order_id, user_id, user_name, order_date, order_amount from (
    select order_id, user_id, user_name, order_date, order_amount,
       lead(order_date,1,order_date) over (partition by user_id,substr(order_date,1,7) order by order_date) next_order_date
       from `order`) t where datediff(order_date,next_order_date) = 0;

每个岗位先先入职的远哥和后入在的员工工资差

select name, sex, birthday, hiredate, job, salary, bonus, friends, children, new_salary,(salary - new_salary) salary_diff from (
    select name, sex, birthday, hiredate, job, salary, bonus, friends, children,
       lead(salary,1,salary) over (partition by job order by hiredate) new_salary
       from employee) t;

first_value last_value

first_value 取每个分区内某列的第一个值
语法：first_value(col,true/false) over (partition by col1 order by col2)
第二个参数为true，跳过空值（默认为false）

last_value 取每个分区内某列的最后一个值
语法：last_value(col,true/false) over (partition by col1 order by col2)
第二个参数为true，跳过空值（默认为false）

每个用户每个月首笔订单时间

select order_id, user_id, user_name, order_date, order_amount,
       first_value(order_date) over (partition by user_id,substr(order_date,1,7) order by order_date) first_order_value
       from `order`;

每个用户每个月最后笔订单时间

select order_id, user_id, user_name, order_date, order_amount,
       last_value(order_date) over (
           partition by user_id,substr(order_date,1,7) order by order_date
           rows between current row and unbounded following) last_order_value
       from `order`;

每个用户每个月首笔订单时间和最后笔订单时间

select order_id, user_id, user_name, order_date, order_amount,
        first_value(order_date) over (partition by user_id,substr(order_date,1,7) order by order_date) first_order_value,
        last_value(order_date) over (
           partition by user_id,substr(order_date,1,7) order by order_date
           rows between current row and unbounded following) last_order_value
       from `order`;

select order_id, user_id, user_name, order_date, order_amount, first_order_value, last_order_value from
    (select order_id, user_id, user_name, order_date, order_amount,
            first_value(order_date) over (partition by user_id,substr(order_date,1,7) order by order_date) first_order_value,
            last_value(order_date) over (
               partition by user_id,substr(order_date,1,7) order by order_date
               rows between current row and unbounded following) last_order_value
           from `order`) t where order_date = first_order_value or order_date = last_order_value;

排序函数

分组排序取TopN

查询各科成绩前五名的学生

select a.course_id,a.stu_id,a.score from score a
    left join score b
    on a.course_id = b.course_id and a.score <= b.score
    group by a.stu_id,a.course_id,a.score
    having count(a.stu_id) <=5
    order by a.course_id,a.score desc;

select S1.course_id,s1.stu_id,s1.score from score s1 where
    (select count(*) from score s2
        where s2.course_id=s1.course_id AND s2.score > s1.score
        ) <= 5 order by s1.course_id,s1.score desc;

row_number

row_number() over () 连续序号
over()里头的分组以及排序的执行晚于 where 、group by、order by 的执行。

select * from
    (select course_id, stu_id,  score,
        row_number() over (partition by course_id order by score desc ) as mum
        from score) t where mum <= 5;

rank

rank() over () 排名跳跃排序序号不是连续的

select * from
    (select course_id, stu_id,  score,
        rank() over (partition by course_id order by score desc ) as mum
        from score) t where mum <= 5;

dense_rank

dense_rank() over () 排名连续排序

select * from
    (select course_id, stu_id,  score,
        dense_rank() over (partition by course_id order by score desc ) as mum
        from score) t where mum <= 5;

每个月每个消费总金额前三名的用户

select order_id, user_id, user_name, order_date, order_amount, total_order_amount, rank_total_order_amount from
(select order_id, user_id, user_name, order_date, order_amount, total_order_amount,
    dense_rank() over (partition by substr(order_date,1,7) order by total_order_amount desc) rank_total_order_amount
    from (
        select order_id, user_id, user_name, order_date, order_amount,
           sum(order_amount) over(partition by substr(order_date,1,7),user_id order by order_date
               rows between unbounded preceding and unbounded following) total_order_amount
           from `order`) t) t1 where rank_total_order_amount <= 3;

MySQL 8.0 特性的高频面试题及核心知识点 dblens 数据库管理和开发工具 mysql mysql 数据库面试题
1.索引原理与MySQL8.0新特性答案：自适应哈希索引：MySQL8.0自动在频繁查询的索引上构建哈希索引，加速等值查询（如WHEREid=1）。全文索引优化：支持布尔模式（MATCH()AGAINST()）和自然语言模式，且索引更新更高效。InnoDB页压缩：支持ZSTD压缩算法，减少存储空间和I/O开销。虚拟列索引：可对虚拟列（ComputedColumns）创建索引，减少存储冗余。2.事务
OceanBase数据库常用巡检SQL MoMoSQL666 数据库 oceanbase mysql sql
本文为墨天轮数据库管理服务团队原创内容，如需转载请联系小墨（VX：modb666）并注明来源。一、版本信息select*frominformation_schema.GLOBAL_VARIABLESWHEREVARIABLE_NAMElike'version%';二、集群状态select*fromoceanbase.v$ob_cluster;三、服务器状态检查所有服务器的状态，包括这个Server
基于协同过滤推荐算法的景点票务数据系统（python-计算机毕设）计算机程序设计(接毕设) 推荐算法机器学习毕业设计 python 人工智能
摘要IABSTRACTII第1章引言1研究背景及意义1研究背景1研究意义1国内外研究现状2智慧旅游3旅游大数据3研究内容4本章小结4第2章相关技术概述5基于内容的推荐算法5基于内容的推荐算法原理5基于内容的推荐算法实现5协同过滤推荐算法6协同过滤算法原理6协同过滤算法实现7SpringBoot框架9SpringBoot简介9SpringBoot特性10SpringBoot工作原理10Vue.js框
Navicat 17 for Mac 数据库管理 1alisa 数据库
Navicat17forMac数据库管理文章目录Navicat17forMac数据库管理一、介绍二、效果三、下载一、介绍NavicatPremium17forMac是一款专业的数据库管理工具，适用于开发人员、数据库管理员和分析师等用户。它提供了强大的数据管理功能和丰富的工具，使用户能够轻松地管理和维护数据库，提高数据处理效率。提供了无缝数据迁移功能;多元化操作工具，可以轻松地将不同格式的数据传输到
巨人学术搜索官网入口，免费参考文献论文及学术搜索引擎黄豆匿zlib 学习方法
巨人学术搜索自2024年上线以来，迅速成为学术界不可或缺的重要工具，尤其受到研究人员、教师及学生的青睐。这款专注于学术领域的专业搜索引擎，覆盖了自然科学、人文科学、社会科学等多个学科领域，整合了国内外众多主流数据库，包括维普、万方、Elsevier、WebofScience等，为用户提供了期刊论文、学位论文、专利、图书、预印本等多种类型资源的精准检索服务。与普通搜索引擎相比，巨人学术搜索的优势在于
分布式事务解决方案：Seata原理详解与实战教程 Cloud_. 分布式 wpf seata
一、为什么需要Seata？在微服务架构中，跨服务的事务管理成为核心痛点：传统事务失效：服务拆分导致无法使用本地事务数据不一致风险：网络抖动、服务宕机等情况导致数据错乱复杂场景处理难：涉及多个数据库、消息队列等异构存储Seata（SimpleExtensibleAutonomousTransactionArchitecture）是阿里开源的分布式事务解决方案，提供AT模式、TCC模式、Saga模式三
「Python数据分析」Pandas基础，筛选数据利器：布尔索引奕澄羽邦 python 数据分析 pandas
我们在处理数据的时候，数据筛选是一个重要的过程。利用布尔索引，我们可以选择需要的数据区间。布尔索引，是利用各种不等式，以及与或非操作，来对数据区间进行选择。在pandas中，与操作，对应的是&这个符号，表示选取两个数据集重合的部分。或操作，对应的是|这个符号，表示选择两个数据集中，只要在一个数据集中出现的部分。非操作，对应的是~这个符号，表示选取一个数据集中，相反的部分。我们下面通过具体的例子，来
js 创建对象写法 ---追溯狼魂豹速 javascript 前端开发语言
复制重新生成importSqlParaDTOfrom‘./SqlParamDTO’;exportdefault{create(funcSysId,jsonPara){//实例私有状态(每次create()调用独立)conststate={funcSysId:String(funcSysId||‘’),//强制字符串类型sqlId:‘’,modelName:undefined,queryColumn
【数学建模】灰色关联分析模型详解与应用烟锁池塘柳0 数学建模数学建模算法
灰色关联分析模型详解与应用文章目录灰色关联分析模型详解与应用引言灰色系统理论简介灰色关联分析基本原理灰色关联分析计算步骤1.确定分析序列2.数据无量纲化处理3.计算关联系数4.计算关联度灰色关联分析应用实例实例：某企业生产效率影响因素分析灰色关联分析在各领域的应用灰色关联分析的Python实现灰色关联分析的局限性结论引言在数据分析领域，我们经常面临样本量少、信息不完全、数据不确定性高的情况。传统的
数据分析_python进行数据筛选1_行筛选 Monkey*王 python 数据分析 pandas
以titanic的训练数据为例进行展示，为了简化取前十行为例首先导入模块，导入数据importpandasaspdimportnumpyasnpdf=pd.read_csv(r"C:\Users\admin\Desktop\train.csv")df=df.head(10)df.index=['a','b','c','d','e','f','g','h','i','g']筛选单行1.利用df[行索
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
学习积累规划一个DBA的成功之路小藤椅 Oracle基础知识数据库 db2 sql server informix ibm oracle
一个DBA的数据库学习经验：选定发展方向1999年，我在开始读研时就给自己确定了以后的发展方向。当时有两个方向：网络，数据库技术。因为在2000年之时，网络大热，市场上拥有CCNP、CCIE证书的人特别牛。所以我当时也考下了CCNP证书，但后来发现网络方向涉及很多硬件层面的东西，这些都对厂商的依赖性太强，个人发挥空间不大。而我喜欢钻研，所以慢慢开始转向专攻数据库技术。在认准数据库这个方向后，我开始
DataEase二开记录--踩坑和详细步骤（一）风_间 DataEase 数据库 mysql java
最近在看DataEase，发现挺好用的，推荐使用。用的过程中萌生了二开的想法，于是自己玩了玩，并做了一些记录。开发环境问题下载源码，选稳定版本的，本案例是1.17.0版本。下载地址开源社区-FIT2CLOUD飞致云数据库配置数据库初始化：DataEase使用MySQL数据库，推荐使用MySQL5.7版本。同时DataEase对数据库部分配置项有要求，请参考下附的数据库配置，修改开发环境中的数据库配
PostgreSQL技术大讲堂 - 第82讲，主题：数据安全利器--密码安全策略构建 m0_65303136 postgresql 数据库
PostgreSQL技术大讲堂-第82讲，主题：数据安全利器--密码安全策略构建讲课内容：1、密码安全概述2、启用密码安全策略3、深入密码安全构建4、PG密码安全策略漏洞数据库用户的密码安全关系在整个数据库的安全，控制密码的复杂度、密码复用控制、密码定期重置直接影响密码的安全，本期技术公开课为大家展示如何构建密码安全策略。欢迎持续关注CUUGPostgreSQL技术大讲堂。
ocp考试有判断题吗?多少分及格? m0_65303136 开闭原则
ocp考试有判断题吗?多少分及格?OCP考试没有判断题。OCP考试指的是OracleOCP中级认证考试，是数据库领域非常有含金量的一种认证，如果拿到OCP证书对于个人入职或者涨薪都有帮助。OCP考试，可以说是数据库领域最值得考的一个认证，根据最新的OCP19c认证考试要求，以下是考试题型和通过成绩的详细信息：考试题型OCP认证考试均为全英文选择题，包括单选题和多选题，没有操作题或其他题型(如判断题
零基础掌握分布式ID生成：从理论到实战的完整指南 [特殊字符] 添砖Java中分布式分布式id java
一、为什么需要分布式ID？在单机系统中，使用数据库自增ID就能满足需求。但在分布式系统中，多个服务节点同时生成ID时会出现以下问题：ID冲突：不同节点生成相同ID扩展困难：数据库自增ID无法水平扩展安全性差：连续ID暴露业务数据量性能瓶颈：高并发场景下生成速度慢典型应用场景：✅电商订单号生成✅社交平台用户ID✅物流运单号生成✅金融交易流水号二、分布式ID的核心要求特性说明重要性全局唯一性整个分布式
当我被面试官追问如何优化慢SQL时，我悟了这些底层逻辑 mysql数据库程序员后端
当我被面试官追问如何优化慢SQL时，我悟了这些底层逻辑去年面试字节跳动时，我遇到了一个至今印象深刻的场景：面试官在白板上写了一条包含三表JOIN且带有子查询的SQL，淡淡地说"请分析这条SQL的性能问题"。当时我的后背瞬间绷直——这道题考察的不仅是SQL优化技巧，更是对数据库底层原理的深刻理解。一、面试官到底在考察什么？实战经验：是否真正处理过线上慢查询问题，能否结合业务场景分析知识体系：从索引设
烧掉 700 亿学费后，中国企业终于懂了：换软件才是真正的省钱程序员安全数据库
2018年深圳宝安机场，76岁的中兴创始人侯为贵拖着行李箱赶赴美国的照片全网刷屏。芯片断供7天，这家通信巨头市值蒸发700亿；2022年某新能源车企因EDA软件禁用，耗资数十亿的研发项目直接停摆。中国企业终于意识到：躺在全球化温床上的时代，结束了。从芯片到数据库，从工业软件到办公系统，中国企业正把“进口零件”一个个抠下来——这不是赌气，而是被逼出来的生存智慧。一、当“卡脖子”变成商机2020年哈工
华纳云如何优化 MySQL 的内存使用？服务器
优化MySQL的内存使用是提高数据库性能和效率的关键步骤。以下是一些有效的策略和方法，结合了多轮对话中的信息，帮助您优化MySQL的内存使用：1.调整缓冲区和缓存大小InnoDB缓冲池（InnoDBBufferPool）：作用：用于缓存InnoDB表的数据和索引，是MySQL中最重要的内存区域之一。优化建议：将innodb_buffer_pool_size设置为物理内存的50%-80%，具体取决于
Elasticsearch 介绍：分布式搜索与分析引擎吱屋猪_ elasticsearch
在如今大数据时代，企业和开发者面临着前所未有的数据量和实时性要求。为了能够高效地处理、存储和查询这些数据，Elasticsearch作为一种强大的分布式搜索引擎，已经成为了很多组织和开发者的首选解决方案。1.什么是Elasticsearch？Elasticsearch是一个开源的、基于ApacheLucene构建的全文搜索引擎。它提供了高效的搜索功能，并且非常适合处理大量数据，尤其是在需要快速搜索
【MYSQL学习】5分钟学会MySQL登录，新手也能轻松搞定？墨瑾轩 MySql入门~精通 mysql 学习 adb
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣5分钟学会MySQL登录，新手也能轻松搞定？引言嘿，小伙伴们！今天我们来聊聊MySQL的登录问题。对于初学者来说，登录数据库可能是你接触MySQL的第一步，也是最重要的一步。那么，MySQL是如何登录的呢？有哪些常见的问题需要注意？别急，今天我就带你一步步了解
如果企业数据仓库全部使用 Couchbase Analytics 服务，可能会面临哪些问题？ PersistDZ 数据存储数据仓库
如果企业数据仓库全部使用CouchbaseAnalytics服务，可能会面临哪些问题？一、概述CouchbaseAnalytics服务是一项强大的工具，旨在为NoSQL数据提供近实时的分析能力。然而，如果企业的数据仓库全部依赖于CouchbaseAnalytics服务，可能会遇到一些问题和挑战。以下将从多个角度详细分析这些可能的问题。二、可能的问题和挑战资源消耗和成本高资源需求：Couchbase
记服务器MongoDB数据库迁移实战记录【云MongoDB数据库迁移】一键难忘数据库 mongodb 服务器
文章目录一.服务器MongoDB数据库迁移实战记录1.1备份MongoDB数据库步骤1.2恢复数据库到新服务器里1.3总结一.服务器MongoDB数据库迁移实战记录1.背景：我原来的服务器到期了，因为高昂的费用我只能使用新用户的身份购买一个服务器。2.需求：将原来的云端MongoDB数据库迁移到新购买的服务器上。3.注意：之前的MongoDB并没有使用宝塔的可视化创建，而是使用命令行，导致，可视化
java 实现数据库备份李逍遙️ mysql 数据库 java mysql
importcom.guangyi.project.model.system.DataBaseInFo;importjava.io.BufferedReader;importjava.io.File;importjava.io.FileOutputStream;importjava.io.IOException;importjava.io.InputStream;importjava.io.Inp
软件定义世界下的教育创新：高校计算机实验室应重心转向开源平台开源
一、一键式教学环境部署，节省90%准备时间•应用模板库：提供200+预置教学工具模板（如JupyterLab+TensorFlow、MySQL集群），教师可根据课程需求选择模板，5分钟内完成包含依赖库、运行环境的全栈部署。•多版本隔离：支持同一服务器并行运行不同版本框架（如Django3.2教学版与4.1开发版），避免版本冲突导致30%的课堂时间浪费。•自助式环境创建：学生通过命令行快速申请带GP
golang接口用法-代码案例 JavaPub-rodert golang golang 开发语言后端
文章目录Go语言中接口（interface）的含义接口的常见应用场景示例1示例2（Dog和Cat）使用场景-多数据库Go语言中接口（interface）的含义接口在Go语言中是一种类型，它定义了一组方法的集合。一个类型只要实现了接口中定义的所有方法，就认为该类型实现了该接口。接口不关心具体的实现细节，只关心方法的签名（即方法的名称、参数和返回值类型）。接口可以看作是不同类型之间的桥梁，它允许不同类
mysql 统计同一字段不同值的个数 liudachu Mysql数据库 mysql
在一个项目中,制作呃echart图表的时候，遇到一个需求，需要从后端接口获取数据----售票员的姓名和业绩所以需要在订单表中，获取不同售票员的订单数量。订单表解决方案汇总MySQL统计一个列中不同值的数量需求：MySQL统计一个列中不同值的数量，其中origin是用户来源，其中的值有iPhone、Android、Web三种，现在需要分别统计由这三种渠道注册的用户数量。方案1:SELECTcount
数仓建模—Data Warebase AI 时代数据平台应当的样子不二人生数仓建模人工智能数据仓库数仓建模
DataWarebaseAI时代数据平台应当的样子引言：在这个AI技术飞速发展的时代，我们有能力更深入地发掘数据潜在的价值，而数据处理不应当成为阻碍。云原生分布式DataWarebase将开启处理数据的新范式，它让数据的使用返璞归真，不论是存储还是查询，一个系统满足业务全方位数据需求。打破复杂数据架构的束缚，大大降低数据的使用门槛，释放数据潜能，让数据涌现智能。背景近二十年大数据发展史2002年我
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
【第11章】亿级电商平台订单系统-海量数据架构设计 cherry5230 架构系统架构架构分布式
1-1本章导学课程导学课程定位：大型系统架构设计核心难点解析核心项目：BToB电商平台订单系统（年交易额200亿级）本章知识体系1.核心概念辨析海量数据vs大数据本质区别解析常见认知误区说明2.方法论框架海量数据处理核心思想分布式计算原理数据分片策略弹性扩展机制3.数据库架构设计方法论体系读写分离模式分库分表策略数据分区方案缓存层设计4.数据处理体系海量数据处理之道批处理与流处理数据压缩技术异步处
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb

hive sql 行列转换 开窗函数 炸裂函数

hive sql 行列转换 开窗函数 炸裂函数

准备原始数据集

学生表 student.csv

讲师表 teacher.csv

课程表 course.csv

分数表 score.csv

员工表 emp.csv

雇员表 employee.csv

电影表 movie.txt

订单表 order.csv

创建数据库和数据表

行列转换

列转行

行专列

UDF UDTF UDAF

explode

posexplode

inline

lateral view

UDTF 案例

窗口函数(开窗函数)

聚合函数

统计每个用户截至每次下单的累计下单总额

统计每个用户截至每次下单的当月累积下单总额

最近三笔订单总金额

当前订单金额与前两笔订单金额的总和

当前订单金额与后两笔订单金额的总和

当前订单金额与前一笔订单和后一笔订单金额的总和

分析函数 lag lead first_value last_value

lag lead

统计每个用户每次下单距离上次下单相隔的天数（首次下单按0天算）

每个用户每个月首笔订单时间

每个用户每个月最后笔订单时间

每个岗位先先入职的远哥和后入在的员工工资差

first_value last_value

每个用户每个月首笔订单时间

每个用户每个月最后笔订单时间

每个用户每个月首笔订单时间和最后笔订单时间

排序函数

分组排序取TopN

row_number

rank

dense_rank

每个月每个消费总金额前三名的用户

你可能感兴趣的:(数据分析,大数据,Hive,hive,sql,hadoop,数据库,大数据,数据仓库,数据分析)

hive sql 行列转换开窗函数炸裂函数

hive sql 行列转换开窗函数炸裂函数