一杯敬朝阳一杯敬月光

数据仓库Hive

Hive概述

产生背景

Hive是什么

为什么要使用Hive

Hive在Hadoop生态圈中的位置

Hive体系架构

Hive部署架构

Hive和RDBMS的区别

Hive部署

HIve DDL

数据库操作

表操作

Hive DML

创建表

加载数据到hive

基本统计

聚合

分组函数

join

执行计划

关于外部表和内部表

Hive shell一些小命令

Hive概述

产生背景

MapReduce编程的不便性
传统RDBMS人员的需求
- HDFS上的文件并没有schema的概念

Hive是什么

由Facebook开源，用于解决海量结构化日志的数据统计问题
构建在Hadoop之上的数据仓库（可以理解为数据存在在HDFS，可以通过MapReduce进行计算，提交在YARN上运行的）
Hive提供的SQL查询语言：HQL
底层支持多种不同的执行引擎（MR/Tez/Spark，Hive构建在Hadoop之上，底层应该是MapReduce的执行引擎，MapReduce适合离线处理，执行效率不是很高， Hive从诞生之初到1.x都是支持MapReduce的，Hive2.x开始底层的默认执行引擎是Spark）

为什么要使用Hive

简单、容易上手
为超大数据集设计的计算/扩展能力
统一的元数据管理
- Hive数据存放在HDFS上
- 元数据信息（记录数据的数据，例如一个表，表的名字、字段、字段的类型、数据存放在HDFS的啥位置）是存放在MySQL中
- SQL on Hadoop：Hive、Spark SQL、impala...，即在Hive里面创建一张表，在Spark SQL和impala可以直接使用，反之亦然，元数据管理是单独抽取的部分，后续想更换框架会很方便

Hive在Hadoop生态圈中的位置

Hive体系架构

把SQL翻译成MapReduce，跑在Hadoop之上，在使用查询和管理的过程中可能会涉及到一些表一些数据库，因为Hive是基于表来操作的，这些表和数据库都是作为元数据信息存放在Metastore里面的，这个Metastore是存放在MySQL里面的。

client：
- shell
- thrift/jdbc（server/jdbc的方式，一种协议，相当于把hive启成一种服务，通过jdbc的方式往这个服务上提交查询或SQL）
- WebUI（HUE/Zeppelin），提供Web界面，在Web界面上直接写SQL，统计结果可以以图形化的方式直接展示出来
metastore ==> MySQL
- database：name、location、owner....
- table：name、location、owner、column name / type、....
Driver
- SQL语句是一个普通的字符串而已，如何让这个字符串被Hive识别？先将SQL编译成一个语法树（SQL Parser），基于这个语法树可以做很多的优化（Query Optimizer），取出最优的执行计划生成物理执行计划（Physical Plan），在物理执行计划过程中，可能有一些序列化与反序列化以及UDF（UDF：用户自己定义的一些函数），物理执行计划会生成一个Execution，在Execution下面会生成MapReduce作业。

Hive部署架构

Hive是一个客户端，不涉及集群的概念，需要在哪个机器上使用Hive操作，直接在哪台机器上布上 Hive的软件包就行了

Hive和RDBMS的区别

支持的
- 都支持SQL
- 都支持insert和update，只不过大数据不太建议insert和update，因为性能比较低
- 都支持分布式（集群），不过MySQL的集群比较小，而且是构建在专用的机器上的，成本昂贵；Hive是基于Hadoop之上的，Hadoop可以拥有成千上万个节点，且是构建在廉价的机器之上的。
区别的
- Hive HQL 和关系型数据库的SQL非常类似，但他们有本质区别，他俩只是长得像，并没有关系
- 对于查询而言，关系型数据库延时较低，时效性高；Hive 基于Hadoop之上的，作业要通过SQL转换成MapReduce作业或者Spark作业，然后提交到集群上运行，跑出结果可能要很久
- MySQL处理PB级数据已经很厉害了，但是对于Hive来说PB不算大。

Hive部署

我用的是mac，下载hive-1.1.0-cdh5.15.1.tar.gz，因为之前Hadoop选择的版本是hadoop-2.6.0-cdh5.15.1，所以hive也必须选择cdh5.15.1，这边的mysql下载的是5.6.40，mysql直接下载的dmg格式，直接一路点点点。

下载 & 解压
添加HIVE_HOME到系统的环境变量，在source一下，打开的多个控制台都要source一下，否则在以前打开的控制台上不生效
修改配置
1. hive-env.sh
  1. HADOOP_HOME：若添加到系统环境变量，通常不需要配，不过配一下也没事
2. hive-site.xml
  1. 需要配置元数据存储的地方，所以这边只需要配置一些MySQL的信息
拷贝MySQL驱动包到$HIVE_HOME/lib下
前提是要准备安装一个MySQL数据库，yum install 去安装一个MySQL数据库

hive-site.xml的配置





  javax.jdo.option.ConnectionURL
  
  jdbc:mysql://hadoop000:3306/hadoop_hive?createDatabaseIfNotExist=true



  javax.jdo.option.ConnectionDriverName
  com.mysql.jdbc.Driver 



  javax.jdo.option.ConnectionUserName
  root 



  javax.jdo.option.ConnectionPassword
  123456

HIve DDL

数据库操作

DDL：Hive Data Definition Language【create、delete、alter...】

Hive数据抽象/结构：

database HDFS一个目录
- table HDFS一个目录
  - data HDFS一个文件
  - partition 分区表 HDFS一个目录
    - data HDFS一个文件
    - bucket 分桶 HDFS一个文件

HiveQL DDL statements are documented here, including:

CREATE DATABASE/SCHEMA, TABLE, VIEW, FUNCTION, INDEX
DROP DATABASE/SCHEMA, TABLE, VIEW, INDEX
TRUNCATE TABLE
ALTER DATABASE/SCHEMA, TABLE, VIEW
MSCK REPAIR TABLE (or ALTER TABLE RECOVER PARTITIONS)
SHOW DATABASES/SCHEMAS, TABLES, TBLPROPERTIES, VIEWS, PARTITIONS, FUNCTIONS, INDEX[ES], COLUMNS, CREATE TABLE
DESCRIBE DATABASE/SCHEMA, table_name, view_name, materialized_view_name

PARTITION statements are usually options of TABLE statements, except for SHOW PARTITIONS.

命令：create database

[]：中括号里面可选， |：多选一

CREATE [REMOTE] (DATABASE|SCHEMA) [IF NOT EXISTS] database_name

  [COMMENT database_comment] // 加一个注释

  [LOCATION hdfs_path] // hdfs上一个目录

  [MANAGEDLOCATION hdfs_path]

  [WITH DBPROPERTIES (property_name=property_value, ...)];

CREATE DATABASE IF NOT EXISTS hive; // 通常会加上IF NOT EXISTS

CREATE DATABASE IF NOT EXISTS hive2 LOCATION '/test/location'; // 更改路径

CREATE DATABASE IF NOT EXISTS hive3 WITH DBPROPERTIES ("creator"="hh");

/user/hive/warehouse：这个是HIve默认的存储在HDFS上的路径，这个路径是可以更改的。

举个

hive> show databases;

OK

default

hive

hive2

test_db

Time taken: 0.036 seconds, Fetched: 4 row(s)

在hive中一共有三个数据库，我们去MySQL上看一下哈，hadoop_hive这个数据库是我们在hive-site.xml里面配置的

mysql> use hadoop_hive;

Database changed

mysql> select * from DBS \G;

*************************** 1. row ***************************

DB_ID: 1

   DESC: Default Hive database

DB_LOCATION_URI: hdfs://localhost:8020/user/hive/warehouse

   NAME: default

   OWNER_NAME: public

   OWNER_TYPE: ROLE

*************************** 2. row ***************************

DB_ID: 2

   DESC: NULL

DB_LOCATION_URI: hdfs://localhost:8020/user/hive/warehouse/test_db.db

   NAME: test_db

   OWNER_NAME: dinghui

   OWNER_TYPE: USER

*************************** 3. row ***************************

DB_ID: 3

   DESC: NULL

DB_LOCATION_URI: hdfs://localhost:8020/user/hive/warehouse/hive.db

   NAME: hive

   OWNER_NAME: dinghui

   OWNER_TYPE: USER

*************************** 4. row ***************************

DB_ID: 4

   DESC: NULL

DB_LOCATION_URI: hdfs://localhost:8020/test/location

   NAME: hive2

   OWNER_NAME: dinghui

   OWNER_TYPE: USER

4 rows in set (0.00 sec)

ERROR:

No query specified

我们来看看("creator"="hh")这个的显示：desc database extended hive3;

hive> desc database extended hive3;

OK

hive3 hdfs://localhost:8020/user/hive/warehouse/hive3.db hh USER {creator=hh}

Time taken: 0.034 seconds, Fetched: 1 row(s)

hive> desc database extended hive2;

OK

hive2 hdfs://localhost:8020/test/location dinghui USER

hive> desc database hive3;

OK

hive3 hdfs://localhost:8020/user/hive/warehouse/hive3.db dinghui USER

在控制台上显示现在操作的数据库

hive> set hive.cli.print.current.db;

hive.cli.print.current.db=false

hive> set hive.cli.print.current.db=true;

hive (test_db)> !clear // 清除屏幕上的显示

删除数据库

drop database test_db; // 若test_db中没有表，执行该语句会成功删掉test_db库；若里面有表，则不能，此时若还想删除，可以添加CASCADE，则无论有没有表都可以删掉该数据库，有表的话，连带表一起删除，要慎用，尤其生产环境，保险起见还是一张表一张表的删比较好。

hive (test_db)> drop database test_db;

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. InvalidOperationException(message:Database test_db is not empty. One or more tables exist.)

hive (test_db)> drop database test_db CASCADE;

hive (test_db)> show databases;

default

hive

hive2

like的用法

hive (test_db)> show databases;

default

hive

hive2

hive (test_db)> show databases like "hive*";

hive

hive2

表操作

命令：

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name    -- (Note: TEMPORARY available in Hive 0.14.0 and later)

  [(col_name data_type [column_constraint_specification] [COMMENT col_comment], ... [constraint_specification])]

  [COMMENT table_comment]

  [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]

  [CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]

  [SKEWED BY (col_name, col_name, ...)                  -- (Note: Available in Hive 0.10.0 and later)]

     ON ((col_value, col_value, ...), (col_value, col_value, ...), ...)

     [STORED AS DIRECTORIES]

  [

   [ROW FORMAT row_format]

   [STORED AS file_format]

     | STORED BY 'storage.handler.class.name' [WITH SERDEPROPERTIES (...)] -- (Note: Available in Hive 0.6.0 and later)

  ]

  [LOCATION hdfs_path]

  [TBLPROPERTIES (property_name=property_value, ...)]   -- (Note: Available in Hive 0.6.0 and later)

  [AS select_statement];   -- (Note: Available in Hive 0.5.0 and later; not supported for external tables)

创建表

CREATE TABLE emp(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

查看表结构，此处可以看到字段名、类型
hive (default)> desc emp;
显示详细信息，但是显示不够人性化，所以通常不用
desc extended emp;
通常用这条命令，现实详细信息
desc formatted emp;

将数据导入hive表
LOAD DATA LOCAL INPATH '/Users/dinghui/data/emp.txt' OVERWRITE INTO TABLE emp;
/user/hive/warehouse/emp/emp.txt

ALTER TABLE emp RENAME TO emp2;
/user/hive/warehouse/emp2/emp.txt

我们对表改名，体现在hdfs的目录上，下面的数据文件emp.txt的名字不受影响，因为表名对应其上一级的文件名。

Hive DML

DML：Data Manipulation Language

创建表

CREATE TABLE emp(
   empno int,
   ename string,
   job string,
   mgr int,
   hiredate string,
   sal double,
   comm double,
   deptno int
   ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

   查看表结构，此处可以看到字段名、类型
   hive (default)> desc emp;
   显示详细信息，但是显示不够人性化，所以通常不用
   desc extended emp;
   通常用这条命令，现实详细信息
   desc formatted emp;

加载数据到hive

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]

LOAD DATA LOCAL INPATH '/Users/dinghui/data/emp.txt' OVERWRITE INTO TABLE emp;
/user/hive/warehouse/emp/emp.txt

ALTER TABLE emp RENAME TO emp2;
/user/hive/warehouse/emp2/emp.txt

   LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename
   [PARTITION (partcol1=val1, partcol2=val2 ...)]
   LOCAL: 本地系统，若没有LOCAL就是指HDFS路径
   OVERWRITE：是否数据覆盖，若没有就是数据追加
   // hive下使用load data:load data inpath ‘hdfs://hadoop000:8020/data/emp.txt’ into table emp;/data目录下的emp.txt就没了
   // 这个其实是一个移动的过程，把data下的移动到你的hive表的目录下面去了
   LOAD DATA INPATH 'hdfs://localhost:8020/data/emp.txt' INTO TABLE emp;
   LOAD DATA INPATH 'hdfs://localhost:8020/data/emp.txt' OVERWRITE INTO TABLE emp;

从下面我们可以看出，表格对应目录，表格中的内容对应目录下的文件，查询的时候table名对应目录名，和里面的文件名木有任何关系。

create table emp1 as select * from emp;
       /user/hive/warehouse/emp1/000000_0
   create table emp2 as select empno, ename from emp;
       /user/hive/warehouse/emp2/000000_0

   INSERT OVERWRITE [LOCAL] DIRECTORY directory1
   [ROW FORMAT row_format] [STORED AS file_format] (Note: Only available starting with Hive 0.11.0)
   SELECT ... FROM ...
   // 若没有hive目录会创建，若存在hive目录，且hive目录非空，则会覆盖，即之前hive目录下的文件全部被删除
   INSERT OVERWRITE LOCAL DIRECTORY '/Users/dinghui/MyTmp/hive/'
   ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
   select empno, ename, sal, deptno from emp;
   INSERT OVERWRITE LOCAL DIRECTORY '/Users/dinghui/MyTmp/'
   ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
   select empno, ename, sal, deptno from emp;

大数据hive中不推荐使用insert插入一条数据和update更改一条数据，这种操作很耗性能，且有可能产生小文件，
若要操作，建议用NoSQL数据库

基本统计

简单查询，不需要跑mapreduce，很快就可以出结果
   // between and [],左闭右闭
   select * from emp where sal between 800 and 1500;
   select * from emp where ename in ('SMITH', "MARTIN");
   select * from emp where ename not in ('SMITH', "MARTIN");
   select * from emp where comm is null;
   select * from emp where comm is not null;

聚合

max/min/sum/avg，这类涉及到统计的，需要跑mapreduce，耗时比较久
select count(1) from emp where deptno=10;
select max(sal), min(sal), sum(sal), avg(sal) from emp;

分组函数

group by，这个也是要跑mapreduce
   求每个部门的平均工资
   出现在select中的字段如果没有出现在聚合函数里，则必须出现在group by里
   select deptno, avg(sal) from emp group by deptno;

求每个部门、工作岗位的平均工资

select deptno, job, avg(sal) from emp group by deptno, job;

   求每个部门平均工资大于2000的部门
   对于分组函数过滤使用having
   select deptno, avg(sal) from emp group by deptno having avg(sal) > 2000;

join

这个也是要跑mapreduce

create table dept(
       deptno int,
       dname string,
       loc string
   )ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

LOAD DATA LOCAL INPATH '/Users/dinghui/data/dept.txt' OVERWRITE INTO TABLE dept;

   select
   empno, ename, sal, e.deptno, dname
   from emp e join dept d
   on e.deptno = d.deptno;

执行计划

EXPLAIN select
   empno, ename, sal, e.deptno, dname
   from emp e join dept d
   on e.deptno = d.deptno;

   EXPLAIN extended
   select
   empno, ename, sal, e.deptno, dname
   from emp e join dept d
   on e.deptno = d.deptno;

关于外部表和内部表

外部表创建：加EXTERNAL关键字，通常我们会用location指定外部表存放位置,/external/emp/这个目录不需要我们自己手动创建。例如：

CREATE EXTERNAL TABLE emp_external(
empno int,
ename string,
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
location '/external/emp/';

此时我们如果去mysql看元数据信息，命令select * from TBLS \G;，会有如下关键字，TBL_TYPE: EXTERNAL_TABLE，若该字段是TBL_TYPE: MANAGED_TABLE（则是内部表）。

外部表 VS 内部表

若执行 drop table table_name
- 则无论外部表和内部表的元数据信息均会被删除，具体表现，hive执行show tables；不会展现被删除的表，去mysql查看元数据信息，也不会看到该表的信息
- 内部表的数据还会被删除，表现hdfs路径xxx/xxx/table_name/，这个目录连同该目录下的文件会被删除；但是外部表的数据还会存在在hdfs文件系统，表现先前定义该表时指定的location 目录及其下的文件还会在，此时若我们想恢复外部表，只需要按之前创建表的命令再创建一次即可恢复。
修改表名:ALTER TABLE emp RENAME TO emp2;
- 若是外部表，修改表名，不会影响到HDFS文件存储，只是表明发生更改，对应路径名不会更改，表现：show tables;出现emp2；但是文件目录，若之前是xxx/xxx/emp_info/xxx，依旧还是xxx/xxx/emp_info/xxx
- 若是内部表，则修改表名，还会体现到HDFS文件存储上，即从xxx/xxx/emp_info/xxx变为xxx/xxx/emp2/xxx

Hive shell一些小命令

shell临时显示字段名
set hive.cli.print.header=true;
shell 临时显示当前库
set hive.cli.print.current.db=true;
查看hive支持的函数
show functions;
查看该函数的使用方法
desc function upper;
查看该函数的使用方法，且有例子介绍
desc function extended upper;

参考：慕课网 - Hadoop 系统入门+核心精讲

你可能感兴趣的:(#,大数据,大数据,hadoop,hive)

记一次多线程导入问题排查过程程序辕日记 java MySql java spring boot
记一次多线程导入问题排查过程1.需求2.遇到问题3.排查解决问题1.需求大数据量的核对：现在有1000个excel文件，每个excel文件内有21个sheet页，现在要对这些数据进行核对，需要先将这些数据导入到库中，再进行核对。2.遇到问题库使用的是MySql，程序是Java，springcloud生态，在串行导入的时候，导入一次大概需要60分钟，现在对其进行改造，使用多线程导入，其思路为：创建线
【大数据】大数据处理-Lambda架构-Kappa架构 weixin_33884611 大数据系统架构
大数据处理-Lambda架构-Kappa架构elasticsearch-headElasticsearch-sqlclientNLPchina/elasticsearch-sql:UseSQLtoqueryElasticsearch360企业安全V5.6SP1,杨军01,您好!lamda架构_百度搜索Lambda架构vsKappa架构-数据源博客-CSDN博客数据系统架构——Lambdaarchi
炸裂函数explode 阿强77 炸裂函数 sql
在ApacheHive中，"炸裂函数"通常指的是将复杂数据类型（如数组或映射）拆分成多行的函数。Hive提供了几个内置函数来实现这种操作，其中最常用的是explode函数。1.explode函数explode函数用于将数组或映射类型的列拆分成多行。每行包含数组或映射中的一个元素。示例1:炸裂数组假设有一个表my_table，其中有一列my_array是数组类型：SELECTexplode(my_a
2024年大数据技术4：Lambda和Kappa架构区别_lambda架构和kappa架构区别，2024年最新你花了多久弄明白架构设计 2401_84182146 程序员大数据面试学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新需要这份系统化资料的朋友，可以戳这里获取虽然Lambda架构使用起来十分灵活，并且可以适用于很多的应用场景，但在实际应用的时候，Lambda架构也
大数据技术4：Lambda和Kappa架构区别_lambda架构和kappa架构区别(3) 2301_76348014 程序员大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！Lambda架构总共由三层系统组成：批处理层（Batc
hive mysql日期减一天_hive sql的常用日期处理函数总结空城大大叔 hive mysql日期减一天
1)date_format函数(根据格式整理日期)作用：把一个字符串日期格式化为指定的格式。selectdate_format('2017-01-01','yyyy-MM-ddHH:mm:ss');--日期字符串必须满足yyyy-MM-dd格式结果：2017-01-0100:00:002)date_add、date_sub函数(加减日期)作用：把一个字符串日期格式加一天、减一天。selectdat
自你离开后的第一篇关于MySQL和Hive开发生涯常见函数对比及SQL书写注意事项汇总二百四十九先森 MySQL
涉及到的任何SQL语句或知识点，未特别注明则表明MySQL和Hive通用。一、时间函数一、时间函数1、时间转换时间戳转指定格式的时间：selectfrom_unixtime(1234567890,格式);格式默认是年月日时分秒，如果不是则需要指定格式。Hive(yyyy-MM-ddHH:mm:ss)。MySQL（%Y-%m-%d%H:%m:%s）。时间字符串转时间戳：selectunix_time
mySQL和Hive的区别 iijik55 面试学习路线阿里巴巴 hive mysql 大数据 tomcat 面试
SQL和HQL的区别整体1、存储位置：Hive在Hadoop上；Mysql将数据存储在设备或本地系统中；2、数据更新：Hive不支持数据的改写和添加，是在加载的时候就已经确定好了；数据库可以CRUD；3、索引：Hive无索引，每次扫描所有数据，底层是MR，并行计算，适用于大数据量；MySQL有索引，适合在线查询数据；4、执行：Hive底层是MapReduce；MySQL底层是执行引擎；5、可扩展性
时间函数（Hive-Sql\Mysql\Presto）菜鸟教程*…* mysql hive sql mysql
特殊说明：1、时间函数有多种方法，比如本月第一天（T-1）：mon_firstday(sysdate(-1))或者concat(substr(sysdate(-1),1,8),‘01’)等。2、通常离线数据是T-1，故取数据时候，月至今的范围是1号至昨天，故本业会标注T-1，请知晓。3、看函数产生的效果：（1）Hive-Sql如果想看函数的效果，可以在集市输入select+函数。例如selects
MySQL和Hive SQL 时间处理常用函数汇总 Cachel wood sql语言 sql server +mysql mysql hive sql 机器学习数据库人工智能 sklearn
文章目录一、基础时间函数二、日期加减操作三、日期格式化与解析四、时间差计算五、时间类型转换六、时区处理示例获取当前时间并格式化日期增加3天计算两个日期的天数差注意事项：以下是SQL中常用的时间处理函数汇总，涵盖MySQL和Hive的差异：一、基础时间函数功能MySQLHive当前时间（日期+时间）NOW()/CURRENT_TIMESTAMP()current_timestamp()当前日期CUR
【时间序列聚类】从数据中发现隐藏的模式 T-I-M 机器学习人工智能时间序列
在大数据时代，时间序列数据无处不在。无论是股票市场的价格波动、天气的变化趋势，还是用户的点击行为，这些数据都随着时间推移而产生。然而，面对海量的时间序列数据，我们如何从中提取有价值的信息？答案之一就是时间序列聚类。本文将以通俗易懂的方式，带你了解时间序列聚类的基本概念、应用场景以及实现思路，并希望能为你提供一些启发。什么是时间序列聚类？简单来说，时间序列聚类是一种将相似的时间序列归为一类的技术。它
家居巨头的觉醒，永洪科技为林氏家居开启一站式智慧决策永洪科技科技大数据人工智能数据分析数据可视化报表
在现代企业经营中，数据不仅是资产，更是决策的指南针。永洪科技与林氏家居的合作，是共同开发了一个企业级的一站式大数据分析平台。在合作多年的积累下，已逐步成为家居行业数字化转型的代表性案例。这不仅是两家企业间的合作，更是对于如何有效整合企业内部数据资产，支持各领域业务分析的一次深度实践。以下，我们将深入探讨该项目的每个关键阶段，展示永洪科技的专业能力和对潜在客户的价值承诺。广东林氏家居股份有限公司，创
flink-cdc实时增量同步mysql数据到elasticsearch 大数据技术派 #Flink elasticsearch flink mysql
什么是CDC？CDC是（ChangeDataCapture变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。1.环境准备mysqlelasticsearchflinkonyarn说明：如果没有安装hadoop，那么可以不用yarn，直
Hive在大数据集群下的部署正在绘制中大数据大数据 hive
hive安装1）把apache-hive-3.1.3-bin.tar.gz上传到Linux的/opt/software目录下2）解压apache-hive-3.1.3-bin.tar.gz到/opt/module/目录下面tar-zxvf/opt/software/apache-hive-3.1.3-bin.tar.gz-C/opt/module/3）修改apache-hive-3.1.3-bin
搭建分布式Hive集群逸曦玥泱大数据运维分布式 hive hadoop
title:搭建分布式Hive集群date:2024-11-2923:39:00categories:-服务器tags:-Hive-大数据搭建分布式Hive集群本次实验环境：Centos7-2009、Hadoop-3.1.4、JDK8、Zookeeper-3.6.3、Mysql-5.7.38、Hive-3.1.2功能规划方案一（本地运行模式）Master主节点（Mysql+Hive）192.168
Hadoop、Spark和 Hive 的详细关系夜行容忍 hadoop spark hive
Hadoop、Spark和Hive的详细关系1.ApacheHadoopHadoop是一个开源框架，用于分布式存储和处理大规模数据集。核心组件：HDFS(HadoopDistributedFileSystem)：分布式文件系统，提供高吞吐量的数据访问。YARN(YetAnotherResourceNegotiator)：集群资源管理和作业调度系统。MapReduce：基于YARN的并行处理框架，用
Windows系统下解压".tar"文件出错，提示：无法创建符号链接，可能需要以管理器身份运行winrar ruangaoyan
1、解压文件出错，如下信息：D:\tools\hadoop-3.1.2.tar.gz:无法创建符号链接D:\tools\hadoop-3.1.2\hadoop-3.1.2\lib\native\libhadoop.so您可能需要以管理器身份运行WinRAR!客户端没有所需的特权。2、解决方式如下：WIN+R快捷的打开命令窗口，输入CMD输入：cd/dD:\tools\hadoop-3.1.2这是我
斐波拉契数列 RichardK. c++学习
题目描述给定正整数n，求斐波那契数列的第n项F(n)。令F(n)表示斐波那契数列的第n项，它的定义是：当n=1时，F(n)=1；当n=2时，F(n)=1；当n>2时，F(n)=F(n−1)+F(n−2)。大数据版：斐波拉契数列-大数据版输入描述一个正整数n（1≤n≤104）。输出描述斐波那契数列的第n项F(n)。由于结果可能很大，因此将结果对10007取模后输出。样例1输入1输出1解释边界定义：F
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系雨中徜徉的思绪漫溢大数据 hadoop hive
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系在大数据领域中，Hadoop、Hive和Spark是三个常用的开源技术，它们在大数据处理和分析方面发挥着重要作用。虽然它们都是为了处理大规模数据集而设计的，但它们在功能和使用方式上存在一些区别。本文将详细介绍Hadoop、Hive和Spark的区别和关系，并提供相应的源代码示例。Hadoop：Hadoop是一个用于分布式存储和处理大规
本地部署Hive集群克里斯蒂亚诺罗纳尔多阿维罗 hive hadoop 数据仓库
规划服务机器Hive本体部署在Node1元数据服务所需的关系型数据库(MYSQL)部署在Node1安装MYSQL数据库#更新密钥rpm--importhttps://repo.mysql.com/RPM-GPG-KEY-mysql-2022#安装Mysqlyum库rpm-Uvhhttp://repo.mysql.com//mysql57-community-release-el7-7.noarch
flink+kafka实现流数据处理学习上海研博数据 java
在应用系统的建设过程中，通常都会遇到需要实时处理数据的场景，处理实时数据的框架有很多，本文将以一个示例来介绍flink+kafka在流数据处理中的应用。1、概念介绍flink：是一个分布式、高可用、高可靠的大数据处理引擎，提供了一种高效、可靠、可扩展的方式来处理和分析实时数据。kafka：是用于构建实时数据管道和流应用程序并具有横向扩展，容错，wickedfast（变态快）等优点的一种消息中间件。
大数据面试之路 (一) 数据倾斜愿与狸花过一生大数据面试职场和发展
记录大数据面试历程数据倾斜大数据岗位，数据倾斜面试必问的一个问题。一、数据倾斜的表现与原因表现某个或某几个Task执行时间过长，其他Task快速完成。Spark/MapReduce作业卡在某个阶段（如reduce阶段），日志显示少数Task处理大量数据。资源利用率不均衡（如CPU、内存集中在某些节点）。常见场景Key分布不均：如某些Key对应的数据量极大（如用户ID为空的记录、热点事件）。数据分区
ZooKeeper学习总结（1）——ZooKeeper入门介绍一杯甜酒 ZooKeeper学习总结 Zookeeper
1.概述Zookeeper是Hadoop的一个子项目，它是分布式系统中的协调系统，可提供的服务主要有：配置服务、名字服务、分布式同步、组服务等。它有如下的一些特点：简单Zookeeper的核心是一个精简的文件系统，它支持一些简单的操作和一些抽象操作，例如，排序和通知。丰富Zookeeper的原语操作是很丰富的，可实现一些协调数据结构和协议。例如，分布式队列、分布式锁和一组同级别节点中的“领导者选举
Zookeeper+kafka学习笔记 CHR_YTU Zookeeper
Zookeeper是Apache的一个java项目，属于Hadoop系统，扮演管理员的角色。配置管理分布式系统都有好多机器，比如我在搭建hadoop的HDFS的时候，需要在一个主机器上（Master节点）配置好HDFS需要的各种配置文件，然后通过scp命令把这些配置文件拷贝到其他节点上，这样各个机器拿到的配置信息是一致的，才能成功运行起来HDFS服务。Zookeeper提供了这样的一种服务：一种集
麒麟arm架构系统_安装nginx-1.27.0_访问500 internal server error nginx解决_13: Permission denied---Linux工作笔记072 添柴程序猿 java nginx-1.27.0 nginx最新版安装麒麟v10 arm架构麒麟v10 安装nginx
[root@hadoop173nginx1.27.0]#wget-chttp://nginx.org/download/nginx-1.27.0.tar.gz--2024-07-0509:47:00--http://nginx.org/download/nginx-1.27.0.tar.gzResolvingnginx.org(nginx.org)...3.125.197.172,52.58.19
《颠覆认知，我用大模型+Redis实现SQL智能补全，开发效率暴涨500%》煜bart mysql AI编程人工智能 redis
一、前言：当SQL补全遇到大模型（插入传统SQL补全工具与ChatGPT对比图）你是否还在为这些场景抓狂？-凌晨3点记不清HiveQL的窗口函数语法-面对新接触的ClickHouse方言不知所措-团队新人总把STR_TO_DATE写成DATE_FORMAT传统IDE的SQL补全就像"人工智障"，直到我把大模型装进Redis…##二、效果展示：智能补全的降维打击（GIF动图展示输入SELECT*FR
Zookeeper与Kafka学习笔记上海研博数据 zookeeper kafka 学习
一、Zookeeper核心要点1.核心特性分布式协调服务，用于维护配置/命名/同步等元数据采用层次化数据模型（Znode树结构），每个节点可存储<1MB数据典型应用场景：HadoopNameNode高可用HBase元数据管理Kafka集群选举与状态管理2.设计限制内存型存储，不适合大数据量场景数据变更通过版本号（Version）控制，实现乐观锁机制采用ZAB协议保证数据一致性二、Kafka核心架构
一文理清：阿里系数据中台-数据治理工具集(傻傻也能分清楚） Debug_Snail Hadoop Big Data 技术工具人工智能 hadoop 数据仓库
阿里云提供的大数据与数据分析产品种类较多，各产品的定位和核心功能有所不同。以下是对DataWorks、MaxCompute、Dataphin、AnalyticDBforMySQL（ADB）、QuickBI、EMR的详细梳理。一、核心产品定位与功能DataWorks定位：一站式大数据开发治理平台，提供数据集成、开发、调度、治理、服务等全链路能力。核心功能：数据集成：支持异构数据源（如数据库、OSS、
使用LangChain访问个人数据第一章-简介明志刘明大模型学习手册 langchain
需要学习提示词工程的同学请看面向开发者的提示词工程需要学习ChatGPT的同学请查看搭建基于ChatGPT的问答系统需要学习LangChian开发的同学请查看基于LangChain开发应用程序正文在大数据时代，数据价值逐渐凸显，打造定制化、个性化服务，个人数据尤为重要。要开发一个具备较强服务能力、能够充分展现个性化智能的应用程序，大模型与个人数据的对齐是一个重要步骤。作为针对大模型开发应运而生的框
架构生命周期（演进史）技术应服务于业务 Limbo1213 java架构生命周期演进史
架构生命周期简介本篇幅主要讲述架构的各阶段出现的需求问题、业务问题、性能问题以及相应的解决方案。1、web1.0时代（1996年左右）2、web2.0时代（2006年左右）3、互联网时代（2012年左右）–》互联网±-》智慧城市。滴滴打车。饿了么（工商局）4、大数据+云计算5、AI未来以来时代…第一时期单一应用架构allinone。所有的模块和代码都在一起。技术也不分层。(2000年左右)网站的初
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name