xinxindsj

大数据 Hive 笔记大全收藏+转发+关注

Apache Hive

一、概述

数据仓库：英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。

Apache Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的类sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive定义了简单的类 SQL查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。Hive 没有专门的数据格式。 Hive 可以很好的工作在 Thrift 之上，控制分隔符，也允许用户指定数据格式。

Note

ETL：大数据中的一个专业术语， E: Extract（抽取） T：Transfer（转换） L：Load（加载）

ETL指的是从数据源到数据仓库的处理过程, E：将数据源中的数据按照一些规则提取出来关键某些数据，T：将数据做一些简单格式转换，存放在数据仓库的临时表中，L：将临时表中的数据按照业务需求装载到数据仓库的业务表中；

适用场景

Hive 构建在基于静态批处理的Hadoop 之上，Hadoop 通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此，Hive 并不能够在大规模数据集上实现低延迟快速的查询，例如，Hive 在几百MB 的数据集上执行查询一般有分钟级的时间延迟。因此，Hive 并不适合那些需要低延迟的应用，例如，联机事务处理（OLTP）。Hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型，Hive将用户的HiveQL 语句通过解释器转换为MapReduce 作业提交到Hadoop 集群上，Hadoop 监控作业执行过程，然后返回作业执行结果给用户。Hive并非为联机事务处理而设计，Hive并不提供实时的查询和基于行级的数据更新操作。Hive的最佳使用场合是大数据集的批处理作业，例如，网络日志分析。

特点

Hive 是一种底层封装了Hadoop 的数据仓库处理工具，使用类SQL 的HiveQL 语言实现数据查询，所有Hive 的数据都存储在Hadoop 兼容的文件系统例如（HDFS） Hive 在加载数据过程中不会对数据进行任何的修改，只是将数据移动到HDFS 中Hive 设定的目录下，因此，Hive 不支持对数据的改写和添加，所有的数据都是在加载的时候确定的。

支持索引，加快数据查询
不同的存储类型，例如，纯文本文件、HBase 中的文件。
将元数据保存在关系数据库中，大大减少了在查询过程中执行语义检查的时间。
可以直接使用存储在Hadoop 文件系统中的数据。
内置大量用户函数UDF 来操作时间、字符串和其他的数据挖掘工具，支持用户扩展UDF 函数来完成内置函数无法实现的操作。
类SQL 的查询方式，将SQL 查询转换为MapReduce 的job 在Hadoop集群上执行。

数据类型

首先Hive没有专门的数据存储格式，也没有为数据建立索引，用户可以非常自由的组织 Hive 中的表，只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive 就可以解析数据。其次Hive 中所有的数据都存储在 HDFS 中，Hive 中包含以下数据模型：表(Table，也称为内部表)，外部表(External Table)，分区(Partition)，分桶表(Bucket)

二、环境搭建

准备工作

MySQL DB（Hive使用关系型数据库存放元数据，减少语义检查查询，需要开启远程访问支持）则使用windows的mysql数据库服务 (省略)mysql –u root –proot
use mysql;
update user set host = '%' where host = 'localhost'
GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY 'root' WITH GRANT OPTION;
FLUSH PRIVILEGES;
exit;
Hadoop（HDFS & Yarn集群）服务健康[root@HadoopNode00 ~]# start-dfs.sh
Starting namenodes on [HadoopNode00]
HadoopNode00: starting namenode, logging to /home/hadoop/hadoop-2.6.0/logs/hadoop-root-namenode-HadoopNode00.out
localhost: starting datanode, logging to /home/hadoop/hadoop-2.6.0/logs/hadoop-root-datanode-HadoopNode00.out
Starting secondary namenodes [0.0.0.0]
0.0.0.0: starting secondarynamenode, logging to /home/hadoop/hadoop-2.6.0/logs/hadoop-root-secondarynamenode-HadoopNode00.out
[root@HadoopNode00 ~]#
[root@HadoopNode00 ~]#
[root@HadoopNode00 ~]# start-yarn.sh
starting yarn daemons
starting resourcemanager, logging to /home/hadoop/hadoop-2.6.0/logs/yarn-root-resourcemanager-HadoopNode00.out
localhost: starting nodemanager, logging to /home/hadoop/hadoop-2.6.0/logs/yarn-root-nodemanager-HadoopNode00.out
[root@HadoopNode00 ~]# jps
1858 DataNode
1765 NameNode
2618 Jps
2204 ResourceManager
2046 SecondaryNameNode
2302 NodeManager
JDK8.0 以上

安装

上传安装包

解压缩安装

[root@HadoopNode00 ~]# tar -zxf apache-hive-1.2.1-bin.tar.gz -C /usr

配置

新建hive-site.xml

[root@HadoopNode00 conf]# vi hive-site.xml            javax.jdo.option.ConnectionURL        jdbc:mysql://192.168.197.1:3306/hive                javax.jdo.option.ConnectionDriverName        com.mysql.jdbc.Driver                javax.jdo.option.ConnectionUserName        root                 javax.jdo.option.ConnectionPassword        1234

注意：

hive数据库的编码格式需要定义为拉丁

添加MySQL驱动jar包

注意版本匹配

[root@HadoopNode00 apache-hive-1.2.1-bin]# mv /root/mysql-connector-java-5.1.6.jar /usr/apache-hive-1.2.1-bin/lib/

替换Hadoop jline的低版本jar包

[root@HadoopNode00 ~]# cp /usr/apache-hive-1.2.1-bin/lib/jline-2.12.jar /home/hadoop/hadoop-2.6.0/share/hadoop/yarn/lib/[root@HadoopNode00 ~]# rm -rf /home/hadoop/hadoop-2.6.0/share/hadoop/yarn/lib/jline-0.9.94.jar

启动Hive服务

单用户访问

在一个服务窗口，同时启动Hive Server和Hive Client；只能允许当前的Hive Client操作Hive Server

[root@HadoopNode00 ~]# cd /usr/apache-hive-1.2.1-bin/[root@HadoopNode00 apache-hive-1.2.1-bin]# bin/hiveLogging initialized using configuration in jar:file:/usr/apache-hive-1.2.1-bin/lib/hive-common-1.2.1.jar!/hive-log4j.propertieshive> show databases;OKdefaultTime taken: 0.669 seconds, Fetched: 1 row(s)hive> use default;OKTime taken: 0.028 secondshive> show tables;OKTime taken: 0.024 seconds

多用户访问

首先启动HiveServer，可以在另外窗口启动多个Hive Client操作

[root@HadoopNode00 apache-hive-1.2.1-bin]# bin/hiveserver2[root@HadoopNode00 apache-hive-1.2.1-bin]# bin/beeline -u jdbc:hive2://localhost:10000Connecting to jdbc:hive2://localhost:10000Connected to: Apache Hive (version 1.2.1)Driver: Hive JDBC (version 1.2.1)Transaction isolation: TRANSACTION_REPEATABLE_READBeeline version 1.2.1 by Apache Hive0: jdbc:hive2://localhost:10000> show databases;+----------------+--+| database_name  |+----------------+--+| default     |+----------------+--+1 row selected (1.07 seconds)0: jdbc:hive2://localhost:10000> use default;No rows affected (0.052 seconds)0: jdbc:hive2://localhost:10000> show tables;+-----------+--+| tab_name  |+-----------+--++-----------+--+No rows selected (0.037 seconds)0: jdbc:hive2://localhost:10000>

注意：

启动Hive Server后会在MySQL中创建29张和元数据存储相关的表

Hive会在HDFS中创建数据仓库目录，用以存放数据

三、数据库和表相关操作

数据库

创建数据库

完整语法

CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name[COMMENT database_comment][LOCATION hdfs_path][WITH DBPROPERTIES (property_name=property_value, ...)];

如：

第一种写法：hive> create database if not exists baizhi;OKTime taken: 0.159 seconds自动在hdfs创建数据库的数据存放目录： /user/hive/warehouse/baizhi.db第二种写法：hive>   > create database test3;OK第三种完整写法：hive> create database if not exists test2 comment 'test2 database' location '/user/test2' with dbproperties('author'='gaozhy','company'='baizhiedu');OK

删除数据库

完整语法

DROP (DATABASE|SCHEMA) [IF EXISTS] database_name [RESTRICT|CASCADE];

默认是：RESTRICT 不允许删除数据库有表的库

Cascade 删除数据库时级联删除表

如：

hive> drop schema if exists test3 restrict;Moved: 'hdfs://HadoopNode00:9000/user/hive/warehouse/test3.db' to trash at: hdfs://HadoopNode00:9000/user/root/.Trash/CurrentOKTime taken: 0.178 secondshive> drop database test2 cascade;Moved: 'hdfs://HadoopNode00:9000/user/test2' to trash at: hdfs://HadoopNode00:9000/user/root/.Trash/CurrentOKTime taken: 0.101 seconds

查看数据库

完整语法

(DESC|DESCRIBE) (DATABASE|SCHEMA) database_name ;

如：

hive> desc database baizhi;OKbaizhi      hdfs://HadoopNode00:9

修改数据库

完整语法

ALTER (DATABASE|SCHEMA) database_name SET DBPROPERTIES (property_name=property_value, ...);ALTER (DATABASE|SCHEMA) database_name SET OWNER [USER|ROLE] user_or_role;

如：

hive> desc database baizhi;OKbaizhi          hdfs://HadoopNode00:9000/user/hive/warehouse/baizhi.db  zs      USERTime taken: 0.049 seconds, Fetched: 1 row(s)hive> alter database baizhi set owner user root;OKTime taken: 0.026 secondshive> desc database baizhi;OKbaizhi          hdfs://HadoopNode00:9000/user/hive/warehouse/baizhi.db  root    USERTime taken: 0.016 seconds, Fetched: 1 row(s)

切换数据库

完整语法

hive> select current_database();OKdefaultTime taken: 0.585 seconds, Fetched: 1 row(s)hive> use baizhi;OKTime taken: 0.021 secondshive> select current_database();OKbaizhi

展示数据库列表

完整语法

hive> show databases;

Hive表中的数据类型

数据类型（primitive，array，map，struct）

Primitive(原始类型)：整数：TINYINT、SMALLINT、INT、BIGINT （等价于Byte、Short、Int、Long存值范围）布尔：BOOLEAN小数：FLOAT、DOUBLE字符：STRING、CHAR、VARCHAR二进制：BINARY时间类型：TIMESTAMP、DATE
Array（数组类型）：ARRAY < data_type >
Map（key-value类型）：MAP < primitive_type, data_type >
Struct（结构体类型）：STRUCT

Hive默认使用的分隔符

分隔符描述\n对于文本来说，每一行都是一条记录。因此\n可以分割记录。^A(Ctrl+a)用于分割字段（列），在create table中可以使用\001表示。已经为大家精心准备了大数据的系统学习资料，从Linux-Hadoop-spark-......，需要的小伙伴可以点击^B(Ctrl+b)用于分割array或者是struct中的元素或者用于map结构中的k-v对的分隔符，在create table中可以使用\002表示。^C(Ctrl+c)用于Map中k-v的分隔符，在create table中可以使用\003表示。

分隔符在vi模式下，使用Ctrl +v + Ctrl + A|B|C

Hive表的使用

创建表的语法

标准语法

类似于DB的创建表的语法

hive> create table t_user(id int, name varchar(50),sex boolean,birthday date);OKTime taken: 0.161 secondshive> show tables;OKt_user

装载数据

# 1. 准备数据文件，按照hive表的格式要求 准备数据1^Azs^Atrue^A2018-01-012^Als^Afalse^A1998-07-07# 2. hive指令将数据文件的内容装载到Hive Table中  [本地文件系统]hive> load data local inpath '/usr/apache-hive-1.2.1-bin/data/t_user.txt' into table t_user;Loading data to table baizhi.t_userTable baizhi.t_user stats: [numFiles=1, totalSize=43]OKTime taken: 0.299 seconds# 3. hive指令将数据文件的内容追加装载到Hive Table中  [HDFS文件系统]hive > load data inpath 'hdfs://HadoopNode00:9000/t_user.txt' into table t_user;Loading data to table baizhi.t_userTable baizhi.t_user stats: [numFiles=2, totalSize=86]OKTime taken: 0.233 secondshive> select * from t_user;OK1    zs   true  2018-01-012    ls   false  1998-07-073    zs   true  2018-01-014    ls   false  1998-07-07# 4. hive指令将数据文件的内容覆盖装载到Hive Table中  [HDFS文件系统]hive> load data inpath 'hdfs://HadoopNode00:9000/t_user.txt'  overwrite into table t_user;Loading data to table baizhi.t_userMoved: 'hdfs://HadoopNode00:9000/user/hive/warehouse/baizhi.db/t_user/t_user.txt' to trash at: hdfs://HadoopNode00:9000/user/root/.Trash/CurrentMoved: 'hdfs://HadoopNode00:9000/user/hive/warehouse/baizhi.db/t_user/t_user_copy_1.txt' to trash at: hdfs://HadoopNode00:9000/user/root/.Trash/CurrentTable baizhi.t_user stats: [numFiles=1, numRows=0, totalSize=43, rawDataSize=0]OKTime taken: 0.274 seconds

总结：

hive默认创建的表是一个内部表，数据文件在装载时会移动拷贝到数据仓库的表的存储目录；

hive表装载数据时，可以是本地文件系统(local)中数据或者HDFS

hive表装载数据时，默认采用的是追加（append）; 如果需要覆盖表的原始内容，在需要在装载表的时候指定overwrite

数组类型的使用

# 1. 创建表hive> create table t_person(id int,name string,hobbies array);OKTime taken: 0.063 seconds# 2. 准备数据文件1^Azs^ATV^BLOL^BMUSIC2^Als^ASPORT^BDrink# 3. 装载数据hive> load data local inpath '/usr/apache-hive-1.2.1-bin/data/t_person.txt' into table t_person;Loading data to table baizhi.t_personTable baizhi.t_person stats: [numFiles=1, totalSize=35]OKTime taken: 0.197 secondshive> select * from t_person;OK1       zs      ["TV","LOL","MUSIC"]2       ls      ["SPORT","Drink"]Time taken: 0.053 seconds, Fetched: 2 row(s)

结构化类型的使用

# 1. 创建表hive> create table t_location(id tinyint,name string,address struct);OKTime taken: 0.064 seconds# 2. 准备数据文件1^A三里屯^A中国^B北京朝阳2^A五道口^A中国^B北京海淀# 3. 装载数据hive> load data local inpath '/usr/apache-hive-1.2.1-bin/data/t_location.log' into table t_location;Loading data to table baizhi.t_locationTable baizhi.t_location stats: [numFiles=1, totalSize=64]OKTime taken: 0.218 secondshive> select * from t_location;OK1    三里屯  {"country":"中国","city":"北京朝阳"}2    五道口  {"country":"中国","city":"北京海淀"}Time taken: 0.063 seconds, Fetched: 2 row(s)

注意：

struct type数据本质上由Json格式组织和管理；

Map类型的使用

# 1. 创建表hive> create table t_product(id int,name varchar(50),tag map);OKTime taken: 0.063 seconds# 2. 准备数据文件1^Aiphone11^Amemory^C256GB^Bsize^C5.82^Ahuawei mate30^Asize^C6.1# 3. 加载数据hive> load data local inpath '/usr/apache-hive-1.2.1-bin/data/t_product.txt' into table t_product;Loading data to table baizhi.t_productTable baizhi.t_product stats: [numFiles=2, totalSize=107]OKTime taken: 0.194 secondshive> select * from t_product;OK1    iphone11     {"memory":"256GB"}2    huawei mate30  {"size":"6.1"}1    iphone11     {"memory":"256GB","size":"5.8"}2    huawei mate30  {"size":"6.1"}Time taken: 0.076 seconds, Fetched: 4 row(s)

自定义分隔符

字段分隔符

# 1. 自定义字段的分隔符  空格hive> create table tt_user(id int,name varchar(32),sex boolean,birth date) row format delimited fields terminated by ' ' lines terminated by '\n';OKTime taken: 0.123 seconds# 2. 准备数据文件1 zs true 2018-01-012 ls false 2020-01-023 ww false 2020-01-01# 3. 装载数据时hive> load data local inpath '/usr/apache-hive-1.2.1-bin/data/tt_user.txt' into table tt_user;Loading data to table baizhi.tt_userTable baizhi.tt_user stats: [numFiles=1, totalSize=65]OKTime taken: 0.228 secondshive> select * from tt_user;OK1    zs   true  2018-01-012    ls   false  2020-01-023    ww   false  2020-01-01Time taken: 0.05 seconds, Fetched: 3 row(s)

数组分隔符

# 1. 自定义字段和集合元素的分隔符  空格hive> create table t_order(id int,name varchar(32),num int,price double,tags array,user_id int)row format delimited fields terminated by ' ' collection items terminated by '>' lines terminated by '\n';OKTime taken: 0.108 seconds# 2. 准备数据文件[root@HadoopNode00 data]# vi t_order.txt1 iphone11 2 4999.0 贵>好用>香 1012 huaweimate30 1 3999.0 国产>麒麟 102# 3. 装载数据时hive> load data local inpath '/usr/apache-hive-1.2.1-bin/data/t_order.txt' into table t_order;Loading data to table baizhi.t_orderTable baizhi.t_order stats: [numFiles=1, totalSize=81]OKTime taken: 0.223 secondshive> select * from t_order;OK1    iphone11    2    4999.0  ["贵","好用","香"]   1012    huaweimate30  1    3999.0  ["国产","麒麟"] 102Time taken: 0.04 seconds, Fetched: 2 row(s)

map分隔符

map keys terminated by '分隔符'

基于正则表达式数据装载

# 1. 样例数据192.168.197.1 - - [20/Dec/2019:22:12:42 +0800] "GET / HTTP/1.1" 200 612 "-" "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"192.168.197.1 - - [20/Dec/2019:22:12:42 +0800] "GET /favicon.ico HTTP/1.1" 404 571 "http://hadoopnode00/" "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"# 2. 正则表达式^(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}).*\[(.*)\]\s"(\w+)\s(.*)\sHTTP\/1.1"\s(\d{3})\s.*$# 3. 实践hive> create table t_log(ip string,access_time string,method string,uri string,code smallint) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe' WITH SERDEPROPERTIES("input.regex"="^(\\d{1,3}\\.\\d{1,3}\\.\\d{1,3}\\.\\d{1,3}).*\\[(.*)\\]\\s\"(\\w+)\\s(.*)\\sHTTP\\/1.1\"\\s(\\d{3})\\s.*$")   > ;OKTime taken: 0.085 secondshive> load data local inpath '/usr/apache-hive-1.2.1-bin/data/nginx.log' into table t_log;Loading data to table baizhi.t_logTable baizhi.t_log stats: [numFiles=1, totalSize=416]OKTime taken: 0.195 secondshive> select * from t_log;OK192.168.197.1  20/Dec/2019:22:12:42 +0800    GET   /    200192.168.197.1  20/Dec/2019:22:12:42 +0800    GET   /favicon.ico  404Time taken: 0.035 seconds, Fetched: 2 row(s)

基于Json文件数据装载

[root@HadoopNode00 json]# vi user1.json{"id":1,"name":"zs","sex":true,"birthday":"1998-12-12"}{"id":2,"name":"ls","sex":true,"birthday":"1990-12-12"}[root@HadoopNode00 json]# vi user2.json{"id":3,"name":"ww","sex":false,"birthday":"1995-07-08"}{"id":4,"name":"zl","sex":false}# 2. 创建hive表hive> create table t_user_json(id int,name varchar(32),sex boolean,birthday date)ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe';FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Cannot validate serde: org.apache.hive.hcatalog.data.JsonSerDehive> ADD JAR /usr/apache-hive-1.2.1-bin/hcatalog/share/hcatalog/hive-hcatalog-core-1.2.1.jar ;Added [/usr/apache-hive-1.2.1-bin/hcatalog/share/hcatalog/hive-hcatalog-core-1.2.1.jar] to class pathAdded resources: [/usr/apache-hive-1.2.1-bin/hcatalog/share/hcatalog/hive-hcatalog-core-1.2.1.jar]hive> create table t_user_json(id int,name varchar(32),sex boolean,birthday date)ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe';OKTime taken: 0.138 seconds# 3. 数据装载hive> load data local inpath '/usr/apache-hive-1.2.1-bin/data/json'  overwrite into table t_user_json;Loading data to table baizhi.t_user_jsonMoved: 'hdfs://HadoopNode00:9000/user/hive/warehouse/baizhi.db/t_user_json/user1.json' to trash at: hdfs://HadoopNode00:9000/user/root/.Trash/CurrentMoved: 'hdfs://HadoopNode00:9000/user/hive/warehouse/baizhi.db/t_user_json/user2.json' to trash at: hdfs://HadoopNode00:9000/user/root/.Trash/CurrentTable baizhi.t_user_json stats: [numFiles=2, numRows=0, totalSize=202, rawDataSize=0]OKTime taken: 0.239 secondshive> select * from t_user_json;OK1    zs   true  1998-12-122    ls   true  1990-12-123    ww   false  1995-07-084    zl   false  NULL

四、Hive表分类

在Hive表分为了管理表（内部表）、外部表、分区表、分桶表、临时表（依然与会话，hive客户端如何创建一个临时表，在会话结束时，自动删除）；

删除表

DROP TABLE [IF EXISTS] table_name [PURGE];

可选关键字purge,

添加则删除表的元数据+表中内容

不添加只删除表的元数据，而表中的内容会移动到HDFS的.trash/current垃圾数据存放目录；

管理（内部）表

管理表会控制数据的生命周期，不能进行多团队数据共享分析处理；

0: jdbc:hive2://localhost:10000> drop table t_location;No rows affected (0.885 seconds)0: jdbc:hive2://localhost:10000> drop table t_user_json;No rows affected (0.15 seconds)

外部表

# 1. 创建外部表的语法ADD JAR /usr/apache-hive-1.2.1-bin/hcatalog/share/hcatalog/hive-hcatalog-core-1.2.1.jar ;0: jdbc:hive2://localhost:10000> create external table t_user_json(id int,name varchar(32),sex boolean,birthday date)ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe';No rows affected (0.294 seconds)# 2. 装载数据0: jdbc:hive2://localhost:10000> load data local inpath '/usr/apache-hive-1.2.1-bin/data/json' into table t_user_json;INFO  : Loading data to table baizhi.t_user_json from file:/usr/apache-hive-1.2.1-bin/data/jsonINFO  : Table baizhi.t_user_json stats: [numFiles=2, totalSize=202]No rows affected (0.543 seconds)0: jdbc:hive2://localhost:10000> drop table t_user_json purge;No rows affected (0.139 seconds)

注意：

在删除外部表时，仅仅删除的是表的元数据（metadata），而不会删除外部表控制的数据；

临时表

临时表关键字：temporary

生命周期依赖于会话

0: jdbc:hive2://localhost:10000> create temporary table ttt_user(id int,name string);No rows affected (0.132 seconds)0: jdbc:hive2://localhost:10000> show tables;+------------+--+|  tab_name  |+------------+--+| t_log    || t_order   || t_person  || t_product  || t_user   || tt_user   || ttt_user  |+------------+--+7 rows selected (0.492 seconds)

分区表

外部表或者内部表都可以在创建时指定分区,这样的就构成了分区表；分区就是数据分片思想，将一个大数据集按照规则划分为若干个小数据集，这样在进行数据加载或者处理时会有比较好处理性能；优化策略

# 1. 创建分区表0: jdbc:hive2://localhost:10000> create table ttt_user(id int,name varchar(32),sex boolean,birth date) partitioned by(country String,state String) row format delimited fields terminated by ' ' lines terminated by '\n';No rows affected (0.087 seconds)# 2. 准备数据1 zs true 2020-01-012 ls false 1990-01-013 ww false 2001-01-01# 3. 装载数据0: jdbc:hive2://localhost:10000> load data local inpath '/usr/apache-hive-1.2.1-bin/data/ttt_user.txt' into table ttt_user partition(country='china',state='sh');0: jdbc:hive2://localhost:10000> load data local inpath '/usr/apache-hive-1.2.1-bin/data/ttt_user.txt' into table ttt_user partition(country='china',state='bj');# 4. 如何使用分区表0: jdbc:hive2://localhost:10000> select * from ttt_user where country='china' and state='bj';+--------------+----------------+---------------+-----------------+-------------------+-----------------+--+| ttt_user.id  | ttt_user.name  | ttt_user.sex  | ttt_user.birth  | ttt_user.country  | ttt_user.state  |+--------------+----------------+---------------+-----------------+-------------------+-----------------+--+| 1       | zs       | true      | 2020-01-01    | china       | bj        || 2       | ls       | false     | 1990-01-01    | china       | bj        || 3       | ww       | false     | 2001-01-01    | china       | bj        |+--------------+----------------+---------------+-----------------+-------------------+-----------------+--+

分区表:

hive优化方案，按照分区查询时只需要加载分区内的数据，而不需要加载整个表的内容；

使用分区伪列+分区内容进行数据加载

分桶表

分桶表指将数据集分解成容易组织管理若干个部分的技术；解决数据倾斜问题，已经大表和大表的JOIN，高效数据取样；

# 1. 创建分桶表0: jdbc:hive2://localhost:10000> create table t_bucket(id int,name string) clustered by (id) into 3 buckets;No rows affected (0.141 seconds)# 2. 注意 分桶表在装载数据时不能使用load# 3. 特殊设置# 强制使用分桶表set hive.enforce.bucketing = true;# 设置reducer 任务数量 = 桶的数量set mapred.reduce.tasks = 3;# 4. 临时表 首先将数据加载临时表中create temporary table t_bucket_tmp(id int,name string);load data local inpath '/usr/apache-hive-1.2.1-bin/data/bucketTmp.txt' into table t_bucket_tmp;# 5. 将临时表中的数据转换到分桶表中insert into t_bucket select * from t_bucket_tmp cluster by id;

分区表的其它操作

0: jdbc:hive2://localhost:10000> alter table ttt_user drop partition(country='china',state='sh');INFO  : Dropped the partition country=china/state=shNo rows affected (0.224 seconds)0: jdbc:hive2://localhost:10000> alter table ttt_user add partition(country='china',state='sh');No rows affected (0.167 seconds)0: jdbc:hive2://localhost:10000> show partitions ttt_user;+-------------------------+--+|     partition     |+-------------------------+--+| country=china/state=bj  || country=china/state=sh  |+-------------------------+--+2 rows selected (0.113 seconds)

截断表

0: jdbc:hive2://localhost:10000> select * from  t_user;+------------+--------------+-------------+------------------+--+| t_user.id  | t_user.name  | t_user.sex  | t_user.birthday  |+------------+--------------+-------------+------------------+--+| 3          | zs           | true        | 2018-01-01       || 4          | ls           | false       | 1998-07-07       |+------------+--------------+-------------+------------------+--+2 rows selected (0.134 seconds)0: jdbc:hive2://localhost:10000> truncate table t_user;No rows affected (0.107 seconds)0: jdbc:hive2://localhost:10000> select * from  t_user;+------------+--------------+-------------+------------------+--+| t_user.id  | t_user.name  | t_user.sex  | t_user.birthday  |+------------+--------------+-------------+------------------+--++------------+--------------+-------------+------------------+--+

五、HiveOnJdbc

导入Hive JDBC驱动

  org.apache.hadoop  hadoop-client  2.6.0  org.apache.hive  hive-jdbc  1.1.0

Hive驱动类

org.apache.hive.jdbc.HiveDriver

应用程序

package com.baizhi;import java.sql.*;public class HiveOnJdbc {  public static void main(String[] args) throws ClassNotFoundException, SQLException {    Class.forName("org.apache.hive.jdbc.HiveDriver");    Connection connection = DriverManager.getConnection("jdbc:hive2://HadoopNode00:10000/baizhi");    String sql = "select * from ttt_user where country=? and state=?";    PreparedStatement pstm = connection.prepareStatement(sql);    pstm.setString(1, "china");    pstm.setString(2, "bj");    ResultSet resultSet = pstm.executeQuery();    while (resultSet.next()) {      int id = resultSet.getInt("id");      String name = resultSet.getString(2);      Boolean sex = resultSet.getBoolean("sex");      Date birth = resultSet.getDate("birth");      System.out.println(id + "\t" + name + "\t" + sex + "\t" + birth);     }    resultSet.close();    pstm.close();    connection.close();   }}

六、Hive SQL操作

回顾

DB SQL查询语法select 字段列表 from 表名 where 过滤条件 group by 分组字段 having 分组后过滤 order by 排序字段 asc | desc limit 限制结果的返回条数；

Hive SQL完整语法

SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE where_condition][GROUP BY col_list][ORDER BY col_list]  # 计算结果全局有序（全局只有一个Reducer）[CLUSTER BY col_list| [DISTRIBUTE BY col_list] [SORT BY col_list asc|desc]]  # 分区键 id.hashCode% numReduceTask [LIMIT number]

注意：

order by col_list asc|desc: 全局排序，只有一个Reducer任务；

DISTRIBUTE BY col_list: shuffle进行分区时，分区键；根据指定的字段值进行分区shuffle

SORT BY col_list: 对分区进行局部排序字段

CLUSTER BY col_list: 如果DISTRIBUTE BY col_list + SORT BY col_list, 简写写法；

# 1. 分组 + 分区后过滤0: jdbc:hive2://localhost:10000> select sex,count(sex) from ttt_user where country='china' and state='bj' group by sex having sex= false;# 2. 分组 + 结果集全局排序0: jdbc:hive2://localhost:10000> select sex,count(sex) as num from ttt_user where country='china' and state='bj' group by sex order by num desc;# 3. 分组 + cluster by使用0: jdbc:hive2://localhost:10000> select sex,count(sex) as num from ttt_user where country='china' and state='bj' group by sex cluster by sex;# 4. 分组 + distribute by  + sort by 0: jdbc:hive2://localhost:10000> select sex,count(sex) as num from ttt_user where country='china' and state='bj' group by sex distribute by sex sort by sex desc;# 5. limit使用0: jdbc:hive2://localhost:10000> select sex,count(sex) as num from ttt_user where country='china' and state='bj' group by sex distribute by sex sort by sex desc limit 1;

表连接查询

内连接（[inner] join）

左表和右表符合条件的数据进行连接操作，合为一张大表；

# 员工数据1,zs,true,18,A2,ls,false,20,B3,ww,false,25,A4,zl,false,30,B5,tq,true,21,C# 部门数据A,研发部B,市场部C,销售部D,后勤部0: jdbc:hive2://localhost:10000> create table t_employee(id int,name varchar(32),sex boolean,age tinyint,dept string) row format delimited fields terminated by ',' lines terminated by '\n';No rows affected (0.11 seconds)0: jdbc:hive2://localhost:10000> load data local inpath '/usr/apache-hive-1.2.1-bin/data/employee.txt' into table t_employee;INFO  : Loading data to table baizhi.t_employee from file:/usr/apache-hive-1.2.1-bin/data/employee.txtINFO  : Table baizhi.t_employee stats: [numFiles=1, totalSize=78]No rows affected (0.286 seconds)0: jdbc:hive2://localhost:10000> select * from t_employee;+----------------+------------------+-----------------+-----------------+------------------+--+| t_employee.id  | t_employee.name  | t_employee.sex  | t_employee.age  | t_employee.dept  |+----------------+------------------+-----------------+-----------------+------------------+--+| 1        | zs        | true       | 18        | A         || 2        | ls        | false      | 20        | B         || 3        | ww        | false      | 25        | A         || 4        | zl        | false      | 30        | B         || 5        | tq        | true       | 21        | C         |+----------------+------------------+-----------------+-----------------+------------------+--+0: jdbc:hive2://localhost:10000> create table t_dept(deptId string,name string) row format delimited fields terminated by ',' lines terminated by '\n';No rows affected (0.094 seconds)0: jdbc:hive2://localhost:10000> load data local inpath '/usr/apache-hive-1.2.1-bin/data/dept.txt' into table t_dept;INFO  : Loading data to table baizhi.t_dept from file:/usr/apache-hive-1.2.1-bin/data/dept.txtINFO  : Table baizhi.t_dept stats: [numFiles=1, totalSize=48]No rows affected (0.253 seconds)0: jdbc:hive2://localhost:10000> select * from t_dept;+----------------+--------------+--+| t_dept.deptid  | t_dept.name  |+----------------+--------------+--+| A        | 研发部      || B        | 市场部      || C        | 销售部      || D        | 后勤部      |+----------------+--------------+--+0: jdbc:hive2://localhost:10000> select * from t_employee t1 inner join t_dept t2 on t1.dept = t2.deptId;+--------+----------+---------+---------+----------+------------+----------+--+| t1.id  | t1.name  | t1.sex  | t1.age  | t1.dept  | t2.deptid  | t2.name  |+--------+----------+---------+---------+----------+------------+----------+--+| 1    | zs    | true   | 18    | A     | A      | 研发部    || 2    | ls    | false  | 20    | B     | B      | 市场部    || 3    | ww    | false  | 25    | A     | A      | 研发部    || 4    | zl    | false  | 30    | B     | B      | 市场部    || 5    | tq    | true   | 21    | C     | C      | 销售部    |+--------+----------+---------+---------+----------+------------+----------+--+

外连接（left | right outer join）

0: jdbc:hive2://localhost:10000> select * from t_employee t1 left outer join t_dept t2 on t1.dept = t2.deptId;+--------+----------+---------+---------+----------+------------+----------+--+| t1.id  | t1.name  | t1.sex  | t1.age  | t1.dept  | t2.deptid  | t2.name  |+--------+----------+---------+---------+----------+------------+----------+--+| 1    | zs    | true   | 18    | A     | A      | 研发部    || 2    | ls    | false  | 20    | B     | B      | 市场部    || 3    | ww    | false  | 25    | A     | A      | 研发部    || 4    | zl    | false  | 30    | B     | B      | 市场部    || 5    | tq    | true   | 21    | C     | C      | 销售部    |+--------+----------+---------+---------+----------+------------+----------+--+0: jdbc:hive2://localhost:10000> select * from t_employee t1 right outer join t_dept t2 on t1.dept = t2.deptId;+--------+----------+---------+---------+----------+------------+----------+--+| t1.id  | t1.name  | t1.sex  | t1.age  | t1.dept  | t2.deptid  | t2.name  |+--------+----------+---------+---------+----------+------------+----------+--+| 1    | zs    | true   | 18    | A     | A      | 研发部    || 3    | ww    | false  | 25    | A     | A      | 研发部    || 2    | ls    | false  | 20    | B     | B      | 市场部    || 4    | zl    | false  | 30    | B     | B      | 市场部    || 5    | tq    | true   | 21    | C     | C      | 销售部    || NULL  | NULL   | NULL   | NULL   | NULL   | D      | 后勤部    |+--------+----------+---------+---------+----------+------------+----------+--+

左半开连接（left semi join）

左半开连接会返回左表的数据，前提是记录需要满足右表on的判定条件；

0: jdbc:hive2://localhost:10000> select * from t_employee t1 left semi join t_dept t2 on t1.dept = t2.deptId;INFO  : Execution completed successfullyINFO  : MapredLocal task succeededINFO  : Number of reduce tasks is set to 0 since there's no reduce operatorWARN  : Hadoop command-line option parsing not performed. Implement the Tool interface and execute your application with ToolRunner to remedy this.INFO  : number of splits:1INFO  : Submitting tokens for job: job_1577964101376_0017INFO  : The url to track the job: http://HadoopNode00:8088/proxy/application_1577964101376_0017/INFO  : Starting Job = job_1577964101376_0017, Tracking URL = http://HadoopNode00:8088/proxy/application_1577964101376_0017/INFO  : Kill Command = /home/hadoop/hadoop-2.6.0/bin/hadoop job  -kill job_1577964101376_0017INFO  : Hadoop job information for Stage-3: number of mappers: 1; number of reducers: 0INFO  : 2020-01-03 23:02:56,491 Stage-3 map = 0%,  reduce = 0%INFO  : 2020-01-03 23:03:02,696 Stage-3 map = 100%,  reduce = 0%, Cumulative CPU 2.83 secINFO  : MapReduce Total cumulative CPU time: 2 seconds 830 msecINFO  : Ended Job = job_1577964101376_0017+--------+----------+---------+---------+----------+--+| t1.id  | t1.name  | t1.sex  | t1.age  | t1.dept  |+--------+----------+---------+---------+----------+--+| 1    | zs    | true   | 18    | A     || 2    | ls    | false  | 20    | B     || 3    | ww    | false  | 25    | A     || 4    | zl    | false  | 30    | B     || 5    | tq    | true   | 21    | C     |+--------+----------+---------+---------+----------+--+

map-side join

map端连接，hive优化表连接查询方法（小表和大表Join）；

注意：

map端连接只适用于内连接和左外连接；
hive 0.70版本之前，select /*+mapjoin(小表别名)*/ .....
hive 0.70版本之后，已经为大家精心准备了大数据的系统学习资料，从Linux-Hadoop-spark-......，需要的小伙伴可以点击要求set hive.auto.convert.join=true；, 自动join优化，要求小表需要写在join关键字之前，因为Hive Join从左向右连接操作；

0: jdbc:hive2://localhost:10000> select /*+mapjoin(t2)*/ * from t_employee t1 left outer join t_dept t2 on t1.dept = t2.deptId;0: jdbc:hive2://localhost:10000> set hive.auto.convert.join=true;0: jdbc:hive2://localhost:10000> select * from t_dept t2 left outer join t_employee t1 on t1.dept = t2.deptId;

Full Outer Join

全外连接左边右表符合条件结果进行连接，保留左表和右表不符合条件的结果

笛卡尔乘积连接

左表和右表交叉连接左表5条数据右表6条数据，连接后会产生30条记录

七、Hive 和HBase整合

要求

HDFS
ZooKeeper
HBase集群运行正常

准备HBase BigTable

hbase(main):002:0> create 'baizhi2:t_user','cf1'0 row(s) in 2.4760 secondshbase(main):001:0> put 'baizhi2:t_user','user101','cf1:name','zs'0 row(s) in 0.3800 secondshbase(main):002:0> put 'baizhi2:t_user','user101','cf1:age',180 row(s) in 0.0180 secondshbase(main):003:0> put 'baizhi2:t_user','user102','cf1:name','ls'0 row(s) in 0.0060 secondshbase(main):004:0> put 'baizhi2:t_user','user102','cf1:age',200 row(s) in 0.0180 secondshbase(main):005:0> scan 'baizhi2:t_user'ROW                     COLUMN+CELL user101                  column=cf1:age, timestamp=1578068239429, value=18 user101                  column=cf1:name, timestamp=1578068227481, value=zs user102                  column=cf1:age, timestamp=1578068289077, value=20 user102                  column=cf1:name, timestamp=1578068278698, value=ls2 row(s) in 0.0420 seconds

创建Hive Table并关联HBase

create external table t_hbase_user(id string,name string,age int) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with serdeproperties('hbase.columns.mapping'=':key,cf1:name,cf1:age') tblproperties('hbase.table.name'='baizhi2:t_user');0: jdbc:hive2://localhost:10000> select * from t_hbase_user;+------------------+--------------------+-------------------+--+| t_hbase_user.id  | t_hbase_user.name  | t_hbase_user.age  |+------------------+--------------------+-------------------+--+| user101      | zs         | 18         || user102      | ls         | 20         |+------------------+--------------------+-------------------+--+2 rows selected (1.142 seconds)

create external table t_hbase_user(id string,name string,age int) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with serdeproperties('hbase.columns.mapping'=':key,cf1:name,cf1:age') tblproperties('hbase.table.name'='baizhi2:t_user');0: jdbc:hive2://localhost:10000> select * from t_hbase_user;+------------------+--------------------+-------------------+--+| t_hbase_user.id  | t_hbase_user.name  | t_hbase_user.age  |+------------------+--------------------+-------------------+--+| user101      | zs         | 18         || user102      | ls         | 20         |+------------------+--------------------+-------------------+--+2 rows selected (1.142 seconds)

你可能感兴趣的:(大数据,人工智能,互联网)

店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
新私域是什么平台靠谱吗氧惠佣金真的高
新私域指的是借助与互联网电商，随着平台内商家入驻量、用户量相辅相成的全国化平台。是否靠谱取决于平台是否合规。新私域指的是借助与互联网电商，在传统会员体系外新增的锁定用户跨平台、跨界收益，一种随着平台内商家入驻量、用户量相辅相成的全国化平台。关于新私域平台是否靠谱，这个需要看平台的底层逻辑是否合理、合法、合规以及平台的未来的发展方向氧惠APP抖音购物、看电影、点外卖、打车用氧惠APP！佣金更高、更优
2019考研 | 西交大软件工程笔者阿蓉
本科背景：某北京211学校电子信息工程互联网开发工作两年录取结果：全日制软件工程学院分数：初试350+复试笔试80+面试85+总排名：100+从五月份开始脱产学习，我主要说一下专业课和复试还有我对非全的一些看法。【数学100+】张宇，张宇，张宇。跟着张宇学习，入门视频刷一遍，真题刷两遍，错题刷三遍。书刷N多遍。从视频开始学习，是最快的学习方法。5-7月份把主要是数学学好，8-9月份开始给自己每个周
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
2020年学习什么知识比较好？互联网行业依然是发展较佳编程仔
2019年余额已不足，不少职场人心里也在盘点这一年的工作得失，琢磨新一年的奋斗策略，是继续冲刺还是换个跑道？今年跳槽更难吗？image互联网行业一直以相对较丰厚的薪酬和广阔的发展前景吸引着各界人才。但最近，互联网行业寒冬、互联网企业裁员等话题再次引起热议。正在从前些年的高速发展期转向发展调整期的互联网行业真的步入了“寒冬”？该行业依旧具有吸引力吗？什么职位又最热门呢？image互联网行业仍保持较高
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
广东麻将开发红匣子实力推荐
在中国，麻将作为一种深受人们喜爱的传统娱乐活动，已经有着数百年的历史。随着互联网和移动设备的普及，麻将游戏也从实体桌面转移到了数字平台，其中广东麻将因其独特的地方特色和玩法而备受青睐。本文将介绍广东麻将的开发过程，包括其设计理念、技术实现以及用户体验优化等方面。一、设计理念：广东麻将开发的核心理念是保留传统麻将的精髓，同时融入现代科技元素，使游戏既具有亲切感又不失趣味性。开发者通常会深入研究广东地
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
原力元宇宙：Web3时代下的虚拟现实融合与普通人逆袭的机遇口碑信息传播者
在数字化浪潮席卷全球的今天，一个崭新的概念——原力元宇宙，正以其独特的魅力吸引着越来越多的目光。作为元宇宙国际性的一个项目，原力元宇宙不仅融合了Web3第三代互联网的前沿技术，更将虚拟现实与现实生活紧密相连，为我们描绘出一幅前所未有的数字新世界画卷。13分钟视频内容讲明白原力元宇宙创富项目，中国区运营服务对接微信：ForceZen原力元宇宙，是一个时代的跨越，它代表着互联网技术的又一次革新。Web
《HTML 与 CSS—— 响应式设计》陈在天box html css 前端
一、引言在当今数字化时代，人们使用各种不同的设备访问互联网，包括智能手机、平板电脑、笔记本电脑和台式机等。为了确保网站在不同设备上都能提供良好的用户体验，响应式设计成为了网页开发的关键。HTML和CSS作为网页开发的基础技术，在实现响应式设计方面发挥着重要作用。本文将深入探讨HTML与CSS中的响应式设计原理、方法和最佳实践。二、响应式设计的概念与重要性（一）概念响应式设计是一种网页设计方法，旨在
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
左手向娱，右手专精，永远年轻永远收割健身小白每天学点经济学
“来源于《互联网那些事》（ID：hlw0823)"不知道从什么时候开始，身边的人都像住进了健身房，朋友圈的人不是在健身房，就是在去健身房的路上。《2022国民健身趋势报告》显示：我国7岁及以上年龄人群中，每周至少参加1次体育锻炼的人数比例为67.5%。在有意识主动参与健身的人群中，平均每周进行1-3天健身人群占经常参加体育健身人群总数的75%，平均每周进行3天以上体育健身的人群占比25%。现在年轻
h5小游戏定制开发红匣子实力推荐
随着科技的不断发展，移动互联网已经成为人们生活中不可或缺的一部分。在这个背景下，H5小游戏应运而生，为人们带来了丰富的娱乐体验。H5小游戏定制开发作为一种新兴的游戏开发方式，正逐渐受到市场的关注和青睐。那么，什么是H5小游戏定制开发呢？它又具有哪些特点和优势呢？让我们一起来深入了解一下。首先，我们来了解一下H5小游戏的基本概念。H5小游戏是一种基于HTML5技术的游戏，可以在移动端、PC端等多平台
Nginx：高性能的Web服务器与反向代理张某布响丸辣 nginx 前端服务器 java SpringBoot
在当今的互联网世界中，Web服务器的选择对于网站的性能、稳定性和安全性至关重要。Nginx（发音为“engineX”）凭借其卓越的性能、丰富的功能集和灵活的配置选项，成为了众多网站和应用程序的首选Web服务器和反向代理。本文将深入探讨Nginx的特点、应用场景、基本配置以及它如何助力你的Web项目。Nginx简介Nginx是一个开源的、高性能的HTTP和反向代理服务器，也是一个IMAP/POP3/
上班族副业做什么可以月入2万？（男生女生都合适）氧惠好物
互联网的兴起，让社会掀起了一波“副业潮”，身边的人都在悄咪咪开启了副业，靠副业实现了双份收入，日子过得风生水起。我自己也是靠副业实现月入过万，并且成功逆袭转行的。我觉得在这个时代里，对于不满足自身岗位，想要寻求更大发展的人来说，选择一门可持续发展的副业作为努力的方向，为将来升级做铺垫，是非常有必要的。那对于我们普通人来说，该做些什么副业才有发展呢？下面小郁儿结合自己及身边人的经历，总结了5个能让你
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
2022-04-25 L是木子李呢
上门维修APP开发应具备哪些功能随着移动互联网的不断发展，上门维修在我们生活中已经是非常普遍的存在了，为了给用户更方便的找到上门维修的渠道，上门维修APP应运而生，那么上门维修APP开发应具备哪些功能呢？1、维修门店搜索为了更好地方便用户省时省力，上门维修APP会依据用户定位信息搜索线下实体店，促使用户更好的找到线下维修店面，省时又省力。2、维修服务分类包括管道洁具维修、强电弱电维修、木工维修、粉
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

大数据 Hive 笔记大全 收藏+转发+关注

Apache Hive

一、概述

适用场景

特点

数据类型

二、环境搭建

准备工作

安装

配置

启动Hive服务

三、数据库和表相关操作

数据库

Hive表中的数据类型

Hive默认使用的分隔符

Hive表的使用

基于正则表达式数据装载

基于Json文件数据装载

四、Hive表分类

删除表

管理（内部）表

外部表

临时表

分区表

分桶表

分区表的其它操作

截断表

五、HiveOnJdbc

导入Hive JDBC驱动

Hive驱动类

应用程序

六、Hive SQL操作

Hive SQL完整语法

表连接查询

七、Hive 和HBase整合

要求

准备HBase BigTable

创建Hive Table并关联HBase

你可能感兴趣的:(大数据,人工智能,互联网)

大数据 Hive 笔记大全收藏+转发+关注