强悍de巨人

【若泽大数据实战第十七天】Hive - DDL + DML Hive日志路径修改

前言：

上一个章节，若泽给我们讲的第一堂课Hive，详细的总结了，有关Hive的各种信息，本次课程讲讲Hive的 DDL

修改Hive日志路径

【若泽大数据实战】

在Hive中，默认的日志路径是在/tmp底下，一般Linux或者CentOS系统会一个月自动清理一次tmp底下的东西，所以要将日志进行更换位置。

首先需要cp一份hive-log4j.properties文件，在默认安装好Hive后是没有的。

编辑修改路径

查看日志可以发现Hive的默认底层是MapReduce

hive的环境下，输入代码后发现输入有错误时，想用Backspace删除错误命令时，键盘无反应，操作很简单：

无法删除

会话选项内把终端这里改为Linux就可以了

【若泽大数据面试题】

Hive的信息存放在哪里？

1、Hive的数据存放在HDFS之上（真实数据）

2、Hive的元数据可以存放在RDBMS之上（元数据）

【若泽大数据实战第十七天】Hive - DDL + DML Hive日志路径修改_第5张图片

Database

Hive中包含了多个数据库，默认的数据库为default，无论你是否创建数据库，默认都会存在，对应于HDFS目录是/user/hive/warehouse，可以通过hive.metastore.warehouse.dir参数进行配置（hive-site.xml中配置）

创建一个Hive数据库，查看存储在hdfs的什么路径上

配置完hadoop启动的时候出现如下警告信息：

如果是64位直接在log4j日志中去除告警信息。在/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop/log4j.properties文件中添加

log4j.logger.org.apache.hadoop.util.NativeCodeLoader=ERROR

现在显示正常，刚刚创建的Hive数据库也存在

DDL(Data Definition Language)

描述Hive表数据的结构：

打开Hive官网：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL

Create Database

CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name
  [COMMENT database_comment]
  [LOCATION hdfs_path] 
  [WITH DBPROPERTIES (property_name=property_value, ...)];

IF NOT EXISTS：加上这句话代表判断数据库是否存在，不存在就会创建，存在就不会创建（生产中一定要添加IF NOT EXISTS）。如：create database if not exists dbname;
COMMENT：数据库的描述
LOCATION：创建数据库的地址，不加默认在/user/hive/warehouse/路径下

WITH DBPROPERTIES：数据库的属性

【若泽大数据实战】

【重点】每当我们使用一个Hive中的SQL时，一定要知道这条语句对应的元数据信息是怎么存储的，

创建一张表。一个数据库，注释信息再哪里 DB的存放在哪里，一下我做了详细实验

创建一个数据库指定路径，往库中插入一张表：

hive> create database hive2 LOCATION '/ruozedata_03';

[hadoop@hadoop000 ~]$ hadoop fs -ls /

hive> use hive2; hive> create table b(id int);

查看相关创建后的信息，发现有b表，然后看文件的属性，最前面是一个d，ruozedata_03数据库就是一个文件夹

测试创建一个数据库并给数据库添加加一个备注，增加一些描述的信息，信息是key value

create database hive2_ruozedata comment 'this is ruozedata 03 test database ' with dbproperties('create'='ruoze','date'='2018-08-08');

查看刚刚每个创建的数据库的信息

hive> show databases;

hive> desc database hive;
hive hdfs://hadoop000:9000/user/hive/warehouse/hive.db（路径） hadoop USER
Time taken: 0.028 seconds, Fetched: 1 row(s)

hive> desc database hive2;

hive2 hdfs://hadoop000:9000/ruozedata_03 （路径） hadoop USER
Time taken: 0.09 seconds, Fetched: 1 row(s)

hive> desc database hive2_ruozedata;

hive2_ruozedata this is ruozedata 03 test database（描述信息） hdfs://hadoop000:9000/user/hive/warehouse/hive2_ruozedata.db hadoop USER

hive> desc database default;（默认数据库）
default Default Hive database hdfs://hadoop000:9000/user/hive/warehouse（指定路径并没有文件） public ROLE

通过MySQL查看信息

mysql> use ruozedata_basic03 ;

mysql> show tables;

mysql> select * from dbs\G;

【若泽大数据实战第十七天】Hive - DDL + DML Hive日志路径修改_第12张图片

我发现刚刚创建的hive2_ruozedata的属性没有显示出来，若泽教了一条命令可以查看

hive> desc database extended hive2_ruozedata;

Drop Database

DROP (DATABASE|SCHEMA) [IF EXISTS] database_name [RESTRICT|CASCADE];

RESTRICT：默认是restrict，如果该数据库还有表存在则报错；

CASCADE：级联删除数据库(当数据库还有表时，级联删除表后在删除数据库)。

【若泽大数据实战】

把刚刚创建的hive2表直接删除，会有报错，因为Hive2里面有一张B表，所以无法删除

先删除b表再删除数据库Hive2，查看是否有Hive2数据库存在

强制删除数据库（生产中不能使用）

hive> drop database hive CASCADE;

Alter Database

ALTER (DATABASE|SCHEMA) database_name SET DBPROPERTIES (property_name=property_value, ...);   -- (Note: SCHEMA added in Hive 0.14.0)

ALTER (DATABASE|SCHEMA) database_name SET OWNER [USER|ROLE] user_or_role;   -- (Note: Hive 0.13.0 and later; SCHEMA added in Hive 0.14.0)

ALTER (DATABASE|SCHEMA) database_name SET LOCATION hdfs_path; -- (Note: Hive 2.2.1, 2.4.0 and later)

Use Database

USE database_name;
USE DEFAULT;

Show Databases

SHOW (DATABASES|SCHEMAS) [LIKE 'identifier_with_wildcards'

“ | ”：可以选择其中一种

“[ ]”：可选项

LIKE ‘identifier_with_wildcards’：模糊查询数据库

Describe Database

DESCRIBE DATABASE [EXTENDED] db_name;

DESCRIBE DATABASE db_name：查看数据库的描述信息和文件目录位置路径信息；

EXTENDED：加上数据库键值对的属性信息。

hive> describe database default;
OK
default    Default Hive database    hdfs://hadoop1:9000/user/hive/warehouse    public    ROLE    
Time taken: 0.065 seconds, Fetched: 1 row(s)
hive> 


hive> describe database extended hive2;
OK
hive2   it is my database       hdfs://hadoop1:9000/user/hive/warehouse/hive2.db        hadoop      USER    {date=2018-08-08, creator=zhangsan}
Time taken: 0.135 seconds, Fetched: 1 row(s)

Hive的基本数据类型&分隔符

官网：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types

生产中常用数据类型： int bigint float double decimal （数值类型选择一个其他都用string） string (函数也可以用)

生产中不建议使用数据类型：date/timestamp boolean（不建议使用）-> 都用string类型存

分隔符

行：\n 行直接转换用的分隔符

列：^A \001 列转换用的分隔符

map/struct/array

【重要】一般情况下，在创建表的时候就直接指定了分隔符:\t ,

Table

Hive中的表又分为内部表和外部表 ,Hive 中的每张表对应于HDFS上的一个文件夹，HDFS目录为：/user/hadoop/hive/warehouse/[databasename.db]/table

create table xxx xxx 创建表默认使用的是 MANAGED_TABLE: 内部表

内部表创建：

hive> create table ruozedata_emp_managed as select * from ruozedata_emp;

hive> desc formatted ruozedata_emp_managed;

看到下面表的类型，MANAGED_TABLE

MySQL中查看数据信息

mysql> show databases;

mysql> use ruozedata_basic03

mysql> select * from tbls \G；

查看这个数据在HDFS上面什么地方

[hadoop@hadoop000bin]$

hadoop fs -ls hdfs://hadoop000:9000/user/hive/warehouse/hive3.db/ruozedata_emp_managed

查看 000000_0 是否有数据

[hadoop@hadoop000 bin]$

hadoop fs -text hdfs://hadoop000:9000/user/hive/warehouse/hive3.db/ruozedata_emp_managed/000000_0

删除表 ruozedata_emp_managed 我们看看会发身什么

hive> drop table ruozedata_emp_managed;

hdfs上数据信息，没有

hdfs上没有这张表

元数据信息也查不到这张表

内部表总结：只要drop表，就会把hdfs + 元数据的数据全部都删除。

EXTERNAL：外部表

创建一个外部表

create EXTERNAL table ruozedata_emp_external
(empno int, ename string, job string, mgr int, hiredate string, salary double, comm double, deptno int)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
LOCATION "/ruozedata/external/emp" ; （指定路径）

hive> desc formatted ruozedata_emp_external;

在hdfs上查一下有没有数据

把数据上传到 HDFS上

[hadoop@hadoop000 data]$ hadoop fs -put emp.txt /ruozedata/external/emp/

【重要】查看到有数据了，以上的这些操作是在工作中非常常见的，只要把数据移动到目录上去立刻就查的出来。

查看 MySQL表的类型信息

mysql> select * from tbls\G;

删除外部表 ruozedata_emp_external

hive> drop table ruozedata_emp_external

查看hdfs上是否有数据：结果是有数据的

查看MySQL是否还存在元数据：结果是没数据

外部表总结：只要drop表，就会把元数据的数据删除，但是HDFS上的数据是保留的。

【若泽大数据面试题】

两个表的总结：
Hive上有两种类型的表，一种是Managed Table(默认的)，另一种是External Table（加上EXTERNAL关键字）。内部表数据由Hive自身管理，外部表数据由HDFS管理；
它俩的主要区别在于：当我们drop表时，Managed Table会同时删去data（存储在HDFS上）和meta data（存储在MySQL），而External Table只会删meta data。内部表数据存储的位置是hive.metastore.warehouse.dir（默认：/user/hive/warehouse），外部表数据的存储位置由自己制定；对内部表的修改会将修改直接同步给元数据，而对外部表的表结构和分区进行修改，则需要修复（MSCK REPAIR TABLE table_name;）

生产中99%都用到的是外部表，因为可以有一份备份，如果删除表用LOAD DATA LOCAL INPATH 在传一份就可以了。

生产中1%用到的内部表的情况，外面的数据传过来，你这里可建立外部表，如果表删没了再导一份。

Create Table

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name    -- (Note: TEMPORARY available in Hive 0.14.0 and later)
  [(col_name data_type [COMMENT col_comment], ... [constraint_specification])]
  [COMMENT table_comment]
  [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
  [CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
  [SKEWED BY (col_name, col_name, ...)                  -- (Note: Available in Hive 0.10.0 and later)]
 ON ((col_value, col_value, ...), (col_value, col_value, ...), ...)
 [STORED AS DIRECTORIES]
  [
   [ROW FORMAT row_format] 
   [STORED AS file_format]
 | STORED BY 'storage.handler.class.name' [WITH SERDEPROPERTIES (...)]  -- (Note: Available in Hive 0.6.0 and later)
  ]
  [LOCATION hdfs_path]
  [TBLPROPERTIES (property_name=property_value, ...)]   -- (Note: Available in Hive 0.6.0 and later)
  [AS select_statement];   -- (Note: Available in Hive 0.5.0 and later; not supported for external tables)

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name
  LIKE existing_table_or_view_name
  [LOCATION hdfs_path];

data_type
      : primitive_type
      | array_type
      | map_type
      | struct_type
      | union_type  -- (Note: Available in Hive 0.7.0 and later)

primitive_type
      : TINYINT
      | SMALLINT
      | INT
      | BIGINT
      | BOOLEAN
     | FLOAT
      | DOUBLE
      | DOUBLE PRECISION -- (Note: Available in Hive 2.2.0 and later)
      | STRING
      | BINARY      -- (Note: Available in Hive 0.8.0 and later)
      | TIMESTAMP   -- (Note: Available in Hive 0.8.0 and later)
      | DECIMAL     -- (Note: Available in Hive 0.11.0 and later)
      | DECIMAL(precision, scale)  -- (Note: Available in Hive 0.13.0 and later)
      | DATE        -- (Note: Available in Hive 0.12.0 and later)
      | VARCHAR     -- (Note: Available in Hive 0.12.0 and later)
      | CHAR        -- (Note: Available in Hive 0.13.0 and later)

array_type
      : ARRAY < data_type >

map_type
      : MAP < primitive_type, data_type >

struct_type
      : STRUCT < col_name : data_type [COMMENT col_comment], ...>

union_type
       : UNIONTYPE < data_type, data_type, ... >  -- (Note:     Available in Hive 0.7.0 and later)

row_format
      : DELIMITED [FIELDS TERMINATED BY char [ESCAPED BY char]] [COLLECTION ITEMS TERMINATED BY char]
    [MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char]
    [NULL DEFINED AS char]   -- (Note: Available in Hive 0.13 and later)
      | SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)]

file_format:
      : SEQUENCEFILE
      | TEXTFILE    -- (Default, depending on hive.default.fileformat configuration)
      | RCFILE      -- (Note: Available in Hive 0.6.0 and later)
      | ORC         -- (Note: Available in Hive 0.11.0 and later)
      | PARQUET     -- (Note: Available in Hive 0.13.0 and later)
      | AVRO        -- (Note: Available in Hive 0.14.0 and later)
      | INPUTFORMAT input_format_classname OUTPUTFORMAT output_format_classname

constraint_specification:
      : [, PRIMARY KEY (col_name, ...) DISABLE NOVALIDATE ]
    [, CONSTRAINT constraint_name FOREIGN KEY (col_name, ...) REFERENCES table_name(col_name, ...) DISABLE NOVALIDATE 按照

按照官方文档给的信息，创建一个表看看详细信息

hive> create database hive3;

hive> use hive3;

hive> CREATE TABLE hive3_test
> (id int comment 'this is id', name string comment 'this id name' )
> comment 'this is hive3_test'
> ROW FORMAT DELIMITED
> FIELDS TERMINATED BY '\t' ;

查看详细信息

hive> desc formatted hive3_test;

对于存放数据库的路径我们可以修改（一般不做修改）

[hadoop@hadoop000 conf]$ vi hive-site.xml

hive.metastore.warehouse.dir
/user/hive/warehouse
location of default database for the warehouse

从Oracle里面搞了一张emp表来做实验

7369 SMITH CLERK 7902 1980-12-17 800.00 20
7499 ALLEN SALESMAN 7698 1981-2-20 1600.00 300.00 30
7521 WARD SALESMAN 7698 1981-2-22 1250.00 500.00 30
7566 JONES MANAGER 7839 1981-4-2 2975.00 20
7654 MARTIN SALESMAN 7698 1981-9-28 1250.00 1400.00 30
7698 BLAKE MANAGER 7839 1981-5-1 2850.00 30
7782 CLARK MANAGER 7839 1981-6-9 2450.00 10
7788 SCOTT ANALYST 7566 1987-4-19 3000.00 20
7839 KING PRESIDENT 1981-11-17 5000.00 10
7844 TURNER SALESMAN 7698 1981-9-8 1500.00 0.00 30
7876 ADAMS CLERK 7788 1987-5-23 1100.00 20
7900 JAMES CLERK 7698 1981-12-3 950.00 30
7902 FORD ANALYST 7566 1981-12-3 3000.00 20
7934 MILLER CLERK 7782 1982-1-23 1300.00 10

8888 HIVE PROGRAM 7839 1988-1-23 10300.00

还有一个dept表

10 ACCOUNTING NEW YORK
20 RESEARCH DALLAS
30 SALES CHICAGO

40 OPERATIONS BOSTON

创建表ruozedata_emp

create table ruozedata_emp
(empno int, ename string, job string, mgr int, hiredate string, salary double, comm double, deptno int)
ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\t' ;

我们要把本地的数据导入到Hive里面去

官网翻译

LOAD DATA LOCAL INPATH '/home/hadoop/data/emp.txt' OVERWRITE INTO TABLE ruozedata_emp;
local: 从本地文件系统加载数据到hive表
非local：从HDFS文件系统加载数据到hive表 LOAD DATA LOCAL （非本地去掉LOCAL）INPATH '/home/hadoop/
OVERWRITE: 加载数据到表的时候数据的处理方式，覆盖（生产使用）

非OVERWRITE：追加

表已经加载了numFiles=1（有一个文件）

totalSize=700（文件大小）

查看文件是否已经到了hdfs上

【若泽大数据实战第十七天】Hive - DDL + DML Hive日志路径修改_第37张图片

查看数据有没有进入到Hive里面去

hive> use hive3

hive> select * from ruozedata_emp

创建一个新的表数据从ruozedata_emp里面导入：这个作业是通过MapReduce来执行的

hive> CREATE table ruozedata_emp2 as select * from ruozedata_emp;

这里的 * 可以更换成字段，如果只需要ruozedata_emp2的字段就填写字段内容。

通过YARN可以查看作业的信息

http://192.168.137.130:8088/cluster/apps/FINISHED

作业成功了

查看数据是否正常

hive> select * from ruozedata_emp2;

【若泽大数据实战第十七天】Hive - DDL + DML Hive日志路径修改_第41张图片

测试：拷贝表结构

没有数据单有表结构

hive> CREATE table ruozedata_emp3 like ruozedata_emp;

之前不太理解 RunJar 是什么，后来通过实验知道了，是Hive的客户端

truncate

清空 ruozedata_emp2 表里的数据，但是表还存在

hive> truncate table ruozedata_emp2;

TEMPORARY（临时表）

Hive从0.14.0开始提供创建临时表的功能，表只对当前session有效，session退出后，表自动删除。
语法：CREATE TEMPORARY TABLE …

注意：

1. 如果创建的临时表表名已存在，那么当前session引用到该表名时实际用的是临时表，只有drop或rename临时表名才能使用原始表

2. 临时表限制：不支持分区字段和创建索引

ROW FORMAT

官网解释：

: DELIMITED 
[FIELDS TERMINATED BY char [ESCAPED BY char]]       [COLLECTION ITEMS TERMINATED BY char]
[MAP KEYS TERMINATED BY char] 
[LINES TERMINATED BY char]
[NULL DEFINED AS char]   
-- (Note: Available in Hive 0.13 and later)
  | SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)]

DELIMITED：分隔符（可以自定义分隔符）；

FIELDS TERMINATED BY char:每个字段之间使用的分割；

例：-FIELDS TERMINATED BY ‘\n’ 字段之间的分隔符为\n;

COLLECTION ITEMS TERMINATED BY char:集合中元素与元素（array）之间使用的分隔符（collection单例集合的跟接口）；

MAP KEYS TERMINATED BY char：字段是K-V形式指定的分隔符；

LINES TERMINATED BY char：每条数据之间由换行符分割（默认[ \n ]）

一般情况下LINES TERMINATED BY char我们就使用默认的换行符\n，只需要指定FIELDS TERMINATED BY char。

创建demo1表，字段与字段之间使用\t分开，换行符使用默认\n：
hive> create table demo1(
> id int,
> name string
> )
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
OK

创建demo2表，并指定其他字段：
hive> create table demo2 (
> id int,
> name string,
> hobbies ARRAY ,
> address MAP 
> )
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
> COLLECTION ITEMS TERMINATED BY '-'
> MAP KEYS TERMINATED BY ':';
OK

Create Table As Select

创建表（拷贝表结构及数据，并且会运行MapReduce作业）

CREATE TABLE emp (
empno int,
ename string,
job string,
mgr int,
hiredate string,
salary double,
comm double,
deptno int
) ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t";

#加载数据
LOAD DATA LOCAL INPATH "/home/hadoop/data/emp.txt" OVERWRITE INTO TABLE emp;

#复制整张表
hive> create table emp2 as select * from emp;
Query ID = hadoop_20180108043232_a3b15326-d885-40cd-89dd-e8fb1b8ff350
Total jobs = 3
Launching Job 1 out of 3
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_1514116522188_0003, Tracking URL = http://hadoop1:8088/proxy/application_1514116522188_0003/
Kill Command = /opt/software/hadoop/bin/hadoop job  -kill job_1514116522188_0003
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0
2018-01-08 05:21:07,707 Stage-1 map = 0%,  reduce = 0%
2018-01-08 05:21:19,605 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.81 sec
MapReduce Total cumulative CPU time: 1 seconds 810 msec
Ended Job = job_1514116522188_0003
Stage-4 is selected by condition resolver.
Stage-3 is filtered out by condition resolver.
Stage-5 is filtered out by condition resolver.
Moving data to: hdfs://hadoop1:9000/user/hive/warehouse/hive.db/.hive-staging_hive_2018-01-08_05-20-49_202_8556594144038797957-1/-ext-10001
Moving data to: hdfs://hadoop1:9000/user/hive/warehouse/hive.db/emp2
Table hive.emp2 stats: [numFiles=1, numRows=14, totalSize=664, rawDataSize=650]
MapReduce Jobs Launched: 
Stage-Stage-1: Map: 1   Cumulative CPU: 1.81 sec   HDFS Read: 3927 HDFS Write: 730 SUCCESS
Total MapReduce CPU Time Spent: 1 seconds 810 msec
OK
Time taken: 33.322 seconds
hive> show tables;
OK
emp
emp2
order_partition
order_partition2
Time taken: 0.071 seconds, Fetched: 4 row(s)
hive> 

#复制表中的一些字段
create table emp3 as select empno,ename from emp;

LIKE

使用like创建表时，只会复制表的结构，不会复制表的数据

hive> create table emp4 like emp;
OK
Time taken: 0.149 seconds
hive> select * from emp4;
OK
Time taken: 0.151 seconds
hive>

desc formatted table_name

查询表的详细信息

hive> desc formatted emp;
OK
# col_name                data_type               comment             

empno                   int                                         
ename                   string                                      
job                     string                                      
mgr                     int                                         
hiredate                string                                      
salary                  double                                      
comm                    double                                      
deptno                  int                                         

# Detailed Table Information          
Database:               hive                     
Owner:                  hadoop                   
CreateTime:             Mon Jan 08 05:17:54 CST 2018     
LastAccessTime:         UNKNOWN                  
Protect Mode:           None                     
Retention:              0                        
Location:               hdfs://hadoop1:9000/user/hive/warehouse/hive.db/emp     
Table Type:             MANAGED_TABLE            
Table Parameters:          
COLUMN_STATS_ACCURATE    true                
numFiles                1                   
numRows                 0                   
rawDataSize             0                   
totalSize               668                 
transient_lastDdlTime    1515359982          

# Storage Information          
SerDe Library:          org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe     
InputFormat:            org.apache.hadoop.mapred.TextInputFormat     
OutputFormat:           org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat     
Compressed:             No                       
Num Buckets:            -1                       
Bucket Columns:         []                       
Sort Columns:           []                       
Storage Desc Params:          
field.delim             \t                  
serialization.format    \t                  
Time taken: 0.228 seconds, Fetched: 39 row(s)
hive>

通过查询可以列出创建表时的所有信息，并且我们可以在mysql中查询出这些信息（元数据）select * from table_params;

查询数据库下的所有表

hive> show tables;
OK
emp
emp1
emp2
emp3
emp4
order_partition
order_partition2
Time taken: 0.047 seconds, Fetched: 7 row(s)
hive>

查询创建表的语法

拿到DDL语句

hive> show create table emp;
OK
CREATE TABLE `emp`(
  `empno` int, 
  `ename` string, 
  `job` string, 
  `mgr` int, 
  `hiredate` string, 
  `salary` double, 
  `comm` double, 
  `deptno` int)
ROW FORMAT DELIMITED 
  FIELDS TERMINATED BY '\t' 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
  'hdfs://hadoop1:9000/user/hive/warehouse/hive.db/emp'
TBLPROPERTIES (
  'COLUMN_STATS_ACCURATE'='true', 
  'numFiles'='1', 
  'numRows'='0', 
  'rawDataSize'='0', 
  'totalSize'='668', 
  'transient_lastDdlTime'='1515359982')
Time taken: 0.192 seconds, Fetched: 24 row(s)
hive>

Drop Table

DROP TABLE [IF EXISTS] table_name [PURGE];     -- (Note: PURGE available in Hive 0.14.0 and later)

指定PURGE后，数据不会放到回收箱，会直接删除
DROP TABLE删除此表的元数据和数据。如果配置了垃圾箱（并且未指定PURGE），则实际将数据移至.Trash / Current目录。元数据完全丢失
删除EXTERNAL表时，表中的数据不会从文件系统中删除

Alter Table

#重命名
hive> alter table ruozedata_emp3 rename to ruozedata_emp3_new;
OK

insert

创建一个新的表并插入信息

create table ruozedata_emp4 like ruozedata_emp;

INSERT OVERWRITE TABLE ruozedata_emp4
select * FROM ruozedata_emp;

【若泽大数据实战第十七天】Hive - DDL + DML Hive日志路径修改_第45张图片

查看结果：

hive> select * from ruozedata_emp4;

按指定字段插入，查看结果

报错显示，不能插入到目标端表内，他们的行的数量不相同，一个有8行，另一个只有2行，插入错误，所以需要相同的表结构才能插入。如果不用 * 就要把所有的列信息写进去。

插入的时候如果有一列，和源数据信息的列，位置搞错了，不按正常写，就会出现报错，数据错乱

所有在插入的时候需要慎重，列的数量，列的类型，以及列的顺序都写清楚。

万一出错了，对于大数据而言，没有回滚的概念，只有重跑job

重跑：幂等 ***** 非常重要的概念，重跑100次结果也是一样

所以我们要解决所有的场景都是支持幂等的，结果都需要一样

hive> INSERT INTO TABLE ruozedata_emp4

> SELECT empno,job, ename,mgr, hiredate, salary, comm, deptno from ruozedata_emp;

hive> select * from ruozedata_emp4;

补充：

CTAS什么意思？

大数据课程推荐：

你可能感兴趣的:(【若泽大数据】零基础班实战)

芒格的“清晰思考“方法在量子计算商业模式设计中的应用 AGI大模型与大数据研究院 DeepSeek 量子计算网络运维 ai
芒格的"清晰思考"方法在量子计算商业模式设计中的应用关键词：芒格、清晰思考方法、量子计算、商业模式设计、应用策略摘要：本文聚焦于将芒格的“清晰思考”方法应用于量子计算商业模式设计。首先介绍了背景信息，包括目的范围、预期读者等。接着阐述了核心概念，如“清晰思考”方法和量子计算商业模式的原理及联系，并给出相应示意图和流程图。详细讲解了核心算法原理及操作步骤，结合数学模型和公式进行说明。通过项目实战案例
系统应用权限设置跳转鸿蒙示例代码
本文原创发布在华为开发者社区。介绍本示例基于设置应用实现引导用户跳转到系统设置页进行权限，通知的相关设置，包含以下两个场景。场景一：如果应用首次拒绝了消息通知，应用希望能够引导用户拉起设置应用设置允许通知，用来接收应用内的推送消息；并且在设置完后返回页面可以监听到修改后的状态。场景二：当用户使用一些需要用户授权的api时（如访问获取联系人信息），若用户首次拒绝授权，则需要引导用户到权限设置页面能够
JPA 实战经验 jpajava
这个博客会持续更新...JSON数据无法进行更新背景：数据库字段是json格式，代码Entity中字段使用了@Converter进行类型转换，对象本身是个List，产生的效果是查询生效，插入生效，更新不生效。怀疑方向：List对象实例ID发生变更了导致未识别@Converter转换器类型有问题尝试以上操作之后，问题依旧。最后，发现自己搞错概念了，把字段与关联表概念搞混了，它本质是一个字段，JPA对
分块查找算法 1haooo 算法 java 算法开发语言数据结构
分块的原则前一块的最大数据，小于后一窥啊中所有的数据（块内无序，块间有序）块数数量一般等于数字的个数开根号。比如：16个数字一般分为4块左右。publicclassblockSearch{publicstaticvoidmain(String[]args){int[]arr={16,5,9,12,21,18,32,23,37,26,45,34,50,48,61,52,73,66};//共18个元素
C语言：哈希表 %KT% C/C++算法数据结构 c语言散列表开发语言
1、文章声明：本文是基于链地址法建立的哈希表。文章中若存在错误，欢迎各路大佬指正。本文涉及二级指针，链表等内容。该方面的知识点，可以参考文章：数据结构：单链表的相关操作-CSDN博客C语言：利用二级指针动态创建二维矩阵-CSDN博客2、哈希表的介绍：哈希表其实可以理解成一种映射，通过映射关系来存储数据，有点类似于Python中的字典。常见的如数组，链表等存储结构，他们查询数据都有一个特点，往往需要
【Jmeter】前置处理器实战：「BeanShell 预处理程序」参数化手机号码、身份证号顾三殇 JMeter 从入门到软件测试实战 jmeter
一、实战场景业务场景：常见业务管理系统测试中，个人信息档案的自动化批量生成，需要贴近实际进行入参，在姓名、手机号码、身份证号、生日、性别中，这五者有着各自的行业规范格式，而生日、性别有时是由身份证号默认带出数据的信息，数据输入规范：·姓名：“姓”在百家姓中任意取一，“名”任意，均为对字符串的随机取值，字数为2~18字·手机号码：11位整数，“手机号码”规范格式，比如188、135等开头的号码为有效
从零精通机器学习：线性回归入门吴师兄大模型 0基础实现机器学习入门到精通机器学习线性回归人工智能 python 算法回归开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
【day14】画流程图鹿鸣悠悠文旅行业知识学习流程图
绘制业务流程图是梳理和优化企业流程的重要工具，以下是零基础也能快速上手的指南，涵盖必备知识、绘制步骤和常见误区：一、画流程图前必须了解的3个核心概念流程图的本质不是“画图”，而是将复杂业务逻辑可视化的工具，核心在于逻辑清晰、角色明确。目标：让内外部人员快速理解流程中的关键环节、决策点、责任方。常见流程图类型类型适用场景示例工具符号基本流程图简单线性流程（如审批流程）矩形（步骤）、菱形（判断）跨职能
JavaScript 性能优化实战：数据结构选择对性能的影响 deying0865423 开发语言 javascript
目录数组（Array）特点与适用场景性能短板链表（LinkedList）特点与适用场景性能短板集合（Set）特点与适用场景性能短板映射（Map）特点与适用场景性能短板栈（Stack）与队列（Queue）特点与适用场景性能短板在JavaScript开发中，数据结构的选择如同搭建房屋时选择合适的建筑材料，对程序性能起着决定性作用。合理的数据结构能显著提升代码执行效率，减少资源消耗，反之则可能导致性能瓶
JavaScript 性能优化实战：优化 DOM 操作提升交互响应 deying0865423 javascript 开发语言 ecmascript
目录一、理解DOM操作的性能损耗二、减少DOM操作次数（一）批量操作DOM（二）缓存DOM查询结果三、优化DOM查询（一）使用更高效的查询方法（二）利用事件委托四、减少回流与重绘（一）批量修改样式（二）使用requestAnimationFrame在现代Web应用开发中，JavaScript与DOM（文档对象模型）的交互极为频繁。无论是创建动态界面、响应用户操作，还是更新页面内容，DOM操作都扮演
利用Python进行数据可视化（Plotly与Dash的应用）步入烟尘 Python超入门指南全册信息可视化 python plotly
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
百度站群收录2025最新：实战策略与趋势解读 SEO黑猫百度 dubbo
引言：重新认识站群生态最近接触到一个跨境电商案例：某服饰企业通过搭建15个行业细分站群，在2024年百度收录量同比提升380%。这不禁让人思考——2025年的站群运营，究竟需要哪些创新策略？一、2024实战案例拆解案例背景：某母婴用品品牌通过「三级站群矩阵」实现收录突破：1个品牌主站（权重培育）5个地域分站（长尾词覆盖）9个产品专题站（精准流量捕获）RewriteRule^(.*)/product
从FFmpeg命令行到Rust：多场景实战指南 Yeauty ffmpeg rust video-codec
FFmpeg作为功能强大的多媒体处理工具，被广泛应用于视频编辑、格式转换等领域。然而，直接使用FFmpeg的命令行界面（CLI）可能会遇到以下挑战：命令复杂度高：FFmpeg的命令行参数众多且复杂，初学者可能难以掌握，配置错误时调试困难。集成困难：在Rust等现代编程语言中，直接调用FFmpeg的C语言API需要处理复杂的内存管理和安全性问题，可能引发内存泄漏、非法访问等问题。为了解决这些问题，R
《Python实战进阶》No26: CI/CD 流水线：GitHub Actions 与 Jenkins 集成带娃的IT创业者 Python实战进阶 python ci/cd github
No26:CI/CD流水线：GitHubActions与Jenkins集成摘要持续集成（CI）和持续部署（CD）是现代软件开发中不可或缺的实践，能够显著提升开发效率、减少错误并加速交付流程。本文将探讨如何利用GitHubActions和Jenkins构建高效的CI/CD流水线，并通过实战案例展示如何自动化构建、测试和部署Python应用程序。无论你是个人开发者还是团队成员，本文都将帮助你掌握CI/
谈谈 TypeScript 中的模块系统，如何使用 ES Modules 和 CommonJS 模块？程序员黄同学 TypeScript 前端开发 JavaScript typescript ubuntu javascript
模块系统是TypeScript项目组织代码的核心机制，主要用于代码拆分、复用和依赖管理。TypeScript支持ESModules（ESM）和CommonJS两种主流模块系统，理解它们的差异和使用场景是前端开发中的必备技能。以下从基础语法、配置、互操作性到实战建议展开说明。一、ESModules（ESM）：标准化的模块系统1.基础语法ESM使用import/export语法，是ECMAScript
Hive函数大全：从核心内置函数到自定义UDF实战指南（附详细案例与总结）一个天蝎座白勺程序猿大数据开发从入门到实战合集 hive hadoop 数据仓库
目录背景‌一、Hive函数分类与核心函数表‌1.内置函数分类‌2.用户自定义函数（UDF）分类二、常用函数详解与实战案例‌1.数学函数‌2.字符串函数‌3.窗口函数‌4.自定义UDF实战‌三、总结与优化建议‌1.核心总结2.性能优化建议‌3.常问问题背景‌Hive作为Hadoop生态中最常用的数据仓库工具，其强大的函数库是高效处理和分析海量数据的核心能力之一。Hive函数分为‌内置函数‌和‌用户自
C#运算符与表达式：从入门到游戏伤害计算实践吴师兄大模型 C#编程从入门到进阶 c#游戏开发语言运算符表达式变成游戏程序
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
思维链在可控核聚变等离子体控制中的应用：AI驱动的能源革命 AI大模型应用之禅 DeepSeek 人工智能能源 ai
概述《思维链在可控核聚变等离子体控制中的应用：AI驱动的能源革命》旨在探讨AI技术在可控核聚变等离子体控制中的实际应用，以及如何通过思维链实现能源革命。本文将从以下几个方面展开讨论：核聚变等离子体控制背景、思维链技术介绍、AI在等离子体控制中的应用、算法原理与实现、系统设计与实现、项目实战以及最佳实践与展望。一、核聚变等离子体控制背景核聚变是一种通过将轻原子核在高温高压下聚合成更重的原子核，释放出
巴菲特的成功秘诀：长期持有优质股票 AI大模型应用之禅 DeepSeek 大数据人工智能 ai
巴菲特的成功秘诀：长期持有优质股票关键词：巴菲特、投资哲学、股票选择、风险管理、长期持有、优质股票摘要：本文将深入探讨巴菲特的成功秘诀——长期持有优质股票。通过分析巴菲特的投资理念、股票选择方法、投资策略与风险管理，结合实际案例，总结出投资者可以借鉴的投资实战指南，以期为读者提供有价值的投资参考。1.开篇：书名介绍与作者介绍本书《巴菲特的成功秘诀：长期持有优质股票》旨在揭示世界著名投资家沃伦·巴菲
Git 实战指南：本地客户端连接 Gitee 全流程 Yant224 Git git gitee 开发语言 python
本文将以Gitee（码云）、系统Windows11为例，详细介绍从本地仓库初始化到远程协作的全流程操作目录1.前期准备1.1注册与配置Gitee1.2下载、安装、配置客户端1.3配置公钥到Gitee2.本地仓库操作（PowerShell/GitBash）2.1初始化本地仓库2.2关联Gitee远程仓库3.克隆已有仓库4.日常开发操作4.1分支管理（GitBash示例）4.2处理换行符问题（CRLF
AI：188-利用Python进行自然语言生成和文本摘要一键难忘 python 开发语言人工智能自然语言处理
本文收录于专栏：精通AI实战千例专栏合集https://blog.csdn.net/weixin_52908342/category_11863492.html从基础到实践，深入学习。无论你是初学者还是经验丰富的老手，对于本专栏案例和项目实践都有参考学习意义。每一个案例都附带关键代码，详细讲解供大家学习，希望可以帮到大家。正在不断更新中~一.利用Python进行自然语言生成和文本摘要近年来，人工智
零基础Python快速入门：核心概念+基础语法详解中意可口可乐 python 开发语言
一、为什么选择Python？1.语言优势简洁易读：接近自然语言的语法结构#其他语言实现循环for(inti=0;i=3)#返回True#逻辑运算符print((5>3)and(2=90:grade='A'elifscore>=80:grade='B'#这里将执行该分支else:grade='C'循环结构#while循环count=0whilecount<3:print(f"第{count+1}次循
使用Windbg分析dump文件定位软件异常的方法与操作步骤 dvlinker C++软件调试异常排查 Windbg Windbg命令 dump文件 pdb符号文件函数调用堆栈
目录1、Windbg简介2、Windbg版本与安装3、Windbg常用命令4、静态分析dump文件的一般步骤4.1、查看异常类型4.2、使用.ecxr命令切换到发生异常的线程上下文，查看发生异常的那条汇编指令4.3、使用kn/kv/kp命令查看异常发生时的函数调用堆栈4.4、使用lm命令查看模块的时间戳，找到对应的pdb文件，设置到Windbg中5、实战问题分析实例说明6、使用Windbg详细分析
C#入门：从变量与数据类型开始你的游戏开发之旅吴师兄大模型 C#编程从入门到进阶 c#开发语言变量与数据类型游戏开发 Unity基础 C#变量数据类型
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
程序员必看！DeepSeek全栈开发实战指南：从代码生成到性能优化 AI创享派后端
一、DeepSeek技术新突破：程序员效率革命（开篇结合最新技术动态）2025年2月25日，DeepSeek接连放出两大技术王牌：全球首个面向MoE模型的全栈通信库DeepEP开源，以及深度思考R1模型的全面升级。这两项技术突破对程序员群体意义重大：通信效率飞跃：DeepEP通过NVLink优化实现GPU间158GB/s传输速度，后端开发者训练大模型时可节省60%集群资源推理性能突破：R1模型在H
基于生成对抗网络（GAN）的图像超分辨率实战：从SRGAN到ESRGAN Evaporator Core #深度学习强化学习生成模型生成对抗网络人工智能神经网络
图像超分辨率（ImageSuper-Resolution）是一种通过算法将低分辨率图像转换为高分辨率图像的技术，广泛应用于医学影像、卫星图像和视频增强等领域。生成对抗网络（GAN）是图像超分辨率的经典方法，而增强型超分辨率生成对抗网络（ESRGAN）则通过引入残差网络和感知损失进一步提升了图像质量。本文将通过一个完整的实战案例，展示如何使用SRGAN和ESRGAN进行图像超分辨率，并提供详细的代码
MongoDB数据库使用及常见问题微笑的曙光（StevenLi）数据库数据库 mongodb
MongoDB数据库之所以备受青睐，关键在于其独特的优势满足了现代应用的需求。它采用文档型存储，数据结构灵活，无需事先定义表结构，非常适合处理复杂且多变的数据。MongoDB具备高性能和可扩展性，能够轻松应对大数据量和高并发的访问，通过分片技术实现水平扩展，确保系统稳定运行。同时，它提供了强大的数据一致性和可靠性保障，支持多种复制和故障转移机制，确保数据的高可用性和持久性。此外，MongoDB拥有
智慧社区2.0 陈陈爱java java
项目亮点1.技术架构层面✅多数据源整合（MySQL+Redis+HDFS+OSS）核心亮点：不仅仅是单一数据库，而是根据数据特性使用MySQL（结构化数据）+Redis（缓存）+HDFS（大数据存储）+OSS（对象存储），提高了系统的数据存储效率和查询速度。面试时可以强调：Redis作为缓存，加速社区热点数据访问，减少MySQL压力。HDFS存储海量日志和AI任务数据，支持后续分析。OSS解决图片
Pandas与PySpark混合计算实战：突破单机极限的智能数据处理方案 Eqwaak00 Pandas pandas 学习 python 科技开发语言
引言：大数据时代的混合计算革命当数据规模突破十亿级时，传统单机Pandas面临内存溢出、计算缓慢等瓶颈。PySpark虽能处理PB级数据，但在开发效率和局部计算灵活性上存在不足。本文将揭示如何构建Pandas+PySpark混合计算管道，在保留Pandas便捷性的同时，借助Spark分布式引擎实现百倍性能提升，并通过真实电商用户画像案例演示全流程实现。一、混合架构设计原理1.1技术栈优势分析维度P
5大陷阱+实战：C#日志分析，从‘日志迷宫’到‘监控神殿’的逆袭全攻略！墨瑾轩 C#乐园 c#网络开发语言
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣你的日志还在‘打哑谜’吗？“错误日志像‘天书’读不懂？监控告警像‘哑巴’不发声？”——别慌！今天用C#日志分析，让你的系统像“福尔摩斯”一样精准破案，从实时监控到根因定位，从此告别“黑盒运维”！权威背书：日志分析≠‘抄作业’！“90%的故障因‘日志解析缺失’导
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla

【若泽大数据实战第十七天】Hive - DDL + DML Hive日志路径修改

前言：

hive的环境下，输入代码后发现输入有错误时，想用Backspace删除错误命令时，键盘无反应，操作很简单：

Database

DDL(Data Definition Language)

Create Database

hive> use hive2; hive> create table b(id int);

hive> desc database default;（默认数据库）default Default Hive database hdfs://hadoop000:9000/user/hive/warehouse（指定路径并没有文件） public ROLE

Drop Database

Alter Database

Use Database

Show Databases

Describe Database

Hive的基本数据类型&分隔符

生产中常用数据类型： int bigint float double decimal （数值类型选择一个其他都用string） string (函数也可以用)

生产中不建议使用数据类型：date/timestamp boolean（不建议使用）-> 都用string类型存

分隔符

列：^A \001 列转换用的分隔符

【重要】一般情况下，在创建表的时候就直接指定了分隔符:\t ,

Table

Hive中的表又分为内部表和外部表 ,Hive 中的每张表对应于HDFS上的一个文件夹，HDFS目录为：/user/hadoop/hive/warehouse/[databasename.db]/table

create table xxx xxx 创建表默认使用的是 MANAGED_TABLE: 内部表

内部表创建：

在hdfs上查一下有没有数据

hive> drop table ruozedata_emp_external

生产中99%都用到的是外部表，因为可以有一份备份，如果删除表用LOAD DATA LOCAL INPATH 在传一份就可以了。

生产中1%用到的内部表的情况，外面的数据传过来，你这里可建立外部表，如果表删没了再导一份。

Create Table

按照官方文档给的信息，创建一个表看看详细信息

查看详细信息

对于存放数据库的路径我们可以修改（一般不做修改）

查看文件是否已经到了hdfs上

创建一个新的表数据从ruozedata_emp里面导入：这个作业是通过MapReduce来执行的

通过YARN可以查看作业的信息

作业成功了

查看数据是否正常

之前不太理解 RunJar 是什么，后来通过实验知道了，是Hive的客户端

truncate

TEMPORARY（临时表）

ROW FORMAT

Create Table As Select

LIKE

desc formatted table_name

查询数据库下的所有表

查询创建表的语法

Drop Table

Alter Table

insert

你可能感兴趣的:(【若泽大数据】零基础班实战)

hive> desc database default;（默认数据库）
default Default Hive database hdfs://hadoop000:9000/user/hive/warehouse（指定路径并没有文件） public ROLE