haoyutiangang

Hive官方手册学习（二）Hive数据定义语言DDL

一、数据库相关操作（DATABASE）

1.1 创建数据库（create）

CREATE DATABASE [IF NOT EXISTS] database_name
  [COMMENT database_comment]
  [LOCATION hdfs_path]
  [WITH DBPROPERTIES (property_name=property_value, ...)];

默认地址：/user/hive/warehouse/db_name.db/table_name/partition_name/…

1.2 使用数据库（use）

USE database_name;

注意：只有use时不用写DATABASE关键字

1.3 删除数据库（drop）

DROP DATABASE [IF EXISTS] database_name [RESTRICT|CASCADE];

1.4 修改数据库（alter）

1.4.1 修改数据库属性

ALTER DATABASE database_name SET DBPROPERTIES (property_name=property_value, …);

1.4.2 修改数据库所有者

ALTER DATABASE database_name SET OWNER [USER|ROLE] user_or_role;

二、新建和删除数据表（Create/Drop/Truncate Table）

2.1 创建数据表（create）

# 手动建表
CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name    -- (Note: TEMPORARY available in Hive 0.14.0 and later)
  [(col_name data_type [COMMENT col_comment], ...)]
  [COMMENT table_comment]
  [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
  [CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
  [SKEWED BY (col_name, col_name, ...)                  -- (Note: Available in Hive 0.10.0 and later)]
     ON ((col_value, col_value, ...), (col_value, col_value, ...), ...)
     [STORED AS DIRECTORIES]
  [
   [ROW FORMAT row_format] 
   [STORED AS file_format]
     | STORED BY 'storage.handler.class.name' [WITH SERDEPROPERTIES (...)]  -- (Note: Available in Hive 0.6.0 and later)
  ]
  [LOCATION hdfs_path]
  [TBLPROPERTIES (property_name=property_value, ...)]   -- (Note: Available in Hive 0.6.0 and later)
  [AS select_statement];   -- (Note: Available in Hive 0.5.0 and later; not supported for external tables)

# 复制表结构
CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name
  LIKE existing_table_or_view_name
  [LOCATION hdfs_path];

数据类型
data_type
  : primitive_type
  | array_type
  | map_type
  | struct_type
  | union_type  -- (Note: Available in Hive 0.7.0 and later)

primitive_type
  : TINYINT
  | SMALLINT
  | INT
  | BIGINT
  | BOOLEAN
  | FLOAT
  | DOUBLE
  | STRING
  | BINARY      -- (Note: Available in Hive 0.8.0 and later)
  | TIMESTAMP   -- (Note: Available in Hive 0.8.0 and later)
  | DECIMAL     -- (Note: Available in Hive 0.11.0 and later)
  | DECIMAL(precision, scale)  -- (Note: Available in Hive 0.13.0 and later)
  | DATE        -- (Note: Available in Hive 0.12.0 and later)
  | VARCHAR     -- (Note: Available in Hive 0.12.0 and later)
  | CHAR        -- (Note: Available in Hive 0.13.0 and later)

array_type
  : ARRAY < data_type >

map_type
  : MAP < primitive_type, data_type >

struct_type
  : STRUCT < col_name : data_type [COMMENT col_comment], ...>

union_type
   : UNIONTYPE < data_type, data_type, ... >  -- (Note: Available in Hive 0.7.0 and later)

# 行列分隔符 
row_format
  : DELIMITED [FIELDS TERMINATED BY char [ESCAPED BY char]] [COLLECTION ITEMS TERMINATED BY char]
        [MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char]
        [NULL DEFINED AS char]   -- (Note: Available in Hive 0.13 and later)
  | SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)]

# 文件存储格式 
file_format:
  : SEQUENCEFILE
  | TEXTFILE    -- (Default, depending on hive.default.fileformat configuration)
  | RCFILE      -- (Note: Available in Hive 0.6.0 and later)
  | ORC         -- (Note: Available in Hive 0.11.0 and later)
  | PARQUET     -- (Note: Available in Hive 0.13.0 and later)
  | AVRO        -- (Note: Available in Hive 0.14.0 and later)
  | INPUTFORMAT input_format_classname OUTPUTFORMAT output_format_classname

2.1.1 行格式，文件存储格式，SerDe

ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\001’ STORED AS SEQUENCEFILE;
ROW FORMAT SERDE … STORED AS SEQUENCEFILE;

RegEx SerDe

CREATE TABLE apachelog (
  host STRING,
  identity STRING,
  user STRING,
  time STRING,
  request STRING,
  status STRING,
  size STRING,
  referer STRING,
  agent STRING)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
  "input.regex" = "([^]*) ([^]*) ([^]*) (-|\\[^\\]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\".*\") ([^ \"]*|\".*\"))?"
)
STORED AS TEXTFILE;

2.1.2 分区表（partitioned by）

CREATE TABLE page_view(viewTime INT, userid BIGINT,
     page_url STRING, referrer_url STRING,
     ip STRING COMMENT 'IP Address of the User')
 COMMENT 'This is the page view table'
 PARTITIONED BY(dt STRING, country STRING)
 ROW FORMAT DELIMITED
   FIELDS TERMINATED BY '\001'
STORED AS SEQUENCEFILE;

2.1.3 外部表（external）

可以自定义HDFS存储地址，drop表时数据不删除，还是要指定分隔符的

CREATE EXTERNAL TABLE page_view(viewTime INT, userid BIGINT,
     page_url STRING, referrer_url STRING,
     ip STRING COMMENT 'IP Address of the User',
     country STRING COMMENT 'country of origination')
 COMMENT 'This is the staging page view table'
 ROW FORMAT DELIMITED FIELDS TERMINATED BY '\054'
 STORED AS TEXTFILE
 LOCATION '';

2.1.4 利用查询结果建表（Create Table As Select (CTAS)）

根据查询结果的列和列类型建表，可以自己指定列分隔符和文件存储格式

CREATE TABLE new_key_value_store
   ROW FORMAT SERDE "org.apache.hadoop.hive.serde2.columnar.ColumnarSerDe"
   STORED AS RCFile
   AS
SELECT (key % 1024) new_key, concat(key, value) key_value_pair
FROM key_value_store
SORT BY new_key, key_value_pair;

2.1.5 复制已有表结构（Create Table Like）

复制已有表的表结构，不复制数据（属性一样，仅表名不同）

CREATE TABLE empty_key_value_store
LIKE key_value_store;

2.1.6 分桶排序的表（Bucketed Sorted Tables）

CREATE TABLE page_view(viewTime INT, userid BIGINT,
     page_url STRING, referrer_url STRING,
     ip STRING COMMENT 'IP Address of the User')
 COMMENT 'This is the page view table'
 PARTITIONED BY(dt STRING, country STRING)
 CLUSTERED BY(userid) SORTED BY(viewTime) INTO 32 BUCKETS
 ROW FORMAT DELIMITED
   FIELDS TERMINATED BY '\001'
   COLLECTION ITEMS TERMINATED BY '\002'
   MAP KEYS TERMINATED BY '\003'
 STORED AS SEQUENCEFILE;

上表按userid分桶，桶内按viewTime升序排列，可以更有效的取样和让内部操作更加了解数据结构，从而提高运算性能。
建表时的CLUSTERED BY和SORTED BY语句只对数据读取有作用，对写入没有作用，所以在写入数据时需要手动指定reduce数等于分桶数并且使用CLUSTERED BY和SORTED BY语句。
简便方法是set hive.enforce.bucketing = true;这样写入数据时就不用那么麻烦了，系统将会自动指定reduce数等于分桶数和使用CLUSTERED BY和SORTED BY语句。分桶规则依赖于hash函数。

例如：建表语句

CREATE TABLE user_info_bucketed(user_id BIGINT, firstname STRING, lastname STRING)
COMMENT 'A bucketed copy of user_info'
PARTITIONED BY(ds STRING)
CLUSTERED BY(user_id) INTO 256 BUCKETS;

插入语句

set hive.enforce.bucketing = true; 
FROM user_id
INSERT OVERWRITE TABLE user_info_bucketed
PARTITION (ds='2009-02-25')
SELECT userid, firstname, lastname WHERE ds='2009-02-25';

2.1.7 倾斜表（Skewed Tables）

某列的几个值出现频率非常高，所以相比于其它值他们的运算非常慢，造成倾斜，Hive可以指定将特定的值单独存储到独立文件中来提高性能。
单列举例

CREATE TABLE list_bucket_single (key STRING, value STRING)
  SKEWED BY (key) ON (1,5,6) [STORED AS DIRECTORIES];

多列举例

CREATE TABLE list_bucket_multiple (col1 STRING, col2 int, col3 STRING)
  SKEWED BY (col1, col2) ON (('s1',1), ('s3',3), ('s13',13), ('s78',78)) [STORED AS DIRECTORIES];

2.1.8 临时表（Temporary Tables）

临时表仅这个session可见，存储在用户临时目录，session结束后删除。
如果与永久表重名,则查询时默认为临时表，直到不重名或者删除临时表。

2.2 删除数据表（drop）

删除外表不删数据
删除内表数据移到用户垃圾箱（可以重建metadata并移回数据来恢复）
指定perge强制删除不可恢复

DROP TABLE [IF EXISTS] table_name [PURGE];

2.3 清空数据表（Truncate Table）

清空表数据，指定partition时只清空特定partition的数据。

TRUNCATE TABLE table_name [PARTITION (partition_column = partition_col_value, partition_column = partition_col_value, ...)];

三、修改数据表（Alter Table/Partition/Column）

3.1 修改表（Alter Table）

3.1.1 重命名表（Rename Table）

ALTER TABLE table_name RENAME TO new_table_name;

3.1.2 修改表属性（Alter Table Properties）

ALTER TABLE table_name SET TBLPROPERTIES (property_name = property_value, property_name = property_value, ... );

3.1.3 修改表注释（Alter Table Comment）

ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comment);

3.1.4 修改SerDe属性（Add SerDe Properties）

ALTER TABLE table_name [PARTITION partition_spec] SET SERDE serde_class_name [WITH SERDEPROPERTIES (property_name = property_value, property_name = property_value, ... )];

ALTER TABLE table_name [PARTITION partition_spec] SET SERDEPROPERTIES (property_name = property_value, property_name = property_value, ... );

属性的名和值都需要加引号

ALTER TABLE table_name SET SERDEPROPERTIES ('field.delim' = ',');

3.1.5 修改表存储属性（Alter Table Storage Properties）

ALTER TABLE table_name CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name, ...)]
  INTO num_buckets BUCKETS;

只修改metadata，用户需要自己确保实际数据的格式与改完后的metadata相符

3.1.6 修改倾斜表属性（Alter Table Skewed or Stored as Directories）

改为倾斜表

ALTER TABLE table_name SKEWED BY (col_name1, col_name2, ...)
  ON ([(col_name1_value, col_name2_value, ...) [, (col_name1_value, col_name2_value), ...]
  [STORED AS DIRECTORIES];

改为非倾斜表

ALTER TABLE table_name NOT SKEWED;

改为不单独存储倾斜列

ALTER TABLE table_name NOT STORED AS DIRECTORIES;

修改倾斜表位置

ALTER TABLE table_name SET SKEWED LOCATION (col_name1="location1" [, col_name2="location2", ...] );

3.2 修改分区（Alter Partition）

3.2.1 增加分区（Add Partitions）

ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec 
  [LOCATION 'location1'] partition_spec [LOCATION 'location2'] ...;

partition_spec:
  : (partition_column = partition_col_value, partition_column = partition_col_value, ...)

修改分区仅修改metadata，实际数据需要用户自己修改

3.2.2 动态分区（Dynamic Partitions）

3.2.3 重命名分区（Rename Partition）

ALTER TABLE table_name PARTITION partition_spec RENAME TO PARTITION partition_spec;

相当于更改了分区对应的那个列的值

3.2.4 交换分区（Exchange Partition）

ALTER TABLE table_name_1 EXCHANGE PARTITION (partition_spec) WITH TABLE table_name_2;
-- multiple partitions
ALTER TABLE table_name_1 EXCHANGE PARTITION (partition_spec, partition_spec2, ...) WITH TABLE table_name_2;

将分区从一个表迁移到另一个表，要求两个表结构一致且目标表没有这个分区

3.2.5 修复分区（MSCK REPAIR TABLE）

当我们手动传数据到hdfs作为一个分区时需要在metadata进行设置以便能够识别

MSCK REPAIR TABLE table_name;

3.2.6 删除分区（Drop Partitions）

ALTER TABLE table_name DROP [IF EXISTS] PARTITION partition_spec[, PARTITION partition_spec, ...]
  [IGNORE PROTECTION] [PURGE];

删除分区时同时删除metadata和data，删除的data到用户垃圾箱

3.3 修改表或者分区（Alter Either Table or Partition）

3.3.1 修改文件格式（Alter Table/Partition File Format）

ALTER TABLE table_name [PARTITION partition_spec] SET FILEFORMAT file_format;

3.3.2 修改存储位置（Alter Table/Partition Location）

ALTER TABLE table_name [PARTITION partition_spec] SET LOCATION "new location";

3.4 修改列（Alter Column）

列名是大小写敏感的

3.4.1 修改列名/数据类型/位置/注释（Change Column Name/Type/Position/Comment）

ALTER TABLE table_name [PARTITION partition_spec] CHANGE [COLUMN] col_old_name col_new_name column_type
  [COMMENT col_comment] [FIRST|AFTER column_name] [CASCADE|RESTRICT];

例子

CREATE TABLE test_change (a int, b int, c int);

# First change column a's name to a1.
ALTER TABLE test_change CHANGE a a1 INT;

# Next change column a1's name to a2, its data type to string, and put it after column b.
ALTER TABLE test_change CHANGE a1 a2 STRING AFTER b;
# The new table's structure is:  b int, a2 string, c int.

# Then change column c's name to c1, and put it as the first column.
ALTER TABLE test_change CHANGE c c1 INT FIRST;
# The new table's structure is:  c1 int, b int, a2 string.

# Add a comment to column a1
ALTER TABLE test_change CHANGE a1 a1 INT COMMENT 'this is column a1';

3.4.2 添加列（Add Columns）

ALTER TABLE table_name 
  [PARTITION partition_spec]                 
  ADD COLUMNS (col_name data_type [COMMENT col_comment], ...)
  [CASCADE|RESTRICT]

添加的列位于普通列最后位置，在分区列之前

四、视图的相关操作（Create/Drop/Alter View）

4.1 创建视图（Create View）

CREATE VIEW [IF NOT EXISTS] [db_name.]view_name [(column_name [COMMENT column_comment], ...) ]
  [COMMENT view_comment]
  [TBLPROPERTIES (property_name = property_value, ...)]
  AS SELECT ...;

视图仅是逻辑对象，不是实际存储，查询时相当于先查出视图再进一步查询
不指定列名时按select的列来算
一旦创建即被冻结，表再变化不会影响视图变化
只读不能插入数据
SHOW CREATE TABLE 用来查看建视图的语句

例子

CREATE VIEW onion_referrers(url COMMENT 'URL of Referring page')
  COMMENT 'Referrers to The Onion website'
  AS
  SELECT DISTINCT referrer_url
  FROM page_view
  WHERE page_url='http://www.theonion.com';

4.2 删除视图（Drop View）

DROP VIEW [IF EXISTS] view_name;

例子

DROP VIEW onion_referrers;

4.3 修改视图属性（Alter View Properties）

ALTER VIEW view_name SET TBLPROPERTIES table_properties;

table_properties:
  : (property_name = property_value, property_name = property_value, ...)

4.4 修改已有视图（Alter View As Select）

ALTER VIEW view_name AS select_statement;

只能用于没有分区的视图

五、索引的相关操作

5.1 创建索引（Create Index）

CREATE INDEX index_name
  ON TABLE base_table_name (col_name, ...)
  AS index_type
  [WITH DEFERRED REBUILD]
  [IDXPROPERTIES (property_name=property_value, ...)]
  [IN TABLE index_table_name]
  [
     [ ROW FORMAT ...] STORED AS ...
     | STORED BY ...
  ]
  [LOCATION hdfs_path]
  [TBLPROPERTIES (...)]
  [COMMENT "index comment"];

5.2 删除索引（Drop Index）

DROP INDEX [IF EXISTS] index_name ON table_name;

5.3 修改索引（ALTER INDEX）

ALTER INDEX index_name ON table_name [PARTITION partition_spec] REBUILD;

六、方法的相关操作（Create/Drop/Reload Function）

6.1 临时方法（Temporary Functions）

6.1.1 创建临时方法（Create Temporary Function）

CREATE TEMPORARY FUNCTION function_name AS class_name;

利用类名创建临时方法，在当前session有效，类名可以先add jar

6.1.2 删除临时方法（DROP TEMPORARY FUNCTION）

DROP TEMPORARY FUNCTION [IF EXISTS] function_name;

6.2 永久方法（Permanent Functions）

6.2.1 创建永久方法（Create Function）

CREATE FUNCTION [db_name.]function_name AS class_name
  [USING JAR|FILE|ARCHIVE 'file_uri' [, JAR|FILE|ARCHIVE 'file_uri'] ];

需要限制到数据库，如果没有写数据库，默认当前数据库
需要先添加进去并用using访问

6.2.2 删除永久方法（DROP FUNCTION）

DROP FUNCTION [IF EXISTS] function_name;

6.2.3 重载永久方法（RELOAD FUNCTION）

RELOAD FUNCTION;

七、用户权限相关操作（Create/Drop/Grant/Revoke Roles and Privileges）

八、查看相关信息（Show）

8.1 查看数据库（Show Databases）

SHOW (DATABASES|SCHEMAS) [LIKE 'identifier_with_wildcards'];

用”*”表示任意个字符，”|”表示或

8.2 查看表/分区/索引（Show Tables/Partitions/Indexes）

8.2.1 查看表（Show Tables）

SHOW TABLES [IN database_name] [like 'identifier_with_wildcards'];

in语句表示数据库，不写默认当前数据库
用”*”表示任意个字符，”|”表示或

8.2.2 查看分区（Show Partitions）

SHOW PARTITIONS table_name;

也可以指定分区中的一个或几个字段

SHOW PARTITIONS table_name PARTITION(ds='2010-03-03');
SHOW PARTITIONS table_name PARTITION(hr='12');
SHOW PARTITIONS table_name PARTITION(ds='2010-03-03', hr='12');

8.2.3 查看表和分区的扩展信息（Show Table/Partition Extended）

SHOW TABLE EXTENDED [IN|FROM database_name] LIKE 'identifier_with_wildcards' [PARTITION(partition_spec)];

extended会给出表的文件信息和文件大小、修改时间等信息
如果指定了partition就不能用表的正则匹配了，只能指定具体的表

8.2.4 查看表属性（Show Table Properties）

SHOW TBLPROPERTIES tblname;
SHOW TBLPROPERTIES tblname("foo");

第一种方式给出表的所有属性值
第二种方式给出表的指定的属性值

8.2.5 查看表的创建信息（Show Create Table）

SHOW CREATE TABLE ([db_name.]table_name|view_name);

既能看table，也能看view

8.2.6 查看索引（Show Indexes）

SHOW [FORMATTED] (INDEX|INDEXES) ON table_with_index [(FROM|IN) db_name];

8.3 查看列（Show Columns）

SHOW COLUMNS (FROM|IN) table_name [(FROM|IN) db_name];

8.4 查看方法（Show Functions）

SHOW FUNCTIONS "a.*";

查看所有方法时用”.*”

8.5 查看用户和权限（Show Granted Roles and Privileges）

8.6 查看锁（Show Locks）

SHOW LOCKS ;
SHOW LOCKS  EXTENDED;
SHOW LOCKS  PARTITION ();
SHOW LOCKS  PARTITION () EXTENDED;
SHOW LOCKS <DATABASE> database_name;

8.7 查看配置信息（Show Conf）

SHOW CONF ;

不会列出当前配置的值，如果需要请使用set命令

8.8 查看事务信息（SHOW TRANSACTIONS）

SHOW TRANSACTIONS;

8.9 查看压缩信息（SHOW COMPACTIONS）

SHOW COMPACTIONS;

九、描述相关信息（Describe）

9.1 描述数据库（Describe Database）

DESCRIBE DATABASE [EXTENDED] db_name;

extended给出数据库的属性信息

9.2 描述表/视图/列（Describe Table/View/Column）

没有指定数据库时

DESCRIBE [EXTENDED|FORMATTED] 
  table_name[.col_name ( [.field_name] | [.'$elem$'] | [.'$key$'] | [.'$value$'] )* ];

指定数据库时

DESCRIBE [EXTENDED|FORMATTED] 
  [db_name.]table_name[ col_name ( [.field_name] | [.'$elem$'] | [.'$key$'] | [.'$value$'] )* ];

9.2.1 展示列的统计信息（Display Column Statistics）

DESCRIBE FORMATTED [db_name.]table_name column_name;
DESCRIBE FORMATTED [db_name.]table_name column_name PARTITION (partition_spec);

9.3 描述分区信息（Describe Partition）

没有指定数据库时

DESCRIBE [EXTENDED|FORMATTED] table_name[.column_name] PARTITION partition_spec;

指定数据库时

DESCRIBE [EXTENDED|FORMATTED] [db_name.]table_name [column_name] PARTITION partition_spec;

例子

DESCRIBE page_view PARTITION (ds='2008-08-08');

你可能感兴趣的:(Hive)

基于MRS-Hudi构建数据湖的典型应用场景介绍华为云技术精粹云计算华为云
一、传统数据湖存在的问题与挑战传统数据湖解决方案中，常用Hive来构建T+1级别的数据仓库，通过HDFS存储实现海量数据的存储与水平扩容，通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果，但依然存在如下现状问题：问题一：不支持事务由于传统大数据方案不支持事务，有可能会读到未写完成的数据，造成数据统计错误。为了规避该问题，通常控制读写任务顺序调用，在保证写
hvie SQL优化之where子句过滤模式三生暮雨渡瀟瀟 hive调优 hive
本篇文章来源于《Hive性能调优实现》。在HiveSQL里面经常用到的过滤方法就是使用where子句，例如：explainselect*fromstudent_tb_seqwheres_age=19ands_namelike'%红%'ands_scorein(100,50,22);where子句在执行计划中以filter操作表示，代码如下：STAGEPLANS:Stage:Stage-1MapRe
git 常用命令 git archive 张紫娃 GIT git
gitarchive是Git中用于创建一个包含指定提交或分支中所有文件的归档文件（如.tar或.zip）的命令。这个命令非常适合用于分发项目快照、备份代码库或导出特定版本的文件。gitarchive--format=zip--output=project.zipHEAD创建整个项目的.zip归档gitarchive--format=zip--output=project.zipHEAD-v-v查看
Android Studio 找不到 uploadArchives 入口程思扬 Android 记录 android studio android ide
在4.2之前版本的AndroidStudio中想要module打包arr，上传Maven我们只需要在对应module的build.gradle文件顶部添加applyplugin:'maven'然后每一次修改记得要修改版本号，相同版本号提交失败，是不会覆盖的defaultConfig{......versionName"1.0.0"//版本号...</
基于飞腾平台的Hive的安装配置后端hive大数据数据库运维
【写在前面】飞腾开发者平台是基于飞腾自身强大的技术基础和开放能力，聚合行业内优秀资源而打造的。该平台覆盖了操作系统、算法、数据库、安全、平台工具、虚拟化、存储、网络、固件等多个前沿技术领域，包含了应用使能套件、软件仓库、软件支持、软件适配认证四大板块，旨在共享尖端技术，为开发者提供一个涵盖多领域的开发平台和工具套件。点击这里开始你的技术升级之旅吧本文分享至飞腾开发者平台《飞腾平台Hive3.1.2
scrapy学习之爬虫练习平台爬取 LLLibra146 爬虫 python
本文章首发于个人博客，链接为：https://blog.d77.xyz/archives/35dbd7c9.html前言为了练习Scrapy，找了一个爬虫练习平台，网址为：https://scrape.center/，目前爬取了前十个比较简单的网站，在此感谢平台作者提供的练习平台。环境搭建开始爬取前，首先要先把环境搭建起来，Pycharm新建项目learnscrapy和对应的虚拟环境，安装好Scr
Docker+gitlab+jenkins实现项目自动部署 Java小海. spring java 后端
一、Docker安装(CentOS)1、准备工作系统要求以下为官网原文ToinstallDockerEngine,youneedamaintainedversionofCentOS7or8.Archivedversionsaren’tsupportedortested.Thecentos-extrasrepositorymustbeenabled.Thisrepositoryisenabledby
在VS-Code配置Anaconda环境 m0_47563195 配置 python conda 编辑器
准备工作：一台没有安装Python，Anaconda及VS-Code的window10系统的电脑第一步：安装Anaconda由于在官网下载安装包比较慢，所以可以选择在清华大学开源软件镜像站进行下载（Indexof/anaconda/archive/|清华大学开源软件镜像站|TsinghuaOpenSourceMirror），具体安装过程及环境配置可参考文章Anaconda环境与Python的配置方
hive电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设计算机毕业设计 hive spring boot 爬虫
hive电影数据分析Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档]【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.MR数据清洗data.csv4.Hive汇总处理,将Hive处理的结果数据保存到本地Mysql数据库中5.Springboot+Vu
360校招——最后赢家（C++） c++
⭐文章链接:www.mengyingjie.com/archives/39/⭐最后赢家时间限制：C/C++语言1000MS；其他语言3000MS内存限制：C/C++语言65536KB；其他语言589824KB题目描述：最强的不一定是最后的赢家。某赛事有n名选手参加，但是不同于其他的比赛，本比赛采取的是擂台赛的形式，n名选手排成一排，每次队伍的第一位和第二位选手进行比赛，输的一方会排到队尾。当某位选
大数据学习(36)- Hive和YARN viperrrrrrr 大数据学习 hive
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦当客户端提交SQL作业到HiveServer2时，HiveServer2会根据用户提交的SQL作业及数据库中现有的元数据信息生成一份可供计算引擎执行的计划。每个执行计划对应若干MapReduce作业，Hive会将所有的MapReduce作业都提交到YARN中。Y
hive-04-Hive函数大全九师兄大数据-hive hive 函数
一、关系运算：1.等值比较:=语法：A=B操作类型：所有基本类型描述:如果表达式A与表达式B相等，则为TRUE；否则为FALSE举例：hive>select1fromlxw_dualwhere1=1;12.不等值比较:B
Hive PERCENTILE_APPROX 函数详解 _Magic hive hadoop 数据仓库
HivePERCENTILE_APPROX函数详解PERCENTILE_APPROX是Hive中一个重要的函数，用于近似计算数据的百分位数。本文介绍PERCENTILE_APPROX的原理、参数以及核心概念B值等信息。函数语法PERCENTILE_APPROX(expression,percentage[,B])expression:输入的数值列，通常是需要计算百分位数的字段。percentage
Hive SQL 分组与连接操作详解大数据深度洞察 Hive 数据库 hive 大数据数据仓库 sql
目录分组GroupBy语句1.案例实操Having语句1.having与where不同点2.案例实操Join语句等值Join1.案例实操表的别名1.好处2.案例实操内连接左外连接右外连接满外连接多表连接1.创建位置表2.导入数据3.多表连接查询笛卡尔集1.笛卡尔集会在下面条件下产生2.案例实操联合（union&unionall）1.union&unionall上下拼接2.案例实操分组GroupBy
Hadoop 常用命令 ZenPower hadoop 大数据分布式
查看指定目录下的文件及文件夹hadoopfs-ls/user/hive/warehouse/查看指定目录下的文件及文件夹大小#文件大小（单位Byte）hadoopfs-du/user/hive/warehouse#文件大小（单位人性化）hadoopfs-du-h/user/hive/warehouse#文件大小（只显示汇总）hadoopfs-du-s/user/hive/warehouse删除指定
MySQL字段约束条件,外键约束条件,表关系 Yietong309 MySQL数据库 mysql 数据库开发语言
目录字符编码与配置文件统一字符编码存储引擎修改存储引擎的方式自定义选项存储引擎不同存储引擎产生的表文件有几个?MERGEInnoDBArchiveBLACKHOLEblackhole与memory存取数据的特征Blackhole：丢弃写操作，读操作会返回空内容Memory：置于内存的表创建表的完整语法字段类型之整型字段类型之浮点型字段类型之字符类型字段类型之枚举与集合字段类型之日期类型约束条件自增
麒麟系统下载依赖到本地乙龙 linux kylin
在麒麟系统中下载依赖到本地，主要有以下几种方法：使用apt命令只下载不安装：在连接互联网的电脑上，使用sudoapt-get-dinstall命令，可以只下载软件包及其依赖到/var/cache/apt/archives目录下，而不进行安装。例如，要下载minicom及其依赖，可分别执行sudoapt-get-dinstallminicom*和sudoapt-get-dinstalllibtinf
Apache Hive _从头再来_ 大数据
一、ApacheHive简介官方网址：https://hive.apache.org/TheApacheHive™datawarehousesoftwarefacilitatesreading,writing,andmanaginglargedatasetsresidingindistributedstorageusingSQL.Structurecanbeprojectedontodataalr
tar命令详解：解压与压缩的技巧 wx_tangjinjinwx tar linux
tar命令详解：解压与压缩的技巧大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！在日常的系统管理和文件处理过程中，tar命令是一个非常重要的工具。它不仅用于压缩文件，还可以用于解压缩。本文将详细介绍tar命令的用法，包括压缩和解压缩的技巧。一、tar命令概述tar（tapearchive）是一个用于打包和压缩文件的命令行工具。它可以将多个文件和目录打包成一个文件，也可
Hadoop 和 Spark 的内存管理机制分析王子良. 经验分享 hadoop spark 大数据
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
在线格式化XML weixin_34250709
有时候要格式化一下XML，有没有好的小工具，这里有一个在线版本，好使！http://xmlindent.com/转载于:https://www.cnblogs.com/DotNetNuke/archive/2010/07/14/1777096.html
Hive小文件合并云掣YUNCHE hive hadoop 数据仓库
作者：振鹭一、参数配置：在Map输入的时候,把小文件合并。--每个Map最大输入大小，决定合并后的文件数setmapred.max.split.size=256000000;--一个节点上split的至少的大小，决定了多个datanode上的文件是否需要合并setmapred.min.split.size.per.node=100000000;--一个交换机下split的至少的大小，决定了多个交换
hive小文件合并机制_hive小文件的问题弊端以及合并做生活的创作者 hive小文件合并机制
小文件的弊端1、HDFS中每个文件的元数据信息，包括位置大小分块信息等，都保存在NN内存中，在小文件数较多的情况下，会造成占用大量内存空间，导致NN性能下降；2、在读取小文件多的目录时，MR会产生更多map数，造成GC频繁，浪费集群资源；3、现在大数据平台文件总数超过30亿，单个NS文件数超过4亿的时候，读写性能会急剧下降，影响到所有读写该NS的任务性能；4、如果队列限制最大map数是20000，
数仓建模（五）选择数仓技术栈：Hive & ClickHouse & 其它昊昊该干饭了数仓建模大数据 hive clickhouse hadoop
在大数据技术的飞速发展下，数据仓库（DataWarehouse，简称数仓）成为企业处理和分析海量数据的核心工具。市场上主流数仓技术栈丰富，如Hive、ClickHouse、Druid、Greenplum等，对于初学者而言，选择合适的技术栈是一项挑战。本文将详细解析Hive、ClickHouse及其他数仓技术，帮助读者根据场景需求选择最佳工具。目录一、数据仓库的基础概念和技术选型原则1.1什么是数据
Hive--HiveServer2 命令行代码连接、Hive常用命令、自定义UDF函数、排序 XK&RM Hive hive hiveserver2 udf java
目录1Hive--HiveServer2命令行代码连接1.1配置HiveServer2WEB参数1.2开启HiveServer21.3使用Beeline连接HiveServer21.4使用代码查询HiveServer21.5使用DBeaver连接Hive2Hive--Hive常用命令2.1Hive命令2.2HiveShell命令3Hive--自定义UDF函数(User-DefinedFunctio
Hive 数据类型全解析：大数据开发者的实用指南大鳥 sql hive 数据仓库
在大数据处理领域，Hive作为一款基于Hadoop的数据仓库工具，被广泛应用于数据的存储、查询和分析。而理解Hive的数据类型是有效使用Hive的基础，本文将深入探讨Hive的数据类型，帮助大家更好地掌握Hive的使用。Hive数据类型概述Hive支持多种数据类型，主要可分为数值类型、日期/时间类型、字符类型、Misc类型以及复杂类型。这些数据类型为存储和处理各种不同格式的数据提供了有力的支持。以
Apache Hive--排序函数解析大鳥 apache hive hadoop
在大数据处理与分析中，ApacheHive是一个至关重要的数据仓库工具。其丰富的函数库为数据处理提供了诸多便利，排序函数便是其中一类非常实用的工具。通过排序函数，我们能够在查询结果集中为每一行数据分配一个排名值，这对于数据分析、报表生成等工作具有重要意义。本文将深入探讨ApacheHive中的排序函数，通过具体的HQL代码和数据实例进行说明，并阐述它们之间的区别。0.排序函数：ORDER、SORT
大数据新视界 -- Hive 数据仓库设计的优化原则（2 - 16 - 4）青云交大数据新视界 #Hive 之道 Hive 数据仓库优化原则数据分区存储格式查询优化 B 树索引查询性能大数据
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
使用 Hadoop 实现大数据的高效存储与查询王子良. 经验分享大数据 hadoop 分布式
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
ORACLE与SQL SERVER的区别 nanzhuhe 文章笔记数据库 Oracle
ORACLE与SQLSERVER的区别转载自：https://www.cnblogs.com/chuncn/archive/2009/01/28/1381262.html体系结构ORACLE的文件体系结构为：数据文件.DBF（真实数据）日志文件.RDO控制文件.CTL参数文件.ORASQLSERVER的文件体系结构为：.MDF（数据字典）.NDF（数据文件）.LDF（日志文件）ORACLE存储结构
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin