Jobs_Lei

Hive 超详细基础知识指南，手把手带你进入Hive殿堂

Hive学习指南

你好，这是一个初学者对于Hive学习的一个知识体系框架，写这篇博客的目的是想对自己的一个知识体系进行一个全方位的概括，同时也希望自己的心得体会能够帮助到大家。

前言

我是在大三下暑假实习的时候接触HIVE数据库的，因为学校没有学过，所以在公司自学时就不像在学校有同学和老师的那种学习环境，所有东西都要自己去了解自己去体会，而且Hive并没有好的文档，所以本篇博客的目的是帮助引导那些初学CS领域或者和我一样年轻的大学生朋友。如果有讲解的不够彻底或者您对我博客改进有建议的可以多多交流。

1.基础知识

hive目前岗位需求一般为基于大数据平台，开发和维护数据仓库相关，对业务需求部门进行数据支持；根据业务部门需求，充分利用现有数据资源，进行数据提取、整理和挖掘(ETL)。学好一个东西我认为应从底层原理了解起来，例如一辆汽车为何可以运动其原理是什么，类似的在学习过程中多思考才能激发自己的对所学东西的兴趣。

1.1 Hive的起源

hive最初的背景是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生和发展的，他的出现时为了解决用户如何从现有的数据基础架构转移到Hadoop上，而这个基础架构是基于传统关系型数据库和结构化查询语句（SQL）的，此过程在当时有很多局限性并且这些常见的数据运算对应到底层的MapReduce API也是十分令人繁琐的，因此Hive的出现就是为了帮助人们解决这一难题，让用户只关注查询本身。（Hive可以将大多数查询任务转换成MapReduce任务）

1.1.1缺点

1.Hive不是一个完整的数据库，他的最大的限制是不支持记录级别的更新，插入或者删除操作，但是用户可以通过查询生成新表或者将查询结果导入到文件中。
2.同时Hive又是一个面向批处理的系统，而Mapreduce任务（job）的启动过程比较缓慢，所以Hive的查询延时比较严重。
3.不支持OLTP（联机事物处理）所需的关键功能

1.1.2优点

对于HIve来说，他的优势是能帮助开发者更好的上手，只要你会SQL，就能够维护其海量的数据和对数据进行挖掘。（数据仓库应用程序）

1.2数据库和数据仓库的区别

a .数据库，对于数据会做精细化的管理，具有事物的概念。
数据仓库，存储数据的格式就类似于打包，没有事物的概念

b.操作方式的区别
  数据库：noSql语法  put\get\scan
  数据仓库：SQL语法

c.用途的区别：
  数据库： OLTP 联机事务处理  增删改
  数据仓库： OLAP 联机分析处理 查询

d.模式的区别
  数据库： 写模式 
  数据仓库： 读模式**

1.3 Hive和MapReduce基本概述

如果熟悉Hadoop和MapReduce计算模型的话可以跳过本章节虽然用户可以不精通MapReduce就可以上手Hive，但是理解MapReduce基本原理才可以更好的帮助用户了解Hive的底层是如何运行的

Mapreduce是一种计算模型，他是把一个任务进行分布式换算成多个单个的任务并在服务器集群中执行，这些任务合在一起计算就是最终的结果
MapReduce这个术语有两个基本数据转换操作：RAP过程和REDUCE过程。

MAP过程：将集合中的元素转换成另一种元素，输入的键值对会被转换成多个键-值对输出，其中输入和输出的键必须完全不同

REDUCE过程：某个键的所有键-值对都会被分发到同一个reduce操作中，目的是将值的集合转换成一个值（例如对一组数据求和或者求平均值，或者转换成另一个集合）这个Reduce最终会产生一个键-值对。

链接：Word Count基于Mapreduce的基础算法入门（Link）

图片是关于Mapreduce的执行过程的直观图，大家可以参考一下，或者直接点击上面链接去查看Word Count算法详解。

1.4 Hive 组成模块

1）Client 用户接口，主要包含CLI（command language
interface）、JDBC或ODBC、WEBUI（以浏览器访问hive）；（2）Thrift Server
提供JDBC/ODBC接入的能力,它用来进行可扩展且跨语言的服务的开发，hive集成了该服务，能让不同的编程语言调用hive的接口；
（3）Metastore 元数据，包括表名、表所属的数据库、表的拥有者、列/分区字段、表的类型、表的数据所在目录等内容；
（4）Driver：（实现将HQL转化为MR过程）
核心组件，整个Hive的核心，它的作用是将我们写的HQL语句进行解析、编译优化，生成执行计划，然后调用底层的MapReduce计算框架；
具体的编译过程： SQL解析器：将SQL字符串(准确说HiveQL)转化为抽象语法树AST；编译器：将AST编译生成逻辑执行计划；；
逻辑优化器：对逻辑执行计划进行优化；物理执行器：将逻辑执行计划转成可执行的物理计划，如MR/Spark；
（5）HDFS&MapReduce 指的是hive使用HDFS进行存储，使用MapReduce进行计算。
用户创建完表之后，只需要根据业务需求编写Sql语句，而后将由Hive框架将Sql语句解析成对应的MapReduce程序，通过MapReduce计算框架运行job，便得到了我们最终的分析结果。

2.数据类型和文件格式

2.1 基本数据类型

每一个数据库都需要了解数据类型，因为这是建表的基础，下图中就是关于数据类型的详解，但其实在工作中，根据我一个个表的观察发现，STRING,INT,BOOLEAN,FLOAT,DOUBLE这些类似的多，也就是说数据类型并不是学的越多越好，而是秉着无忧所需的概念，会使用大众的就行，若要用到高阶的只需网上查找就行。

2.2 集合数据类型

大多数的关系型数据库并不支持这些集合数据类型，因为使用它们会趋向于破坏标准格式。破坏标准带来的问题是会增大数据冗余风险，进而导致不必要的磁盘空间，还有可能造成数据不一致，因为当数据发生改变时冗余的拷贝数据可能无法进行相应的同步

这里有一个用于演示如何使用这些数据类型的表结构声明语句，这是一张虚拟的人力资源应用程序的员工表  

CREATE TABLE employees(
       name STRING,
       salary FLOAT,
       subordinates ARRAY<STRING>,
       deductions MAP<STRING,FLOAT>,
       address STRUCT<street:STRING, city:STRING, state:STRING, zip:STRING> 
);

2.3 文本文件数据编码

常见的文本文件的格式，有以逗号和制表符分隔的文本文件，也就是所谓的逗号分隔值(CSV)或制表符分隔值(TSV)。只要用户需要，Hive是支持这些文件格式的。然而，这两种格式的文件有一个共同的缺点，那就是：

用户需要对文本文件中那些不需要作为分隔符处理的逗号或者制表符格外小心

也因此，Hive默认使用了几个控制字符，这些字符很少出现在字段值中。Hive使用术语field来表示替换分隔符的字符。
Hive中默认的记录和字段分隔符如下表：

EXAMPLE:

用户可以不使用这些默认分隔符，而指定使用其他分隔符。下面这个表结构和和之前那个表是一样的，不过这里明确制定了分隔符：

CREATE TABLE employees(
       name STRING,
       salary FLOAT,
       subordinates ARRAY<STRING>,
       deductions MAP<STRING,FLOAT>,
       address STRUCT<street:STRING, city:STRING, state:STRING, zip:STRING> 
)
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\001'
COLLECTION ITEMS TERMINATED BY '\002'
MAP KEYS TERMINATED BY '\003'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE;

我个人感觉想了解这个原理可以去接触JSON格式，他能帮助你更深刻的了解文本文件数据编码的原理

JSON 名称/值对
"firstName" : "John"

JSON 对象
{ "firstName":"John" , "lastName":"Doe" }

JSON 数组
{
"employees": [
{ "firstName":"John" , "lastName":"Doe" },
{ "firstName":"Anna" , "lastName":"Smith" },
{ "firstName":"Peter" , "lastName":"Jones" }
]
}

链接: JSON教程（link）

3. 数据定义

讲数据定义之前我们要先明白，我们所创建的数据库的表其实就是存放在HDFS上的文件夹里面，顾名思义就是一个文件，所以以后想通过脚本或者shell命令操作hive表的话，直接对hive表存放地址文件操作就行，这个是我和前辈们学习而收获到的经验总结。

具体操作

1.创建表
2.分区表
3.删除表
4.修改表

3.1 创建表

先beeline进入数据库以后，然后选择自己的数据库，或者重新创建一个。
create database （name）；

查看数据库
show database；

删除数据库
drop database if exists （数据库名字）；

这时你就可以创建你想要的表了，语句如下：

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
    [(col_name data_type [COMMENT col_comment], ...)] 
    [COMMENT table_comment] 
    [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 
    [CLUSTERED BY (col_name, col_name, ...) 
    [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] 
    [ROW FORMAT row_format] 
    [STORED AS file_format] 
    [LOCATION hdfs_path]

这是官网教程建表，但是我们可能有时候用不到这么多的条件

CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用户可以用 IF NOT EXIST 选项来忽略这个异常.（这个在写脚本文件的时候特别好用）

EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径（LOCATION）（一般在工作中都建外部表，因为外部表不会改变内部表的结构和数据）

LIKE允许用户复制现有的表结构，但是不复制数据 COMMENT可以为表与字段增加描述

COMMENT可以为表与字段增加描述

此外用户还可以指定SerDe，也就是第三方输入输出格式，Inputfomat和Outputformat

STORED AS
           SEQUENCEFILE
           | TEXTFILE
           | RCFILE    
           | INPUTFORMAT input_format_classname OUTPUTFORMAT

我们有时候会根据业务需求来对文件输出格式进行选择，比如常用的有parquet，orc，avro。

3.2 外部表

1.外部表和内部表的区别就是有无external
2.内部表的存储路径是默认的，而外部表的存储路径需要自己定义，上面的基础语法就讲到过
3.内部表是直接控制metastore的，因此内部表的操作很敏感，因为他们会直接对真实表文件进行修改
外部表只是内部表的一个倒影，所以对外部表进行操作对原文件没有改变

通过上面的基础学习那让我们看一看代码，我将建一个外部表

CREATE EXTERNAL TABLE page_view
    (viewTime INT, userid BIGINT,
    page_url STRING, referrer_url STRING,
    ip STRING COMMENT 'IP Address of the User',
    country STRING COMMENT 'country of origination')
    COMMENT 'This is the staging page view table'
    ROW FORMAT DELIMITED FIELDS TERMINATED BY '\054'
    STORED AS TEXTFILE
    LOCATION '';

从中我们可以看出external是一个外部表，此外数据类型是string，int和bigint（区别不大，一个是4bite长度，一个是8bite长度），comment是对字段增加了描述（相当于注释），row是对文件格式进行了说明，stored as是为了让其变成自己需要的格式，最后的location是指定外部表的存放地址

3.3 分区表

这是一个很有意思的概念，目前我所接触到的数据量中没有用到过分区表的概念，但我猜想，在亿级别的数据量中可能会用到分区的概念，他的好处是什么呢，比如说你以时间为分区，那么查找的时候就能快速定位当天时间的那个分区中，然后在该分区中查找符合该信息的表，这就像列式数据库的查找方法一样。

create table test_partition (
id string comment 'ID', 
name string comment '名字'
)
comment '测试分区'
partitioned by (year int comment '年')
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;


其中我们可以看到partitioned by（内容）
这一部分就是写的外部分区的信息，或者说是查找分区表的条件。

3.3.1 查看分区信息

show partition （table_name）;

3.3.2 添加新分区

alter （table） add partition（内容） local '(地址)'

增加地址能把心分区保存到自己想存放的文件夹下

3.3.3 插入数据到分区表

insert into  table (table) partition(内容) values(内容)
唯一要注意的是插入操作我们需要添加partition的条件

3.3.4 删除分区表

alter table （表名字）drop if exists partition(内容);

3.4 删除表

其实这个就是基本的SQL操作，具体命令如下：

drop table if exists （table名字);

3.5 修改表

3.5.1.表重命名

alter table （原表名字） rename （新表名字);

3.5.2.修改列信息

alter table（表名字） change column （原列名）（新列名）（新列名格式）

3.5.3.增加列

alter table（表名字） add columns（列名，列格式）

3.5.4.删除或者替换列

alter table （表名字）drop column （列名）；
alter table （表名字）replace columns（新列名，新列格式）
注意替换是把表内容里面的所有内容进行替换

4. HIVE QL数据操作

4.1 向表中装载数据

这一部分对我来说是一个麻烦的点，为什么呢，因为我是用公司电脑进行操作的，所以就出现了一个权限的问题，因为权限原因你不能装载数据到我们需要的表中，所以我们在装载数据的时候要注意文件是否有权限进行移动和装载。

此外hive没有行级别的数据插入，数据更新和删除操作，那么往表中进行大批量的插入数据就是装载操作，接下来我会带领大家一起来了解如何装载。

load data local inpath '文件地址' into table (表名);

load data  inpath '文件地址' into table (表名)
partition(country='us',sex='male');

这里我们需要注意的是，我加了local是指把文件存放到我们本地目录夹下面，然后装载到Hive表中，如果你发现local环境下不行，那就去掉local，这个时候你就要把文件存放到HDFS环境下的目录来进行装载。此外如果有分区则写上partition命令进行区别。
并且该装载操作是在shell交互式命令里面完成的而不是在Hive环境下。

4.2 通过查询语句向表中插入数据

用这种方法就不用自己建造数据来进行装载

insert overwrite table employee
partition(country='us',state='or')
select * from staged_employee se//对staged_employee进行重新命名 se，方便后面的写法。
where se.country='us' and se.state='or';

这里我们需要注意的是overwrite，他指的是覆盖之前的内容，把之前的内容删除，再加入新的内容。这段语句的意思是往employee表中的分区加入数据，并且该数据是在staged_employee查找出来的且符合查找标准的数据。

4.2.1 tips：动态分区插入

说到插入，我们就需要考虑一个性能问题，我们上面做的只是静态分区插入，参数值需要我们一个一个设置，这样是很麻烦的，因此hive提供了动态分区插入。

insert overwrite table employee
partition(country,state)
select ..., se.country, se.state
from staged_employee se;

这里的动态分区是指根据查询参数推断出需要创建的分区名称，假设表staged_employee中共有100个国家和洲的话，执行完上面的查询后employee就会有100个分区。

4.3 单个查询语句中创建表并加载数据

create table employee
as select name,salary,sex
from a_employee a
where a.sex='male';

这就是通过查询来直接创建表，并且表的DDL和查询表一样，而且数据装载操作也一并执行

4.4 导出数据

Insert…Directory…(在hive中去执行)

insert overwrite local directory '路径地址'
select name,sex
from employee
where country='China';

这是在hadoop中进行操作，当我们的数据保存文件的格式是我们所需要的时候

hadoop fs -cp 原地址  目的地址
注意：hadoop上全地址是hdfs://master-server/tmp/hello

学会了装载数据同时也需要了解导出数据，这也就需要用到了hive的基础内容，他的表数据保存在哪里，虽然我们知道表数据的存放位置，但是你也需要学会导出数据的操作。

5. 查询操作

5.1.SELECT 查询

select * from employee;

这是sql语句中的基础，*你可以换成你自己想要的列

select name address[0] from employee;

这用了索引查询，当address是一个复合函数时候，就可以用这种方法进行尝试。

5.1.1 正则表达式查询

select 'price.*' from employee;

指查找以price开头的列，相当于一个模糊查询，

5.1.2列值计算和函数使用

这个概念我不做详细解释，因为如果你工作中要用到，在进行网上检索信息就行，不用太去强调背诵的概念。

count() 计算总值 count(distinct name)//计算排重以后的name
avg()  平均值
upper()  变大写

5.1.3 Limit

select * from employee  limit 2;   限制返回的行数是2行

5.1.4 列别名

select count(salary) as total_salary 重新定义想输出的列的名字
from employee;

5.1.5 case … when … then

适合于单个查询语句的简化

select name,salary,
case
when salary<1000 then 'low',
when salary>=5000 then 'no bad',
else 'very high'
end as bracket from employee;

5.2 Where 语句

5. 2.1嵌套查询

用嵌套查询的原因是where语句中不能使用别名，此外也可能是因为业务量的多少进行操作，具体学习可以根据你的任务或者浏览器检索他人的代码进行学习

select e.* from(
select name,salary,count(distinct jobs )as total_jobs 
from employee)e
where e.total_jobs > 1000;
)

5.2.2 Like查询

我觉得这是所有SQL语句中最重要的一个点，因为他能帮助你查询到相关信息，当你不知道如何去静态的输入所需要查询的东西的时候

select name，address，salary from employee where address like '%China';

5.3 Group By 语句

group by 经常和聚合函数在一起使用，所以使用者需要注意对接的函数最好是group by

select name,count(salary) from employe
where sex='male'
group by count(salary);

Having是group by语句中的过滤语句，其实也就是条件判断语句

select name,count(salary),avg(price) from employe
where sex='male'
group by count(salary)
having avg(price)>1000;

5.4 Join语句

select a.name,b.price,
from employee a join stocks b 
on a.name=b.name
where a.symbol='AAPL' and b.symbol='IBM';

On指定了两个表之间数据连接条件，Where限制左右表的链接条件
后面还有 left/right/full outer join 的学习，读者可以去别的网站进行学习，这里我就不一一讲解了

5.5 Order by 和 Sort by 排序

select name,price,sex
from employee e
order by e.name ASC;

这里需要注意ASC是升序排序，DESC是降序排序

tips：一般来说Order by运行时间过长，hive要求这样的语句需要加limit语句进行限制

6.视图

视图在工作中常用的是基于一个或多个列的值来限制输出结果，常用的业务场景是你给用户展示数据时候，但你又不希望让他能访问到敏感数据，所以用视图的方式来展现数据。

create view test
as
select name，salary，sex
from employee
where sex = 'male';

使用视图还有一个好处是建立好视图以后你就不用再去写复杂的查询语句了，使用时候自动调视图就行

你可能感兴趣的:(Hive,Hive,初学者,基础内容)

WPF从初学者到专家：实战项目经验分享与总结 xcLeigh WPF 从入门到精通 wpf C#
WPF从初学者到专家：实战项目经验分享与总结一、前言二、WPF基础概念与入门2.1什么是WPF2.2XAML基础2.3数据绑定基础三、第一个WPF项目：简单的待办事项列表3.1项目需求分析3.2项目搭建与界面设计3.3业务逻辑实现四、中级项目：音乐播放器应用4.1项目需求分析4.2界面设计与布局4.3多媒体功能实现五、高级项目：企业级办公自动化平台（回顾与进阶）5.1项目回顾与优化5.2引入MVV
linux grep命令蓝菱 linux linux grep 正则表达式
转自http://www.cnblogs.com/end/archive/2012/02/21/2360965.htm1.作用Linux系统中grep命令是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。grep全称是GlobalRegularExpressionPrint，表示全局正则表达式版本，它的使用权限是所有用户。2.格式grep[options]3.主要参数[o
【已解决】将CentOS7系统安装至U盘（四）：安装Qt5.14.2（解决#error qt requires c++11 support问题） pyengine qt c++开发语言 centos
目录1下载安装文件2安装Qt5.14.2和QtCreator3解决编译问题1下载安装文件从Qt官网或清华大学镜像站https://mirrors.tuna.tsinghua.edu.cn/gnu/gcchttps://mirrors.tuna.tsinghua.edu.cn/qt/archive/qt/5.14/5.14.2/下载Qt安装文件。以清华大学镜像站为例，下载如下：wgethttps:/
安装Qt 5.15.2 noodleboy qt
安装Qt5.15.2自Qt5.15开始，Qt不提供离线安装包了，需要使用在线安装器安装，但是Qt5.15版本不直接显示。需要勾选Archive选项，且很有可能需要梯子工具。
C++ 学习需要多长时间？ c++
学习C++所需的时间因个人的学习目标、基础、学习方法和投入的时间而异。以下是一些大致的时间范围和学习阶段的参考：一、初学者阶段（0-3个月）目标：掌握C++的基本语法、数据类型、控制结构（如循环、条件语句）、函数等基础知识。学习内容：学习变量声明、数据类型（如int、float、char等）。掌握基本的输入输出操作（如cin和cout）。理解并使用循环（for、while）和条件语句（if、swi
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
C++和Java相比，哪个更适合初学者学习？ c++java
C++和Java都是非常流行的编程语言，但它们在设计理念、应用场景和学习难度上存在显著差异。对于初学者来说，选择哪种语言更适合，取决于学习目标、兴趣和未来的职业规划。以下是对C++和Java的详细对比，帮助初学者做出选择：一、学习难度C++复杂性高：C++继承了C语言的复杂性，支持多种编程范式（如面向对象、泛型编程等），语法复杂，学习曲线陡峭。内存管理：C++需要手动管理内存，容易出现内存泄漏和悬
MySQL学习路线蜡笔小新星 MySQL 数据库 mysql 学习经验分享
本专栏纯干货订阅专栏不迷路以下是一个详细的MySQL学习路线，适合从初学者到中高级用户的逐步学习。整个路线分为几个阶段，每个阶段包含了必要的知识点和学习材料。第一阶段：基础知识（1-2周）目标：了解数据库的基本概念，熟悉MySQL的基本用法。学习内容：数据库基础什么是数据库、数据库管理系统（DBMS）数据库的类型（关系型数据库与非关系型数据库）SQL（结构化查询语言）概述MySQL入门MySQL的
Mysql-经典实战案例（10）：如何用PT-Archiver完成大表的自动归档从不删库的DBA Mysql 经典实战案例 mysql 数据库
真实痛点：电商订单表存储优化场景现状分析某电商平台订单表（order_info）每月新增500万条记录主库：高频读写，SSD存储（空间告急）历史库：HDD存储，只读查询优化目标✅自动迁移7天前的订单到历史库✅每周六23:30执行，不影响业务高峰✅确保数据一致性第一章：前期准备：沙盒实验室搭建1.1实验环境架构生产库：10.33.112.22历史库：10.30.76.41.2环境初始化（双节点执行）
Hive面试题御风行云天面试题大全 hive hadoop 数据仓库面试
Hive面试题1Hive基础概念1.1解释Hive是什么以及它的用途Hive的主要用途：1.2描述Hive架构和组件1.HiveCLI/Beeline和WebUI2.HiveQL3.HiveDriver（驱动）4.Metastore5.Compiler（编译器）6.Optimizer（优化器）7.Executor（执行器）8.HadoopCoreComponents（核心组件）9.HiveUDFs
Visual C++从入门到精通第三版 PDF 下载范武心Lucinda
VisualC++从入门到精通第三版PDF下载【下载地址】VisualC从入门到精通第三版PDF下载VisualC++从入门到精通第三版PDF下载项目地址:https://gitcode.com/open-source-toolkit/f4bb4资源介绍本仓库提供《VisualC++从入门到精通第三版》的PDF版本下载。这本书是一本非常适合初学者的入门书籍，内容涵盖了从C++基础知识到Visual
Hive 实际应用场景及对应SQL示例小技工丨大数据随笔 hive sql hadoop 大数据数据仓库
Hive实际应用场景及对应SQL示例一、‌日志分析场景‌**场景说明‌：**处理大规模日志数据（如Web访问日志），分析用户行为或系统运行状态。SQL示例‌：--统计每日UV（用户访问量）SELECTdate,COUNT(DISTINCTuser_id)ASdaily_uvFROMweb_logsWHEREevent_type='page_view'GROUPBYdate;技术要点‌：使用DIST
#Hadoop全分布式安装 #mysql安装 #hive安装砸吧砸吧 hadoop hive yarn mysql
分布式（多台机器部署不同组件）与集群（多台机器部署相同组件）概念。Linux基础命令linux具有文件数：目录、文件，从根目录开始，路径具有唯一性。pwd：显示当前路径特殊符号：/：根目录.：隐藏文件，如果路径以.开始，表示当前目录下..：当前目录下的上一级~：当前目录的home目录--help：帮助命令使用linux常用操作命令tab键：自动补全ls：显示指定目录内容默认：当前路径-a：显示所有
正则表达式：编程中的瑞士军刀，如何借助智能工具实现高效开发 inscode_039
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE正则表达式：编程中的瑞士军刀，如何借助智能工具实现高效开发正则表达式（RegularExpression，简称regex或regexp）是一种用于匹配字符串的模式描述语言。它广泛应用于文本处理、数据验证、搜索和替换等场景中。然而，正则表达式的复杂性和晦涩性常常让编程初学者望而却步。幸运的是，随着AI技术的进步，像InsCo
Linux基础指令详解：掌握Linux系统的必备技能秋秋爱编码 linux 服务器运维
在数字化时代，Linux以其稳定性、安全性和灵活性成为了服务器、嵌入式系统以及开发环境中的首选操作系统。对于初学者而言，掌握Linux的基本指令是踏入这个强大操作系统的第一步。本文将详细介绍一些Linux系统中最为基础且常用的指令，帮助读者快速上手Linux。一、Linux基础指令概述Linux指令行界面（CLI）是其核心部分之一，通过命令行可以执行各种系统管理和文件操作任务。掌握这些基础指令，不
hive 使用oracle数据库 sardtass hadoop hive 开源项目
hive使用oracle作为数据源，导入数据使用sqoop或kettle或自己写代码（淘宝的开源项目中有一个xdata就是淘宝自己写的）。感觉sqoop比kettle快多了，淘宝的xdata没用过。hive默认使用derby作为存储表信息的数据库，默认在哪启动就在哪建一个metadata_db文件放数据，可以在conf下的hive-site.xml中配置为一个固定的位置，这样不论在哪启动都可以了。
HiveMetastore 的架构简析 houzhizhen hive hive
HiveMetastore的架构简析HiveMetastore是Hive元数据管理的服务。可以把元数据存储在数据库中。对外通过api访问。hive_metastore.thrift对外提供的Thrift接口定义在文件standalone-metastore/src/main/thrift/hive_metastore.thrift中。内容包括用到的结构体和枚举，和常量，和rpcService。如分
Cursor 终极使用指南：从零开始走向AI编程芯作者 DD：日记人工智能机器学习深度学习 AI编程
在数字化浪潮席卷全球的今天，人工智能（AI）已不再是遥不可及的概念，而是逐渐融入我们日常生活的方方面面。作为未来技术的核心驱动力，AI编程成为了众多开发者和技术爱好者争相探索的领域。而在这场技术革命中，Cursor——这一看似简单却功能强大的编程工具，正悄然成为连接初学者与AI编程高手的桥梁。本文将带你从零开始，逐步解锁Cursor的终极使用指南，让你在AI编程的道路上越走越远。一、初识Curso
Postman 从入门到精通的详细图文教程指南清尘沐歌 postman 测试工具
API已经成为连接不同系统和服务的重要桥梁，无论你是前端开发者、后端工程师还是测试人员，掌握API的开发和测试技能都是非常重要的。Postman是一个广受欢迎的API开发工具，它不仅能够帮助你轻松发送HTTP请求，还提供了强大的测试、调试和协作功能。本系列教程旨在帮助你从零开始，逐步掌握Postman的各项功能，从基础的请求发送到高级的自动化测试和团队协作。无论你是初学者还是有一定经验的开发者，都
从零开始写C++3D游戏引擎（开发环境VS2022+OpenGL）之十一点二五光照贴图(lighting maps)的实现细嚼慢咽逐条读代码系列金沙阳 c++3d 游戏引擎
写在篇前的话作为一个曾经在代码堆里面苦苦挣扎的萌新，困惑的事情在于库，各种依赖，包换文件，链接库，纠结于代码的作用意义。尤其在3D引擎开发的问题上，很多人都被各种困难给阻拦，放弃了在3D渲染，3D游戏引擎上大涨鸿图的机会。当然关于3D游戏引擎的教程已经汗牛充栋，但是大部分的教程都是由过来人写的，代码中的逻辑与实现，在过来人眼中自然且简单，在初学者眼里却是晦涩繁杂，因此从一个初学者的角度来写一篇关于
日常学习日记——从练习代码中学习梦想成为大牛呀学习 c语言笔记
日常学习日记——从练习代码中学习一、题目展示二、代码展示三、问题剖析四、冒泡排序4.1阐述4.2优缺点4.3逻辑阐述初学者记录不易，还请多多哦点赞支持呀！！也请各位大佬慷慨对我的问题提出指正如果对我的阐述有些疑问或者觉得博主写的不对，评论下来。主播觉得有道理一定会一一改正！！一、题目展示二、代码展示#include#defineMAX1000intmain(){intn,m=0;scanf("%d
Hive与Spark的UDF：数据处理利器的对比与实践窝窝和牛牛 hive spark hadoop
文章目录Hive与Spark的UDF：数据处理利器的对比与实践一、UDF概述二、HiveUDF解析实现原理代码示例业务应用三、SparkUDF剖析-JDBC方式使用SparkThriftServer设置通过JDBC使用UDFSparkUDF的Java实现（用于JDBC方式）通过beeline客户端连接使用业务应用场景四、Hive与SparkUDF在JDBC模式下的对比五、实际部署与最佳实践六、总结
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
【MYSQL学习】5分钟学会MySQL登录，新手也能轻松搞定？墨瑾轩 MySql入门~精通 mysql 学习 adb
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣5分钟学会MySQL登录，新手也能轻松搞定？引言嘿，小伙伴们！今天我们来聊聊MySQL的登录问题。对于初学者来说，登录数据库可能是你接触MySQL的第一步，也是最重要的一步。那么，MySQL是如何登录的呢？有哪些常见的问题需要注意？别急，今天我就带你一步步了解
qt-5.15.2 源码编译 Linux weixin_40857106 服务器运维
QT官方源码下载地址：https://download.qt.io/archive/qt/5.15/5.15.12/single/qt-everywhere-opensource-src-5.15.12.tar.xz安装Qt所需的依赖：sudoaptinstallbuild-essentiallibgl1-mesa-devlibxkbcommon-devlibnss3-devlibdbus-1-d
鸿蒙HarmonyOS开发：应用程序静态包-HAR 让开，我要吃人了鸿蒙开发 OpenHarmony HarmonyOS harmonyos 华为移动开发前端 html 开发语言鸿蒙
HAR（HarmonyArchive）是静态共享包，可以包含代码、C++库、资源和配置文件。通过HAR可以实现多个模块或多个工程共享ArkUI组件、资源等相关代码。使用场景作为二方库，发布到OHPM私仓，供公司内部其他应用使用。作为三方库，发布到OHPM中心仓，供其他应用使用。约束限制HAR不支持在设备上单独安装/运行，只能作为应用模块的依赖项被引用。HAR不支持在配置文件中声明UIAbility
关于STM32如何选择：HAL与标准库的抉择及初学者建议笑靥藏情. stm32 嵌入式硬件单片机
STM32是意法半导体（STMicroelectronics）推出的一系列基于ARMCortex-M内核的32位微控制器，因其高性能、多功能性和成本效益而广受嵌入式系统开发者的欢迎。对于初学者而言，学习STM32编程时面临的第一个重要抉择往往是如何选择编程方式：是使用硬件抽象层（HAL），还是选择标准外设库（StandardPeripheralLibrary）？本文将围绕这一问题展开，详细比较HA
C语言每日一练——day_9 Run_Teenage C语言入门练习题 c语言开发语言
引言针对初学者，每日练习几个题，快速上手C语言。第九天。（连续更新中）采用在线OJ的形式什么是在线OJ？在线判题系统（英语：OnlineJudge，缩写OJ）是一种在编程竞赛中用来测试参赛程序的在线系统，也可以用于平时的练习。详细内容可以看一下这篇博客：关于C/C++语言的初学者在哪刷题，怎么刷题-CSDN博客https://blog.csdn.net/2401_88433210/article/
C语言每日一练——day_6 Run_Teenage C语言入门练习题 c语言开发语言
引言针对初学者，每日练习几个题，快速上手C语言。第六天。（连续更新中）采用在线OJ的形式什么是在线OJ？在线判题系统（英语：OnlineJudge，缩写OJ）是一种在编程竞赛中用来测试参赛程序的在线系统，也可以用于平时的练习。详细内容可以看一下这篇博客：关于C/C++语言的初学者在哪刷题，怎么刷题-CSDN博客https://blog.csdn.net/2401_88433210/article/
C语言每日一练——day_8 Run_Teenage C语言入门练习题 c语言开发语言
引言针对初学者，每日练习几个题，快速上手C语言。第八天。（连续更新中）采用在线OJ的形式什么是在线OJ？在线判题系统（英语：OnlineJudge，缩写OJ）是一种在编程竞赛中用来测试参赛程序的在线系统，也可以用于平时的练习。详细内容可以看一下这篇博客：关于C/C++语言的初学者在哪刷题，怎么刷题-CSDN博客https://blog.csdn.net/2401_88433210/article/
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟