大数据左右手

Hive 主要内容一览

Hive架构

用户接口：Client

CLI（command-line interface）、JDBC/ODBC(jdbc访问hive)

元数据：Metastore

元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；
默认存储在自带的derby数据库中，推荐使用MySQL存储Metastore。

Hadoop

使用HDFS进行存储，使用MapReduce进行计算。

驱动器：Driver

（1）解析器（SQL Parser）：将SQL字符串转换成抽象语法树AST，这一步一般都用第三方工具库完成，比如antlr；对AST进行语法分析，比如表是否存在、字段是否存在、SQL语义是否有误。

（2）编译器（Physical Plan）：将AST编译生成逻辑执行计划。

（3）优化器（Query Optimizer）：对逻辑执行计划进行优化。

（4）执行器（Execution）：把逻辑执行计划转换成可以运行的物理计划。对于Hive来说，就是MR/Spark。

Hive运行原理

Hive通过给用户提供的一系列交互接口，接收到用户的指令(SQL)，使用自己的Driver，结合元数据(MetaStore)，将这些指令翻译成MapReduce，提交到Hadoop中执行，最后，将执行返回的结果输出到用户交互接口。

其实，还可以这样理解：Hive要做的就是将SQL翻译成MapReduce程序代码。实际上，Hive内置了很多Operator，每个Operator完成一个特定的计算过程，Hive将这些Operator构造成一个有向无环图DAG，然后根据这些Operator之间是否存在shuffle将其封装到map或者reduce函数中，之后就可以提交给MapReduce执行了。

内部表与外部表

不同点

1 外部表不会加载数据到Hive，减少数据传输、数据还能共享。

共享的理解就是：当我们删除一个内部表时，Hive 也会删除这个表中数据。内部表不适合和其他工具共享数据。

2 Hive创建内部表时，会将数据移动到数据仓库指向的路径。

创建外部表时，仅记录数据所在的路径，不对数据的位置做任何改变。

在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。

场景选择

在公司中绝大多数场景都是外部表。

自己使用的临时表，才会创建内部表。

Hive分区与分桶

Hive分区

是按照数据表的某列或者某些列分为多区，在hive存储上是hdfs文件，也就是文件夹形式。现在最常用的跑T+1数据，按当天时间分区的较多。

把每天通过sqoop或者datax拉取的一天的数据存储一个区，也就是所谓的文件夹与文件。在查询时只要指定分区字段的值就可以直接从该分区查找即可。创建分区表的时候，要通过关键字 partitioned by （column name string）声明该表是分区表，并且是按照字段column name进行分区，column name值一致的所有记录存放在一个分区中，分区属性name的类型是string类型。

当然，可以依据多个列进行分区，即对某个分区的数据按照某些列继续分区。

向分区表导入数据的时候，要通过关键字partition（（column name="xxxx"）显示声明数据要导入到表的哪个分区

设置分区的影响

首先是hive本身对分区数有限制，不过可以修改限制的数量。

set hive.exec.dynamic.partition=true;
set hive.exec.max.dynamic.partitions=1000; 
set hive.exec.dynamic.partition.mode=nonstrict; 
set hive.exec.parallel.thread.number=264;

hdfs对单个目录下的目录数量或者文件数量也是有限制的，也是可以修改的；
NN的内存肯定会限制，这是最重要的，如果分区数很大，会影响NN服务，进而影响一系列依赖于NN的服务。所以最好合理设置分区规则，对小文件也可以定期合并，减少NN的压力。

Hive的分桶

在分区数量过于庞大以至于可能导致文件系统崩溃时，我们就需要使用分桶来解决问题

分桶是相对分区进行更细粒度的划分。分桶则是指定分桶表的某一列，让该列数据按照哈希取模的方式随机、均匀地分发到各个桶文件中。因为分桶操作需要根据某一列具体数据来进行哈希取模操作，故指定的分桶列必须基于表中的某一列（字段）要使用关键字clustered by 指定分区依据的列名，还要指定分为多少桶：

create table test(id int,name string) cluster by (id) into 5 buckets .......

insert into buck select id ,name from p cluster by (id)

Hive分区分桶区别

分区是表的部分列的集合，可以为频繁使用的数据建立分区，这样查找分区中的数据时就不需要扫描全表，这对于提高查找效率很有帮助。
不同于分区对列直接进行拆分，桶往往使用列的哈希值对数据打散，并分发到各个不同的桶中从而完成数据的分桶过程。
分区和分桶最大的区别就是分桶随机分割数据库，分区是非随机分割数据库。

函数

本环节不再介绍简单的函数，比如：'if' ，'is not null' ,'=='等等这类的函数。

内置函数

（1） NVL

给值为NULL的数据赋值，它的格式是NVL( value，default_value)。它的功能是如果value为NULL，则NVL函数返回default_value的值，否则返回value的值，如果两个参数都为NULL ，则返回NULL

select nvl(column, 0) from xxx；

（2）行转列

函数	描述
CONCAT(string A/col, string B/col…)	返回输入字符串连接后的结果，支持任意个输入字符串
CONCAT_WS(separator, str1, str2,...)	第一个参数间的分隔符，如果分隔符是 NULL，返回值也将为 NULL。这个函数会跳过分隔符参数后的任何 NULL 和空字符串。分隔符将被加到被连接的字符串之间。
COLLECT_SET(col)	将某字段的值进行去重汇总，产生array类型字段
COLLECT_LIST(col)	函数只接受基本数据类型，它的主要作用是将某字段的值进行不去重汇总，产生array类型字段。

（3）列转行(一列转多行)

Split(str, separator)： 将字符串按照后面的分隔符切割，转换成字符array。

EXPLODE(col)：
将hive一列中复杂的array或者map结构拆分成多行。

LATERAL VIEW

用法：

LATERAL VIEW udtf(expression) tableAlias AS columnAlias

解释：lateral view用于和split, explode等UDTF一起使用，它能够将一行数据拆成多行数据，在此基础上可以对拆分后的数据进行聚合。

lateral view首先为原始表的每行调用UDTF，UDTF会把一行拆分成一或者多行，lateral view再把结果组合，产生一个支持别名表的虚拟表。

准备数据源测试

movie	category
《功勋》	记录,剧情
《战狼2》	战争,动作,灾难

SQL

SELECT movie,category_name 
FROM movie_info 
lateral VIEW
explode(split(category,",")) movie_info_tmp  AS category_name ;

测试结果

《功勋》      记录
《功勋》      剧情
《战狼2》     战争
《战狼2》     动作
《战狼2》     灾难

窗口函数

（1）OVER()

定分析函数工作的数据窗口大小，这个数据窗口大小可能会随着行的变而变化。

（2）CURRENT ROW（当前行）

语法

n PRECEDING：往前n行数据

n FOLLOWING：往后n行数据

（3）UNBOUNDED（无边界）

UNBOUNDED PRECEDING 前无边界，表示从前面的起点
unbounded perceding/following
UNBOUNDED FOLLOWING后无边界，表示到后面的终点

SQL案例：由起点到当前行的聚合

select 
    sum(money) over(partition by user_id order by pay_time rows between UNBOUNDED PRECEDING and current row) 
from or_order;

SQL案例：当前行和前面一行做聚合

select 
    sum(money) over(partition by user_id order by pay_time rows between 1 PRECEDING and current row) 
from or_order;

SQL案例：当前行和前面一行和后一行做聚合

select 
    sum(money) over(partition by user_id order by pay_time rows between 1 PRECEDING AND 1 FOLLOWING )
from or_order;

SQL案例：当前行及后面所有行

select 
    sum(money) over(partition by user_id order by pay_time rows between current row and UNBOUNDED FOLLOWING  )
from or_order;

（4）LAG(col,n,default_val)

往前第n行数据，没有的话default_val

（5）LEAD(col,n, default_val)

往后第n行数据，没有的话default_val

SQL案例：查询用户购买明细以及上次的购买时间和下次购买时间

select 
	user_id,,pay_time,money,
	
	lag(pay_time,1,'1970-01-01') over(PARTITION by name order by pay_time) prev_time,
	
	lead(pay_time,1,'1970-01-01') over(PARTITION by name order by pay_time) next_time
from or_order;

（6）FIRST_VALUE(col,true/false)

当前窗口下的第一个值，第二个参数为true，跳过空值。

（7）LAST_VALUE (col,true/false)

当前窗口下的最后一个值，第二个参数为true，跳过空值。

SQL案例：查询顾用户每个月第一次的购买时间和每个月的最后一次购买时间。

select
	FIRST_VALUE(pay_time) 
	    over(
	        partition by user_id,month(pay_time) order by pay_time 
	        rows between UNBOUNDED PRECEDING and UNBOUNDED FOLLOWING
	        ) first_time,
	
	LAST_VALUE(pay_time) 
	    over(partition by user_id,month(pay_time) order by pay_time rows between UNBOUNDED PRECEDING and UNBOUNDED FOLLOWING
	    ) last_time
from or_order;

（8）NTILE(n)

把有序窗口的行分发到指定数据的组中，各个组有编号，编号从1开始，对于每一行，NTILE返回此行所属的组的编号。（用于将分组数据按照顺序切分成n片，返回当前切片值）

SQL案例：查询前25%时间的订单信息

select * from (
    select User_id,pay_time,money,
    
    ntile(4) over(order by pay_time) sorted
    
    from or_order
) t
where sorted = 1;

4个By

（1）Order By

全局排序，只有一个Reducer。

（2）Sort By

分区内有序。

（3）Distrbute By

类似MR中Partition，进行分区，结合sort by使用。

（4） Cluster By

当Distribute by和Sorts by字段相同时，可以使用Cluster by方式。Cluster by除了具有Distribute by的功能外还兼具Sort by的功能。但是排序只能是升序排序，不能指定排序规则为ASC或者DESC。

在生产环境中Order By用的比较少，容易导致OOM。

在生产环境中Sort By+ Distrbute By用的多。

排序函数

（1）RANK()

排序相同时会重复，总数不会变

（2）DENSE_RANK()

排序相同时会重复，总数会减少

（3）ROW_NUMBER()

会根据顺序计算

Hive 优化

首先要这样优化的原理，再去适当去调节参数和选择方案。

1. 表的优化

（1）小表、大表Join

将key相对分散，并且数据量小的表放在join的左边，这样可以有效减少内存溢出错误发生的概率；再进一步，可以使用map join让小的维度表（1000条以下的记录条数）先进内存。在map端完成reduce。

（2）大表Join大表

a. 空key过滤

有时join超时是因为某些key对应的数据太多，而相同key对应的数据都会发送到相同的reducer上，从而导致内存不够。此时我们应该仔细分析这些异常的key，很多情况下，这些key对应的数据是异常数据，我们需要在SQL语句中进行过滤。

b. 空key转换

有时虽然某个key为空对应的数据很多，但是相应的数据不是异常数据，必须要包含在join的结果中，此时我们可以表a中key为空的字段赋一个随机的值，使得数据随机均匀地分不到不同的reducer上。

（3） MapJoin

如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会将Join操作转换成Common Join，即：在Reduce阶段完成join。容易发生数据倾斜。可以用MapJoin把小表全部加载到内存在map端进行join，避免reducer处理。

设置自动选择Mapjoin
set hive.auto.convert.join = true; 默认为true

大表小表的阈值设置（默认25M以下认为是小表）：
set hive.mapjoin.smalltable.filesize=25000000;

（4） Group By

Map阶段同一Key数据分发给一个reduce，当一个key数据过大时就倾斜了。并不是所有的聚合操作都需要在Reduce端完成，很多聚合操作都可以先在Map端进行部分聚合，最后在Reduce端得出最终结果。

（5）开启Map端聚合

// 是否在Map端进行聚合，默认为True
set hive.map.aggr = true

// 在Map端进行聚合操作的条目数目
set hive.groupby.mapaggr.checkinterval = 100000

// 有数据倾斜的时候进行负载均衡（默认是false）
set hive.groupby.skewindata = true

对数据倾斜负载均衡的理解

会有两个MR Job。第一个MR Job中，Map的输出结果会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理的结果是相同的Group By Key有可能被分发到不同的Reduce中，从而达到负载均衡的目的；第二个MR Job再根据预处理的数据结果按照Group By Key分布到Reduce中（这个过程可以保证相同的Group By Key被分布到同一个Reduce中），最后完成最终的聚合操作。

(6) Count(Distinct) 去重统计

由于COUNT DISTINCT操作需要用一个Reduce Task来完成，这一个Reduce需要处理的数据量太大，就会导致整个Job很难完成，一般COUNT DISTINCT使用先GROUP BY再COUNT的方式替换,但是需要注意group by造成的数据倾斜问题。

(7) 笛卡尔积

尽量避免笛卡尔积，join的时候不加on条件，或者无效的on条件，Hive只能使用1个reducer来完成笛卡尔积。

(8) 行列过滤

列处理：在SELECT中，只拿需要的列，如果有，尽量使用分区过滤，少用SELECT *。

行处理：在分区剪裁中，当使用外关联时，如果将副表的过滤条件写在Where后面，那么就会先全表关联，之后再过滤

2. 合理设置Map及Reduce数

首先理清楚Map数是越多越好吗？

逻辑：如果一个任务有很多小文件（远远小于块大小128m），则每个小文件也会被当作一个块，用一个map任务来完成，而一个map任务启动和初始化的时间远远大于逻辑处理的时间，就会造成很大的资源浪费。

保证每个map处理接近128m的文件块是不是就可以了？

逻辑：比如有一个127m的文件，正常会用一个map去完成，但这个文件只有一个或者两个小字段，却有几千万的记录，如果map处理的逻辑比较复杂，用一个map任务去做，肯定也比较耗时

复杂文件增加Map数

原理：文件都很大，任务逻辑复杂，map执行非常慢的时候，可以考虑增加Map数，来使得每个map处理的数据量减少，从而提高任务的执行效率。

computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M

调整maxSize最大值。让maxSize最大值低于blocksize就可以增加map的个数。

小文件进行合并，减少map数

在map执行前合并小文件，减少map数：CombineHiveInputFormat具有对小文件进行合并的功能（系统默认的格式）。

set hive.input.format= org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

Map-Reduce的任务结束时合并小文件的设置

// 在map-only任务结束时合并小文件，默认true
SET hive.merge.mapfiles = true;

// 在map-reduce任务结束时合并小文件，默认false
SET hive.merge.mapredfiles = true;

// 合并文件的大小，默认256M
SET hive.merge.size.per.task = 268435456;

//当输出文件的平均大小小于该值时，启动一个独立的map-reduce任务进行文件merge
SET hive.merge.smallfiles.avgsize = 16777216;

3. 合理设置Reduce数

同样考虑是不是越多越好？

过多的启动和初始化reduce也会消耗时间和资源。有多少个reduce，就会有多少个输出文件，如果生成了很多个小文件，那么如果这些小文件作为下一个任务的输入，则也会出现小文件过多的问题。

（1）数据量设置

// 每个Reduce处理的数据量默认是256MB
hive.exec.reducers.bytes.per.reducer=256000000

// 每个任务最大的reduce数，默认为1009
hive.exec.reducers.max=1009

// 计算reducer数的公式
N=min(hive.exec.reducers.max，总输入数据量/hive.exec.reducers.bytes.per.reducer)

（2）文件配置

mapreduce.job.reduces = 15

4. 并行执行

通过设置参数hive.exec.parallel值为true，就可以开启并发执行。不过，在共享集群中，需要注意下，如果job中并行阶段增多，那么集群利用率就会增加。建议在数据量大,sql很长的时候使用,数据量小,sql比较的小开启有可能还不如之前快。

//打开任务并行执行，默认为false
set hive.exec.parallel=true; 

//同一个sql允许最大并行度，默认为8。
set hive.exec.parallel.thread.number=16;

5. JVM重用

JVM来执行map和Reduce任务的。这时JVM的启动过程可能会造成相当大的开销，尤其是执行的job包含有成百上千task任务的情况。JVM重用可以使得JVM实例在同一个job中重新使用N次。

缺点是，开启JVM重用将一直占用使用到的task插槽，以便进行重用，直到任务完成后才能释放。

set mapreduce.job.jvm.numtasks=10

6. 列式存储

因为每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量；每个字段的数据类型一定是相同的，列式存储可以针对性地设计更好的设计压缩算法。

TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的；

ORC和PARQUET是基于列式存储的。

7. 压缩（选择快的）

// 启用中间数据压缩
set hive.exec.compress.intermediate=true 

// 启用最终数据压缩
set mapreduce.map.output.compress=true 

// 设置压缩方式
set mapreduce.map.outout.compress.codec=

org.apache.hadoop.io.compress.DefaultCodec
org.apache.hadoop.io.compress.GzipCodec
org.apache.hadoop.io.compress.BZip2Codec
org.apache.hadoop.io.compress.Lz4Codec

Hive数据倾斜

Hive数据倾斜表现

就是单说hive自身的MR引擎：发现所有的map task全部完成，并且99%的reduce task完成，只剩下一个或者少数几个reduce task一直在执行，这种情况下一般都是发生了数据倾斜。说白了就是Hive的数据倾斜本质上是MapReduce的数据倾斜。

Hive数据倾斜的原因

在MapReduce编程模型中十分常见，大量相同的key被分配到一个reduce里，造成一个reduce任务累死，其他reduce任务闲死。查看任务进度，发现长时间停留在99%或100%，查看任务监控界面，只有少量的reduce子任务未完成。

key分布不均衡。
业务问题或者业务数据本身的问题，某些数据比较集中。

（1）join小表：其中一个表是小表，但是key比较集中，导致的就是某些Reduce的值偏高。

（2）空值或无意义值：如果缺失的项很多，在做join时这些空值就会非常集中，拖累进度。

（3）group by：维度过小。

（4）distinct：导致最终只有一个Reduce任务。

Hive数据倾斜解决

group by代替distinct 要统计某一列的去重数时，如果数据量很大，count(distinct)就会非常慢，原因与order by类似，count(distinct)逻辑导致最终只有一个Reduce任务。
对1再优化：group by配置调整

（1）map端预聚合

（2）group by时，combiner在map端做部分预聚合，可以有效减少shuffle数据量。

（3）checkinterval：设置map端预聚合的行数阈值，超过该值就会分拆job。

hive.map.aggr=true //默认

hive.groupby.mapaggr.checkinterval=100000 // 默认

（4）倾斜均衡配置 Hive自带了一个均衡数据倾斜的配置项。

其实现方法是在group by时启动两个MR job。第一个job会将map端数据随机输入reducer，每个reducer做部分聚合，相同的key就会分布在不同的reducer中。第二个job再将前面预处理过的数据按key聚合并输出结果，这样就起到了均衡的效果。

hive.groupby.skewindata=false // 默认

join基础优化

（1） Hive在解析带join的SQL语句时，会默认将最后一个表作为大表，将前面的表作为小表，将它们读进内存。如果表顺序写反，如果大表在前面，引发OOM。不过现在hive自带优化。

（2） map join:特别适合大小表join的情况，大小表join在map端直接完成join过程，没有reduce，效率很高。

（3）多表join时key相同：会将多个join合并为一个MR job来处理，两个join的条件不相同，就会拆成多个MR job计算。

sort by代替order by

将结果按某字段全局排序，这会导致所有map端数据都进入一个reducer中，在数据量大时可能会长时间计算不完。使用sort by，那么还是会视情况启动多个reducer进行排序，并且保证每个reducer内局部有序。为了控制map端数据分配到reducer的key，往往还要配合distribute by一同使用。如果不加distribute by的话，map端数据就会随机分配到reducer。

单独处理倾斜key

一般来讲倾斜的key都很少，我们可以将它们抽样出来，对应的行单独存入临时表中，然后打上随机数前缀，最后再进行聚合。或者是先对key做一层hash，先将数据随机打散让它的并行度变大，再汇集。其实办法一样。

你可能感兴趣的:(Hive,大数据,面试,大数据)

《炸裂！掌握这些 Spring Boot 干货，面试直接 “开挂”！》 @孤随 JAVA spring boot 面试后端
SpringBoot重点、面试题及答案详细整理一、SpringBoot重点知识（一）核心概念1.自动配置SpringBoot自动配置基于类路径中的依赖、配置文件以及应用上下文里的Bean情况，借助条件注解来自动设置Spring应用的配置。例如，当类路径中存在spring-data-jpa和数据库驱动时，会自动配置数据源、JPA实体管理器工厂和事务管理器。可通过@EnableAutoConfigur
从0开始使用Docker搭建Spark集群吃鱼的羊 SPARK Hadoop
https://www.jianshu.com/p/ee210190224f?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation最近在学习大数据技术，朋友叫我直接学习Spark，英雄不问出处，菜鸟不问对错，于是我就开始了Spark学习。为什么要在Docker上搭建Spark集群
网络IP地址冲突故障，快速解决方案（非常详细）零基础入门到精通，收藏这一篇就够了_内网总提示有ip冲突(1) 2401_84263282 网络 tcp/ip 网络协议
还有兄弟不知道网络安全面试可以提前刷题吗？费时一周整理的160+网络安全面试题，金九银十，做网络安全面试里的显眼包！王岚嵚工程师面试题（附答案），只能帮兄弟们到这儿了！如果你能答对70%，找一个安全工作，问题不大。对于有1-3年工作经验，想要跳槽的朋友来说，也是很好的温习资料！【完整版领取方式在文末！！】93道网络安全面试题内容实在太多，不一一截图了黑客学习资源推荐最后给大家分享一份全套的网络安全
Hive中文乱码解决方法快乐骑行^_^ 大数据大数据平台二次开发
Hive中文乱码解决方法一、Hive中文乱码原因二、Hive中文乱码解决方法三、修改hive配置文件四、再次查看表信息，中文注释正常一、Hive中文乱码原因hive的元数据是由mysql管理的，mysql默认编码是latin1，中文存储进去容易乱码，所以最好把mysql的编码改成utf-8二、Hive中文乱码解决方法需要把相应注释的地方的字符集由latin1改成utf-8，用到注释的就三个地方，表
Fink与Hadoop的简介以及联系 Bugkillers hadoop 大数据分布式
Fink和Hadoop是两个常用于大数据处理的开源工具，它们可以搭配使用以构建高效的数据处理系统。一、Fink和Hadoop的关系Fink：1、Fink是一个分布式流处理框架，专注于实时数据处理。它支持高吞吐、低延迟的流处理，适用于实时分析、事件驱动应用等场景。2、Fink提供精确一次（exactly-once）语义，确保数据处理的准确性。Hadoop：1、Hadoop是一个分布式存储和批处理框架
flutter常见面试题（欢迎私信投稿——更新到10）郝晨妤 flutter flutter 前端
1、谈谈Flutter中的Future、async和awaitFuture对象表示异步操作的结果，我们通常通过then（）来处理返回的结果async用于标明函数是一个异步函数，其返回值类型是Future类型await用来等待耗时操作的返回结果，这个操作会阻塞到后面的代码isolate异步并行多个任务，Future是异步串行多个任务2、介绍Widget、State、Context概念Widget：在
Windows环境下构建本地多节点Elasticsearch集群静谧星光c windows elasticsearch jenkins 大数据
Windows环境下构建本地多节点Elasticsearch集群在大数据领域，Elasticsearch是一个经常使用的分布式搜索和分析引擎。本文将介绍如何在Windows操作系统下搭建一个本地的多节点Elasticsearch集群。通过搭建本地集群，我们可以在单一系统上模拟出多个节点，从而加深对Elasticsearch集群内工作原理的理解。准备工作首先，确保你的系统已经安装了Java开发环境（
java面试题：多线程交替打印数字小猫猫猫◍˃ᵕ˂◍ java python 开发语言
面试题：多线程交替打印数字代码概述这个Java程序使用了三个线程（t1,t2,t3）和三个信号量（first,second,third）来实现交替打印数字1、2、3的功能。每个线程负责打印一个数字，并通过信号量来控制线程的执行顺序。代码结构信号量初始化：first,second,third三个信号量分别用于控制三个线程的执行顺序。初始时，first信号量的许可数为0，表示t1线程需要等待。线程定义
Hbase深入浅出天才之上数据存储 Hbase 大数据存储
目录HBase在大数据生态圈中的位置HBase与传统关系数据库的区别HBase相关的模块以及HBase表格的特性HBase的使用建议Phoenix的使用总结HBase在大数据生态圈中的位置提到大数据的存储，大多数人首先联想到的是Hadoop和Hadoop中的HDFS模块。大家熟知的Spark、以及Hadoop的MapReduce，可以理解为一种计算框架。而HDFS，我们可以认为是为计算框架服务的存
LeetCode 第 211 场周赛 (哈希表、字符串（取模、枚举）、排序+最长上升子序列和、筛法求约数+并查集) 2401_84046816 程序员 leetcode 散列表面试
《一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码》，点击传送门，即可获取！for(inti=0;i
如何在Java中设计大规模稀疏数据处理架构省赚客app开发者 java 架构开发语言
如何在Java中设计大规模稀疏数据处理架构大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！在大数据时代，稀疏数据在各个领域变得越来越常见，例如推荐系统、自然语言处理、图像处理等。稀疏数据通常包含大量零值或空值，直接使用传统的数据处理架构可能导致效率低下，内存和计算资源浪费。因此，设计一个高效的稀疏数据处理架构成为Java开发者面临的关键挑战。本文将探讨如何在Java中
MongoDB面试题答案解析 HappyAcmen java面试题集 mongodb 数据库
文章目录一、概念理解类1.什么是MongoDB？2.NoSQL数据库是什么意思？NoSQL与RDBMS有什么区别？为什么要使用和不使用NoSQL数据库？3.MySQL与MongoDB之间最基本的差别是什么？4.你怎么比较MongoDB、CouchDB及CouchBase？5.MongoDB成为最好的NoSQL数据库的原因是什么？6.journal回放在条目(entry)不完整时会遇到问题吗？7.分
程序员如何将技术咨询服务转化为SaaS产品 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
引言与概述在当今快速发展的数字化时代，软件即服务（SaaS）已经成为企业服务市场的重要趋势。随着云计算和大数据技术的普及，越来越多的企业开始将传统的技术咨询服务转化为SaaS产品，以提供更加灵活、可扩展的服务。这不仅为企业带来了新的增长点，也极大地改变了技术服务行业的发展格局。SaaS市场的增长趋势SaaS市场呈现出快速增长的态势，根据市场研究机构的预测，全球SaaS市场的规模将在未来几年内持续扩
Java 后端面试必备：Java 中 == 和 equals 有什么区别刘小炮吖i Java后端开发面试题面试 java
欢迎并且感谢大家指出我的问题，由于本人水平有限，有些内容写的不是很全面，只是把比较实用的东西给写下来，如果有写的不对的地方，还希望各路大牛多多指教！谢谢大家！大家如果对Java后端面试题感兴趣可以关注一下面试题专栏引言在Java后端开发的面试中，“Java中==和equals有什么区别”是一个高频问题。虽然这看似基础，但其中蕴含的原理和细节，对于深入理解Java的内存管理和对象比较机制至关重要。接
python-推导式无铭-905
推导式推导式的定义：一、列表（list）推导式列表推导式的应用1、将lst中每一个元素进行平方后放入到一个新列表中2、求出lst中是奇数的值，然后放入到一个新列表中3、求列表中所有大于2的偶数进行平方计算4、将一个嵌套列表转换成一个一维列表5、现在有一列表lst=[[1,2,3],[4,5,6],[7,8,9]]要求出1/4/7和1/5/9元素6、面试题二、字典推导式字典推导式的应用1、将字典中的
STAR法则是一种结构化的面试和自我评估工具，包括情境（Situation）、任务（Task）、行动（Action）、结果（Result）四个要素。以下为你介绍它的运用方法并举例南北极之间职场和发展面试沟通表达
STAR法则是一种结构化的面试和自我评估工具，包括情境（Situation）、任务（Task）、行动（Action）、结果（Result）四个要素。以下为你介绍它的运用方法并举例：运用方法情境（Situation）：描述事件发生的背景、环境，包括时间、地点、人物等关键信息，让他人清楚了解事情发生的来龙去脉。任务（Task）：明确在该情境下需要完成的任务或目标，任务阐述应具体、清晰，突出重点与难点。
[1138]基于JAVA的安全监管网络人员信息智慧管理系统的设计与实现阿鑫学长【毕设工场】 java 网络开发语言课程设计毕业设计
毕业设计（论文）开题报告表姓名学院专业班级题目基于JAVA的安全监管网络人员信息智慧管理系统的设计与实现指导老师（一）选题的背景和意义选题背景与意义：随着信息技术的飞速发展和大数据时代的到来，安全监管网络人员信息管理面临着前所未有的挑战与机遇。当前，执法人员、监督员以及各类从业人员的信息档案管理工作日益繁重，传统的人工管理模式效率低下、易出错且难以满足实时更新、精准查询的需求。特别是在复杂的执法环
在Hadoop集群中实现数据安全：技术与策略并行 Echo_Wish 实战高阶大数据 hadoop 大数据分布式
在Hadoop集群中实现数据安全：技术与策略并行随着大数据技术的广泛应用，Hadoop已经成为处理和存储海量数据的首选平台。然而，随着数据规模的扩大，如何确保Hadoop集群中的数据安全也成为了亟待解决的难题。毕竟，数据安全不仅关系到企业的隐私保护，也直接影响到数据的可信度与可用性。本文将探讨如何在Hadoop集群中实现数据安全，分析数据加密、访问控制、审计日志等方面的技术与策略，并通过一些具体的
面试经典150题——最长公共前缀菜菜的小彭 java 面试经典150题面试职场和发展 leetcode 算法 java
面试经典150题day20题目来源我的题解方法一横向遍历方法二纵向遍历方法三分治方法四字典树题目来源力扣每日一题；题序：14我的题解方法一横向遍历两两字符串找最长公共前缀时间复杂度：O(nL)。n表示数组的长度，L表示来两两字符创的最长公共前缀。空间复杂度：O(1)publicStringlongestCommonPrefix(String[]strs){Stringpre=strs[0];for
华为初面 + 综合面试，附上面试题，share 给大家~ Java布道者华为面试职场和发展
华为面试整体流程大致分为笔试，性格测试，面试，综合面试，回学校等结果。笔试来说，华为的难度较中等，选择题难度和网易腾讯差不多。最后的代码题，相比下来就简单很多，一共3道题目，前2题很容易就AC，题目已经记不太清楚，不过难度确实不大。最后一题最后提交的代码过了75%的样例，一直没有发现剩下的25%可能存在什么坑。笔试部分太久远，我就不怎么回忆了。直接将面试。面试如果说腾讯的面试是挥金如土（毕竟每个面
15、Python面试题解析：列表推导式-条件推导与嵌套推导千层冷面 python python 开发语言
1.列表推导式简介列表推导式（ListComprehension）是Python中一种简洁的创建列表的方式。它允许我们通过一行代码生成列表，通常比传统的for循环更简洁、更易读。基本语法[表达式for元素in可迭代对象]表达式：对元素的处理逻辑。元素：从可迭代对象中取出的每个元素。可迭代对象：如列表、元组、字符串等。示例#生成0到9的平方列表squares=[x**2forxinrange(10)
什么是GaussDB 如清风一般 gaussdb
什么是GaussDB简介GaussDB是华为自主创新研发的分布式关系型数据库。该产品具备企业级复杂事务混合负载能力，同时支持分布式事务，同城跨AZ部署，数据0丢失，支持1000+的扩展能力，PB级海量存储。同时拥有云上高可用，高可靠，高安全，弹性伸缩，一键部署，快速备份恢复，监控告警等关键能力，能为企业提供功能全面，稳定可靠，扩展性强，性能优越的企业级数据库服务。应用场景交易型应用大并发、大数据量
hive建表语句增加字段、分区基础操作节点。csn 数据库 #hive hive hadoop big data
目录hive建表内部分区表外部分区表表结构复制：hive表删除hive表重命名表修改操作增加分区修改分区删除分区新增表字段hive建表IFNOTEXISTS:表不存在才会创建分隔符：field.delim是表的两个列字段之间的文件中的字段分隔符.serialization.format是文件序列化时表中两个列字段之间的文件中的字段分隔符.分区partition:创建表时可指定分区字段，多个分区字段
C# 面试问题高级：057 - 什么是过滤器？ caifox菜狐狸 C#面试问题高级 c#开发语言设计模式面试过滤器 Filters
1.过滤器的基本概念过滤器（Filters）是ASP.NETCore框架中的一种机制，用于在应用程序处理请求和响应的不同阶段执行自定义逻辑。它们可以用来实现诸如身份验证、授权、异常处理等功能，从而简化控制器代码并提高代码的可重用性。过滤器的主要作用是在特定的时间点对请求或响应进行干预，例如在执行动作之前或之后，或者在结果生成之前或之后。过滤器可以通过多种方式应用到应用程序中，包括全局应用、控制器级
《传统教培机构的痛点：数字化转型如何破局？》
数字化浪潮下的困境在当今时代，数字化浪潮正以前所未有的速度席卷全球，深刻地改变着人们的生活、工作和学习方式。这是一个数据爆炸的时代，数据成为了驱动社会发展的核心要素之一。据统计，全球每天产生的数据量高达数万亿字节，这些数据涵盖了人们生活的方方面面，从购物习惯到社交行为，从健康状况到学习偏好，都被数字化记录下来。[]()数字化时代的技术创新日新月异，人工智能、大数据、云计算、物联网等新兴技术不断涌现
拷打，数据库面经！ go
数据库必会面试题1.请解释数据库中的MVCC（多版本并发控制）机制，并说明其在MySQLInnoDB中的具体实现方式？答案：MVCC是一种通过维护数据的历史版本实现高并发的技术，允许读操作不阻塞写操作，写操作不阻塞读操作。在MySQLInnoDB中，MVCC通过以下机制实现：隐藏字段：每行数据包含DB_TRX_ID（最近修改的事务ID）和DB_ROLL_PTR（回滚指针，指向UndoLog记录）。
Java实习生常规技术面试题每日十题Java基础（五）用户昵称23 面试阿里巴巴 java 开发语言 jvm html golang
目录1.启动一个线程是用run()还是start()?.?2.线程的基本状态以及状态之间的关系。3.Set和List的区别，List和Map的区别？4.同步方法、同步代码块区别？5.描述Java锁机制。6.Comparable和Comparator接口是干什么的？列出它们的区别7.Java集合类框架的最佳实践有哪些？8.HashMap和Hashtable的区别。
【Golang 面试题】每日 3 题（十） Pandaconda #Golang 面试专栏 golang 开发语言后端笔记面试 go 职场和发展
✍个人博客：Pandaconda-CSDN博客专栏地址：http://t.csdnimg.cn/UWz06专栏简介：在这个专栏中，我将会分享Golang面试中常见的面试题给大家~❤️如果有收获的话，欢迎点赞收藏，您的支持就是我创作的最大动力28.Go语言当中数组和切片在传递的时候的区别是什么？在Go语言中，数组和切片在传递的时候有一些区别。首先，数组在传递时是以值传递的方式进行的。也就是说，当我们
【Golang 面试题】每日 3 题（一） Pandaconda #Golang 面试专栏 golang 开发语言后端面试笔记基础题 go
✍个人博客：Pandaconda-CSDN博客专栏地址：http://t.csdnimg.cn/UWz06专栏简介：在这个专栏中，我将会分享Golang面试中常见的面试题给大家~❤️如果有收获的话，欢迎点赞收藏，您的支持就是我创作的最大动力1.与其他语言相比，使用Go有什么好处？与其他语言相比，使用Go语言具有以下好处：高效性：Go语言是一种编译型语言，能够生成高效的机器码。同时，Go语言的垃圾回
Hive JOIN过滤条件位置玄学：ON vs WHERE的量子纠缠数据大包哥大数据 #Hive #大厂SQL面试指南 hive hadoop 数据仓库
HiveJOIN过滤条件位置玄学：ONvsWHERE的量子纠缠作为数据工程师，HiveJOIN就像吃火锅选蘸料——放错位置味道全变！今天带你破解字节/阿里等大厂高频面试题：ON和WHERE后的过滤条件究竟有什么不同？一、核心差异对比表特性ON子句WHERE子句执行时机JOIN操作时JOIN完成后影响范围单表过滤（左右表独立）两表JOIN后的结果集NULL值处理保留未匹配的主表记录过滤掉所有不满足条
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite