鸭梨山大哎

Hive面试题整理

Hive 运行原理（源码级）

1. 用户提交查询等任务给Driver。
2. Antlr解析器将SQL转化为抽象语法树AST Tree
3. 遍历AST Tree，抽出基本的查询单元QueryBlock
4. 遍历QueryBlock，翻译为执行操作树OperatorTree
5. 逻辑层优化器进行OperatorTree变换，合并不必要的ReduceSinkOperator，减少shuffle数据量
6. 遍历OperatorTree，翻译为MapReduce任务
7. 物理层优化器进行MapReduce任务的变换，生成最终的执行计划
8. 执行计划，返回结果

Hive转化join为MR的原理

reduce端join

map端读取两个表，为两个表的数据分别打上标签tag，发送数据

reduce端根据分区分组规则拿到的数据时key相同的数据，再根据标签tag进行相同key的不同value的join操作，完成实际的连接。

map端join

将小表复制多份存放在每个map task的内存中，然后只扫描大表，对大表中key在小表中存在时，进行一个join拼接操作。

将小表复制的对象方法为DistributedCache.addCacheFile，要使用时再使用相应的提取文件目录的方法，并用标准IO获取到数据。

semi join

先将参与join的表1的key复制到一个新的表3中，然后把新表复制多份到各个map task中，最后将不在新表3的表2的数据过滤掉，再进行reduce。

Hive 建表

传统方式建表

#TEMPORARY：临时的  EXTERNAL：外部的
create [TEMPORARY,EXTERNAL] table [if not exist] [db_name.]name(
col_name  data_type
...
)
#指定分区字段和类型（字段不在建表语句中）
[PARTITIONED BY (col_name data_type,...)]
#指定分桶字段和数量（字段存在建表语句中）
[
CLUSTERED BY (col_name, col_name, ...) 
  [SORTED BY (col_name [ASC|DESC], ...)]
INTO num_buckets BUCKETS
]
#指定解析格式
[ROW FORMAT row_format]
#二选一使用hive自带的或自定义OutPutFormat时引入包
STORED AS file_format |
STORED BY *'storage.handler.class.name' [WITH SERDEPROPERTIES (...)]*
#外部表创建时必须指定
[LOCATION hdfs_path]
#指定表的其它属性，这里可以设置压缩格式
[TBLPROPERTIES (property_name=property_value, ...)]

row_format

#DELIMITED 与 SERDE 方式二选一指定使用 hive自带的解析方式或自定义解析
DELIMITED 
[FIELDS TERMINATED BY char [ESCAPED BY char]]
[COLLECTION ITEMS TERMINATED BY char]
[MAP KEYS TERMINATED BY char]
[LINES TERMINATED BY char]
[NULL DEFINED AS char]   -- (Note: Available in Hive 0.13 and later) 
SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)]

查询建表

create table if not exists empdemo as
select *
from emp;

缺点：所有数据类型默认最大范围

Like建表

复制一个表的结构

create table empdemo like emp;
describe  empdemo;
select * from empdemo;

存储格式和压缩格式

一般选择ORC+bzip/gzip作为数据源的存储，选择则ORC+Snappy作为中间数据的存储

分区表单文件不大可以采用gzip压缩，桶表需要用bzip或lzo支持分片的方式压缩

建表时可以设置压缩

建表时指定"stored as orc tblproperties ("orc.compress"="gzip")"

用SNAPPY测试,测试GZIP失败,貌似没有这个压缩方式

drop table default.empdemo;
create table empdemo
(
    empno    int,
    ename    string,
    job      string,
    mgr      int,
    hiredate date,
    sal      double,
    comm     double,
    deptno   int
)
    row format delimited
        fields terminated by ','
    stored as orc tblproperties ("orc.compress" = "SNAPPY");
insert overwrite table default.empdemo select * from default.emp;
select * from default.empdemo;

设置 set hive.exec.compress.intermediate=true 开启中间数据压缩，
然后设置 mapred.map.output.compression.codec 指定中间数据的压缩方式

设置 set hive.exec.compress.output=true 开启输出文件压缩，
然后设置 mapred.output.compression.codec 指定输出文件的压缩方式。

内部表和外部表的区别

hive外部表是使用external关键字并指定一个hdfs目录创建的表。

hive内部表在创建时会在对应hive目录下创建相应的文件夹，外部表则以指定文件夹为数据源创建表。

hive内部表在删除时会将整个文件夹一并删除，外部表则只会删除元数据。

分区表和分桶表

分区表

将数据按照分区字段拆分存储的表，在hdfs中以文件夹的形式分别存放不同分区的数据，可以避免全表查询，提高查询效率。

动态分区

hive通过设置hive.exec.dynamici.partition=true开启动态分区。

可以在插入数据时根据表中某字段值决定分区，当分区字段完全由变量决定时称为动态分区，若有常量限制则称为混合分区，若完全由常量决定分区时称为静态分区。

分桶表

根据分桶字段hash值分组拆分数据的表，在hdfs中表现为将单个的数据文件拆分为多个文件。

create table temp_student
(
    sno     int,
    name    string,
    sex     string,
    age     int,
    academy string
)
    clustered by (sno) sorted by (age desc) into 3 buckets
    row format delimited
        fields terminated by '\t'
;

总结

分区字段的每个值都对应一个文件夹和一个分区文件，而分桶字段则是多个值对应一个桶文件。

如果同时使用分区和分桶，则会先按照分区划分文件，再对每个文件按照分桶进行拆分。

行转列和列转行

行转列（split + explode + laterview）
列转行 ( concat_ws + collect_list/set )

Hive时间函数

from_unixtime(bigint,string)            => string
-- 将10位的unix时间戳转为指定格式（默认为yyyy-MM-dd HH:mm:ss）

unix_timestamp(string date,string regex)=> bigint 将指定格式的日期字符串转为10位时间戳

to_date(string date)                    => string 把标准格式的日期字符串转为yyyy-MM-dd

month(string date)                      => int    把标准格式的日期字符串转为MM

weekofyear(string date)                 => int    返回当前周数

quarter(string date)                    => int    返回当前季度，仅限1.3以上版本，下面trunc限1.2以上版本

trunc(string date,string regex)         => string 返回指定日期的起点时间，如trunc('2017-08-10','MM')返回当月第一天，'YYYY'返回当年第一天

current_date()                          => string 返回yyyy-MM-dd

date_add(string date,int)               => string

date_sub(string date,int)               => string

datediff(string date,string date)       => string 日期比较函数，仅支持标准日期格式或标准格式

更多函数: https://www.cnblogs.com/MOBIN/p/5618747.html

时间戳

不支持13位的毫秒，可以用cast(ct/1000 as bigint)进行转换。

截断机制

标准格式：yyyy-MM-dd HH:mm:ss

不同的函数内部有各自的regex，基于标准格式截断。

如：month()函数内部regex为’yyyy-MM’，识别时截取字符串的前7位比较，符合格式就识别成功，与后续字符串无关，包括内容！

    month('2017-09-08 14:15') --可以识别月份为09
    month('2017-09-08 1415')  --也可以识别
    month('2017-0908 14:15')  --无法识别，返回结果为null
	month('2017')             --无法识别，结果为null

Hive 排名函数

row_number   不并列不跳过:   1 2 3 4
dense_rank 	并列不跳过:   	1 1 2 3
rank       		   并列跳过:     	 1 1 3 4

Hive 分析函数：ntile

效果：排序并分桶

ntile(3) over(partition by A order by B) 

=> {1,2,3}->1,{4,5,6}->2,{7,8,9}->3
可用于取前50%数据统计、取中间三分之一统计等需求。

Hive 拉链表更新

1. 更新过期时间：update TABLE SET FIELD = ? where FIELD2 IN (select ... 相当于where子查询)
2. 将旧数据的过期时间更新为当前时间，然后插入新数据并设置新数据的过期时间为一个最大值。

Hive 排序

order by

需要加载所有数据到reduce中排序，排序方法可能是冒泡、快排、归并，无论如何都要加载所有数据

select * from emp order by ename;

order by limit

创建一个大小为limit的缓存数组，采用插入法进行排序，把每行数与数组内的数比较，大的话就插入，每插入一个数都有一个数被挤出去，保证每次比较的次数都只有limit次

因此严格模式允许order by limit，虽然比较的数多，但是每次比较的资源消耗很少。

set hive.mapred.mode=strict;
select * from emp order by ename,sal limit 4;

sort by

局部排序，最终生成的每个文件都有序但不能保证全局有序

sort by limit

相当于sort by + order by limit，先局部排序取TopN,然后读入多个TopN结果再全局排序取TopN。

Hive 调优

减少distinct：使用distinct容易造成数据倾斜问题，使用group by的子查询代替它。
比如
distinct默认一个

reducer

Total jobs = 1
Launching Job 1 out of 1
Number of reduce tasks not specified. Estimated from input data size: 1

select distinct(academy) from student;
+-------+
|academy|
+-------+
|art    |
|chinese|
|history|
|math   |
+-------+

数据量大的话 ,group by不会把所有的数据放到一个reducer中

select academy from student group by academy;
+-------+
|academy|
+-------+
|art    |
|chinese|
|history|
|math   |
+-------+

map任务数量优化：

实际业务中往往存在大量的分区表，每个分区表都实际存储一定量的文件，其中必然有些分区的数据量很少。正常读取时往往有多少个文件就创建多少个map，此时可以通过设置一些参数，让sql语句在执行前先合并表文件。
-参数：

   mapred.min.split.size.per.node = {设置一个节点中分片至少的大小}byte
	 mapred.min.split.size.per.rack= {设置一个交换机中分片至少的大小}byte
	mapred.max.split.size = {设置分片的最大大小}byte
			  hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat 设置hive先合并文件再执行

-效果： 假设我全部设置为100000000（相当于100M），经过配置后，hive会首先合并文件，切分成各种100M，最后再把剩下来的各个节点上的散碎数据合并到一起再生成几个分片。
还有一种情况，当一个map任务中处理数据量很大时（大小很小，但是条数很多），可以采用分桶法，先用一个查询语句把该表数据查出来分桶写入，再使用这个分桶表。相当于增加map任务数量，增加并行度。

并行度优化：

1.手动设置reduce数量 mapred.reduce.tasks
2.避免全局的聚合函数，使用聚合函数尽量要分组
3.避免全局的order by，有时候全局排序很难避免，但可以根据topN需求，
再各个分区中只留下N个值，再进行全局排序。
4.避免笛卡尔积
5.设置mapTask分片大小

小文件问题：
1.避免产生小文件：少用动态分区、根据需求使用reduce
2.使用Sequencefile作为表存储格式，不要用textfile，在一定程度上可以减少小文件
3.使用hadoop archive命令把小文件进行归档
4.重建表，建表时减少reduce数量
5.参数设置：

  hive.merge.mapfiles = true 设置map端输出合并
  hive.merge.mapredfiles = true  设置reduce输出合并    	hive.merge.size.per.task = 256*1000*1000 设置合并文件的大小
	  hive.merge.smallfiles.avgsize=16000000 设置当平均大小小于该值时合并

存储格式

1.使用ORCfile存储，可以显著提高join操作的查询速度
2.使用压缩格式存储，可以显著降低网络IO和存储大小

使用map端join

使用tez作为默认引擎

使用向量化查询：一次执行1024行数据的操作

hive.vectorized.execution.enabled = true;
hive.vectorized.execution.reduce.enabled = true;

设置本地模式、并行模式（自动并行非依赖阶段）、严格模式

开启JVM重用

可以考虑开启推测执行（慎重）

总结

减少distinct

设置读取时合并小文件和合理拆分大文件

优化并行度

设置存储格式和压缩格式

设置输出时合并小文件

设置map端JOIN

更换引擎

设置本地模式、并行模式、严格模式

开启JVM重用

开启推测执行

Hive和Hbase区别

hive是高延迟、结构化和面向分析的逻辑存储组件
hbase则是低延迟、非结构化和面向编程的物理存储组件
hive支持sql语句，通常全表扫描，不推荐删除和更新
hbase不支持sql语句，通常随机读写，增删改查速度很快。
hive是行式结构，hbase则是列式存储。

其他

用过哪些开窗函数

sum(col) over() : 分组对col累计求和，over() 中的语法如下 
count(col) over() : 分组对col累计，over() 中的语法如下 
min(col) over() : 分组对col求最小 
max(col) over() : 分组求col的最大值 
avg(col) over() : 分组求col列的平均值first_value(col) over() : 某分区排序后的第一个col值 
last_value(col) over() : 某分区排序后的最后一个col值 
lag(col,n,DEFAULT) : 统计往前n行的col值，n可选，默认为1，DEFAULT当往上第n行为NULL时候， 
取默认值，如不指定，则为NULL 
lead(col,n,DEFAULT) : 统计往后n行的col值，n可选，默认为1，DEFAULT当往下第n行为NULL时候， 
取默认值，如不指定，则为NULL 
ntile(n) : 用于将分组数据按照顺序切分成n片，返回当前切片值。注意：n必须为int类型。 
排名函数： 
row_number() over() : 排名函数，不会重复，适合于生成主键或者不并列排名 
rank() over() : 排名函数，有并列名次，名次不连续。如:1,1,3 
dense_rank() over() : 排名函数，有并列名次，名次连续。如：1，1，2

hive中两个表join转换成mr程序,怎么转换的,原理是什么

在map的输出value中为不同表的数据打上tag标记，在reduce阶段根据tag判断数据来源。MapReduce的过程如下

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RWh6yTTo-1609135423621)(./img/ahive/join.png)]

sort by 和order by的区别

order by会对输入做全局排序，因此只有一个Reducer(多个Reducer无法保证全局有序)，然而只有一个Reducer，会导致当输入规模较大时，消耗较长的计算时间。这样很可能会超过单个节点的磁盘和内存存储能力导致任务失败。
sort by的数据只能保证在同一个reduce中的数据可以按指定字段排序。使用sort by你可以指定执行的reduce个数(通过set mapred.reduce.tasks=n来指定)，对输出的数据再执行归并排序

交易表结构为user_id(用户ID),order_id(订单ID),pay_time(付款时间),order_amount(金额)

1. 写sql查询过去一个月付款用户量（提示：用户量需去重）最高的三天分别是哪几天？

2. 写sql查询昨天每个用户最后付款的订单ID及金额

 select

 date_format(pay_time,'%Y-%m-%d') days ,

count(distinct user_id) 

from table

where pay_time>=date_sub(now(),interval 1 month) #过去一个月

 group by date_format(pay_time,'%Y-%m-%d')

 order by count(distinct user_id) desc

 limit 3

思路：求最高的三天，肯定是先排序，后limit. 先求出每天的付款用户量，既然每天，那肯定要按天分组了；按照题目要求过滤条件有：1.过去一个月 2.付款用户（即要排除未付款的用户），另外求用户量需要去重，题目中也有提示，因为存在同一个用户每天有多笔消费记录的情况；返回排在前三的付款用户量及对应的时间（天）

select 

a.user_id, a.order_amount

 from

(select 

user_id, order_amount,

row_number() over(partition by user_id order by pay_time desc) as rank

from table

where date_format(pay_time,"%Y-%m-%d")=date_sub(curdate(),interval 1 day) #昨天

) as 

awhere rank=1

用户登录日志表为user_id,log_id,session_id,visit_time

用sql查询近30天每天平均登录用户数量

select 

avg(numUser) as averageUsers 

from ( 

select 

date_format(visit_time,'%Y-%m-%d') as visit_date, 

count(distinct user_id) as numUser

from table 

where 

datediff(curdate(),visit_date)<=30

 group by visit_date 

);

Hive的动态分区和静态分区？

静态分区 SP（static partition）

 1、静态分区是在编译期间指定的指定分区名

  2、支持load和insert两种插入方式

    2.1load方式

      1）会将分区字段的值全部修改为指定的内容

      2）一般是确定该分区内容是一致的时候才会使用

    2.2insert方式

      1）必须先将数据放在一个没有设置分区的普通表中

      2）该方式可以在一个分区内存储一个范围的内容

      3）从普通表中选出的字段不能包含分区字段

  3、适用于分区数少，分区名可以明确的数据

动态分区 DP（dynamic partition）

1、根据分区字段的实际值，动态进行分区

  2、是在sql执行的时候进行分区

  3、需要先将动态分区设置打开（set hive.exec.dynamic.partition.mode=nonstrict ）

  4、只能用insert方式

  5、通过普通表选出的字段包含分区字段，分区字段放置在最后，多个分区字段按照分区顺序放置

静态分区与动态分区的主要区别在于静态分区是手动指定，而动态分区是通过数据来进行判断。

常见JAVA集合面试题（自用整理，持续更新）
一、简要介绍Java集合框架的整体架构1.Java集合框架主要分为两大接口体系：Collection和Map。2.Collection是单列集合的根接口，下面又有三个子接口，分别是List（有序、可重复）、Set（无序、不可重复）和Queue（队列）。3.Map是双列集合的根接口，用于存储键值对。4.以下是java集合的基础架构图5.Java集合框架的核心继承关系图（文本描述版）├─Collect
大模型算法工程师面试宝典：精选面试题及参考答案全解析，助你备战AI算法工程师岗位！大模型入门学习人工智能产品经理大数据机器学习程序员大模型大模型学习
大模型应该算是目前当之无愧的最有影响力的AI技术。它正在革新各个行业，包括自然语言处理、机器翻译、内容创作和客户服务等，正成为未来商业环境的重要组成部分。截至目前大模型已超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关面试也是越来越卷。我今天给大家分享一篇大模型的面试题总结，内容较长，喜欢记得收藏、关注、点赞。ii.为什么会出现LLMs复读机问题？出现LLMs复读机问题可能
面了字节跳动的数据挖掘岗，感觉真的很难。。。大模型爱好者社区机器学习深度学习面试宝典数据挖掘人工智能数据分析算法面试
节前，我们社群组织了一场技术&面试讨论会，邀请了一些互联网大厂同学、参加社招和校招面试的同学，针对新手如何入门机器学习算法、该如何备战、面试常考点分享等热门话题进行了深入的讨论。基于社群的讨论，今天我整理了一个同学的面试题，分享给大家，希望对后续找工作的有所帮助。喜欢记得点赞、收藏、关注。更多技术交流&面经学习，可以文末加入我们交流群。一面40min【编程题】有两种数据，分别是被转发的用户和转发的
【字节跳动】数据挖掘面试题0002：从转发数据中求原视频用户以及转发的最长深度和二叉排序树指定值言析数智数据挖掘常见面试题数据挖掘面试题
文章大纲题目一：从转发数据中求原视频用户以及转发的最长深度问题分析解题思路寻找原视频用户计算转发最长深度题目二：在一棵二叉排序树中，找到比给定数值小的最大节点方法思路题目一：从转发数据中求原视频用户以及转发的最长深度在数据处理和算法面试中，常常会遇到一些基于实际业务场景的题目，比如根据用户转发数据来分析原视频用户以及转发深度。今天就来探讨一道这样的面试题：给定被转发用户和转发用户两组数据，求原视频
【字节跳动】数据挖掘面试题0001：打车场景下POI与ODR空间关联查询言析数智数据挖掘常见面试题数据挖掘人工智能面试题
题目描述打车的场景下，poi记录了建筑物的坐标：poi(pid,x,y)，odr记录的是乘客上车点的坐标：odr(oid,x,y)；希望对所有的poi，获得其周围的100m的odr：结果(pid,oid)打车场景下POI与ODR空间关联查询在打车场景中，我们经常需要将建筑物坐标(POI)与乘客上车点(ODR)进行空间关联分析。这个问题本质上是一个空间连接(SpatialJoin)问题，需要找到距离
RESTful API 设计原则深度解析大曰编程 java面试后端
在Web服务架构中，RESTfulAPI作为一种轻量级、可扩展的接口设计风格，通过HTTP协议实现资源的标准化访问。本文从核心原则、URL设计、HTTP方法应用、状态管理及面试高频问题五个维度，结合工程实践与反例分析，系统解析RESTfulAPI的设计规范与最佳实践。一、RESTful核心原则与架构约束1.1六大核心原则原则定义设计目标资源导向以资源（Resource）为核心，而非操作（如“用户”
这些面试问题，最好提前准备面试问题
今天给大家整理一份面经合辑。我经常整理并分享组织内部朋友们的面经，发现有那么几个问题面试官总是问到，我先把这几个问题列出来，你们可以先自己尝试回答一下，然后再看我给出的答题思路：1、请介绍一下你自己。2、做某个项目遇到了哪些问题？是如何解决的？3、高并发场景下的性能优化？4、作为普通成员，你如何推动团队采纳你的建议？5、你擅长什么？爱好什么？6、你有什么想要问我的？回答思路面试官：“请你介绍一下自
Java程序员谢飞机的魔幻面试之旅：从Spring Boot到Redis，你也能笑对大厂面试！ koen__ Java场景面试宝典 Java面试 Spring Boot Redis 微服务分布式系统高并发网络安全
Java程序员谢飞机的魔幻面试之旅：从SpringBoot到Redis，你也能笑对大厂面试！在一场充满戏剧性的互联网大厂面试中，我们跟随搞笑程序员谢飞机的脚步，深入探索Java技术栈的核心知识点，看他如何用幽默和机智应对各种技术挑战。第一轮：基础技术栈的趣味考验面试官：谢飞机同学，听说你是Java界的魔术师？那我们就先聊聊你的基本功吧。谢飞机：嘿嘿，我虽然不是魔术师，但我能让代码变魔术！1.Spr
java面试题47你工作过程用过哪些设计模式？说出“代理模式”的原理？码农颜 java 设计模式代理模式
在工作中，我虽然没有直接的“开发经历”，但处理用户请求和设计响应时，设计模式是解决问题的核心逻辑。我高频使用的模式包括：策略模式（动态切换算法/行为）观察者模式（事件通知/状态更新）责任链模式（分步处理请求）工厂模式（封装对象创建）代理模式（控制对象访问）深入解析：代理模式（ProxyPattern）核心思想：用一个代理对象作为真实对象的替身，从而控制对真实对象的访问。本质：在客户端和目标对象之间
Qt Creator 11.0创建ROS2 Humble工程余加木 ROS2 Qt qt 开发语言
QtCreator11.0创建ROS2Humble项目工程安装ROSProjectManager插件创建ROS2项目在src下添加packagegitcloneROS2功能包编译运行安装ROSProjectManager插件安装ROSProjectManager的主要流程参考官方的流程，地址（ros_qtc_plugin）。此处采用二进制安装：sudoaptinstalllibarchive-to
LeetCode - #106 从中序与后序遍历序列构造二叉树网罗开发 Swift #LeetCode leetcode 算法职场和发展
文章目录前言1.描述2.示例3.答案关于我们前言我们社区陆续会将顾毅（Netflix增长黑客，《iOS面试之道》作者，ACE职业健身教练。）的Swift算法题题解整理为文字版以方便大家学习与阅读。LeetCode算法到目前我们已经更新到105期，我们会保持更新时间和进度（周一、周三、周五早上9:00发布），每期的内容不多，我们希望大家可以在上班路上阅读，长久积累会有很大提升。不积跬步，无以至千里；
LeetCode - #144 二叉树的前序遍历网罗开发 Swift leetcode 算法职场和发展
文章目录前言1.描述2.示例3.答案关于我们前言我们社区陆续会将顾毅（Netflix增长黑客，《iOS面试之道》作者，ACE职业健身教练。）的Swift算法题题解整理为文字版以方便大家学习与阅读。LeetCode算法到目前我们已经更新到143期，我们会保持更新时间和进度（周一、周三、周五早上9:00发布），每期的内容不多，我们希望大家可以在上班路上阅读，长久积累会有很大提升。不积跬步，无以至千里；
Swift中常见的面试题 ~废弃回忆 �༄ swift Swift面试题 Swift常见面试题 Swift面试题总结
1.Swift与OC相比有什么优势?Swift是强类型语言，注重值类型，有类型推断，安全性高Swift的语法更简洁，使用起来方便，支持函数式编程Swift拥有更强大的特性，它有元组类型、支持可选类型（optional）、支持运算符重载、支持泛型、支持静态/动态派发，协议不仅可以被类实现还可以被struct和enum实现Swift支持命名空间、函数支持默认参数Swift的错误处理机制更完善oc的优点
Kafka 核心机制面试题--自问自答亲爱的非洲野猪 kafka 分布式
基础篇Q1:Kafka为什么能这么快？A:Kafka的高性能主要来自三大核心技术：零拷贝(Zero-Copy)：通过sendfile()系统调用，数据直接从磁盘到网卡，避免了内核态和用户态之间的多次拷贝页缓存(PageCache)：消息直接写入操作系统页缓存而非JVM内存，减少GC影响并利用OS缓存机制内存映射(mmap)：索引文件通过内存映射实现，操作内存即操作文件Q2:Kafka的存储结构是怎
Java面试题100道及答案编程大全面试题 java 开发语言
一、Java基础Java17中的sealed类和record类的作用和区别？答案：sealed类：限制继承关系，通过permits指定允许的子类。示例代码：publicsealedclassShapepermitsCircle,Square{...}；record类：不可变数据类，自动生成equals()、hashCode()和toString()。示例代码：publicrecordUser(St
ORACLE 正确删除归档日志的方法俗尘某某程序员记录 oracle 归档日志
ORACLE正确删除归档日志的方法我们都知道在controlfile中记录着每一个archivelog文件的相关信息，当然们在OS下把这些物理文件delete掉后，在我们的controlfile中仍然记录着这些archivelog文件的相关信息，在oracle的OEM管理器中有可视化的日志展现出，当我们手工清除archive目录下的文件后，这些记录并没有被我们从controlfile中清除掉，也就
Java web开发常见中间件多版本下载备用却诚Salong 安装问题和解决方法 java 中间件开发语言
备注：每次换电脑都要重新构建一下环境，下载找资源很麻烦，官网英文网页找个历史版本看不懂，还要慢慢去搜，所以直接整理一波，需要的自行收藏。1.nodejs自选版本下载：地址：https://nodejs.org/download/release/网速快，自选任何版本下载。2.maven自选版本下载：地址：https://archive.apache.org/dist/maven/maven-3/网速
GUI框架：谈谈框架 baozi3026 框架 command mfc button class string
转帖请注明出处http://www.cppblog.com/cexer/archive/2009/11/15/100988.html1开篇废话我喜欢用C++写GUI框架，因为那种成就感是实实在在地能看到的。从毕业到现在写了好多个了，都是实验性质的。什么拳脚飞刀毒暗器，激光核能反物质，不论是旁门左道的阴暗伎俩，还是名门正派的高明手段，只要是C++里有的技术都试过了。这当中接触过很多底层或是高级的技术
Swift面试题2025（附答案） Skinny Camel swift Swift面试题 iOS面试题 Xcode iOS开发
1、如下Swift的代码的输出结果是什么？请说明理由。vararr1=["1","2","3"]vararr2=arr1arr2.append("4")print(arr1)答：输出结果是：1,2,3此处考察的是Swift和OC中数组数据类型的区别（值类型与引用类型），因为在Swift中数组是值类型，所以当值类型赋值给变量时，它会创建一个新的数组赋值给arr2。2、如下Swift代码运行会不会报错
Swift - 基础面试题赑屃王者面试题 swift 面试
面试题目录一、类和结构体的区别是什么二、写时拷贝机制三、模式匹配四、协议五、泛型六、运算符、下标、字面量协议、尾随闭包七、Optional、变量常量、类型检查、扩展八、函数式编程九、响应式编程十、swift和OC的区别？一、类和结构体的区别是什么类是引用类型，结构体是值类型，拷贝赋值时，结构体是值拷贝，对象赋值时指针拷贝。结构体保存在栈区，类对象保存在堆区，类对象指针一般在栈区，指向堆区的对象。结
[AI笔记]-Word2Vec面试考点 Micheal超 AI笔记人工智能笔记 word2vec
✅一、基础认知类什么是Word2Vec？它的基本思想是什么？关键词：将词语转换为向量表示；捕捉语义关系；基于上下文预测Word2Vec与One-hot编码的区别？关键词：维度灾难(维度过高，存储空间大)、高稀疏性、语义表达能力(没有距离概念，无法计算相似度)、内积关系Word2Vec的两种模型是什么？它们有何区别？答案：Word2Vec的重要假设：文本中离得越近的词语相似度越高。主要有：CBOW（
GO泛型编程面试题及参考答案大模型大数据攻城狮 go golang go泛型 go语法 go面试 go面经 go编译器
目录什么是Go中的泛型？Go从哪个版本开始支持泛型？在Go中如何定义一个带类型参数的函数？如何为结构体添加类型参数？使用any关键字和自定义类型约束有什么区别？泛型中～T的语义及其实际应用是什么？如何在函数中使用多个类型参数？举例说明。Go泛型支持变长参数（variadic）吗？如何结合使用？什么是约束（constraint）？如何定义一个自定义约束？在泛型中如何使用接口类型作为约束？compar
I2C子系统面试指南：基础原理、经典问答与答题技巧全解析嵌入式Jerry Linux+内核面试职场和发展 linux 服务器运维单片机 java
I2C子系统面试指南：基础原理、经典问答与答题技巧全解析关于本篇博文，B站视屏讲解链接，点击进入深度学习一、引言：为什么要深入掌握I2C子系统？在嵌入式、驱动开发、BSP移植、甚至AIoT行业，I2C几乎是绕不开的“基础功”。不管你是应聘Linux驱动开发、嵌入式软件工程师、SoC底层支持，还是BSP/系统调试，I2C的核心架构和调试经验都是面试高频关注点。掌握I2C子系统，关键不止是能写驱动，更
鸿蒙（影音娱乐类）APP开发——在线短视频流畅切换 CTrup HarmonyOS 鸿蒙开发移动开发 harmonyos 娱乐音视频移动开发鸿蒙开发组件化 ArkUI
往期推文全新看点鸿蒙（HarmonyOS）北向开发知识点记录~鸿蒙（OpenHarmony）南向开发保姆级知识点汇总~鸿蒙应用开发与鸿蒙系统开发哪个更有前景？嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~对于大前端开发来说，转鸿蒙开发究竟是福还是祸？鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？记录一场鸿蒙开发岗位面试经历~持续更新中……简介为了帮助开发者解决在应用中在线短视频快速
面试150 旋转图像 Alfred king 面试150题目面试 leetcode 数组
思路解包法。zip函数可以使矩阵转置,本题需要对矩阵先反转在转置。因此联想到zip是一种很简便的方法classSolution:defrotate(self,matrix:List[List[int]])->None:"""Donotreturnanything,modifymatrixin-placeinstead."""matrix[:]=zip(*matrix[::-1])
高性能 List 转 Map 解决方案（10,000 元素）快乐肚皮 list 数据结构 java
文章目录前言一、问题背景：为什么List转Map如此重要？二、基础方法对比：StreamvsFor循环三、性能优化关键点四、面试回答技巧前言遇到一个有意思的面试题，如标题所说，当10,000条数据的List需要转Map，如何完成高性能的转换，本文将深入探讨这个问题。一、问题背景：为什么List转Map如此重要？在Java开发中，List转Map是最常见的集合操作之一：//常见场景ListuserL
Leetcode-423. Reconstruct Original Digits from English K_W 算法 java leetcode 算法
前言：为了后续的实习面试，开始疯狂刷题，非常欢迎志同道合的朋友一起交流。因为时间比较紧张，目前的规划是先过一遍，写出能想到的最优算法，第二遍再考虑最优或者较优的方法。如有错误欢迎指正。博主首发CSDN，mcf171专栏。博客链接：mcf171的博客——————————————————————————————Givenanon-emptystringcontaininganout-of-orderE
测试面试必备：如何在 JMeter 中添加 Cookie 二进制11 #JMeter面试题面试软件测试自动化测试接口测试测试工具 JMeter
JMeter面试题-如何在JMeter中添加Cookie?Cookie在性能测试中的重要性Cookie是Web应用程序中用于维持会话状态的重要机制。在性能测试中，正确处理Cookie对于模拟真实用户行为至关重要。JMeter提供了多种方式来管理Cookie，确保测试脚本能够像真实浏览器一样工作。是否开始测试需要Cookie?添加Cookie管理器直接发送请求发送带Cookie的请求服务器响应结束J
【大模型面试必备】130道大模型问题深度解析，附详细答案，非常详细收藏这一篇就够了！大模型学习大模型架构数据库 langchain 人工智能面试
Attention1、讲讲对Attention的理解？Attention机制是一种在处理时序相关问题的时候常用的技术，*主要用于处理序列数据。*核心思想：在处理序列数据时，网络应该更关注输入中的重要部分，而忽略不重要的部分，它通过学习不同部分的权重，将输入的序列中的重要部分显式地加权，从而使得模型可以更好地关注与输出有关的信息。在序列建模任务中，比如机器翻译、文本摘要、语言理解等，输入序列的不同部
数据库设计体系化知识（后端+前端+AI+三高场景+大厂面试+简历包装） @一叶之秋 Java架构师学习路线数据库前端人工智能 java
数据库设计体系化知识（AI融合版：后端+前端+AI+三高场景+大厂面试+简历包装）一、数据库设计基础：范式理论+AI辅助建模1.核心知识（AI赋能表结构设计）（1）三大范式+AI校验规则落地：用AI代码生成工具（如Copilot）自动校验表结构是否符合范式。→示例：输入“设计学生-班级表”，AI生成符合3NF的表结构，并标注冗余字段风险。后端协同：Java后端通过SchemaValidator工具
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR