Ricky的技术小站

大数据笔试真题集锦---第五章:Hive面试题

第五章目录

第五章 Hive

5.1 Hive 运行原理（源码级）

用户提交查询等任务给Driver。
Antlr解析器将SQL转化为抽象语法树AST Tree
遍历AST Tree，抽出基本的查询单元QueryBlock
遍历QueryBlock，翻译为执行操作树OperatorTree
逻辑层优化器进行OperatorTree变换，合并不必要的ReduceSinkOperator，减少shuffle数据量
遍历OperatorTree，翻译为MapReduce任务
物理层优化器进行MapReduce任务的变换，生成最终的执行计划
执行计划，返回结果

5.2 Hive转化join为MR的原理

5.2.1 reduce端join

map端读取两个表，为两个表的数据分别打上标签tag，发送数据

reduce端根据分区分组规则拿到的数据时key相同的数据，再根据标签tag进行相同key的不同value的join操作，完成实际的连接。

5.2.2 map端join

将小表复制多份存放在每个map task的内存中，然后只扫描大表，对大表中key在小表中存在时，进行一个join拼接操作。

将小表复制的对象方法为DistributedCache.addCacheFile，要使用时再使用相应的提取文件目录的方法，并用标准IO获取到数据。

5.2.3 semi join

先将参与join的表1的key复制到一个新的表3中，然后把新表复制多份到各个map task中，最后将不在新表3的表2的数据过滤掉，再进行reduce。

5.3 Hive 建表

5.3.1 传统方式建表

  #TEMPORARY：临时的  EXTERNAL：外部的
  create [TEMPORARY,EXTERNAL] table [if not exist] [db_name.]name(
  col_name  data_type
  ...
  )
  
  #指定分区字段和类型（字段不在建表语句中）
  [PARTITIONED BY (col_name data_type,...)]
  
  #指定分桶字段和数量（字段存在建表语句中）
  [
  CLUSTERED BY (col_name, col_name, ...) 
    [SORTED BY (col_name [ASC|DESC], ...)]
  INTO num_buckets BUCKETS
  ]
  
  #指定解析格式
  [ROW FORMAT row_format]
  
  #二选一使用hive自带的或自定义OutPutFormat时引入包
  STORED AS file_format |
  STORED BY *'storage.handler.class.name' [WITH SERDEPROPERTIES (...)]*
  
  #外部表创建时必须指定
  [LOCATION hdfs_path]
  
  #指定表的其它属性，这里可以设置压缩格式
  [TBLPROPERTIES (property_name=property_value, ...)]

row_format

  #DELIMITED 与 SERDE 方式二选一指定使用 hive自带的解析方式或自定义解析
  
  DELIMITED 
  [FIELDS TERMINATED BY char [ESCAPED BY char]]
  [COLLECTION ITEMS TERMINATED BY char]
  [MAP KEYS TERMINATED BY char]
  [LINES TERMINATED BY char]
  [NULL DEFINED AS char]   -- (Note: Available in Hive 0.13 and later) 
  
  SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)]

数据类型

ARRAY < data_type >

MAP < primitive_type, data_type >

STRUCT < col_name : data_type [COMMENT col_comment], ...>

5.3.2 CTAS查询建表

CREATE [TEMPORARY,EXTERNAL] TABLE if not existname

[ROW FORMAT row_format]

[STORED AS file_format]

select_statement

缺点：所有数据类型默认最大范围

5.3.3 Like建表

CREATE TABLE t1 LIKE t2

5.4 存储格式和压缩格式

一般选择ORC+bzip/gzip作为数据源的存储，选择则ORC+Snappy作为中间数据的存储

分区表单文件不大可以采用gzip压缩，桶表需要用bzip或lzo支持分片的方式压缩

设置压缩

建表时指定"stored as orc tblproperties ("orc.compress"="gzip")"

设置 set hive.exec.compress.intermediate=true 开启中间数据压缩，然后设置 mapred.map.output.compression.codec 指定中间数据的压缩方式

设置 set hive.exec.compress.output=true 开启输出文件压缩，然后设置 mapred.output.compression.codec 指定输出文件的压缩方式。

5.5 内部表和外部表

hive外部表是使用external关键字并指定一个hdfs目录创建的表。

hive内部表在创建时会在对应hive目录下创建相应的文件夹，外部表则以指定文件夹为数据源创建表。

hive内部表在删除时会将整个文件夹一并删除，外部表则只会删除元数据。

5.6 分区表和分桶表

5.6.1 分区表

将数据按照分区字段拆分存储的表，在hdfs中以文件夹的形式分别存放不同分区的数据，可以避免全表查询，提高查询效率。

5.6.2 动态分区

hive通过设置hive.exec.dynamici.partition=true开启动态分区。

可以在插入数据时根据表中某字段值决定分区，当分区字段完全由变量决定时称为动态分区，若有常量限制则称为混合分区，若完全由常量决定分区时称为静态分区。

5.6.3 分桶表

根据分桶字段hash值分组拆分数据的表，在hdfs中表现为将单个的数据文件拆分为多个文件。

5.6.4 总结

分区字段的每个值都对应一个文件夹和一个分区文件，而分桶字段则是多个值对应一个桶文件。

如果同时使用分区和分桶，则会先按照分区划分文件，再对每个文件按照分桶进行拆分。

5.7 行转列和列转行

行转列（split + explode + laterview）列转行 ( concat_ws + collect_list/set )

5.8 Hive时间函数

from_unixtime(bigint,string) => string 将10位的unix时间戳转为指定格式（默认为yyyy-MM-dd HH:mm:ss）

unix_timestamp(string date,string regex)=> bigint 将指定格式的日期字符串转为10位时间戳

to_date(string date) => string 把标准格式的日期字符串转为yyyy-MM-dd

month(string date) => int 把标准格式的日期字符串转为MM

weekofyear(string date) => int 返回当前周数

quarter(string date) => int 返回当前季度，仅限1.3以上版本，下面trunc限1.2以上版本

trunc(string date,string regex) => string 返回指定日期的起点时间，如trunc('2017-08-10','MM')返回当月第一天，'YYYY'返回当年第一天

current_date() => string 返回yyyy-MM-dd

date_add(string date,int) => string

date_sub(string date,int) => string

datediff(string date,string date) => string 日期比较函数，仅支持标准日期格式或标准格式

更多函数: https://www.cnblogs.com/MOBIN/p/5618747.html

时间戳

不支持13位的毫秒，可以用cast(ct/1000 as bigint)进行转换。

截断机制

标准格式：yyyy-MM-dd HH:mm:ss

不同的函数内部有各自的regex，基于标准格式截断。

如：month()函数内部regex为'yyyy-MM'，识别时截取字符串的前7位比较，符合格式就识别成功，与后续字符串无关，包括内容！

推断依据

month('2017-09-08 14:15') 可以识别月份为09 month('2017-09-08 1415') 也可以识别 month('2017-0908 14:15') 无法识别，返回结果为null month('2017') 无法识别，结果为null data_add('2017-09-10 23:20:30',3) 截断格式'yyyy-MM-dd'，返回结果为'2017-09-13'，丢失了时间精度。

5.9 Hive 排名函数

row_number 不并列不跳过: 1 2 3 4dense_rank 并列不跳过: 1 1 2 3rank 并列跳过: 1 1 3 4

5.10 Hive 分析函数：Ntile

效果：排序并分桶

ntile(3) over(partition by A order by B)

=> {1,2,3}->1,{4,5,6}->2,{7,8,9}->3可用于取前50%数据统计、取中间三分之一统计等需求。

5.11 Hive 拉链表更新

更新过期时间：update TABLE SET FIELD = ? where FIELD2 IN (select ... 相当于where子查询)
将旧数据的过期时间更新为当前时间，然后插入新数据并设置新数据的过期时间为一个最大值。

5.12 Hive 排序

5.12.1 order by

需要加载所有数据到reduce中排序，排序方法可能是冒泡、快排、归并，无论如何都要加载所有数据

5.12.2 order by limit

创建一个大小为limit的缓存数组，采用插入法进行排序，把每行数与数组内的数比较，大的话就插入，每插入一个数都有一个数被挤出去，保证每次比较的次数都只有limit次

因此严格模式允许order by limit，虽然比较的数多，但是每次比较的资源消耗很少。

5.12.3 sort by

局部排序，最终生成的每个文件都有序但不能保证全局有序

5.12.4 sort by limit

相当于sort by + order by limit，先局部排序取TopN,然后读入多个TopN结果再全局排序取TopN。

5.13 Hive 调优

减少distinct：使用distinct容易造成数据倾斜问题，使用group by的子查询代替它。

map任务数量优化：

实际业务中往往存在大量的分区表，每个分区表都实际存储一定量的文件，其中必然有些分区的数据量很少。正常读取时往往有多少个文件就创建多少个map，此时可以通过设置一些参数，让sql语句在执行前先合并表文件。 -参数： mapred.min.split.size.per.node = {设置一个节点中分片至少的大小}byte mapred.min.split.size.per.rack= {设置一个交换机中分片至少的大小}byte mapred.max.split.size = {设置分片的最大大小}byte hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat 设置hive先合并文件再执行 -效果：假设我全部设置为100000000（相当于100M），经过配置后，hive会首先合并文件，切分成各种100M，最后再把剩下来的各个节点上的散碎数据合并到一起再生成几个分片。还有一种情况，当一个map任务中处理数据量很大时（大小很小，但是条数很多），可以采用分桶法，先用一个查询语句把该表数据查出来分桶写入，再使用这个分桶表。相当于增加map任务数量，增加并行度。

并行度优化： 1.手动设置reduce数量 mapred.reduce.tasks 2.避免全局的聚合函数，使用聚合函数尽量要分组 3.避免全局的order by，有时候全局排序很难避免，但可以根据topN需求，再各个分区中只留下N个值，再进行全局排序。 4.避免笛卡尔积 5.设置mapTask分片大小

小文件问题： 1.避免产生小文件：少用动态分区、根据需求使用reduce 2.使用Sequencefile作为表存储格式，不要用textfile，在一定程度上可以减少小文件 3.使用hadoop archive命令把小文件进行归档 4.重建表，建表时减少reduce数量 5.参数设置： hive.merge.mapfiles = true 设置map端输出合并 hive.merge.mapredfiles = true 设置reduce输出合并 hive.merge.size.per.task = 25610001000 设置合并文件的大小 hive.merge.smallfiles.avgsize=16000000 设置当平均大小小于该值时合并

存储格式 1.使用ORCfile存储，可以显著提高join操作的查询速度 2.使用压缩格式存储，可以显著降低网络IO和存储大小

使用map端join

使用tez作为默认引擎

使用向量化查询：一次执行1024行数据的操作 hive.vectorized.execution.enabled = true; hive.vectorized.execution.reduce.enabled = true;

设置本地模式、并行模式（自动并行非依赖阶段）、严格模式

开启JVM重用

可以考虑开启推测执行（慎重）

总结

减少distinct

设置读取时合并小文件和合理拆分大文件

优化并行度

设置存储格式和压缩格式

设置输出时合并小文件

设置map端JOIN

更换引擎

设置本地模式、并行模式、严格模式

开启JVM重用

开启推测执行

5.14 Hive和Hbase区别

hive是高延迟、结构化和面向分析的逻辑存储组件

hbase则是低延迟、非结构化和面向编程的物理存储组件

hive支持sql语句，通常全表扫描，不推荐删除和更新

hbase不支持sql语句，通常随机读写，增删改查速度很快。

hive是行式结构，hbase则是列式存储。

5.15 其他

5.15.1 用过哪些开窗函数

  sum(col) over() : 分组对col累计求和，over() 中的语法如下 
  count(col) over() : 分组对col累计，over() 中的语法如下 
  min(col) over() : 分组对col求最小 
  max(col) over() : 分组求col的最大值 
  avg(col) over() : 分组求col列的平均值first_value(col) over() : 某分区排序后的第一个col值 
  last_value(col) over() : 某分区排序后的最后一个col值 
  lag(col,n,DEFAULT) : 统计往前n行的col值，n可选，默认为1，DEFAULT当往上第n行为NULL时候， 
  取默认值，如不指定，则为NULL 
  lead(col,n,DEFAULT) : 统计往后n行的col值，n可选，默认为1，DEFAULT当往下第n行为NULL时候， 
  取默认值，如不指定，则为NULL 
  ntile(n) : 用于将分组数据按照顺序切分成n片，返回当前切片值。注意：n必须为int类型。 
  排名函数： 
  row_number() over() : 排名函数，不会重复，适合于生成主键或者不并列排名 
  rank() over() : 排名函数，有并列名次，名次不连续。如:1,1,3 
  dense_rank() over() : 排名函数，有并列名次，名次连续。如：1，1，2

5.15.2 hive中两个表join转换成mr程序,怎么转换的,原理是什么

在map的输出value中为不同表的数据打上tag标记，在reduce阶段根据tag判断数据来源。MapReduce的过程如下

5.15.3 sort by 和order by的区别

      order by会对输入做全局排序，因此只有一个Reducer(多个Reducer无法保证全局有序)，然而只有一个Reducer，会导致当输入规模较大时，消耗较长的计算时间。这样很可能会超过单个节点的磁盘和内存存储能力导致任务失败。
      sort by的数据只能保证在同一个reduce中的数据可以按指定字段排序。使用sort by你可以指定执行的reduce个数(通过set mapred.reduce.tasks=n来指定)，对输出的数据再执行归并排序

5.15.4 交易表结构为user_id(用户ID),order_id(订单ID),pay_time(付款时间),order_amount(金额)

1. 写sql查询过去一个月付款用户量（提示：用户量需去重）最高的三天分别是哪几天？

2. 写sql查询昨天每个用户最后付款的订单ID及金额

   select
  
   date_format(pay_time,'%Y-%m-%d') days ,
  
  count(distinct user_id) 
  
  from table
  
  where pay_time>=date_sub(now(),interval 1 month) #过去一个月
  
   group by date_format(pay_time,'%Y-%m-%d')
  
   order by count(distinct user_id) desc
  
   limit 3

思路：求最高的三天，肯定是先排序，后limit. 先求出每天的付款用户量，既然每天，那肯定要按天分组了；按照题目要求过滤条件有：1.过去一个月 2.付款用户（即要排除未付款的用户），另外求用户量需要去重，题目中也有提示，因为存在同一个用户每天有多笔消费记录的情况；返回排在前三的付款用户量及对应的时间（天）

  select 
  
  a.user_id, a.order_amount
  
   from
  
  (select 
  
  user_id, order_amount,
  
  row_number() over(partition by user_id order by pay_time desc) as rank
  
  from table
  
  where date_format(pay_time,"%Y-%m-%d")=date_sub(curdate(),interval 1 day) #昨天
  
  ) as 
  
  awhere rank=1

5.15.5 用户登录日志表为user_id,log_id,session_id,visit_time

用sql查询近30天每天平均登录用户数量

  select 
  
  avg(numUser) as averageUsers 
  
  from ( 
  
  select 
  
  date_format(visit_time,'%Y-%m-%d') as visit_date, 
  
  count(distinct user_id) as numUser
  
  from table 
  
  where 
  
  datediff(curdate(),visit_date)<=30
  
   group by visit_date 
  
  );

5.15.6 Hive的动态分区和静态分区？

静态分区 SP（static partition）

1、静态分区是在编译期间指定的指定分区名

2、支持load和insert两种插入方式

2.1load方式

1）会将分区字段的值全部修改为指定的内容

2）一般是确定该分区内容是一致的时候才会使用

2.2insert方式

1）必须先将数据放在一个没有设置分区的普通表中

2）该方式可以在一个分区内存储一个范围的内容

3）从普通表中选出的字段不能包含分区字段

3、适用于分区数少，分区名可以明确的数据

动态分区 DP（dynamic partition）

1、根据分区字段的实际值，动态进行分区

2、是在sql执行的时候进行分区

3、需要先将动态分区设置打开（set hive.exec.dynamic.partition.mode=nonstrict ）

4、只能用insert方式

5、通过普通表选出的字段包含分区字段，分区字段放置在最后，多个分区字段按照分区顺序放置

静态分区与动态分区的主要区别在于静态分区是手动指定，而动态分区是通过数据来进行判断。

Shader面试题100道之（81-100）还是大剑师兰特 #Shader 综合教程100+大剑师 shader面试题 shader教程
Shader面试题（第81-100题）以下是第81到第100道Shader相关的面试题及答案：81.Unity中如何实现屏幕空间的热扭曲效果（HeatDistortion）？热扭曲效果可以通过GrabPass抓取当前屏幕图像，然后在片段着色器中使用噪声或动态UV偏移模拟空气扰动，再结合一个透明通道控制扭曲强度来实现。82.Shader中如何实现物体轮廓高亮（OutlineHighlight）？轮廓
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
OkHttp3源码解析--设计模式，android开发实习面试题
this.cache=builder.cache;}//构造者publicstaticfinalclassBuilder{Cachecache;…//构造cache属性值publicBuildercache(@NullableCachecache){this.cache=cache;returnthis;}//在build方法中真正创建OkHttpClient对象，并传入前面构造的属性值publi
C++11中的std::function
文章转载自：http://www.jellythink.com/archives/771看看这段代码先来看看下面这两行代码：std::functiononKeyPressed;std::functiononKeyReleased;这两行代码是从Cocos2d-x中摘出来的，重点是这两行代码的定义啊。std::function这是什么东西？如果你对上述两行代码表示毫无压力，那就不妨再看看本文，就当温
自动化运维工程师面试题解析【真题】
ZabbixAgent默认监听的端口是A.10050。以下是关键分析：选项排除：C.80是HTTP默认端口，与ZabbixAgent无关。D.5432是PostgreSQL数据库的默认端口，不涉及ZabbixAgent。B.10051是ZabbixServer的默认监听端口，用于接收Agent发送的数据，而非Agent自身的监听端口。ZabbixAgent的配置：根据官方文档，ZabbixAgen
javaSE面试题---语法基础、面向对象、常用类、集合、多线程、文件和IO yang_xiao_wu_ java 面试开发语言 javase java基础多线程文件和IO
目录语法基础1.jdkjrejvm区别2.基本数据类型3.引用数据类型4.自动类型转换、强制类型转换5.常见的运算符6.&和&&区别7.++--在前和在后的区别8.+=有什么作用9.switch..case中switch支持哪些数据类型10.break和continue区别11.while和dowhile区别12.如何生成一个取值范围在[min,max]之间的随机数13.数组的长度如何获取？数组下
vue3面试题(个人笔记) 武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js java 学习
vue3比vue2有什么优势？性能更好，打包体积更小，更好的ts支持，更好的代码组织，更好的逻辑抽离，更多的新功能。描述Vue3生命周期CompositionAPI的生命周期：onMounted()onUpdated()onUnmounted()onBeforeMount()onBeforeUpdate()onBeforeUnmount()onErrorCaptured()onRenderTrac
flutter知识点 ZhDan91 flutter
#时隔4年了#4年前用flutter开发海外项目和医疗项目。绘制界面的语法与html还是较类似的。把这些封印的记忆和技术回顾一下，最开始是开发Android出身的，所以开发起flutter来依旧是用的androidstudio开发工具。整理下用到的知识点：整理来源：flutter面试题——基础篇（1）-CSDN博客1、Dart是单线程的。在单线程中以消息循环来运行的。其中敖汉两个任务队列。一个是微
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
2025年渗透测试面试题总结-2025年HW(护网面试) 43（题目+回答）独行soc 2025年护网面试职场和发展 linux 科技渗透测试安全护网
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)431.自我介绍与职业规划2.Webshell源码级检测方案3.2025年新型Web漏洞TOP54.渗透中的高价值攻击点5.智能Fuzz平台架构设计6.堆栈溢出攻防演进7.插桩技术实战应用8.二进制安全能力矩阵9.C语言内存管理精要10.Pyth
python相关内容二湫默 python 开发语言
1.技术面试题（1）详细描述单调栈的工作原理和应用场景答：工作原理：维护一个栈结构，栈中元素保持单调递增或单调递减的顺序。遍历数据时，新元素入栈前，弹出栈顶所有不满足单调关系的元素，再将新元素入栈，确保栈的单调性。应用场景：解决下一个元素更大的问题，如数组中后面一个元素比前面一个入栈的元素大，则需要上一个元素出栈，然后大的那个元素入栈。（2）详细描述单调队列的工作原理和应用场景答：工作原理：维护队
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
C#常见面试题 rapLiu c#数据库开发语言
1.http和https的区别1.HTTP明文传输，数据都是未加密的，安全性较差，HTTPS（SSL+HTTP）数据传输过程是加密的，安全性较好。2.使用HTTPS协议需要到CA（CertificateAuthority，数字证书认证机构）申请证书，一般免费证书较少，因而需要一定费用。证书颁发机构如：Symantec、Comodo、GoDaddy和GlobalSign等。3.HTTP页面响应速度比
C#常见面试题 rapLiu java 开发语言
1.i++中为什么用到锁在C#中，i++通常不需要用锁，因为i++操作本身是一个原子操作。原子操作是指一个操作要么完全执行，要么完全不执行，不会被中断。因此，在单线程环境下，i++操作是安全的。然而，在多线程环境下，如果多个线程同时对i进行++操作，就可能会出现竞争条件（racecondition），导致数据不一致或错误的结果。为了避免这种情况，需要使用锁来保护i的操作，确保在同一时刻只有一个线程
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AWS 管理秘籍（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/cf1c4e1db999839ba88fc56df4011156译者：飞龙协议：CCBY-NC-SA4.0序言AWS平台的增长速度非常快，正在被各行各业广泛采用。正如俗话所说，朋友不会让朋友建立数据中心。不管从哪个角度看，按需计算、网络和存储的模式将持续存在。尤其是当你看到AWS平台在功能和增强方面的更新速度时，很难再去反对站在巨人的肩膀上，尤其是
前端面试题总结——JS篇又又呢前端 javascript 开发语言
一、说说JavaScript中的数据类型？存储上有什么差别？1、数据类型基本类型number：数值类型十进制：letintNum=55八进制（零开头）：letnum1=070十六进制（0x开头）：lethexNum1=0xANaN：特殊数值，意为“不是数值”string：字符串类型boolean：布尔值，true或falseundefined：表示未定义null：空值symbol：是原始值，且符号
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
前端面试题——5.AjAX的缺点？浅端前端面试题前端面试题
①传统的web交互是：用户一个网页动作，就会发送一个http请求到服务器，服务器处理完该请求再返回一个完整的HTML页面，客户端再重新加载，这样极大地浪费了带宽。②AJAX的出现解决了这个问题，它只会向服务器请求用户所需要的数据，并在客户端采用JavaScript处理返回的数据，操作DOM更新页面。③AJXA优点：无刷新更新页面异步服务器通信前端后端负载均衡④AJAX缺点：干掉了Back和Hist
JavaScript知识归纳——面试题 Dream_Lee_1997 JavaScript js面试题
JavaScript面试题总结JavaScript知识点1、JavaScript中settimeout与setinteval两个函数的区别？2、编写JavaScript脚本生成1-6之间的整数？3、在JavaScript脚本中，isNaN的作用是什么？4、JavaScript中获取某个元素有哪几种方式？5、Ajax的优缺点都有什么？6、简述一下Ajax的工作原理。7、JavaScript中的数据类
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
2023高薪前端面试题（二、前端核心——Ajax）
原生AjaxAjax简介Ajax全程为AsynchronousJavaScript+XML，就是异步的JS和XML通过AJAX可以在浏览器中向服务器发送异步请求，最大的优势是：无刷新获取数据，实现局部刷新Ajax是一种用于创建快速动态网页的技术AJAX不是新的编程语言，而是一种将现有的标准组合在一起使用的新方式Ajax的应用场景页面上拉加载更多数据列表数据无刷新分页表单项离开焦点数据验证搜索框提示
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
前端面试题——手写实现 ajax 阿水爱踢中锋 ajax js 前端
凡是和后台有过数据交互的小伙伴肯定都接触过ajax.我们可以通过ajax来实现页面的无刷新请求数据，这样就能在保证良好用户体验的同时，将更多的内容展示给用户ajax在我们的开发工作中已经司空见惯，几乎所有我们频繁使用的库和框架都提供了经过完善封装后的ajax方法，如jQuery、zepto、angular等等，这使得我们的数据请求变得异常简洁明了但是这也带来了很明显的缺陷，就是我们知道如何去使用封
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
AWS Terraform 架构指南（二）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/8b2d222956a050c7632b9eee086dadcf译者：飞龙协议：CCBY-NC-SA4.0第七章：7在项目中实现Terraform您准备好开始使用Terraform开发您的AWS基础设施了吗？在本章中，您将学习Terraform的基础知识，并了解如何在AWS中部署您的第一个模板。我们将介绍选择合适的AWS提供商和选择满足您项目需求的
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
Golang面试题二（slice,map,chan） os-lee go高级 golang 开发语言后端
目录1.slice的底层实现1.结构体定义2.slice四种初始化方式3.底层函数2.Go语言当中数组和slice的区别是什么？1.长度不同2.函数传参不同3.计算长度方式不同3.slice的扩容机制，有什么注意点扩容机制总结4.扩容前后的Slice是否相同5.深拷贝和浅拷贝浅拷贝（ShallowCopy）深拷贝（DeepCopy）总结6.slice为什么不是线程安全的7.map底层实现8.map
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
【数据攻略】字节面试真题（含答案）+100道面试题库六哥（数据攻略）面试数据分析 java
整理了一套字节的面试真题，还有100道PDF版的面试题库一、SQL题面试真题1：抖音电商平台，现有一张订单表（order_info），有以下字段：order_idgoods_idorder_amt请统计销量金额前10的商品信息。▼参考答案：此题考察的知识点较为简单，主要是考察GROUPBY和窗口函数。面试真题2：现有一张用户登录表（user_login_log），请统计2021.9.1之前活跃过，
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。