叫我莫言鸭

Hive面试自学版

1.什么是HIVE？

Hive是由Facebook开源，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。
Hive是一个基于Hadoop的数据仓库工具，可以将结构化数据文件映射为一张表，同时可以将H-SQL语句转化为MapReduce程序在集群上运行。

2.描述一下Hive的架构模型

答案1

客户端 ->Hive/HiveServer2->MetaStore->Hadoop->MapReduce
1.首先客户端访问Hive或者访问HiveServer2
2.其次MetaStore通过访问Hadoop来记录相关元数据
3.前两步是启动Hive连接之后的预备操作，
现在就可以看到数据了，通过写SQL语句来操作数据
4. Driver驱动器通过生成计划找到最优解来调用YARN
这时候访问元数据 HADOOP YARN

答案2

Hive大致由hive服务模块、hive客户端模块、以及元数据存储模块和真实数据数据存储模块所组成。通常通过hive命令启动hive客户端需要启动metastore服务来保证对元数据的访问，而元数据是保存在第三方的关系型数据库中，例如MySQL。如果想使用第三方客户端工具远程访问Hive数据，我们要启动hiveserver2服务。接下来如果执行一条查询语句，首先由客户端发起请求hive，然后hive会通过自身的Driver引擎对查询语句进行语义分析生成逻辑执行计划，然后在对其进行优化，然后再将其转化成MR程序，就是所谓的物理执行计划，最后在对MR物理执行计划进行优化，最后再将MR程序默认提交Yarn集群执行，在这个过程中会通过对元数据的访问操作达到和Hadoop集群的交互。最终查询结果会返回给客户端窗口。

3.简单说一下Hive中内部表和外部表的区别，以及它们的使用场景

1.首先说一下区别

内部表：在Hive中删除元数据时将HDFS的数据一并删除
外部表：删除元数据时不删除HDFS的数据

2.使用场景(主要还是针对特点看数据需不需要删除)

内部表：储存修改的临时数据如:原始日志修改后的数据表
外部表：储存最原始数据比如原始日志

答案2

在 Hive 中，我们可以创建两种类型的表：内部表（Managed Table）和外部表（External Table）。
当我们创建内部表时，Hive 会完全管理表的数据和元数据。也就是说，数据的生命周期由 Hive 来控制。当我们删除内部表时，Hive 会同时删除元数据和存储在 HDFS 上的数据。这种表适合用于临时数据和中间结果的存储。
当我们创建外部表时，Hive 只管理元数据，而数据的生命周期需要用户自己来控制。当我们删除外部表时，Hive 只删除元数据，而数据仍然保留在 HDFS 中。这种表适合用于共享数据和持久化数据的存储。如果你有多个 Hive 实例或者其他应用需要访问同一份数据，那么使用外部表会很有帮助。
选择内部表还是外部表主要取决于数据的使用场景和生命周期。如果你的数据是临时的、只被 Hive 使用，那么可以选择内部表；如果你的数据是持久的、需要被多个应用或者 Hive 实例共享，那么应该选择外部表

4.简单介绍一下Hive中的hiveserver2和metastore服务

1.HiveServer2

HiveServer2 提供远程访问服务
客户通过访问HiveServer2这个中间件来访问Hadoop集群
HiveServer2通过开启用户模拟功能来实现HiveServer2的访问用户与Hadoop的访问用户达到一致，从而提高安全性（权限隔离）。

2.metastore 元数据访问接口

为Hive和HiveServer2提供元数据访问接口
分为两种
嵌入式:Hive内置，只能为Hive和HiveServer2提供服务，
独立服务：通过访问独立的MetaStore来访问元数据库，数据都存在这个Metastore中

答案2

在 Hive 的架构中，HiveServer2 和 Metastore 是两个非常重要的组件。它们分别负责处理客户端的查询请求和存储 Hive 的元数据。
HiveServer2 是 Hive 提供的服务接口，用户可以通过它向 Hive 提交 HQL 查询和其他命令。HiveServer2 支持多用户并发和认证，起到动态代理登录用户及模拟用户的功能。它还提供了 JDBC 和 ODBC 的接口，允许外部应用程序连接到 Hive。例如，你可以通过 HiveServer2 从 Python、Java、 C++等应用程序或者一些可视化工具中查询 Hive 的数据。
Metastore 是 Hive 访问元数据的服务，Hive 的元数据包括表的名字、列的名字和类型、表的分区、表的存储位置等等信息。Hive 的所有操作，例如创建表、查询表、修改表，都需要通过 Metastore 来获取或者更新元数据。Metastore 可以被部署在同一个 HiveServer2 进程中，也可以被部署为一个独立的服务，供多个 Hive 实例共享。
总的来说，这两个服务都是 Hive 架构的重要组成部分，确保了 Hive 的功能和性能。HiveServer2 为用户提供了访问 Hive 的接口，而 Metastore 则为 Hive 提供了元数据管理的功能。

5.说一下Hive中都有哪些排序场景，分别都是怎么实现的

1.order by 全局排序大表不拆分进行排序
2.sort by 局部排序,区内进行排序
3.distribute 这个排序是其实不算排序,是一个map的分区规则,按照hash对区数取余分区

答案2

在 Hive 中，我们主要可以使用三种方式进行排序：order by，sort by 和 distribute by。这三种方式在排序结果和性能上有所不同。
order by这是最简单的排序方式，它会对输入的所有数据进行全局排序。order by 在执行时会生成一个单独的 Reducer 来进行排序，这意味着所有的数据都需要发送到这个 Reducer 上，然后在 Reducer 上进行排序。这个过程会消耗大量的时间和计算资源，所以 ORDER BY 适合小数据集的排序，但是对于大数据集的排序，性能可能会比较差。
sort by 会在每个 Reducer 上分别对数据进行排序，然后按照 Reducer 的顺序输出结果。因为 sort by 可以并行地在多个 Reducer 上进行排序，所以它比 order by 的性能更好。但是，sort by不能保证全局排序的结果，只能保证在每个 Reducer 输出的文件内部是有序的，并且sort by 执行过程中进入每一个Reducer的数据是随机的。
distribute by 并不直接进行排序，而是决定 MapReduce 任务中的数据分发。distribute by 会根据指定的列将数据分发到不同的 Reducer 上，保证相同的键值会被分发到同一个 Reducer。通常，我们会和 sort by 一起使用 distribute by，以达到更好的排序效果。

6.六、大致描述一下Hive中如何创建分区表，以及使用分区表的好处是什么？

1.创建分区表：通过partition by 关键字结合相关的分区字段来创建分区表
2.分区表的好处：
首先先明确一下分区表什么。分区表将一个表按某个字段进行划分，这里和MapReduce的分区其实并没有什么区别。将一整块大数据分成了许许多多的小数据。
查询和修改都变的方便了，可以按照分区字段直接定位。

答案2

Hive 中的分区表实质上就是在HDFS中将表的数据进行分目录管理，从而达到提升查询效率的目的。分区表在建表的时候就要去指定，通过partitioned by 关键字结合分区字段来创建分区表。分区表可以声明多级分区表。
分区表的主要好处在于大概有三个方面，提高查询效率、降低存储成本、方便数据管等。
当你在查询数据时，如果你的查询条件包含了分区列，那么 Hive 只需要读取满足条件的分区的数据，而不需要读取整个表的数据。这样可以大大提高查询效率。
你可以为不同的分区设置不同的存储格式和压缩算法，以降低存储成本。例如，对于历史数据，你可以选择更高的压缩比例，以节省存储空间。
分区还可以让你更方便地管理数据。例如，你可以单独删除或者归档某个分区的数据，而不影响其他分区。
虽然分区表的优点很明显，但是过度分区可能会导致元数据的管理成本增加，影响查询性能。因此，设计分区时应该考虑到表的大小、查询模式和数据的生命周期等因素。

7.给分区表加载数据的方式有哪些？

这里要区分一下，分区表有两种，一种是静态分区，一种是动态分区。

动态分区的主要就是将一张大表优化为许许多多的小表，注意前提，这时大表已经存在，只是需要做分解。所以加载的话，就是将整个表的数据插入分区表。
静态分区，因为他是创建时候的表，所以既可以来自load也可以来自insert。

答案2

在 Hive 中，加载数据及创建分区主要有两种场景，分别是静态分区和动态分区
针对静态分区加载数据场景，使用load或者insert都可以，但是需要注意的是在加载数据的同时要对分区字段也要赋值，对分区字段赋值其实也是创建分区的过程。这个过程需要手动赋值进行操作。
针对动态分区加载数据场景，可以依赖特定的查询结果往分区表中插入数据及自动的创建分区。需要注意的是这种场景要求分区字段必须来源被查询的表中，以及整个分区表中的数据也是来自于被查询的表。

8.在使用分区表的同时需要注意什么问题，我们定义的分区是越多越好吗

在使用 Hive 分区表时，有几个重要的注意事项：

分区数量：虽然更多的分区可以提高查询效率，但是过度分区可能会导致元数据的管理成本增加，影响查询性能。Hive 的元数据存储在元数据存储中，如果分区数量过多，可能会使得元数据存储过载，造成性能瓶颈。一般来说，一个表的分区数量最好不要超过几万个。

数据倾斜：如果分区键的选择不合理，可能会导致数据倾斜，即一部分分区的数据量远大于其他分区。数据倾斜会严重影响查询性能和资源利用率。因此，你应该选择一个可以均匀分布数据的键作为分区键。

分区维护：随着时间的推移，可能会有新的分区加入，也可能会有旧的分区被删除。你需要确保有足够的资源和策略来管理这些分区，例如，定期归档或者删除旧的分区，以释放存储空间。

总的来说，分区是一种强大的工具，可以大大提高查询效率和数据管理的便利性。但是，你也需要小心地选择分区键和数量，以避免数据倾斜和过度分区的问题。同时，你也需要有足够的资源和策略来管理和维护分区。

9.Hive中的分桶表怎么创建，什么情况下会使用分桶表

在 Hive 中，你可以创建被“桶”划分的表，我们称之为分桶表。与分区表类似，分桶表是另一种细粒度的数据分隔策略。桶的数目在创建表时定义，并且不会随着数据的增加而改变。
创建分桶表的语法如下：
CREATE TABLE table_name (column1 type1, column2 type2,…)
CLUSTERED BY (column_name) INTO num_buckets BUCKETS;
例如，如果你有一个订单表，你可以根据订单 id 进行分桶，创建语句如下：
CREATE TABLE orders (order_id INT, product_id INT, price FLOAT)
CLUSTERED BY (order_id) INTO 64 BUCKETS;
在这个例子中，所有的订单根据 order_id 列的值被划分到 64 个桶中。每个桶都对应一个 HDFS 文件，具有相同 order_id 值的订单会被放入同一个桶。

那么在什么情况下会使用分桶表呢？

数据倾斜问题：在大数据处理中，数据倾斜是一个常见的问题，数据倾斜意味着某些键值的数据量远大于其他键值，这会导致资源利用不均。通过分桶，我们可以将数据更均匀地分布到不同的桶中，从而减轻数据倾斜的问题。

优化特定类型的查询：例如，对于 join 操作，如果两个表都按照 join 列进行了分桶，并且桶的数量相同，那么 Hive 可以在每个桶上单独进行 join，从而并行处理多个桶，提高查询效率。

采样查询：Hive 提供了一种基于桶的采样机制，可以只读取一个或者多个桶的数据。这对于在大数据集上进行快速探索或者调试非常有用。

但是需要注意的是，分桶需要更精细的设计和管理，不适合所有情况。并且，分桶不能替代分区，分区和分桶在数据管理和查询优化方面有各自的优点，通常会一起使用。

10 分桶与分区的区别

分桶能控制的只有桶的个数和按照的列，而分配规则由Map决定
分区则更细化，不规定个数。
分桶的桶Join支持大表的MapJoin而分区不行

11. 列举常用的单行函数

round
rand
ceil floor
substring
current_date
date
datediff date_add

12.描述一下Hive中实现行转列和列转行的思路，一般都用什么函数实现上述两种需求

行转列： collect_Set/collect_list

列转行： explode炸裂

行转列：在 Hive 中，行转列通常使用聚合函数，例如 collect_set 或 collect_list。这些函数可以将特定列的多个行值聚合成一个集合或列表。例如，如果有一个包含用户 ID 和他们购买的商品的表，你可以使用如下查询将每个用户购买的所有商品聚合到一个列表中：
SELECT user_id, collect_list(product) as product_list FROM purchasesGROUP BY user_id;
这将生成一个新的表，其中每一行对应一个用户 ID，产品列则包含该用户购买的所有产品的列表，这样就实现了从行到列的转换。

列转行：在 Hive 中，列转行通常使用 explode 函数。当你有一列是数组或 map 类型的数据，你可以使用 explode 函数将其展开为多行。例如，如果有一个表包含用户 ID 和他们购买的商品列表，你可以使用如下查询将商品列表展开为多行：
SELECT user_id, explode(product_list) as productFROM purchases;
这将为每个用户和每个商品生成一行，也就是将商品列表展开为多行，实现了从列到行的转换。但是如果列转行后想要和原表中的数据进行对应的话需要结合lateral view进行侧写来完成。

13.你是如何理解开窗函数的，概括一下开窗的本质

观察开窗，首先看一下聚合函数group by的区别

聚合函数：group by通过修改表结构来改变表的内容
开窗函数：通过partition by orderby等，不需要修改表结构从而对特定窗口内的数据进行计算.或者说开窗是加强版的聚合。
在原表的操作上直接进行聚合操作，同时并不修改表结构，并且每一行都能得到一个结果，从而得到聚合后的结果。

1.表结构聚合直接修改表结构达到聚合（1对多）开窗不修改表结构，直接在原表基础上进行操作
2.结果聚合之后未参与分组的列只能通过聚合函数来进行表现，而开窗的partitionby和

开窗函数（Window Functions）是 SQL 的一部分，用于处理比普通的聚合查询更复杂的数据分析任务。开窗函数在进行计算时，会为输入的每一行定义一个"窗口"，这个窗口内的行集合是这一行的函数计算的基础。
一个窗口函数的执行可以分为三个步骤：
分区：首先，所有的行会根据 PARTITION BY 子句进行分区，具有相同 PARTITION BY 表达式值的行属于同一分区。

排序：然后，每个分区中的行会根据 ORDER BY 子句进行排序。

窗口定义：最后，对于每一行，都会在其所在分区内定义一个窗口。这个窗口由 ROWS 或 RANGE 子句定义，这个窗口内的行就是该行的窗口函数计算的基础。

窗口函数的强大之处在于，尽管它们进行的是聚合操作（比如求和、计数、找最大/最小值等），但它们并不像普通的聚合函数那样将多行聚合成一行，而是为输入的每一行都返回一个结果。这样，就可以在保留详细信息的同时进行聚合分析。
例如，你可以使用窗口函数来计算每个用户的购买总额，并与其他用户的购买总额进行比较，以此来找出购买最多的用户。在这个例子中，每一行（即每一个用户）的窗口是由该用户的所有购买组成的，窗口函数是求和函数，用来计算窗口内的购买总额。
总的来说，开窗函数的本质是通过为每一行定义一个"窗口"（也就是一组相关联的行），然后对这个窗口进行聚合计算，为每一行返回一个结果，以此来进行更复杂的数据分析。

python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
MYSQL面试系列-04 king01299 面试 mysql 面试
MYSQL面试系列-0417.关于redolog和binlog的刷盘机制、redolog、undolog作用、GTID是做什么的？innodb_flush_log_at_trx_commit及sync_binlog参数意义双117.1innodb_flush_log_at_trx_commit该变量定义了InnoDB在每次事务提交时，如何处理未刷入（flush）的重做日志信息（redolog）。它
Kafka 消息丢失如何处理？架构文摘JGWZ 学习
今天给大家分享一个在面试中经常遇到的问题：Kafka消息丢失该如何处理？这个问题啊，看似简单，其实里面藏着很多“套路”。来，咱们先讲一个面试的“真实”案例。面试官问：“Kafka消息丢失如何处理？”小明一听，反问：“你是怎么发现消息丢失了？”面试官顿时一愣，沉默了片刻后，可能有点不耐烦，说道：“这个你不用管，反正现在发现消息丢失了，你就说如何处理。”小明一头雾水：“问题是都不知道怎么丢的，处理起来
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
【华为OD技术面试真题精选 - 非技术题】 -HR面，综合面_华为od hr面一个射手座的程序媛程序员华为od 面试职场和发展
最后的话最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！资料预览给大家整理的视频资料：给大家整理的电子书资料：如果本文对你有帮助，欢迎点赞、收藏、转发给朋友，让我有持续创作的动力！网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以点击这里获
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
2019考研 | 西交大软件工程笔者阿蓉
本科背景：某北京211学校电子信息工程互联网开发工作两年录取结果：全日制软件工程学院分数：初试350+复试笔试80+面试85+总排名：100+从五月份开始脱产学习，我主要说一下专业课和复试还有我对非全的一些看法。【数学100+】张宇，张宇，张宇。跟着张宇学习，入门视频刷一遍，真题刷两遍，错题刷三遍。书刷N多遍。从视频开始学习，是最快的学习方法。5-7月份把主要是数学学好，8-9月份开始给自己每个周
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Day_11 ROC_bird.. 算法
面试题16.15.珠玑妙算-力扣（LeetCode）/***Note:Thereturnedarraymustbemalloced,assumecallercallsfree().*///下标和对应位置的值都一样，answer[0]+1,对应位置的值猜对了，但是下标不对，answer[1]+1int*masterMind(char*solution,char*guess,int*returnSiz
字节二面 Redstone Monstrosity 前端面试
1.假设你是正在面试前端开发工程师的候选人，面试官让你详细说出你上一段实习过程的收获和感悟。在上一段实习过程中，我获得了宝贵的实践经验和深刻的行业洞察，以下是我的主要收获和感悟：一、专业技能提升框架应用熟练度：通过实际项目，我深入掌握了React、Vue等前端框架的使用，不仅提升了编码效率，还学会了如何根据项目需求选择合适的框架。问题解决能力：在实习期间，我遇到了许多预料之外的技术难题。通过查阅文
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（二十八）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
Java -jar 如何在后台运行项目 vincent_hahaha
撸了今年阿里、头条和美团的面试，我有一个重要发现.......>>>说到运行jar包通常我们都会以下面的方式运行:java-jarspringboot-0.0.1-SNAPSHOT.jar这样运行的话会有一个问题，就是我们一关闭当前窗口就会停止运行项目，要想解决这个问题，就需要在后台运行。nohupjava-jarbabyshark-0.0.1-SNAPSHOT.jar >log.file 2>&
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
【Death Note】网吧战神之7天爆肝渗透测试死亡笔记_sqlmap在默认情况下除了使用 char() 函数防止出现单引号 2401_84561374 程序员笔记
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！特殊服务端口2181zookeeper服务未授权访问
【Kubernetes】常见面试题汇总（十一） summer.335 Kubernetes kubernetes 容器云原生
目录33.简述Kubernetes外部如何访问集群内的服务？34.简述Kubernetesingress？35.简述Kubernetes镜像的下载策略？33.简述Kubernetes外部如何访问集群内的服务？（1）对于Kubernetes，集群外的客户端默认情况，无法通过Pod的IP地址或者Service的虚拟IP地址：虚拟端口号进行访问。（2）通常可以通过以下方式进行访问Kubernetes集群
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
华雁智科前端面试题因为奋斗超太帅啦前端笔试面试问题整理 javascript 开发语言 ecmascript
1.var变量的提升题目：vara=1functionfun(){console.log(b)varb=2}fun()console.log(a)正确输出结果：undefined、1答错了，给一个大嘴巴子，错误答案输出结果为：2,1此题主要考察var定义的变量，作用域提升的问题，相当于varaa=1functionfun(){varbconsole.log(b)b=2}fun()console.l
保研日记--哈工大威海计算机学院 faaarii 保研
传送门保研日记--中国海洋大学计算机系保研日记--中国人民大学信息学院（人大信院）保研日记--北京交通大学计算机学院保研材料模板（自我介绍，个人简历，个人陈述，推荐信）哈工大威海计算机学院这次夏令营给我的感觉非常的朴素，哈哈哈哈营员就有四个群，985/211、双一流、双非、四非？？没有宣讲会、见面会，在面试开始之前放了一个简短的宣传片。（傲娇，绝对不整那些花里胡哨的哈哈哈）面试有三组老师，分别问你
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
自动化测试工程师面试，常问的问题有哪些？自动化测试老司机软件测试测试工程师自动化测试面试职场和发展软件测试 selenium 测试工具 android 测试工程师
自动化测试工程师面试是非常重要的环节，面试官会通过一系列的问题来评估候选人的技能和经验。下面是一些常见的问题，以及如何详细而规范地回答这些问题的建议。1.请介绍一下你的自动化测试经验。回答这个问题时，可以从项目经验、使用的自动化测试工具、编写的测试脚本等方面来介绍自己的经验。重点强调你在自动化测试领域的技能和擅长的领域。2.你在自动化测试中使用的编程语言是什么？为什么选择这种语言？回答这个问题时，
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL