自节码

大数据面试题整理——Hive

系列文章目录

大数据面试题专栏点击进入

文章目录

系列文章目录
Hive 面试知识点全面解析
- 一、函数相关
- - （一）函数分类与特点
  - （二）`concat`和`concat_ws`的区别
- 二、SQL 的书写和执行顺序
- - （一）书写顺序
  - （二）执行顺序
- 三、where 和 having 的区别
- - （一）筛选时机
  - （二）示例
- 四、表连接的方式及区别
- - （一）连接方式
  - （二）区别示例
- 五、Hive 的排序方式及区别
- - （一）排序方式
  - （二）区别
- 六、Hive 的体系架构
- - （一）Hive 概述
  - （二）主要组件
- 七、Hive 的表分类
- - （一）管理表（内部表）
  - （二）外部表
  - （三）分区表
  - （四）桶表
- 八、将数据导入Hive的方式
- - （一）将文件数据导入Hive表中
  - （二）直接将查询结果放入新创建的表中（执行查询的创建）
  - （三）将查询结果导入已经存在表
  - （四）将HDFS中已经存在文件导入新建的Hive表中
  - （五）`insert into 表名 values`
- 九、开窗函数
- - （一）开窗函数语法及分类
  - （二）应用场景
- 十、Hive SQL 执行的方式
- 十一、Hive 的自定义函数
- - （一）函数类型及定义
  - （二）应用场景及临时函数与永久函数的区别
- 十二、Hive 优化
- - （一）开启本地模式
  - （二）JVM 重用
  - （三）设置并行执行
  - （四）开启`hive`严格模式
  - （五）通过mapjoin提高大表和小表的join执行速度、通过桶表的join解决大表和大表的join
  - （六）列裁剪与分区裁剪
  - （七）避免数据倾斜
- 十三、Hive 文件存储格式
- 十四、Hive 序列化
- 十五、Hive 中`maptask`和`reducetask`的数量
- 十六、Hive中的mapjoin、commonjoin、smbjoin的特点与区别
- - MapJoin原理及特点
  - CommonJoin原理及特点
  - smbJoin原理及特点
- 十七、Hive 中的压缩
- - （一）Hive 在不同阶段的压缩
- 十八、Hive 如何导出数据
- - （一）使用 ETL 工具
  - （二）导出数据到本地目录
  - （三）导出到 HDFS 的目录下
- 十九、Hive SQL 的行转列和列转行（适用于 MySQL）
- - （一）示例表及数据
  - （二）行转列操作
  - （三）列转行操作
- 二十、如何实现 Hive 的动态分区
- - （一）需求场景
  - （二）实现步骤
- 二十一、Hive 表的字段类型
- 二十二、Hive 的相关概念及特点总结
- - （一）Hive 概述
  - （二）Hive 与传统关系型数据库的区别
  - （三）Hive 的架构及组件作用
  - （四）Hive 的分区和桶
  - （五）Hive 支持的连接方式及特点
  - （六）Hive 中查询性能优化方法
  - （七）Hive 中数据倾斜的相关问题

Hive 面试知识点全面解析

一、函数相关

（一）函数分类与特点

单行函数
- 特点：一进一出。
- 细分类型及示例：
  - 字符串函数：
    - substring：用于截取字符串的子串。例如，substring('abcdefg', 2, 4)返回bcde，表示从字符串'abcdefg'的第2个位置开始截取，截取长度为4。
    - concat：连接多个字符串。例如，concat('hello', 'world')返回helloworld，将'hello'和'world'连接在一起。
    - concat_ws：与concat类似，但可以指定连接字符串之间的分隔符。例如，concat_ws(', ', 'apple', 'banana', 'cherry')返回apple, banana, cherry，使用, 作为分隔符连接三个字符串。
  - 日期函数：
    - datediff：计算两个日期之间的天数差。例如，datediff('2023-10-10', '2023-10-01')返回9，表示从2023-10-01到2023-10-10相差9天。
    - date_add：在给定日期上增加指定的天数。例如，date_add('2023-10-10', 5)返回2023-10-15，在2023-10-10的基础上增加5天。
  - 数值函数：
    - round：对数值进行四舍五入。例如，round(3.14159, 2)返回3.14，将3.14159保留两位小数四舍五入。
    - floor：向下取整。例如，floor(3.9)返回3，取不大于3.9的最大整数。
    - ceil：向上取整。例如，ceil(3.1)返回4，取不小于3.1的最小整数。
    - cast：用于类型转换。例如，cast('123' as int)将字符串'123'转换为整数123。
  - 流程控制函数：
    - case when then end：用于条件判断。例如，select case when age > 18 then '成年' else '未成年' end from users，根据age字段的值判断是成年还是未成年。
    - if：简单的条件判断函数。例如，if(condition, value1, value2)，如果condition为真，则返回value1，否则返回value2。
  - 集合函数：
    - nvl：用于处理空值。例如，nvl(column_name, default_value)，如果column_name为NULL，则返回default_value，否则返回column_name的值。
聚合函数
- 特点：多进一出。
- 示例：
  - max：求最大值。例如，select max(salary) from employees，返回employees表中salary列的最大值。
  - min：求最小值。
  - avg：求平均值。
  - count：计数。
  - sum：求和。
  - collect_list：将分组后的某个列值存放在一个数组中，不去重。例如，select collect_list(id) from table，会将id列的值收集到一个数组中，每个分组对应一个数组。
  - collect_set：与collect_list类似，但会对集合中元素去重。
炸裂函数
- 特点：一进多出。
- 示例：
  - explode：将数组或映射中的元素拆分成多行。例如，对于一个包含数组字段的表，explode(array_column)可以将数组中的每个元素作为一行输出。
  - posexplode：除了将元素拆分成多行，还会返回元素的位置索引。

（二）`concat`和`concat_ws`的区别

concat函数用于简单地连接多个字符串，没有指定分隔符，直接将字符串拼接在一起。
concat_ws函数可以指定一个分隔符，用于在连接字符串时插入分隔符，使得连接后的字符串更具可读性和规范性。例如，在连接多个单词组成一个句子时，concat_ws(' ', 'hello', 'world')可以清晰地用空格分隔每个单词，而concat('hello', 'world')则是直接连接成helloworld，没有分隔。

二、SQL 的书写和执行顺序

（一）书写顺序

select.. from.. join.. group by.. having.. order by.. limit

（二）执行顺序

from.. join.. group by.. having.. select.. order by.. limit

例如，在执行一个查询时，首先从指定的数据源（from）读取数据，然后进行表连接（join）操作，接着按照group by指定的列进行分组，对分组后的数据应用having筛选条件，之后进行select列的选择和计算，最后按照order by进行排序，并根据limit限制返回的行数。

三、where 和 having 的区别

（一）筛选时机

where在分组之前对数据进行筛选，它可以直接使用表中的任意字段进行条件判断，但不能使用聚合函数。
having在分组之后对分组结果进行筛选，只能使用分组字段和聚合函数作为筛选条件，不能使用分组字段以外其他原表字段。

（二）示例

假设我们有一个销售数据表，包含字段product_id（产品ID）、quantity（销售数量）、date（销售日期）等。

如果我们要查询销售数量大于100的记录，可以使用where：select * from sales where quantity > 100。
如果我们要查询每个产品的总销售数量，并找出总销售数量大于500的产品，需要先分组再筛选，此时使用having：select product_id, sum(quantity) as total_quantity from sales group by product_id having total_quantity > 500。

四、表连接的方式及区别

（一）连接方式

左连接（Left Outer Join）：以左边表为主表，如果主表中某条数据没有和右表数据连接上，则左表这条数据也会出现在查询结果中，右边表对应列输出null。例如，员工表有一个员工没有部门编号，如果使用左连接，以员工表为主表则该员工会被查询出来，对应的部门表的列为null。
右连接（Right Outer Join）：以右边表为主表，右表中所有的行以及与左表匹配的行都会出现在结果中，如果左表中没有匹配的行，将返回NULL值。
内连接（Inner Join）：返回两个表中匹配的行，即只返回两个表中共有的行，没有连接上的行不会输出。
全连接（Full Outer Join）：返回两个表中所有的行，并将不匹配的行填充为NULL值，两张表都是主表。

（二）区别示例

假设有两张表，table1（包含id1和value1字段）和table2（包含id2和value2字段），部分数据如下：

table1
id1	value1
1	a
2	b
3	c

table2
id2	value2
2	x
3	y
4	z

左连接select * from table1 left join table2 on table1.id1 = table2.id2结果：

id1	value1	id2	value2
1	a	null	null
2	b	2	x
3	c	3	y

右连接select * from table1 right join table2 on table1.id1 = table2.id2结果：

id1	value1	id2	value2
2	b	2	x
3	c	3	y
null	null	4	z

内连接select * from table1 inner join table2 on table1.id1 = table2.id2结果：

id1	value1	id2	value2
2	b	2	x
3	c	3	y

全连接select * from table1 full outer join table2 on table1.id1 = table2.id2结果：

id1	value1	id2	value2
1	a	null	null
2	b	2	x
3	c	3	y
null	null	4	z

五、Hive 的排序方式及区别

（一）排序方式

order by（全局排序）
- 特点：对应的 MapReduce 任务中只有一个reduceTask，即使设置了set mapreduce.job.reduces大于1也不行。适用于分组聚合的结果数据量已经不大的情况下，可以保证整个数据集的有序性。
- 示例：select * from table order by column_name，会对table表中的数据按照column_name列进行全局排序。
sort by（局部排序）
- 特点：对应的 MapReduce 任务可以有多个reduceTask，每个reduceTask输出的数据是有序的。它只保证每个分区内的数据有序，不保证全局有序。
- 示例：select * from table sort by column_name，会在每个分区内对数据按照column_name列进行排序。
distribute by（自定义分区）
- 特点：负责指定分区规则，将某一类数据写入同一个reduceTask中。通常和sort by配合使用，distribute by指定如何分区，sort by指定分区内数据的排序方式。
- 示例：select * from table distribute by partition_column sort by sort_column，首先根据partition_column进行分区，然后在每个分区内按照sort_column进行排序。

（二）区别

order by对整个数据集进行排序，确保所有数据按照指定列有序，但在大数据集情况下可能导致性能问题，因为只有一个reduceTask处理所有排序工作，数据量大时可能会内存不足等。
sort by在每个reduceTask内进行局部排序，适合数据量较大且不需要全局严格有序的场景，能提高处理效率，多个reduceTask可以并行处理排序任务。
distribute by主要用于将数据按照指定规则分区到不同的reduceTask，结合sort by可以实现更灵活的数据分布和局部有序处理。

六、Hive 的体系架构

（一）Hive 概述

Hive是一个构建在Hadoop上的数据仓库软件，它提供了类似SQL的查询语言，使得用户可以用SQL来查询存放在Hadoop上的数据。Hive是一种结构化数据的存储和查询机制，它可以将SQL语句转换为MapReduce任务在Hadoop上执行。

（二）主要组件

用户接口（User Interface）
- 支持多种方式，包括CLI（命令行界面），用户可以直接在命令行中输入Hive命令执行SQL操作。
- JDBC/ODBC：供其他程序通过JDBC或ODBC接口访问Hive，方便与其他应用程序集成，例如在Java程序中可以使用JDBC连接Hive进行数据查询和处理。
- WebUI（浏览器访问）：提供了一个可视化的界面，用户可以通过浏览器进行一些基本的操作和查询监控等。
元数据存储（Metastore）
- 存储关于数据的信息，比如表的结构、分区、数据所在的HDFS路径等。通常使用关系型数据库（如MySQL）来存储元数据。它提供了一组API和服务，用于查询、更新和管理Hive表的元数据，以便不同的用户和进程可以共享和访问相同的元数据，从而协调和共享表的结构和属性。
驱动器（Driver）
- 包含解析器、编译器、优化器和执行器。
- 解析器：将SQL字符串转换成抽象语法树AST，并进行语法分析，检查SQL语句的语法是否正确。
- 编译器：将AST编译生成逻辑执行计划，确定如何执行查询，例如选择使用哪些表连接算法等。
- 优化器：对逻辑执行计划进行优化，例如选择最优的执行路径、调整执行顺序等，以提高查询性能。
- 执行器：把逻辑执行计划转换成可运行的物理计划，对于Hive来说就是MapReduce或Spark任务，负责实际执行查询操作，与Hadoop进行交互，调度和管理任务的执行。
与Hadoop的关系
- Hive底层依赖Hadoop的HDFS进行数据存储，数据以文件的形式存储在HDFS中，Hive表对应为HDFS上的指定目录。
- 使用MapReduce或其他计算框架（如Tez、Spark等）进行数据计算，根据执行计划将任务分解为MapReduce或其他任务在集群上执行。

七、Hive 的表分类

（一）管理表（内部表）

默认创建就是管理表，管理表被删除时会将HDFS存储的数据删除。例如，创建一个管理表employees：

CREATE TABLE employees (
    id INT,
    name STRING,
    salary FLOAT
) STORED AS ORC;

当删除这个表时，HDFS中存储该表数据的目录也会被删除。

（二）外部表

创建表时使用external关键字，如create external table 表名。外部表被删除时，只会删除MySQL中对应的元数据信息，并不会删除HDFS上表中的数据。外部表可以防止误删除实际数据，推荐使用。如果外部表被删除，重写创建表，通过location指向原本的数据目录可以在创建完表的情况下，直接查询表到中的数据。例如：

CREATE EXTERNAL TABLE external_employees (
    id INT,
    name STRING,
    salary FLOAT
) LOCATION '/user/data/external_employees' STORED AS ORC;

删除该外部表时，HDFS上/user/data/external_employees目录中的数据不会被删除。

（三）分区表

Hive中的表对应为HDFS上的指定目录，在查询数据时候，默认会对全表进行扫描，这样时间和性能的消耗都非常大。分区为HDFS上表目录的子目录，数据按照分区存储在子目录中。如果查询的where字句中包含分区条件，则直接从该分区去查找，而不是扫描整个表目录，合理的分区设计可以极大提高查询速度和性能。通常，在管理大规模数据集的时候都需要进行分区，比如将日志文件按天进行分区，从而保证数据细粒度的划分，使得查询性能得到提升。
创建分区表语法：可以使用PARTITIONED BY子句创建分区表。表可以包含一个或多个分区列，如partitioned by (分区列类型,分区列类型..)。
添加分区：alter table 表名 add partition (分区字段=值)。例如，为一个日志表log_table添加一个分区dt=2023-10-10：alter table log_table add partition (dt='2023-10-10')。
删除分区：alter table 表名 drop partition(分区字段=值)，如alter table log_table drop partition (dt='2023-10-10')。

（四）桶表

桶表就是对指定列进行哈希(hash)计算，然后会根据hash值进行切分数据，将具有不同hash值的数据写到每个桶对应的文件中。创建桶表语法：CLUSTERED BY(分区字段) INTO 桶的数量 BUCKETS。例如：

CREATE TABLE bucket_table (
    id INT,
    data STRING
) CLUSTERED BY (id) INTO 5 BUCKETS STORED AS ORC;

这会将bucket_table表按照id列进行哈希分桶，共分为5个桶，数据会根据id的哈希值分配到不同的桶文件中。桶表可以用于数据抽样、高效连接等操作，例如在连接操作中，如果两个表按照相同的列进行分桶，并且桶的数量成倍数关系，可以提高连接效率。

八、将数据导入Hive的方式

（一）将文件数据导入Hive表中

非分区表
- load data local inpath '文件的路径' overwrite into table 表：从本地文件系统加载数据到Hive表中，会覆盖表中原有数据。例如，load data local inpath '/home/user/data.txt' overwrite into table my_table; 这里假设data.txt是本地文件，包含了适合my_table表结构的数据。执行该命令后，data.txt中的数据将被加载到my_table表中，并且如果my_table表中原来有数据，会被新数据覆盖。
- load data inpath '文件的路径' overwrite into table 表：从HDFS文件系统加载数据到Hive表中，也会覆盖表中原有数据。例如，load data inpath '/user/hive/data/hive_data.txt' overwrite into table my_table; 这里假设hive_data.txt是HDFS上的文件，执行该命令后，hive_data.txt中的数据将被加载到my_table表中，同样会覆盖原有的数据。如果文件在HDFS上的路径不存在，可能会导致加载失败，需要确保文件路径的正确性。

（二）直接将查询结果放入新创建的表中（执行查询的创建）

create table[view] 表 as select 语句 where.. group by;

例如：

create table new_table as select id, name, sum(salary) as total_salary from employees group by id, name;

这会创建一个名为new_table的新表，并将employees表中按照id和name分组后计算的每个组的总工资插入到新表中。如果使用create view，则会创建一个视图，而不是实际的表，视图是一个虚拟的表，它基于查询结果定义，可以像表一样进行查询，但不存储实际数据。例如：

create view employee_salary_view as select id, name, salary from employees where department = 'sales';

这里创建了一个名为employee_salary_view的视图，它显示了sales部门员工的id、name和salary信息。视图可以方便地对数据进行筛选和展示，而不需要实际创建一个新的表来存储数据，当原始表employees的数据发生变化时，视图中的数据也会相应更新。

（三）将查询结果导入已经存在表

insert into table 表名 select语句...：将查询结果插入到已存在的表中，如果表中已有数据，会在原有数据基础上追加新数据。
- 例如：
```
insert into table existing_table select id, name from new_employees;
```
这里假设existing_table是已经存在的表，new_employees是另一个表或查询结果集。执行该语句后，new_employees表中的id和name列的数据将被插入到existing_table表中，如果existing_table表原来有数据，新数据会追加到原有数据之后。
insert overwrite table 表名 select语句...：会覆盖表中原有数据，将查询结果插入到表中。
- 例如：
```
insert overwrite table existing_table select id, name 
```

你可能感兴趣的:(大数据面试题整理,hive,大数据,数据仓库)

flink数据同步mysql到hive_基于Canal与Flink实现数据实时增量同步(二)
背景在数据仓库建模中，未经任何加工处理的原始业务层数据，我们称之为ODS(OperationalDataStore)数据。在互联网企业中，常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类。对于业务DB数据来说，从MySQL等关系型数据库的业务数据进行采集，然后导入到Hive中，是进行数据仓库生产的重要环节。如何准确、高效地把MySQL数据同步到Hive中？一般常用的解决方案是批量
RabbitMQ消息队列在大数据系统中的实战应用案例 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据 rabbitmq 分布式 ai
RabbitMQ消息队列在大数据系统中的实战应用案例关键词：RabbitMQ、消息队列、大数据系统、实战案例、高并发处理、分布式架构、数据管道摘要：本文深入探讨RabbitMQ消息队列在大数据系统中的核心应用场景，结合具体技术实现和实战案例，详细解析其在数据采集、实时处理、异步解耦等关键环节的技术优势。通过架构设计原理、核心算法实现、数学模型分析和项目实战，展示如何利用RabbitMQ构建高可靠、
大数据开发高频面试题：Spark与MapReduce解析
被招网约司机的盯上了好几天实习了六个月，到期被通知不能转正。外包裁员让我去友商我该去吗？offer比较华为状态码浏览器插件嵌入式项目推荐2019秋招总结+云从语音算法面经+银行群面面经科大讯飞语音算法面经语音算法美团一面已挂科大讯飞智能语音方向值得去吗？语音算法oc科大讯飞语音算法二面荣耀一面语音算法面经，已挂荣耀_语音算法工程一面科大讯飞语音一面凉经8.18携程机器学习（语音方向）一面【vivo
HTML表格导出为Excel文件的实现方案 ~风清扬~ 前端技术 html excel 前端
1、前端javascript可通过mime类型、blob对象或专业库（如sheetjs）实现html表格导出excel，适用于中小型数据量；2、服务器端方案利用后端语言（如python的openpyxl、java的apachepoi）处理复杂报表和大数据，确保安全性与格式控制；3、常见问题包括数据类型识别错误、样式丢失、大文件卡顿、浏览器兼容性及乱码，需通过设置单元格类型、使用后端样式api、分页
数据库锁等待时间过长问题的深度解析与大数据解决方案百态老人数据库大数据
一、锁等待问题的核心原因与日志特征锁等待超时是数据库高并发场景下的典型瓶颈问题，其根本原因与日志特征可归纳为以下维度：事务管理缺陷原因：未提交的长事务（如代码分支遗漏提交）、隐式事务（自动提交关闭）导致锁持有时间过长。日志特征：information_schema.innodb_trx表中存在trx_started时间早于当前时间数分钟的事务。错误日志中频繁出现Lockwaittimeoutexc
科学的第五范式：人工智能如何重塑发现之疆田园Coder 人工智能科普人工智能科普
在人类探索未知的壮阔史诗中，科学方法的演进如同照亮迷雾的灯塔。从基于经验的第一范式（描述自然现象），到以理论推演为核心的第二范式（牛顿定律、麦克斯韦方程），再到以计算机模拟为标志的第三范式（气候模型、分子动力学），直至以大数据挖掘为驱动的第四范式（基因组学、高能物理），每一次范式跃迁都极大地拓展了认知的疆界。如今，我们正站在一个更恢弘转折的门槛上——第五范式：人工智能驱动的科学（AIforScie
字节跳动 C++ QT PC客户端面试十年编程老舅 QT开发 c++qt 面试 qt面试题 qt八股文 qt面经 c++八股文
字节跳动C++QtPC客户端面试，总共三轮技术面（一面10道、二面20道、三面20道）为了帮助更多的同学拿到满意的offer，我把一二三面共50道面试题整理发布出来~供大家学习参考~很多同学认为，面试问理论知识，就是八股文，实际工作中没有太大用处。但事实上，所谓的“八股文”，本质是经过提炼和标准化的专业术语和通用认知体系，它是我们高效沟通、协作和解决问题的基础。换句话说，掌握并能准确使用这些“八股
spark处理kafka的用户行为数据写入hive 月光一族吖 spark kafka hive
在CentOS上部署Hadoop（Hadoop3.4.1）和Hive（Hive3.1.2）的详细步骤说明。这份指南面向单机安装（伪集群模式），如果需要搭建真正的多节点集群，各节点间的网络互访、SSH免密登录以及配置同步需进一步调整。注意：本指南假设你已拥有root权限或者具有sudo权限，并且系统连接Internet（用于下载安装包）。步骤中的版本号可根据实际需要进行更改。一、环境准备更新系统软件
数据结构与算法中外部排序的详细剖析数据结构与算法学习网络 ai
数据结构与算法中外部排序的详细剖析关键词：外部排序、归并排序、多路归并、置换选择排序、败者树、磁盘I/O优化、大数据处理摘要：本文将深入探讨外部排序技术，这是处理大规模数据时不可或缺的算法。我们将从基本概念出发，逐步解析多路归并、置换选择排序等核心技术，并通过实际代码示例展示如何实现高效的外部排序。文章还将分析外部排序在现代大数据处理中的应用场景和优化策略。背景介绍目的和范围本文旨在全面介绍外部排
.NET Framework 3.5 中的功能简介 benben0701 ASP.NET3.x .net windows wcf linq asp.net cryptography
.NETFramework3.5中的功能简介(1)我在前文《.NETFramework版本解析》（http://blog.csdn.net/johnsuna/archive/2008/03/23/2208684.aspx）中提到：.NETFramework3.5=.NETFramework3.0+.NETFramework3.0SP1.NETFramework3.0=.NETFramework2.
阿里云Flink：开启大数据实时处理新时代云资源服务商阿里云大数据云计算
走进阿里云Flink在大数据处理的广袤领域中，阿里云Flink犹如一颗璀璨的明星，占据着举足轻重的地位。随着数据量呈指数级增长，企业对数据处理的实时性、高效性和准确性提出了前所未有的挑战。传统的数据处理方式逐渐难以满足这些严苛的需求，而阿里云Flink凭借其卓越的特性和强大的功能，成为众多企业实现数据价值挖掘与业务创新的关键技术。它不仅继承了开源Flink的优秀基因，还融入了阿里云自主研发的创新技
java毕业设计-基于java的电商网购平台，网购商城管理系统(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥 spring boot vue jave java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
Python机器学习实战——逻辑回归（附完整代码和结果）小白熊XBX 机器学习机器学习 python 逻辑回归
Python机器学习实战——逻辑回归（附完整代码和结果）关于作者作者：小白熊作者简介：精通c#、Halcon、Python、Matlab，擅长机器视觉、机器学习、深度学习、数字图像处理、工业检测识别定位、用户界面设计、目标检测、图像分类、姿态识别、人脸识别、语义分割、路径规划、智能优化算法、大数据分析、各类算法融合创新等等。联系邮箱：[email protected]科研辅导、知识付费答疑、个性化定制
计算机毕业设计Python知识图谱中华古诗词可视化古诗词情感分析古诗词智能问答系统 AI大模型自动写诗大数据毕业设计(源码+LW文档+PPT+讲解) B站计算机毕业设计大学大数据毕业设计人工智能课程设计知识图谱 python 大数据深度学习爬虫
温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！信息安全/网络安全大模型、大数据、深度学习领域中科院硕士在读，所有源码均一手开发！感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人介绍资料《Python知识图谱中华古诗
计算机毕业设计Python知识图谱中华古诗词可视化古诗词情感分析古诗词智能问答系统 AI大模型自动写诗大数据毕业设计(源码+LW文档+PPT+讲解)
温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！信息安全/网络安全大模型、大数据、深度学习领域中科院硕士在读，所有源码均一手开发！感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人介绍资料Python知识图谱中华古诗词
自动驾驶技术研发适用Infortrend普安存储IEC平台
Infortrend普安存储IEC私有云平台，轻松高效应用无人驾驶技术自动驾驶汽车（例如自动驾驶出租车、无人驾驶公交）和无人驾驶飞行器（UAV）依靠摄像头、物联网传感器、雷达、GPS采集的实时数据瞬间做出决策。自动驾驶系统作为核心部分，不间断分析环境条件，应对潜在风险，确保乘客和货物运输安全。Autopilot应用程序在开发和模拟中，大数据、AI（人工智能）、ML（机器学习）等技术能否高速发挥作用
大数据系列 | 日志数据采集工具Filebeat的架构分析及应用降世神童大数据技术专栏大数据架构
大数据系列|日志数据采集工具Filebeat的架构分析及应用1.Filebeat的由来2.Filebeat原理架构分析3.Filebeat的应用3.1.安装Filebeat3.2.实战采集应用程序日志1.Filebeat的由来在介绍Filebeat之前，先介绍一下Beats。Beats是一个家族的统称，Beats家族有8个成员，早期的ELK架构中使用Logstash收集、解析日志，但是Logs
基于SpringBoot+Vue+大学校园图书管理系统设计和实现(源码+LW+部署讲解) 阿勇学长大数据项目实战案例 Java精品毕业设计实例微信小程序项目实战案例 spring boot vue.js 后端大学校园图书管理系统 Java毕业设计
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
Java爬虫技术详解：原理、实现与优势 cyc&阿灿 Java 多线程 java 爬虫开发语言
一、什么是网络爬虫？网络爬虫（WebCrawler），又称网络蜘蛛或网络机器人，是一种自动化程序，能够按照一定的规则自动浏览和抓取互联网上的信息。爬虫技术是大数据时代获取网络数据的重要手段，广泛应用于搜索引擎、数据分析、价格监控等领域。Java作为一种稳定、高效的编程语言，凭借其强大的网络编程能力和丰富的生态库，成为开发网络爬虫的热门选择。二、Java爬虫核心组件一个完整的Java爬虫通常包含以下
如何学习才能更好地理解人工智能工程技术专业和其他信息技术专业的关联性？人工智能教学实践 python编程实践人工智能学习人工智能
要深入理解人工智能工程技术专业与其他信息技术专业的关联性，需要跳出单一专业的学习框架，通过“理论筑基-实践串联-跨学科整合”的路径构建系统性认知。以下是分阶段、可落地的学习方法：一、建立“专业关联”的理论认知框架绘制知识关联图谱操作方法：用XMind或Notion绘制思维导图，以AI为中心，辐射关联专业的核心技术节点。例如：AI（机器学习）├─数据支撑：大数据技术（Hadoop/Spark）+数据
Anconda环境下Vscode安装Python Java后时代程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
新华妙笔：AI智能写作助手，让高效写作触手可及东风西巷 AI写作 android 软件需求智能手机
在当今快节奏的时代，无论是职场人士、学生还是创作者，都面临着大量的写作任务。从工作总结、调研报告到公文写作、商业文案，高效且高质量的写作能力成为了提升个人竞争力的关键。然而，写作不仅需要丰富的知识储备和扎实的文字功底，还需要大量的时间和精力去打磨。为了帮助用户更高效地完成写作任务，新华妙笔APP应运而生。它是一款功能强大的AI智能写作助手，依托自然语言处理（NLP）和大数据分析技术，能够快速生成各
中国软件供应链安全厂商推荐︱悬镜安全聚焦全球数字经济大会·中国信通院最新成果发布 DevSecOps选型指南安全
2025年7月3日，由全球数字经济大会组委会主办，中国信息通信研究院、中国通信标准化协会承办的全球数字经济大会—云智算安全论坛暨第三届“SecGo论坛”在京召开。北京市经济和信息化局副局长顾瑾栩、中国通信标准化协会副理事长兼秘书长代晓慧、中国信通院党委副书记王晓丽、中国信通院云计算与大数据研究所副所长栗蔚出席会议。在成果发布环节，中国信通院对云智算安全行业发展、产业创新有突出贡献的个人予以表彰，悬
数据编织趋势探秘
今天跟大家聊聊数据编织（DataFabric）的概念Gartner在2022年重要战略技术趋势中重点提到数据编织（DataFabric）这个概念，本质上是在谈怎么实现“数据找人而不是人找数据”的愿景为什么DataFabric将会成为一种趋势，为什么越来越多的企业将在未来采用这样的方式进行部署？1、在传统IT时代，无论是早年的“数据仓库”还是近几年的“数据湖”和“大数据”时代，其实数据利用都是集中式
浅谈数据管理架构 Data Fabric（数据编织）及其关键特征、落地应用 Aloudata Data Fabric 多源异构数据集成数据管理
伴随着企业从数字化转型迈向更先进的数智化运营新阶段，对看数、用数的依赖越来越强，但数据的海量增长给数据管理带来一系列难题，如数据类型和加工链路日益复杂，数据存储和计算引擎更加分散，数据需求响应与数据质量、数据安全风险难以兼顾，数据流通过程中的合规性冲突，以及混合多云环境下的“数据孤岛”等。简言之，进入数智化时代，企业数据管理正变得异常复杂和艰难，传统的数据管理架构往往依赖于单一、物理集中的数据仓库
ubuntu FreeRadius服务器安装 flowHEHE ubuntu系统安装 ubuntu 服务器
1、获取安装源（1）wgethttps://github.com/FreeRADIUS/freeradius-server/archive/v3.0.x.zip（2）unzipv3.0.x.zip（3）cdfreeradius-server-3.0.x/2、创建ubuntu相关依赖（1）sudoapt-getinstalldevscriptsquiltdebhelperfakerootequivs
Hbase和关系型数据库、HDFS、Hive的区别别这么骄傲 hive hbase 数据库
目录1.Hbase和关系型数据库的区别2.Hbase和HDFS的区别3.Hbase和Hive的区别1.Hbase和关系型数据库的区别关系型数据库Hbase存储适合结构化数据，单机存储适合结构化和半结构数据的松散数据，分布式存储功能（1）支持ACID（2）支持join（3）使用主键PK（4）数据类型：int、varchar等（1）仅支持单行事务（2）不支持join，把数据糅合到一张大表（3）行键ro
大数据基础知识-Hadoop、HBase、Hive一篇搞定原来是猪猪呀 hadoop 大数据分布式
HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构，其核心设计包括分布式文件系统（HDFS）和MapReduce编程模型；Hadoop是一个开源的分布式计算框架，旨在帮助用户在不了解分布式底层细节的情况下，开发分布式程序。它通过利用集群的力量，提供高速运算和存储能力，特别适合处理超大数据集的应用程序。Hadoop生态圈Hadoop生态圈是一个由多个基于Hadoop开发的相
Hadoop、HDFS、Hive、Hbase区别及联系静心观复大数据 hadoop hdfs hive
Hadoop、HDFS、Hive和HBase是大数据生态系统中的关键组件，它们都是由Apache软件基金会管理的开源项目。下面将深入解析它们之间的区别和联系。HadoopHadoop是一个开源的分布式计算框架，它允许用户在普通硬件上构建可靠、可伸缩的分布式系统。Hadoop通常指的是整个生态系统，包括HadoopCommon（共享库和工具）、HadoopDistributedFileSystem(
大数据(1)-hdfs&hbase viperrrrrrr 大数据 hdfs hbase
hbase&hdfs一、体系结构HDFS是一个标准的主从(Master/Slave)体系结构的分布式系统；HDFS集群包含一个或多个NameNode(NameNodeHA会有多个NameNode)和多个DataNode(根据节点情况规划),用户可以通过HDFS客户端同NameNode和DataNode进行交互以访问文件系统。HDFS公开文件系统名称空间，并允许将用户数据存储在文件中。在内部，一个文
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修