孙拾柒

hive复习日记-持续更新

hive

一、概念

1.hive是一个构建在hadoop上的数据仓库管理工具（框架），可以将结构化数据文件映射成一张数据表，并使用类sql的方式对这样的文件进行操作。 hive的执行引擎 可以是 mapreduce spark tez
2.hive的元数据存储在数据库 hive的数据存储在HDFS上 hive的计算是基于mr的

二、优缺点

1.学习成本低： 提供类sql查询语言，避免直接写mr程序
2.可扩展性好：基于hadoop的
3.适合做离线分析处理（OLAP）:hive的延迟性比较高
4.延展性：hive支持用户自定义函数
5.良好的容错性：基于hadoop 某个节点有问题hql仍可完成执行
6.统一管理：提供了统一元数据的管理 默认是debry

三、架构

架构体系：
	1.用户连接接口：shell命令行，jdbc/odbc，web	ui
	2.thriftserver:软件框架服务，允许客户端通过编程的方式远程访问hive
	3.元数据：hive将元数据存储在数据库 derby、mysql中
	4.驱动器（Driver）:
		1）解析器 SQLParser：将hql语句转换成抽象语法树AST,并对抽象语法树进行语法分析
		2）编译器 Compilier:对hql语句进行词法，语法，语义的编译，需要与元数据关联，编译后生成一个有向无环执行计划 即是 一个mr的job
		3）优化器 Optimizer:将执行计划优化，减少不必要的列，使用分区，索引等。优化job
		4）执行器 Executer:将优化后的计划提交给hadoop的yarn上执行。提交job
注意事项：包含 * 的全表查询，不会生成mr任务 eg: select * from table limit 
对于简单的查询，就只是select,不带count,groupby,sum等这样子的聚合函数，都不走mr,直接读取hdfs的文件并进行过滤，可以在hive-site.xml中配置
hive.fetch.task.conversion = more  简单查询不走mr
hive.fetch.task.conversion = minimal 任何简单的都走mr

四、工作原理

1.用户提交任务给Driver
2.驱动程序将hql发送给编译器，检查语法和生成查询计划
3.编译器根任务需求到Metastore中获取hive的元数据信息
4.编译器根据元数据信息对任务进行编译，首先将hql转换抽象语法树，然后将抽象语法树转换成查询块，再将查询块转化为逻辑的查询计划，重写逻辑查询计划，将逻辑查询计划转换为物理计划 即 mapreduce
5.优化器对执行计划进行优化，将最终的计划提交给Driver
6.Dirver将计划转交给ExecutionEngine执行
7.执行作业的过程就是一个mapreduce工作 在执行时执行引擎可以通过Metastore执行元数据操作
8.执行引擎接收来自数据节点的结果 将结果发送给驱动程序，驱动程序将结果发送到hive接口

五、与传统型数据库的区别

1.hive是为了数据仓库而设计的
2.hive不适用于联机事务处理(OTLP),它最适合于基于大量不可变数据的批处理作业

六、hive中库，表的注意事项

1.创建数据库的本质就是创建目录，目录名字为 库名.db。 在元数据库mysql中创建表的相应描述信息
2.创建表的本质在对应的数据库目录下创建子目录 目录名为表名
3.元数据库 在创建库或者表的时候，还会再mysql中（元数据库）添加元数据
4.导入数据：
	1）将数据文件放到对应的表目录下
	2）使用load命令
	3）动态加载 insert into select
	4）加载数据的本质：如果数据在本地，加载数据就是将数据copy到hdfs的表目录下
       				如果数据在hdfs上，就是移动数据到hdfs的表目录下
5.复制表数据  create table  as select 
  复制表结构	 create table  like
6.row format || row format delimited 代表使用自带的serde，列格式
7.stored as  TEXTFILE|SEQUENCEFILE|RCFILE|ORCFILE 指定文件数据格式
8.内部表与外部表的区别
	创建外部表 使用external  location path 指定路径 默认跟内部表路径一致
	删除表时：
		1.内部表和外部表的元数据都会被删除
		2.内部表的表目录会被删除，但是外部表的表目录不会被删除 即文件数据还存在

七、hql的基本用法

1.执行顺序
from->on->join->where->group by->distribute by->having->select->distinct->order by->limit
2.join:内连接 外连接（左外连接，右外连接，全外连接） 注意：hive只支持等值连接 =,and 不支持<> != or
3.left semi join 半开连接，只查询满足条件的左表的信息，相当于exists的用法
4.map-side join:分布式缓存文件，读到内存中
使用场景：存在非常大的表和非常小的表时，将小表缓存到内存中。在maptask执行前将其发送到此次job需要启动map的机器上。 意义:减少map端到reduce端的数据传输 
hive.auto.convert.join=true 默认开启
hive.mapjoin.smalltable.filesize=25000000 23.8MB
5.where 字句中不能使用 =子查询
6.group by 查询的字段要么出现在分组中，要么出现在聚合函数中
执行效率：列名为主键 count(列名)>count(1)，否则 count(1)>count(列名)
    	如果列中多列但是没有主键 count(1)>count(*)
    	如果有主键 count(主键)效率是最高的
7.union：将两个或者多个结果集合并，去重并排序
  union all:将两个或者多个结果集合并
8.join操作中，如果多个表关联字段是一样的，则产生一个mr任务
多表连接，会转换成多个MR Job，每一个MR Job在Hive中称为JOIN阶段（Stage）。在每一个Stage，按照JOIN顺序中的最后一个表应该尽量是大表，因为JOIN前一阶段生成的数据会存在于Reducer的buffer中，通过stream最后面的表，直接从Reducer的buffer中读取已经缓冲的中间结果数据（这个中间结果数据可能是JOIN顺序中，前面表连接的结果的Key，数据量相对较小，内存开销就小），这样，与后面的大表进行连接时，只需要从buffer中读取缓存的Key，与大表中的指定Key进行连接，速度会更快，也可能避免内存缓冲区溢出。

八、数据类型

1.自动转换（隐式转换）
	小范围类型的数据会自动转换为大范围类型的数据，再做运算
	tinyint-->smallint-->int-->bigint-->float-->double
	纯数字的string-->double
2.cloName array<type> 小标从0开始，越界不报错 值为null  取值 cloName[index] 
3.cloName map<T,T> 取值 cloName["key"]
4.cloName struct<subname1:type,subname2:type,......> 取值 cloName.["subname1"]
5.展开函数 
	explode(cloName)接受一个数据行，然后返回多个数据行
	lateral view：虚拟表 将UDTF函数生成的多行数据放到一个虚拟表中，然后这个虚拟表默认通过join和输入行进行聚合 eg: select clo  from table explode(cloName)ex as clo

九、窗口函数

1.目的：计算基于组的各种聚合值，对于每个组返回多行 而聚合函数对于组每次返回一行
2.功能：窗口函数兼具分组和排序
	   关键字 distribute by sort by || partition by order by
3.排名函数：相当于多加一列 值为排名
	1）row_number 没有并列名次 顺序递增 相同的根据原数据的顺序
	2）rank() 有并列，顺序跳跃递增
	3）dense_rank() 有并列，顺序递增
4.聚合函数搭配窗口函数
	1) max(colName) over(distribute by colName1 sort by colName1)
	2) min(colName) over(distribute by colName1 sort by colName1)
	3) sum(colName) over(distribute by colName1 sort by colName1)
	4) avg(colName) over(distribute by colName1 sort by colName1)
	5) count(colName) over(distribute by colName1 sort by colName1)
5.windows字句：默认的窗口范围是从起始行到当前行，可以通过windows字句定义窗口范围
	1）preceding:向前
	2）following:向后
	3）current row:当前行
	4）unbounded:起点，没有边界
	5）unbounded preceding:向上没有边界
	6）unbounded following:向下没有边界
6.常用范围 举例说明
	a）sum(cloName) over() 所有行的cloName相加
	b）sum(cloName) over(partition by cloName) 按照cloName分组，组内所有数据相加
	c）sum(cloName) over(partition by cloName order by cloName)按照cloName分组，逐行累加
	d）sum(cloName) over(partition by cloName order by cloName rows between 1 preceding and current row) 当前行与前一行相加的值
7.first_value:取分组内排序后，第一个值
  last_value:取分组内排序后，最后一个值
  要求的版本数据是null 则需要加上 ignore nulls
8.lag(cloName,n):取出前第n行的数据（取一行，第n行）
  lead(cloName,n):取出后第n行的数据（取一行，第n行）

十、自定义函数

1.分类：
		UDF: 用户自定义函数， 一对一的输入输出
		UDAF:用户自定义聚合函数 多对一的输入输出
		UDTA:用户自定义表生产函数，一对多的输入输出
2.实现UDF方式
		1）继承UDF，重写evaluate(),允许重载
		2）继承GenriuUDF，重写initlizer(),getDisplay(),evaluate()方法
3.使用方式
	第一种：
		1）将项目打包，将jar包添加到hive的classpath
		add jar path
		2）创建临时函数
		create temporary function Name as '类的全限定名'
        3）show functions 查看是否成功
        4）删除 drop temporary function Name
     第二种：
     	1）自定义配置文件，将上述中的两条语句添加到文件中 文件的位置没有要求
     	2）在启动hive时，指定加载该配置文件
     	3)若想永久使用该函数 则将配置文件名改为 .hiverc 并放到hive的bin目录下

十一、分区表

1.分区表的意义：避免全表扫描 本质：表的目录或者是分区的目录下创建目录 分区的目录名位指定字段=值
2.如何分区：根据业务需求，通常使用 年 月 日 小时 地区等
3.语法 partitioned by 
4.分区名不区分大小写，不支持中文
5.分区字段是一个伪列，但是可以用来操作
6.加载数据时 load .....  partition(cloName='')
7.分区的种类：
		1）静态分区：直接加载数据文件到指定的分区
		2）动态分区：数据未知，根据分区的值来确定需要创建的分区
		3）混合分区：静态和动态的都有
8.分区属性：
		1）严格模式 hive.exec.dynamic.partition.mode=strict/nonstrict
		严格模式下会阻止以下查询：
		1.对分区表查询，where条件中过滤字段不是分区字段
		2.笛卡尔积的join不适用on或者where条件
		3.对order by查询不带limit
9.动态分区加载数据 不能使用load 只能使用	insert into
10.如果分区过多，则会导致namenode和yarn的性能瓶颈。

十二、分桶

1.为什么要分桶：当分区不能更细粒度的划分数据  本质：分区是创建文件夹 分桶是创建文件
2.分桶的原理：与mr中的partitoner的原理一样。 
			hive分桶使用分桶字段的hash值对分桶数量取模
3.分桶的意义：
		1）适合做数据抽样
		2）join操作可以提高mr的查询效率 在map端进行高效的连接操作
		3)为了保存分桶查询结果的分桶结构
4.分桶的操作
		1）clustered by(cloName) [sorted by (cloName) into x buckets]
		2)加载数据只能使用insert into  distribute by || cluster by
		3)在加载数据前要设置reduce个数与分桶数量相同
		set mapreduce.job.reduces
		4)设置强制分桶
		set hive.enforce.bucketing=true 默认是false
		5)强行排序
		set hive.enforce.sorting
5.分桶的查询
		1）tablesample(bucket x out of y on cloName) 总共分y桶，从第x桶开始查询
		2）查询第一桶
    		select * from student tablesample(bucket 1 out of 4 on sno);
		3）查询第一桶和第三桶
    		select * from student tablesample(bucket 1 out of 2 on sno);
		4）查询第二桶和第四桶的数据
    		select * from student tablesample(bucket 2 out of 2 on sno);        
		5）查询对8取余的第一桶的数据：
    		select * from student tablesample(bucket 1 out of 8 on sno);
		6）查询三行数据
    		select * from student limit 3;
    		select * from student tablesample(3 rows);
		7）查询百分比的数据
    		select * from student tablesample(13 percent);
		8）查询固定大小的数据
    		select * from student tablesample(68b); 单位（K,KB,MB,GB...）
		9）随机抽三行数据
    		select * from student order by rand() limit 3;

注意：分区是表外字段，分桶是表内字段
	 分桶更加细粒度的管理数据，更多的用来抽样，join

十三、Serde与存储格式

1.文件读取/解析的方式：hive在解析文件时，涉及到两个类
	1）一个类用于从文件中读取一条一条的记录（根据记录分隔符确定一条记录）
	row format:指定用什么inputformat去读数据
	delimited:表示使用org.apache.hadoop.mared.TextInputFormat去读数据行 回车作为行分割符
	2）一个类从上面读到的记录中且分出一个一个的字段（根据指定字符作为分隔符）
	fields terminated by:表示用什么serde类型去解析一行中的数据
	默认使用 org.apache.hadoop.hive.serde2.lazy.LazySimpleSerde 行分隔符 \n 列分隔符 ^A
注意:hive在select时 是将字节序列转换为hive中的对象
		  insert into 是将对象转换为字节序列
2.Serde
	1）hive使用Serde来读/写表的row对象
	2）HDFS文件->InputFileFormat-><key,value>->Deserializer->Row对象
	   Row对象->Serializer-><key,value>->OutputFileFormat->HDFS文件
3.常用Serde:	csv:逗号分隔符 tsv:tab分隔符  json:json格式的数据  regexp:数据需要符合正则
4.hive的存储分为：纯文本文件，二进制文件存储
	1）textfile:纯文本文件，不压缩 默认存储格式
	2）二进制文件
		a）sequencefile:会压缩，不能使用load方式加载数据
		b）rcfile:行列混合存储，会压缩，不能load,查询性能高，所需内存大，计算量大
		c）orc:rc的升级版
		d）parquet:会压缩，不能使用load

十四、索引、视图

索引文件的特点：索引数据有序，并且数据量小 index
语法：create index name on table cloName as 'compact' //索引文件存储格式 with deferred rebuild 索引能够重建
注意：新建索引必须要重建索引 alter index name on table rebuild;

十五、hive的压缩

1.hive的压缩实际就是对底层mr在处理数据时的压缩设置
2.hive在map阶段的压缩
	1）shuffle阶段对mapper产生的中间数据进行压缩，优先选择一个低cpu开销的算法
	2）hive在reduce阶段的压缩:对reduce输出结果进行压缩
3.常用的压缩格式：bzip2、gzip、snappy、lzo(需要建立索引)

十六、数据导出

1.导出到目录下：insert overwrite local directory 'inpath' select 
2.直接导入到本地系统的文件中 hive -e 'select ' >> inpath 
3.修改导出后的列分隔符
insert overwrite local directory 'inpath' row format delimited fields terminated by '\t'

十七、企业级调优

1.环境方面:修改相关服务器的配置，容器的配置，环境搭建
2.具体软件配置参数
3.代码级别的优化
 1）	explain:只有对hql语句的解释
 	 explain extended:对hql语句的解释，以及抽象表达树的生成
 	 stage 相当于一个job，一个stage可以是limit、也可以是一个子查询、也可以是group by等。
	 hive默认一次只执行一个stage，但是如果stage之间没有相互依赖，将可以并行执行。
	 任务越复杂，hql代码越复杂，stage越多，运行的时间一般越长。
  2）join 小结果集驱动大结果集
  	 注意hive是否配置普通join转换成map端join，以及mapjoin小表文件大小的阀值
  3）limit的优化
  	 hive.limit.row.max.size=100000 
	 hive.limit.optimize.limit.file=10 
	 hive.limit.optimize.enable=false (如果limit较多时建议开启) 						       	    hive.limit.optimize.fetch.max=50000
  4）并行执行
  	 hive.exec.parallel=false (建议开启)
	 hive.exec.parallel.thread.number=8
  5）严格模式 hive.mapred.mode=nonstrict
  6）mapper和reducer的个数：不是mapper和redcuer个数越多越好，也不是越少越好。
     将小文件合并处理(将输入类设置为:CombineTextInputFormat) 通过配置将小文件合并：
	 mapred.max.split.size=256000000
	 mapred.min.split.size.per.node=1
	 mapred.min.split.size.per.rack=1
	 hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat
	 set mapred.map.tasks=2; 
	 set mapred.reduce.tasks=10
	 hive.exec.reducers.max=1009
   7）配置jvm重用
     mapreduce.job.jvm.numtasks=1 ###
	 mapred.job.reuse.jvm.num.tasks=1
   8）数据倾斜
   	 数据倾斜：由于key分布不均匀造成的数据向一个方向偏离的现象。 本身数据就倾斜
	 join语句容易造成
	 count(distinct col) 很容易造成倾斜
	 group by 也可能会造成
	 找到造成数据倾斜的key，然后再通过hql语句避免。
	 hive.map.aggr=true
	 hive.groupby.skewindata=false (建议开启)
	 hive.optimize.skewjoin=false
	9）索引是一种hive的优化 想要索引在查询时，生效，还得设置使用索引：默认是不使用的。
	 SET hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;
	 SET hive.optimize.index.filter=true;
	 SET hive.optimize.index.filter.compact.minsize=0;
	10）分区
	11）job的数量：一般是一个查询产生一个job，然后通常情况一个job、可以是一个子查询、一个join、一个		 group by 、一个limit等一些操作。

十八、hive和mysql的对比

- mysql用自己的存储存储引擎，hive使用的hdfs来存储。
- mysql使用自己的执行引擎，而hive使用的是mapreduce来执行。
- mysql使用环境环境几乎没有限制，hive是基于hadoop的。
- mysql的低延迟，hive是高延迟。
- mysql的handle的数据量较小，而hive的能handle数据量较大。
- mysql的可扩展性较低，而hive的扩展性较高。
- mysql的数据存储格式要求严格，而hive对数据格式不做严格要求。
- mysql可以允许局部数据插入、更新、删除等，而hive不支持局部数据的操作。
- mysql是严格的写时模式，在写的时候进行检查
- hive是严格的读时模式，加载数据时不检查数据的完整新，读时如果数据不匹配，使用null来代替

十九、hive的数据倾斜

1.什么是hive的数据倾斜？
最本质的就是 数据分布不均衡，一个或几个reduce节点运行很慢，导正整个程序处理时间很长，是因为这个或者这几个节点的key的条数比其他的多很多。
2.容易出现数据倾斜的操作
	1）join
	原因：对于普通的join，会在map端根据key的值，shuffle到一个reduce上去，在reduce端做join操作，内存中缓存join左边的表，遍历右边的表，依次做join操作。当数据量比较大，并且key分布的不均匀，大量的key都shuffle到一个reduce上，就出现了数据倾斜。
	现象：reduce节点大部分执行完毕，但是一个或者几个执行的很慢，导致整个程序运行时间很长。
	解决办法：
	1.hive都是从左向右执行，要注意讲小表在前大表在后。将小表作为驱动表  这里小表指的是 关联记录少的表 这样可以触发reduce端更少的操作次数，减少运行时间。
	2.使用map join 但是前提是：小表驱动大表(如果是大表关联则无法使用)
       map join相当于在map使用combiner,进行join操作
       使用mapjoin将小表放入内存，在map端和大表逐一匹配。从而省去reduce。
    3.大表对大表的时候，可以过滤到一些空值 
      设置 hive.optimize.skewjoin.compiletime=true; 不影响结果的话可以过滤空值
	2）group by
	解决办法：如果是group by过程出现倾斜应将此项设置true
			hive.groupby.skewindata=true;
      开启为true后，会至少开启两个MapReduce，执行时间比开启一个长，因此最好出现数据倾斜之后在开启。

微信小程序｜流浪动物救助小程序的设计与实现 qq_469603589 微信小程序小程序微信小程序
作者主页：编程指南针作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、腾讯课堂常驻讲师主要内容：Java项目、Python项目、前端项目、人工智能与大数据、简历模板、学习资料、面试题库、技术互助收藏点赞不迷路关注作者有好处文末获取源码项目编号：L-BS-XZBS-30一，环境介绍语言环境：Java:jdk1
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
基于uniapp微信小程+SpringBoot+Vue的流浪动物救助领养系统设计和实现(源码+论文+部署讲解等)
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
Vue3 中 Excel 导出的性能优化与实战指南
文章目录Vue3中Excel导出的性能优化与实战指南引言：为什么你的导出功能会卡死浏览器？一、前端导出方案深度剖析1.1xlsx(SheetJS)-轻量级冠军1.2exceljs-功能强大的重量级选手二、后端导出方案：大数据处理的救星2.1为什么大数据需要后端处理？2.2Node.js流式导出实战三、生产环境性能优化全攻略3.1内存优化技巧对比3.2用户体验优化方案四、决策流程图：帮你选择最佳方案
低代码数字孪生智慧钢厂组态监控界面图扑可视化三维可视化数字孪生数据大屏组态监控智慧钢厂
2024年4月，中国钢铁工业协会发布了《钢铁行业数字化转型评估报告（2023年）》（以下简称《报告》）。《报告》指出，绝大部分钢铁企业建立了数字化转型相关管理组织和团队，并加强其规划落实，系统间的综合集成能力进一步加强。在研发、制造、服务全生命周期管控以及产业链协同等方面需继续深化，这也是现阶段钢铁企业数字化转型需重点建设的内容。钢铁行业作为典型的流程制造业，通过融合先进的信息技术和大数据分析，既
UI前端与大数据的深度融合：打造智慧应用的新生态前端开发与ui设计的老司机 ui 前端大数据
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!在数字化转型的浪潮中，UI前端与大数据正逐渐成为推动智慧应用发展的核心力量。UI前端作为用户与应用程序交互的直接界面，负责提供直观、便捷且吸引人的用户体验；而大数据则凭借其强大的数据收集、分析和预测能力，为应用程序
数字孪生：未来城市管理的革命性技术大有数据可视化信息可视化
一、数字孪生技术概述数字孪生技术是一种通过创建虚拟模型与物理实体之间实时交互的技术。它借助物联网、大数据、云计算、人工智能等前沿技术，实现对物理实体的精准映射与动态仿真。数字孪生的核心在于构建一个与物理世界相对应的虚拟模型，该模型能够实时反映物理实体的状态，并通过数据分析与模拟优化其性能。在城市管理领域，数字孪生技术为城市管理者提供了一种全新的视角和工具。城市是一个复杂的巨系统，涉及基础设施、交通
Python大数据分析&人工智能教程 - Django-Celery异步处理（深入解析与实战案例） AI_DL_CODE python 数据分析 Django Celery异步处理 Celery
文章目录1.概念介绍1.1Django框架概述1.2Celery异步任务队列1.3AMQP协议与消息路由2.环境搭建2.1安装Django和Celery2.2配置Redis作为消息代理3.Celery架构与工作原理3.1Celery组件介绍3.2任务生命周期3.3任务调度与执行3.3.1定时任务3.3.2异步任务调用3.3.3任务结果查询4.Django与Celery集成4.1创建Celery实例
Python大数据分析&人工智能教程 - Django-RestFramework框架（深入解析+实操案例） AI_DL_CODE python 数据分析 django RestFramework框架
文章目录1.Django-RestFramework基础1.1Django-RestFramework概述1.2安装与配置1.3构建第一个API1.3.1定义模型1.3.2创建序列化器1.3.3定义视图1.3.4配置URL路由1.4进阶功能1.4.1权限控制1.4.2限流1.5实战案例1.5.1创建图书1.5.2查询图书1.5.3更新图书1.5.4删除图书2.序列化器(Serializers)2.
算法备案 | 算法备案必要性、算法类型、备案流程极创信息人工智能 AIGC
一、进行算法备案的必要性在当今的数字化时代，算法已经广泛应用于各个行业，引起了监管部门的高度关注，因为算法产品可能会带来一些潜在的风险。为了规范互联网信息服务中的算法推荐活动，抵制诸如深度生成合成、算法歧视、“大数据杀熟”、诱导沉迷等不合理应用，各个国家都先后出台了一系列关于算法管理的法律法规。在我国，《数据安全法》、《个人信息保护法》、《互联网信息服务算法推荐管理规定》等法律法规明确对算法的使用
集装箱智慧通关系统如何用AI技术重塑物流效率？
在全球贸易和物流高速发展的今天，港口、物流园区及企业的闸口管理面临巨大挑战——如何提升通关效率、保障货物安全并降低运营成本？集装箱智慧通关系统依托先进的AI视觉识别、物联网及大数据技术，为行业提供了智能化解决方案。核心技术：AI视觉+物联网赋能传统闸口依赖人工核验集装箱号、车辆信息，效率低且易出错。而智慧通关系统通过高精度摄像头+AI算法，可自动识别集装箱编号、货车车牌、货物类型等关键信息，准确率
从单一设备到万物互联：鸿蒙生态崛起的未来之路王子良. 经验分享 harmonyos 华为
目录一、引言：开启智能时代的钥匙二、鸿蒙生态概述：跨设备协同的核心价值三、开发者机遇与挑战：抓住鸿蒙崛起的机会四、鸿蒙生态崛起的前景：万物互联的未来五、开发者在鸿蒙生态中的实践机遇与挑战1.跨设备开发的机遇2.与人工智能和物联网结合的创新空间3.持续创新与生态完善的挑战六、鸿蒙生态未来的多维发展：智能硬件与大数据的深度结合1.智能硬件与大数据的结合2.在智能家居与城市管理中的应用3.行业领域的深度
遥感云大数据在灾害、水体与湿地领域典型案例实践及GPT模型应用科研的力量生态遥感双碳 chatgpt GEE 卫星遥感数据
以EarthEngine（GEE）、PIE-Engine为代表全球尺度地球科学数据（尤其是卫星遥感数据）在线可视化计算和分析云平台应用越来越广泛。GEE平台存储和同步遥感领域目前常用的MODIS、Landsat和Sentinel等卫星影像、气候与天气、地球物理等方面的数据集超过80PB，同时依托全球上百万台超级服务器，提供足够的运算能力对这些数据进行处理。相比于ENVI等传统的遥感影像处理工具，G
**基于Python的数据分析与机器学习实战教程****一、引言**随着大数据时代的到来，数据处理和分析能力已经成为现代软件开发人员的必备技能之一。Python作为一种高效、简洁且功能丰富的编程语言， 2401_89451588 python 数据分析机器学习
基于Python的数据分析与机器学习实战教程一、引言随着大数据时代的到来，数据处理和分析能力已经成为现代软件开发人员的必备技能之一。Python作为一种高效、简洁且功能丰富的编程语言，在数据分析领域得到了广泛的应用。本文将介绍如何使用Python进行数据分析，并结合机器学习算法实现数据驱动的应用。二、Python基础首先，我们需要掌握Python的基本语法和常用的库。Python的语法简洁易懂，上
深入了解大数据领域Zookeeper的ACL权限管理 AGI大模型与大数据研究院大数据 zookeeper wpf ai
深入了解大数据领域Zookeeper的ACL权限管理关键词：Zookeeper、ACL权限管理、大数据安全、分布式系统、访问控制、权限模型、数据保护摘要：本文深入探讨了Zookeeper中的ACL(AccessControlList)权限管理系统。作为分布式协调服务的核心组件，Zookeeper的ACL机制对于保障大数据环境中的数据安全至关重要。文章将从基础概念出发，详细解析ZookeeperAC
场景题：有40亿个QQ号如何去重？仅1GB内存卷福同学社招面试面试阿里云京东云 java
场景题也有一些套路可以考虑，比如去重、判断给定数据是否存在1.大数据去重1.1现在有40亿个QQ号如何去重？仅1GB内存参考链接：https://juejin.cn/post/7396332696660131849介绍2种方法：Bitmap和布隆过滤器方法一：Bitmap首先介绍下什么是位图Bitmap位图是使用bit数组表示的，它只存储0或者1，因此我们可以把全部的QQ号放到位图中，当index
深度剖析数据中台：大数据领域的核心技术架构大数据洞察大数据架构 java ai
深度剖析数据中台：大数据领域的核心技术架构关键词：数据中台、大数据、核心技术架构、数据治理、数据服务摘要：本文旨在对数据中台这一大数据领域的核心技术架构进行深度剖析。首先介绍了数据中台的背景，包括其目的、适用读者、文档结构和相关术语。接着阐述了数据中台的核心概念、原理和架构，通过文本示意图和Mermaid流程图进行直观展示。详细讲解了核心算法原理及具体操作步骤，并结合Python源代码进行说明。引
2025年全球数据安全发展趋势 jinan886 人工智能大数据安全数据分析
随着云计算、大数据、人工智能等技术的迅猛发展，数据已成为驱动经济社会发展的关键生产要素。然而，数据泄露、网络攻击等安全事件频发，给个人隐私、企业利益乃至国家安全带来了前所未有的挑战。全球数据安全发展趋势正随着技术进步和威胁演变而不断变化，以下是主要趋势：1.数据隐私法规加强GDPR（欧盟《通用数据保护条例）和CCPA（加州消费者隐私法案）等法规推动了全球对数据隐私的重视，更多国家和地区正在制定或更
机器学习在智能仓储中的应用：库存管理与物流优化 Blossom.118 机器学习与人工智能机器学习人工智能深度学习机器人 sklearn tensorflow cnn
最近研学过程中发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。随着电子商务的蓬勃发展，仓储和物流行业面临着前所未有的挑战和机遇。智能仓储通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从货物入库到出库的全流程
面经总结系列（十六）：元象科技大模型推理优化工程师 GoAI AI面经总结机器学习算法人工智能大模型机器学习深度学习
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️点击链接加群。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的
大学专业科普 | 云计算、大数据鸭鸭鸭进京赶烤云计算大数据
大数据专业是近年来随着信息技术发展而兴起的热门学科，专注于从海量、多样化的数据中提取有价值信息，为各行业提供数据驱动的决策支持。专业定义大数据专业旨在培养掌握大数据采集、存储、管理、分析和应用等核心技术的人才。该专业融合了计算机科学、数学、统计学、数据科学和领域知识，重点解决大数据环境下的数据处理和分析问题。课程设置大数据专业的课程体系包括基础课程、专业核心课程和实践课程。（一）基础课程基础课程涵
Python批量下载网易云音乐飙升榜所有音乐文件 Python_小屋 graphviz netty gpu ai webgl
Python小屋刷题神器最近升级的新功能介绍推荐教材：《Python程序设计基础与应用》（ISBN：9787111606178），董付国，机械工业出版社，2018.8出版，2021.3第11次印刷作者荣誉：机械工业出版社计算机分社成立20周年本科教材”金牌作者“，机械工业出版社高等教育教材专家咨询委员会委员，机械工业出版社”面向新工科高等院校大数据专业系列教材“编审委员会委员，全国高等院校计算机基
大数据ETL工具比较：Sqoop vs Flume vs Kafka AI天才研究院 AI人工智能与大数据大数据 etl sqoop ai
大数据ETL工具比较：SqoopvsFlumevsKafka关键词：大数据ETL、Sqoop、Flume、Kafka、数据迁移、日志采集、消息队列摘要：在大数据生态中，ETL（抽取-转换-加载）是数据价值挖掘的关键环节。不同业务场景对数据传输的实时性、可靠性、数据类型有差异化需求，催生了Sqoop、Flume、Kafka等特色鲜明的ETL工具。本文从核心架构、工作原理、性能指标、实战案例四个维度，
分类预测 | MATLAB实现BP神经网络多特征分类预测 matlab科研社分类 matlab 神经网络
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍近年来，随着大数据时代的到来以及计算能力的显著提升，人工智能技术得到了飞速发展。在众多人工智能算法中，反向传播神经网络（BackPropagationNeuralNetwork,BP神经网络）凭借其强大的非
线性代数-第9篇：二次型与正定矩阵：优化问题的数学基础程序员勇哥人工智能(AI)线性代数人工智能大数据 python
线性代数-第9篇：二次型与正定矩阵：优化问题的数学基础在人工智能、量化投资和大数据分析中，优化问题无处不在，比如机器学习的损失函数最小化、量化投资组合的风险最小化等。而二次型与正定矩阵作为线性代数中的重要概念，为解决这些优化问题提供了坚实的数学基础。本篇将深入解析它们的原理及其在实际场景中的关键应用。一、二次型：从向量到函数的桥梁1.定义与表达式二次型是一个关于向量x\mathbf{x}x的二次齐
电商用户行为可视化大屏--大数据项目
一．项目目的1.深入了解服务：用户的浏览路径、购买频率、商品评价等数据，能够精准地刻画用户画像。了解用户的年龄、性别、地域等基本信息，以及他们的兴趣爱好、消费习惯等更深入的特征，从而为个性化的营销和服务提供依据。2.优化用户体验：通过分析用户在页面之间的跳转时间、购物车的使用情况等，找出可能存在的流程不畅或设计不合理的地方。3.提高运营效率：对商品销售数据、库存数据等进行关联分析，有助于合理安排库
memcpy与memcpy_toio：深入解析两大数据传输神器 jghhh01 c++c语言
在软件开发中，数据的高效传输是确保程序性能和稳定性的关键。C语言作为一种广泛应用于系统编程和嵌入式开发的语言，提供了多种用于数据复制和传输的函数。其中，memcpy和memcpy_toio是两个备受关注的数据传输函数，它们各自在特定场景下发挥着不可替代的作用。本文将深入解析这两个函数，探讨它们的用途、区别以及在实际应用中的最佳实践。一、memcpy：内存复制的基础工具memcpy是C标准库中的一个
基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等) 阿勇学长大数据项目实战案例 Java精品毕业设计实例 Python数据可视化项目案例大数据 django spark 国漫推荐与可视化平台毕业设计 Java
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
机器学习在智能供应链中的应用：需求预测与库存优化 Blossom.118 机器学习与人工智能机器学习人工智能机器人深度学习 python 神经网络 sklearn
在当今全球化的商业环境中，供应链管理的效率和灵活性对于企业的竞争力至关重要。智能供应链通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从原材料采购到产品交付的全流程优化。机器学习技术在智能供应链中的应用尤为突出，尤其是在需求预测和库存优化方面。本文将探讨机器学习在智能供应链中的应用，并分析其带来的机遇和挑战。一、智能供应链中的需求预测准确的需求预测是供应链管理的核心。需求预测
基于SpringBoot律师事务所案件管理系统的设计与实现一点教程 Java项目 spring boot 后端 java spring 律师事务所案件管理系统
博主主页：一点教程博主简介：专注Java技术领域和毕业设计项目实战、Java微信小程序、安卓等技术开发，远程调试部署、代码讲解、文档指导、ppt制作等技术指导。主要内容：毕业设计，SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Python、Nodejs、小程序、安卓app、大数据等设计与开发感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以和博主沟通，希
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h

hive复习日记-持续更新

hive

一、 概念

二、优缺点

三、架构

四、工作原理

五、与传统型数据库的区别

六、hive中库，表的注意事项

七、hql的基本用法

八、数据类型

九、窗口函数

十、自定义函数

十一、分区表

十二、分桶

十三、Serde与存储格式

十四、索引、视图

十五、hive的压缩

十六、数据导出

十七、企业级调优

十八、hive和mysql的对比

十九、hive的数据倾斜

你可能感兴趣的:(大数据)

一、概念