enoughgood

HiveSQL常用优化方法经验总结

1. 写在前面的话

此处省略150字…

2. Hive中解决数据倾斜的场景

2.1 大表Join小表时的数据倾斜(map join)

在大表Join小表时,解决数据倾斜最好的方式是使用Map Join,避免Shuffle,从而也避免了数据倾斜. map join主要通过下面的参数来调节:

#默认是true
set hive.auto.convert.join=true  --开启map join  //1.x版本及以后默认是开启的
#设置小表的大小,生产环境可以适当调大
set hive.mapjoin.smalltable.filesize=25000000 --默认小表小于25mb

在map join中,还有如下2个参数经常使用:

set hive.auto.convert.join.noconditionaltask=true;
set hive.auto.convert.join.noconditionaltask.size=60000000;

说明:

第一个参数的作用是,在内连接中,除了第一个表之外的其它表是小表的情况,将普通的join转化为Map join时,是否将多个Map join合并为一个Map Join.设为true表示合并.
第二个参数是限定表的大小,多个Map join合并成一个Map join时,其小表的总大小必须小于该值才合并.
在小表left join大表时,不能将小表写入内存,否则得到错误的结果.inner join,小表在左边或右边都可以.full out join不能使用map join.

2.2 大表Join大表时的数据倾斜

上面的Map Join解决了小表关联的问题,假如关联的是2个大表就不太适用了.小表不小,所以不太适合加载进内存,那么Map Join肯定是不适合的;两个表都不小,所以必然带来大量的网络IO和磁盘IO,所以Reduce Join也不适合.这个时候就可以使用SMB Join,并带来性能很大的提升.
使用SMB Join的前提: 1.创建表时必须是创建分桶表;2.创建表时必须指定sort by排序;3.分桶的字段与sort by排序的字段且和两表关联的字段必须是一样的.

set hive.enforce.bucketing=true; --默认为false,开启后,则写入数据时会自动分桶
set hive.enforce.sorting=true; --默认为false,开启后,插数据到表中会进行强制排序
#如果希望SMB Join能够转换为SMB Map Join,还需要设置以下参数
set hive.auto.convert.sortmerge.join=true; 
set hive.optimize.bucketmapjoin = true; 
set hive.optimize.bucketmapjoin.sortedmerge =true

原理说明:
在map join的时候,两个表是以相同的方式来划分桶的,则处理左边表的某个桶的时候,Mapper是知道表内对应的记录也在右边表的相同的桶内.因此Mapper只需要获取对应的那个桶,然后进行连接就可以.桶中的数据是根据相同的字段进行排序,这样每个桶的join就变成了merge sort,可以进一步提升map join效率.

2.3 group by引起的数据倾斜

2.3.1 key的基数少(即key的值种类不多),但数据量很大引起的数据倾斜

#默认为fasle,这样就会开始map端聚合combiner.可以减少shuffle的数据量.
set hive.map.aggr=true;

2.3.2 个别key的值数据量大,造成这类key的reduce执行太久引起的数据倾斜

#默认为fasle,应设置为true
set hive.groupby.skewindata=true;
#设置group by后面的键的记录数超过该值就会优化
set hive.groupby.mapaggr.checkinterval=100000;
#预先取100000条数据聚合,如果聚合后的条数/1000000 > 0.5,则不再预聚合
set hive.map.aggr.hash.min.reduction=0.5;

其原理是,在group by时启动2个MR job,第一个job会将map端数据随机分发到各个reducer,每个reducer做部分聚合,相同key的所有数据就会分布在不同的reducer中.第二个job再将前面预处理过程过的数据按key聚合并输出结果,这样就启到了均衡的效果.

2.3.3 count(distinct)引起的数据倾斜

当我们需要对某个字段数据进行去重统计时,如果数据量很大,count(distinct)就会非常慢,为了保证全局去重,count(distinct)只会有一个reduce来处理.这时可以用group by来改写.但是这样会启动两个MR job(单纯的distinct只会启动一个).所以如果数据量不是太大的话,使用count(distinct)或许更快.因为这时还使用group by的话,需要启动2个MR,就会耗费更多的时间.

2.3.4 两表Join时引起的数据倾斜

2.3.4.1 关联字段空值过多的情况

实际场景:
在日志中,常会有信息丢失的问题,比如日志中的user_id,如果取其中的user_id和用户表中的user_id关联,会碰到数据倾斜的问题.因为这些空值在join时会被分配到一个reduce,拖累进度.(空值字段是连接字段的情况)
解决办法:
如果user_id为null的数据不需要,可以直接过滤掉,不参与关联.

select
user_id
from
(
	select user_id from log where log.user_id is not null
)t
join users on t.user_id=users.user_id

如果user_id为null的需要保留可以使用下面2种方式解决数据倾斜:

#先单独取出user_id为null的,
select
user_id
from
(
	select user_id from log where log.user_id is not null
)t
join users on t.user_id=users.user_id
union all
select * from log where user_id is null

#在进行join时,将null值用随机值替代然后进行join
select *
from log left 
join users
on case when log.user_id is null then cancat("hive",rand()) else log.user_id = users.user_id

说明:
1. 在给定随机值的时候注意产生的随机值不要与另一张表有关联上的可能,一定要保证产生的随机值是关联不上的,因为空值本来就是关联不上的,不要改变了关联了结果.变为随机值也不要影响最终结果.
2. 把空值的key变成一个字符串加上随机数,就能把倾斜的数据分到不同的reduce上,解决数据倾斜问题.而这些分散到各个reduce上的数据由于是随机值,不会产生关联,不会影响最后关联的结果.

2.3.4.2 关联字段空值过多的情况

用户表中user_id字段类型为int , log表中user_id的字段类型为string.当两表进行关联,user_id作为关联字段时,默认的hash操作会按照int类型的user_id来进行分配,这样会导致所有string类型的user_id记录都会分配到同一个Reducer中,造成严重的数据倾斜.
解决办法: 把数字类型转换成字符串类型.

on user.user_id=cast(log.user_id as string)

3. Hive中解决小文件的问题

3.1 小文件产生的原因

对于MR任务,reducer的任务数过多,会有大量的小文件输出.

3.2 小文件带来的问题

如果有大量的小文件,就会产生大量的元数据信息,那么就会占用namenode大量的内存空间,影响namenode的性能.
大量的小文件就会产生大量的map个数,调度时间较长,影响执行效率.

3.3 解决小文件问题

3.3.1 通过JVM重用解决小文件产生的大量map数

在MR job中,默认是每执行一个task就启动一个JVM.如果task非常小而碎,那么JVM启动和关闭的耗时就会很长.可以通过调节参数mapred.job.reuse.jvm.num.tasks的值来达到重用的目的(默认值为1).例如将这个参数设成5,那么就代表同一个MR job中顺序执行的5个task可以重复使用一个JVM,减少启动和关闭的开销.但它对不同MR job中的task无效.
如果大量的小文件启动大量的map,可以通过开启JVM重用来解决.特别适合很难避免小文件或task特别多的场景,这类场景大多执行时间都很短.hadoop默认配置是使用派生JVM来执行map和reduce任务的,这时jvm的启动过程可能会造成相当大的开销,尤其是执行的job包含大量的task任务的情况时.
JVM重用可以使得JVM实例在同一个job中重新使用N次,N的值在Hive中可以通过set mapred.job.reuse.jvm.num.tasks参数来设置.
JVM重用的缺点是一直占着资源,以便进行重用.所以如果有几个task迟迟执行不成功,那么被占着的资源迟迟得不到释放,那么被占着的插槽一直空闲确无法被其它job使用,直到所有task都结束才会释放.

3.3.1 在Mapper输入阶段对小文件进行合并

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

设置上面的参数之后就会自动合并小文件,具体合并的大小由下面的参数决定:

#最大的split大小.一个split就对应1个map. 默认为256MB,可以调大
mapred.max.split.size=256000000; --决定每个map处理的最大的文件大小,单位B
#单个节点最小的split的大小.默认为1Byte,需要调大.那么小于这个数的文件就会合并
mapred.min.split.size.per.node=1; --一个节点上split的至少的大小
#单个机架最小的split的大小
mapred.min.split.size.per.rack=1;  --一个机架中split的至少的大小

3.3.2 在MR的输出阶段进行合并

#在只有map阶段时进行合并
set hive.merge.mapfiles=true
#MR引擎适用,在reduce阶段合并
set hive.merge.mapredfiles=true
#tez引擎适用
set hive.merge.tezfiles=true
#合并后期望的文件大小
set hive.merge.size.per.task=256000000(默认256MB) 
#当输出文件大小的平均值大小小于该值时,启动一个独立的mapReduce任务进行文件merge
set hive.merge.smallfiles.avgsize=16000000(默认16MB)

4. 适当开启压缩

当数据比较大的时候,可以考虑压缩数据.Snappy压缩率低,但压缩,解压速度最快.
压缩Job的中间结果数据和输出数据.具体的压缩方式根据场景来定,如果需要考虑分片,可以使用lzo压缩,为压缩文件建立索引之后,就可以进行分片了.如果不考虑分片,可以使用snappy压缩,因为它的压缩速度是最快的.
开启map和reduce中间过程的压缩,减少map和ruduce task之间的数据传输量.

set hive.exec.compress.intermediate=true; --默认为false
--设置解码格式
set mapred.map.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;

Hive的最终输出结果压缩:

set Hive.exec.compress.output=true; --默认为false,开启最终压缩
set mapred.output.compression.type=BLOCK; --默认为record
--设置压缩方式,这里为snappy
set mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
set mapreduce.output.fileoutputformat.compress=true;

说明:
通常，为了减轻存储和数据传输，提升效率，我们都会选择压缩，但压缩的不同格式有不同的适合场景，这个每个公司都有差异，需要根据实际情况来选择。

5. 开启并行执行

开启并行执行,在同一个应用中,Hive中互相没有依赖关系的job间是可以并行执行的,最典型的就是多个子查询union all,在集群资源相对充足的情况下,可以开启并行执行,即将参数hive.exec.parallel设为true(默认为false).另外hive.exec.parallel.thread.number可以设定并行执行的线程数，默认为8，一般都够用(即指定并行的最大job个数,默认为8个)。
在有union all的场景下,特别适用,多个任务之间没有依赖,独立运行.在资源不是核心瓶颈的前提下,可以直接缩短运行时间.如果集群只有数台机器,资源有限,开并行会导致资源紧张,这种方式就不一定能提到调休的效果了.

6. 开启本地执行

Hive也可以不将任务提交到集群进行运算，而是直接在一台节点上处理。因为消除了提交到集群的消耗.所以比较适合数据量很小，且逻辑不复杂的任务。要启用本地模式,需要设置以下参数:

set hive.exec.mode.local.auto=true; --默认为false,设为ture开启本地执行
set hive.exec.mode.local.auto.inputbytes.max=134217728; --任务输入的总数据量必须小于设定的值,默认128MB
set hive.exec.mode.local.auto.tasks.max=4; --且Mapper的数量必须小于设定的值.默认为4
reduce的数量必须0或1个

7. 开启严格模式

所谓严格模式,就是强制不允许用户执行3种有风险的HiveSQL语句,一旦执行就会直接失败.设置hive.mapred.mode的值为strict可以开启严格模式.
严格模式开启后,会禁止以下3类查询:

查询分区表时不限定分区列的语句在严格模式下执行失败
两表join时产生了笛卡尔积的语句在严格模式下执行失败(没有连接条件或连接条件失效都会产生笛卡尔积)
用order by来排序但没有指定limit的语句在严格模式下也会执行失败.

8. 选择合适的存储格式

因为在Hive中很多场景下,我们并不需要查询每行数据中的所有字段,更多的时候是查询需要的某几个字段,这时可以考虑使用列式存储格式,比如parquet和orc格式.如果仅仅是使用HiveSQL查询,可以选用ORC格式,性能是最好的.如果考虑到多分析引擎的使用,比如Spark,Impala等,可以考虑Parquet格式.

9. 调整Map的数量

Map数量是否是越多越好?

如果一个任务有很多小文件(<<128M),每个小文件也会被当做一个数据块,用一个mapTask来完成.每个mapTask启动和初始化时间>>处理时间,会造成资源浪费,而且系统中同时可用的map数量是有限的.所以对于小文件采用的策略是合并.
每个Map处理接近128M的文件,就是最合适的么?
有一个125M的文件,一般情况下用一个MapTask来完成.假设这个文件字段很少,但记录数却非常多,如果map函数处理的逻辑比较复杂,用一个mapTask去做的话,性能也不好.对于这种复杂文件采用的策略是增加Map数量.
可以通过下面的方式调节map的数量:

computeSplitSize(max(minSize,min(maxSize,blocksize)))
minSize : mapred.min.split.size(默认值为1)
maxSize : mapred.max.split.size(默认值256M)
如果都是默认参数那么计算出来就是按128MB作为一个分片.
也可调整maxSize的最大值可以改变map的数量.
1.如果让maxSize最大值小于blocksize就可以增加map的个数.假如maxSize的
值调为64,那么分片大小计算出来就为64

10. 调整reducer的数量

reducer数量的确定方法比mappper简单的多,可以直接使用mapred.reduce.tasks参数来设置.如果未设置该参数,Hive会自动推测Reducer的数量,推测逻辑如下:

参数hive.exec.reducers.bytes.per.reducer用来设定每个reducer能够处理的最大数据量,默认值256MB.
参数hive.exec.reducers.max用来设定每个job最多能启动的reducer数量,默认值999(1.2版本之前)或1009(1.2版本之后)
计算出reducer数量=min(reduce的输入数据总量/256M,1009)
reducer的数量与输出文件的数量有关,如果reducer数太多,会产生大量小文件,对HDFS造成压力.如果redcuer数量太少,每个reducer要处理很多数据,容易拖慢运行时间或者造成OOM.
说明:
也有些情况是固定只有一个reduce的(不管有没指定reduce数量):
a.没有group by的汇总
b.使用order by全局排序
c.笛卡尔积
d.count(distinct)
但这几种情况一般是我们需要避免的,因为会造成性能瓶颈.

11.其它方面的优化

11.1 列裁剪和分区裁剪

所谓列裁剪就是在查询时只读取需要的列.分区裁剪就是只读取需要的分区.创建分区表,避免全表扫描.

11.2 谓词下推

简单理解,在进行join操作时,先使用where条件过滤出需要的行数据,再进行join,这样就能减少下游处理的数据量.而不是先全表join,再进行过滤.

12. 减少job数优化举例

启动一次job尽可能的多做事情,一个job能完成的事情,不要两个job来做.可以尽量减少job的数量,即减少MR的数量,让一个job完成更多的功能.提升执行速度.

12.1 尽量使用union all替换union

一般在实际场景中不会使用union,因为union除了将几张表拼接在一起,还会去重,会增加job的数量.union all会单纯的将几张表拼接在一起,不会产生额外的job,如果关联在一起后真的要去重,也不使用union,而是用group by来去重.

12.2 有多张表要分别求出每张表的记录数优化的场景

#1.最简单的方式.有4个job.但是效率比较低.
select count(1) from table1;
select count(1) from table2;
select count(1) from table3;
select count(1) from table4;

#2.改进后的方式.只有一个job.只是一个job中有多个map和reduce任务
select
type,count(1)
from
(  
    select 'table1' as type,name from table1
    union all
    select 'table2' as type,name from table2
    union all
    select 'table3' as type,name from table3
    union all
    select 'table4' as type,name from table4 
)tmp
group by type;

浮漂式水质监测设备：智能守护水环境的未来之眼柏峰电子人工智能
浮漂式水质监测设备：智能守护水环境的未来之眼柏峰【BF-FBSZ】随着全球水资源短缺和水污染问题日益严峻，水质监测技术正迎来前所未有的发展机遇。作为这一领域的创新突破，浮漂式水质监测设备凭借其实时性、智能化和网络化优势，正在重塑水资源管理的新格局。本文将深入探讨这一技术的原理、特点、应用场景及未来发展趋势。一、技术原理与系统架构浮漂式水质监测设备是一种集成了现代传感器技术、物联网和大数据分析的智能
随笔傻糯米
“我们会有个不大不小的房子，在市区旁边，或者县中心都可以。有个小宝宝，也许不那么漂亮帅气，但是很可爱。我不要求他多高成就，健康快乐的就行，毕竟他爹就是个普通人，也做不来那种逼着小孩争气的事儿。只一点，他不能气你。我自己媳妇疼都来不及，怎么能被一小屁孩给欺负了……”一凡顿了顿，俯下身子，轻轻拨了拨这人的刘海，不让它扎着女人的眼，慢慢讲。“你在家照顾小孩，我就出去上班，下班了跟朋友喝喝酒聊聊天，周末了
基于蜣螂算法优化多头注意力机制的卷积神经网络结合双向长短记忆神经网络实现温度预测DBO-CNN-biLSTM-Multihead-Attention附matlab代码 matlab科研助手神经网络算法 cnn
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机物理应用机器学习内容介绍温度预测在气象学、农业、能源等领域具有重要的应用价值。随着大数据和人工智能技术的快速发
《3-6岁孩子的正面管教》读后随笔八执念sunshine
今天我读的是本书，第16章3到6岁孩子的家庭会议和班会。其实我们大多时候都忽略了家庭会议和班会的重要性，班会不止是集体解决问题的会议，在班会上，孩子们定期聚在一起，相互帮助，相互鼓励，学习沟通技能，专注于解决方案并培养判断力和智慧。然而，无论一个孩子几岁，班会最重要的作用是都是造成一种归属感，因为对归属感的需要是所有错误目的行为的核心所在，处理这种需要将对群体中孩子们的行为产生最深远的影响，是很容
基于Socket来构建无界数据流并通过Flink框架进行处理每天五分钟玩转人工智能 Flink技术实战 flink 大数据 Flink 分布式无界数据
本文重点随着大数据技术的不断发展，实时数据流处理已成为企业应对海量数据、实现快速决策的关键技术。ApacheFlink是一个开源的流处理框架，它能够对无界数据流进行高效的、精确的处理。本文将介绍如何通过Socket构建无界数据流，并利用Flink框架进行无界流处理。基于Socket构建无界数据无界数据指的是源源不断产生的数据，这些数据通常来自各种实时数据源，如用户行为日志、传感器数据等。Socke
读书随笔《硅谷超级家长课》悦忆抒
这本书写的是一个妈妈培养出了三个优秀的女儿，方法其实很简单。她的方法就是五个原则——“TRICK教养法”，让孩子做自己的CEO。1.通过相信孩子培养孩子的信任能力，让孩子感受自身的价值。2.对孩子给予最大的尊重，但是不能降低要求。3.告诉孩子他可以是独立的。4.在信任、尊重和独立的前提下会合作。5.言传不如身教。不要把焦虑传给孩子。教育孩子是很艰巨的任务，要正确引导，善于发现孩子的优点，不要因为孩
sgg大数据全套技术链接[plus] 原来是大华啊~ 资源大数据
写在开头：感谢尚硅谷，尚硅谷万岁，我爱尚硅谷111个技术栈+43个项目，兄弟们，冲！最近小米又又又火了一把，致敬所有造福人民的企业和伟大的企业家，致敬雷军，小米，致敬马云，致敬尚硅谷，致敬所有为人民谋福的英雄人物和企业，再次献上我诚挚的敬意，致敬！尚硅谷大数据全套111个技术1.Java从入门到精通JDK版链接：https://pan.baidu.com/s/1GAc610SYSMmZBuOX4D
cdh6.3.2的hive使用apache paimon格式只能创建不能写报错的问题明天,今天,此时 hive paimon
前言根据官网paimon安装教程，看上去简单，实则报错阻碍使用的信心。解决方法原带的jars下的zstd开头的包旧了，重新下载zstd较新的包单独放到每个节点的hive/lib下; 然后将hdfsyarn用户下的mr-framework.tar.gz中的zstdjar包替换成新的版本。重启就可以了总结国外软件问题，尽量使用英文搜索，特别是google.。方法来源：http
随笔下黄昏
搁浅的巢穴流浪的燕儿叽叽喳喳圆月、明亮、冰凉田野、茵茵、苍翠天转寒南归不归，就回不去了
疫情下，我的健康码首次变成了黄码唯我一心
3月中旬，老公在广州白云区接了一单生意，要很久才回来，就在那里租了一间房，带我和孩子一起住。房子在七楼，步梯，因孩子小，自己就很少下楼，都是他买菜回来，4月8号，订单完成，返程回了佛山。过了两天突然接到短信通知，白云区要大规模核酸筛查，又过一天收到短信:通过大数据分析，您近期行程涉及疫情防控重点区域，您的健康码将被赋予2次黄码并需开展2次核酸检测，请注意健康码状态，尽快凭码到附近黄码核酸检测点进行
到底应该怎么抓语文成绩山东董纯
上学期期末考试，全区统一采用网上阅卷的形式。在这个大数据时代，在这个极为透明的数据时代，一旦采用这样网络统一阅卷的形式。那丑媳妇就要真的见公婆了。再这样一个要生源没生源。要学习积极性没有学习积极性的氛围里。想取得好的成绩是真的难上加难。尽管已经预料到跟其他兄弟学校有一定的差距。但是没有想到差距如此之大。领导们坐不住了，反复约谈备课组长。理由是其他科目差距不大，甚至有优势。为什么语文学科会有如此大的
老何大咖：锁定了做哪个项目，就踏踏实实做，不要想三想四，想多了，累老何大咖123
老何大咖：网络创业随笔1）、赚钱，在我看来，就是解决3个问题：1、卖什么？2、复制谁？3、怎么复制？……2）、推广不难。最难的是知道自己一辈子卖什么。项目锁定了，习惯性从一而终。不要一会儿A，一会儿B。……3）、赚钱就是抓到核心，做比较重要的事儿。不要在细节上浪费时间。很多人赚不到钱，就是过于注重细节，如此而已！……4）、卖点锁定，口子缩小，深挖一口井，这样成功案例多，也赚钱多，会形成一个良好的循
读《原则》随笔-1 kavern
最近在看RayDlio的《原则》，受益颇多。作为对冲基金界神一样存在的人物，RayDlio通过本书讲述了他的成长历程，如何一手创办了桥水，如何取得了今天的成就。贯穿始终的，是所谓的“原则”，即做任何事情，都要有的标准、准则。这不禁让我想起了罗胖在2018跨年演讲上讲的“人生算法”（附上当时的感悟“算法”的力量）。无论是“原则”，还是“算法”，说白了，都是一系列可表达、可重复执行的指令。要想与众不同
告别内存焦虑！用Dask打开Python大数据并行计算的“任意门“ 小张在编程 python 大数据开发语言
引言当你在Jupyter里用Pandas读取20GB的CSV文件，看到内存占用率从10%飙升到90%，最后弹出"MemoryError"时；当你想对亿级数据做分组聚合，却发现单线程计算要等上半小时——这些场景是不是像极了用小推车搬运万吨货物？Python生态中，Dask库就像一台"并行计算推土机"，能把大数据拆分成小块并行处理，让你的普通电脑也能拥有分布式计算的能力。本文将从原理到实战，带你掌握这
python大数据论文_大数据环境下基于python的网络爬虫技术 weixin_39775976 python大数据论文
软件开发大数据环境下基于python的网络爬虫技术作者/谢克武，重庆工商大学派斯学院软件工程学院摘要：随着互联网的发展壮大，网络数据呈爆炸式增长，传统捜索引擎已经不能满足人们对所需求数据的获取的需求，作为搜索引擎的抓取数据的重要组成部分，网络爬虫的作用十分重要，本文首先介绍了在大数据环境下网络爬虫的重要性，接着介绍了网络爬虫的概念，工作原理，工作流程，网页爬行策略，python在编写爬虫领域的优势
Redis性能测试：工具、参数与实战示例 Seal^_^ 数据库专栏 #数据库--Redis redis 数据库 Redis性能测试
Redis性能测试：工具、参数与实战示例1.Redis性能测试概述2.redis-benchmark基础使用2.1基本语法2.2简单示例3.性能测试参数详解4.实战测试示例4.1基础测试4.2指定命令测试4.3带随机key的测试4.4大数据测试4.5管道测试5.性能测试流程图6.测试结果分析与优化建议6.1结果解读6.2优化建议7.高级测试场景7.1持久化影响测试7.2集群测试7.3长时间稳定性测
2025年各细分产业链企业数据(汽车、数字经济、食品、制造业) 经管数据库汽车智能手机数据分析
本数据包含2025年及之前的所有上中下游企业信息，67个细分产业。汽车专区、数字经济专区、数字创意专区、未来产业专区、高端装备专区、新能源专区、食品农业专区、传统制造业专区等71个文件。汽车专区：充电桩制造动力电池汽车材料制造汽车制造汽车制造设备汽车座椅制造驱动电机制造燃料电池汽车制造燃料电池系统制造新能源汽车制造智能驾驶智能视觉数字经济专区：5g边缘计算大数据类服务器光通信集成电路区块链人工智能
随笔记龙的心_48aa
新的模式下，人们争先恐后的抢占先机，未来的市场，是适应这种模式，还是淘汰这种模式！静观其变，以不变应万变！
C#语法基础总结（超级全面）（二） inwith C#语法基础 c#开发语言
文章目录c#语法基本元素关键字操作符（operator）类型转换标识符（Identifier）语句try语句迭代语句（循环语句）索引器文本（字面值）五大数据类型引用类型：值类型：变量、对象与内存装箱和拆箱类类的实例化类的三大成员（属性、方法、事件）属性（property）方法（函数）方法参数值参数引用参数输出参数数组参数具名参数可选参数扩展方法（this参数）方法的重载构造器（constructo
随笔21 菜菜菜小姐
今日的关键词：人生若只如初见。最近常常在想这句话，人与人的相处真是很奇妙。我觉得距离感和分寸感真得很重要。可能大概是因为我开始社恐了吧。“社恐”这个词用在我身上可能我身边所有的人都会觉得一点都不像，恰恰相反，在外人眼中我大概是“社交牛逼症”的那一位。其实，只有自己才最了解最真实的自己，成年后的生活，每一个外人所了解的自己都只是我们想让别人看到的自己。这两年，总会有朋友说学习碰到学校的同事，都是我是
ROS1/Linux——linux虚拟机主ip地址：网络信息不可用 eagle_Annie 网络 linux tcp/ip
ROS1/Linux——linux虚拟机主ip地址：网络信息不可用文章目录ROS1/Linux——linux虚拟机主ip地址：网络信息不可用参考亿点链接问题描述最终解决方案参考亿点链接Unabletofetchsomearchives,mayberunapt-getupdateortrywith–fix-missinglinux虚拟机主ip地址：网络信息不可用（没IP）【问题解决】VMWare虚拟
SQL 常用版本语法概览：标准演进与关键语法分析
一、引言SQL（StructuredQueryLanguage，结构化查询语言）是关系型数据库系统的核心语言，自1986年成为ANSI和ISO标准以来，经历了多次版本演进，不断增强语义表达能力以适应复杂的企业数据需求。随着数据库技术的不断发展，各大数据库厂商（如Oracle、SQLServer、PostgreSQL、MySQL等）在实现标准的基础上扩展了大量方言语法，使得掌握SQL的标准语法版本成
主流数据库语言语法对比两圆相切数据库
以下是五大数据库（MySQL、PostgreSQL、Oracle、SQLServer、SQLite）核心语法对比，涵盖DDL、DML、查询、函数、事务等全场景，包含底层原理差异和实用示例。##一、数据一、类型深度对比分类MySQLPostgreSQLOracleSQLServerSQLite整数TINYINT,INT,BIGINTSMALLINT,INT,BIGINTNUMBER(10)TIN
Hadoop与云原生集成：弹性扩缩容与OSS存储分离架构深度解析
Hadoop与云原生集成的必要性Hadoop在大数据领域的基石地位作为大数据处理领域的奠基性技术，Hadoop自2006年诞生以来已形成包含HDFS、YARN、MapReduce三大核心组件的完整生态体系。根据CSDN技术社区的分析报告，全球超过75%的《财富》500强企业仍在使用Hadoop处理EB级数据，其分布式文件系统HDFS通过数据分片（默认128MB块大小）和三副本存储机制，成功解决了P
React-Python项目安装与使用指南
React-Python项目安装与使用指南一、项目目录结构及介绍通常情况下，在克隆了https://github.com/facebookarchive/react-python.git仓库之后，你会看到以下的目录结构：├──README.md#项目的说明文档├──src#源码目录│├──components#React组件存放位置│├──App.py#应用主入口文件│└──index.js#引入
深入TA-Lib：量化技术指标详解
深入TA-Lib：量化技术指标详解本文系统讲解TA-Lib技术指标分析，涵盖基础、数据处理、趋势与动量指标、均量线、布林线等，并结合Python代码与大数据、机器学习实战案例，助力读者掌握量化交易实战技巧。本文系统梳理了TA-Lib技术指标分析的核心内容，包括TA-Lib基础、数据处理、趋势与动量指标、均量线、布林线等关键技术指标分析方法，并结合Python代码示例与大数据、机器学习的融合实战案例
随笔戍戊
给我挣扎却不给我重生，给我问题却不给我答案，给我希望却不给我结果，给我一光明却没有路途，给我目标却不给我终途，给我选项却不给我选择，给我生命却不给生活，给我牵绊却不给我理解，给我你给的却不给我我要的，最后还是觉得我不懂事，不听话，可是这样了还有人羡慕，有人嫉妒，我不知道我该怎么说，人生终途不过向死而生，我却做不得我。
大数据时代下的时序数据库选型指南：基于工业场景的IoTDB技术优势与适用性研究 Loving_enjoy 计算机学科论文创新点机器学习 facebook 经验分享课程设计
>在宝钢集团的智能工厂里，5万多个传感器每秒产生150万+数据点，传统数据库系统每天积压3TB未处理数据——这揭示了工业4.0时代的核心矛盾：**海量时序数据处理能力已成为智能制造的关键瓶颈**。###工业时序数据的四大特殊性工业场景下的时序数据与传统互联网数据存在本质差异：1.**高精度时间要求**-数控机床振动监测需微秒级时间戳-电网故障定位要求时间同步精度≤1μs2.**多源异构性**```
随笔（探悟）杰语唱响
（有吸引力的女人）有一种女人，哪个男人如果能娶到她、那他心里一辈子、就再也装不下别的女人了。她不一定很漂亮，也不一定特别有钱，但她有三个特征，却能持久吸引人。第一她很温柔，但又很独立，不依附男人，第二她很善良，但却爱憎分明，敢爱敢恨，第三她在家里会很浪漫、但在外面却极致的清醒。一个女人的一生，最应该学会的，不是挣钱，也不是打扮自己、而是有让自己快乐的能力。出生你没办法选择、婚姻有时候也靠运气，唯一
斗鱼大数据面试题及参考答案大模型大数据攻城狮大数据大数据面试 hadoop面试 spark面试 flink面试手撕SQL 手撕代码
GC（垃圾回收）相关知识一、常见的GC收集器SerialGCSerialGC是最基本的垃圾收集器，它是单线程的。在进行垃圾收集时，会暂停所有的用户线程，直到垃圾收集完成。它的工作过程比较简单，首先标记出所有的垃圾对象，然后将它们清除。例如，在一个小型的、对响应时间要求不高的Java应用程序中，如简单的命令行工具，SerialGC可以满足垃圾收集的需求。因为这种应用程序通常没有很高的并发要求，暂停用
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f