祈愿lucky

Hive调优

1.参数配置优化

设定Hive参数有三种方式：
（1）配置Hive文件
当修改配置Hive文件的设定后，对本机启动的所有Hive进程都有效，因此配置是全局性的。
一般地，Hive的配置文件包括两部分：

a）用户自定义配置文件：$HIVE_CONF_DIR/hive-site.xml
b）默认配置文件：$HIVE_CONF_DIR/hive-default.xml.template
# 当用户自定义配置后，会覆盖默认配置。

实际上，因为Hive是作为Hadoop的客户端环境下启动，而Hive的配置会覆盖
Hadoop的配置，因此这类修改配置的方式不推荐使用。
（2）命令行参数配置
命令行参数配置就是：启动Hive（客户端或Server方式）时，可以在命令行添加-hiveconf param=value来设定参数。比如：

hive --service hiveserver2 --hiveconf
hive.root.logger=DEBUG,console

需要注意的是，只要通过Beeline连接的这个hiveserver2的客户端，都具备这个配置参数的方式。
但这种配置方式，有一个存在问题，那就是：命令行参数配置的作用域是所有请求的Sessions会话内有效，即仅在当前窗口下生效，一旦关闭窗口，则失效。
（3）设定参数声明
通常地，在Hive中，设定参数声明需要使用到set关键字，比如：

-- 查看
set mapreduce.job.reduces;
-- 设定reduce数量
set mapreduce.job.reduces = 3;

（1）参数设置优先级
参数声明 > 命令行参数 > 配置文件参数
（2）参数设置范围大小
配置文件参数 > 命令行参数 > 参数声明
一般情况下，会在执行程序前使用set关键字来设定参数配置。

1.1 设定Fetch抓取策略

我们知道，执行Hive时，查询缓慢的主要原因是：执行了MapReduce计算。因此，
若想提高执行效率，可以避免执行MapReduce程序。
简单地说，设定了Fetch抓取策略的某些参数后，Hive可以避免走MapReduce程序，有效提升了执行效率。比如：

-- 设置Fetch本地抓取策略
hive.fetch.task.conversion = more;

当Fetch的这个属性修改为more值后，在全局查找、字段查找、limit查找等都不执行MapReduce计算。
hive.fetch.task.conversion属性值有3个选项：

（1）hive.fetch.task.conversion = more; [默认值]
可以保证在执行全表扫描、查询某几个列、执行简单查询、where条件且包括
limit操作时，都不会走MR
（2）hive.fetch.task.conversion = minimal;
保证执行全表扫描以及查询某几个列以及limit操作可以不走MR, 其他操作都会执
行MR
（3）hive.fetch.task.conversion = none;
全部查询操作，都执行MR

强烈建议当调试程序结束后，继续设定[hive.fetch.task.conversion =more;]结果。

-- select * from tb_taobao_log;
-- select * from tb_taobao_log where result_value>0; -- 没有
走mr , 自动优化
-- set hive.fetch.task.conversion = minimal;
-- 4
-- select * from tb_taobao_log; -- minimal状态很简单就不走mr
-- select * from tb_taobao_log where result_value>0; -- 走mr,
没有优化
set hive.fetch.task.conversion = none; -- 什么都不优化

-- 5
select * from tb_taobao_log;
select * from tb_taobao_log where result_value>0;
/*
more: 普通查询、全表扫描、简单条件都不走mr, 自动优化; --执行效率提升
[默认]
minimal: 全表扫描不走mr, 其他一般都走
none: 所有的查询操作都走mr程序 -->底层
*/
-- 恢复默认
set hive.fetch.task.conversion = more;

（2）Fetch抓取策略已默认设定为more，因此当调试完程序后，记得恢复默认值more。

1.2设定本地模式

在应用中，大多数的Hadoop Job是需要Hadoop提供的完整可扩展性来处理大数据
集（TB）。不过，有时Hive的输入数据量是非常小的。
在这种情况下，为查询触发执行任务时，消耗资源可能会比实际Job的执行时间要多的多。
对于大多数的这种情况，Hive可以通过本地模式在单台机器上处理所有的任务。而对于小数据集，执行时间可以明显被缩短。
用户可以通过设置hive.exec.mode.local.auto的值为true，来让Hive在适当的时候，自动启动这个优化。
比如，设定本地模式时，可以设定如下参数：

-- 开启本地local mr
set hive.exec.mode.local.auto=true;
-- 设置local mr的最大输入数据量，当输入数据量小于这个值时采用local mr的
方式，默认为134217728，即128M
set hive.exec.mode.local.auto.inputbytes.max=134217728;
-- 设置local mr的最大输入文件个数，当输入文件个数小于这个值时采用local mr
的方式，默认为4
set hive.exec.mode.local.auto.input.files.max=4;

1.3数据压缩格式

为什么要对文件或目录进行压缩呢？
（1）便于集中处理；
（1）对于一个未执行任何压缩操作的1000MB文件, 当从路径A传输到路径B时，
假定网速100MB/s，
则传输总时长为10秒；
（2）对于一个未执行任何压缩操作的1000MB文件, 通过压缩后再传输操作完成: 从路
径A传输到路径B。
假定压缩效率330MB/s, 则1000MB压缩到100MB花费3秒,
到达指定路径后, 解压花费3秒，
则传输总时长为6秒。
（2）便于资料传输；
（3）便于阅读数据。

--开启hive支持中间结果的压缩方案
-- set hive.exec.compress.intermediate=true;
-- --开启hive支持最终结果压缩
-- set hive.exec.compress.output=true;
--
-- --开启MR的mapper端压缩操作
-- set mapreduce.map.output.compress=true;
-- --设置mapper端压缩的方案
-- set mapreduce.map.output.compress.codec=
org.apache.hadoop.io.compress.SnappyCodec;
-- -- 开启MR的reduce端的压缩方案
-- set mapreduce.output.fileoutputformat.compress=true;
--
-- -- 设置reduce端压缩的方案
-- set mapreduce.output.fileoutputformat.compress.codec =
org.apache.hadoop.io.compress.SnappyCodec;
-- --设置reduce的压缩类型
-- set mapreduce.output.fileoutputformat.compress.type=BLOCK;

一般地，设定数据文件的压缩格式时，仅需执行一些参数配置声明即可。

1.4数据存储格式

下行存储、列存储的一些特点：
（1）行式存储的特点：
查询满足条件的一整行数据时，行存储只需要找到其中一个值，其余的值都在相邻地方，
所以行存储查询和访问的效率更高；
（2）列式存储的特点：
因为每个字段的列数据都是聚集存储，当在查询仅需要少数几个字段时，能大大减少读取的数据量；
并且，每个字段的数据类型一定是相同的，
所以，列式存储可以针对性的设计出更好的存储格式、或设计压缩算法。
（1）行式存储格式
常用的行式存储格式为TEXTFILE
优点：相关的数据是保存在一起，比较符合面向对象的思维，因为一行数据就是一条记录。这种存储格式比较方便进行INSERT/UPDATE操作
缺点：如果查询只涉及某几个列，它会把整行数据都读取出来，不能跳过不必要的列读取。当然数据比较少，一般没啥问题，如果数据量比较大就比较影响性能。
（2）列式存储格式
常用的列式存储格式有ORC(Optimized Row Columnar)和PARQUET。一般地，ORC格式效果要比PARQUET压缩率更高！

优点：查询时，只有涉及到的列才会被查询，不会把所有列都查询出来，即可以跳过不必要的列查询。高效的压缩率，不仅节省储存空间也节省计算内存和CPU。
缺点：INSERT/UPDATE很麻烦或者不方便，不适合扫描小量的数据。

create [external] table 表名(
字段名 字段类型,
字段名 字段类型,
...
)
[row format delimited
fields terminated by '指定分隔符']
[stored as textfile] -- 行式存储格式 18.1M
[stored as parquet] -- 列式存储格式 13.1M
[stored as orc]; -- 列式存储格式 2.8M

-- 创建表
create table tb_textfile_mode(
log_date_time string,
visit_web string,
secret string,
web_engine string,
ip string,
buy_status string,
result_value int
) row format delimited
fields terminated by "\t"
stored as textfile ;
-- 导入数据
insert into table tb_textfile_mode select * from
tb_taobao_log;
-- 查看数据
select * from tb_textfile_mode;
-- 看文件大小
create table tb_parquet_mode(
log_date_time string,
visit_web string,
secret string,
web_engine string,
ip string,
buy_status string,
result_value int
) row format delimited
fields terminated by "\t"
stored as parquet ;
-- 导入数据
insert into table tb_parquet_mode select * from
tb_taobao_log;
-- 查看数据
select * from tb_parquet_mode;
create table tb_orc_mode(
log_date_time string,
visit_web string,
secret string,
web_engine string,
ip string,
buy_status string,
result_value int
) row format delimited
fields terminated by "\t"
stored as orc ;
-- 导入数据
insert into table tb_orc_mode select * from tb_taobao_log;
-- 查看数据
select * from tb_orc_mode;

当仅考虑数据文件的压缩比时，可以优先考虑使用列式存储的orc格式。

1.5join的优化操作

述join存在哪些问题?

导致reduce的压力剧增, 所有的数据全部都打向reduce中
当有了多个reduce后, 如果某个join字段的值出现大量的重复, 会导致大量key发往同一个reduce, 从而导致数据倾斜
通过 map 端 join实现
通过 map join 即可解决掉 reduce join所出现的所有的问题, 也可以这么mapjoin有解决数据倾斜的作用
存在什么弊端:
小表数据需要存储在内存中, 随着mapTask越多, 存储在内存的小表数据份数也会越多
当这个小表数据比较大的, 可能无法放置到内存中
所以说, mapJoin有一定使用范围: 仅适用于小表和大表进行join的情况

2.SQL优化

2.1列裁剪

Hive在读数据的时候，可以只读取查询中所需要用到的列，而忽略其他列

假设有一个表A: a b c 三个字段, 请查看以下SQL
select a,b from A where a=xxx;
在这条SQL, 发现没有使用c这个字段, 在from A表时候, 读取数据, 只需要将a列和 b列数据读取出来即可, 不需要读取c列字段, 这样可以减少读取的数据量, 从而提升效率

2.2分区裁剪

执行查询SQL的时候, 如果操作的表是一张分区表, 那么建议一定要带上分区字段, 以减少扫描的数据量, 从而提升效率, 能在join之前提前过滤的操作, 一定要提前过滤, 不要在join后进行过滤操作

select * from A join B where A.id=xxx;
优化后:
select * from (select * from A where id= xxx) A join B;

2.3 group by 操作

执行分组操作, 翻译后的MR, 分组的字段就是k2的字段, 按照k2进行分组操作, 将相同value合并在同一个集合中, 既然分组的字段就是MR的k2, 那么分区也会按照分组字段进行分区操作, 如果某个组下数据非常的多, 可能出现出现什么问题呢?

此时有可能发生数据倾斜, 因为相同key会发往同一个reduce中
所以说: 在hive中出现数据倾斜的主要体现在两个方面:
第一个:执行join操作(reduce join)
第二个:执行group by 操作

2.4count(distinct)

说明 : count(distinct) 在数据量比较大的情况下, 效率并不高

执行count操作的时候, hive翻译的MR, reduce数量是否可以有多
个? 必然不会有多个, 只能有一个, 因为全局求最终结果
此时如果执行统计的时候, 需要进行去重,那么去重工作是由reduce执行
去重操作, 由于reduce只有一个, 所有的数据都在一个reduce中, 此时reduce
的压力比较大
希望执行去重工作可能有多个reduce一起来执行操作, 此时可以将SQL优化:
原有:
select count(distinct ip) from ip_tab;
优化:
select
count(ip)
from
(select ip from ip_tab group by ip) tmp;
请注意: 这样的做法, 虽然会运行两个MR, 但是当数据量足够庞大的时
候, 此操作绝对是值得的, 如果数据量比较少, 此操作效率更低

2.5笛卡尔积

什么是笛卡尔积呢? 在进行join的时候, 两个表乘积之后结果就是笛卡尔积的结果
比如: 一个表有5条, 一个表有3条数据, 笛卡尔积结果就有15条数据 , 笛卡尔积中有大量数据都是无用数据
什么时候会产生笛卡尔积呢? 在多表join的时候, 关联条件缺少或者使用错误的关联条件以及将关联条件放置在where中都会导致笛卡尔积在实际使用中, 建议：

1) 避免join的时候不加on条件，或者无效的on条件
2) 关联条件不要放置在where语句, 因为底层, 先产生笛卡尔积 然后基于where进行过滤 , 建议放置on条件上
3) 如果实际开发中无法确定表与表关联条件 建议与数据管理者重新对接, 避免出现问题

3，动态分区

需求: 请将下面的一个分区表数据, 拷贝到另一个分区表, 保证对应区数据放置到另一个表的对应区下

作用: 帮助一次性灌入多个分区的数据
参数:
set hive.exec.dynamic.partition.mode=nonstrict; -- 开启非严格模式 默认为 strict(严格模式)
set hive.exec.dynamic.partition=true; -- 开启动态分区支持, 默认就是true
可选的参数:
set hive.exec.max.dynamic.partitions=1000; -- 在所有执行MR的
节点上，最大一共可以创建多少个动态分区。
set hive.exec.max.dynamic.partitions.pernode=100; -- 每个执
行MR的节点上，最大可以创建多少个动态分区
set hive.exec.max.created.files=100000; -- 整个MR Job中，最大可以创建多少个HDFS文件

-- 分区列本质就是在原表基础上生成了一个虚拟列
create table dynamic_stu1(
id int,
name string,
age int
)partitioned by (month string)
row format delimited
fields terminated by ','
stored as textfile;
-- 上传文件后查询
select * from dynamic_stu1; -- 查不到
-- 注意: 分区表上传文件是没有效果,需要将此文件数据放到分区目录中
-- 手动/自动创建分区目录
-- 静态分区
load data inpath
'/user/hive/warehouse/day09.db/dynamic_stu1/dynamic_stu.txt'
into table dynamic_stu1 partition (month='202302');
-- 自动生成分区后查询
select * from dynamic_stu1;
-- 如果要是手动创建了分区目录,需要msck repair修复 metastorecheck
msck repair table dynamic_stu1;
-- 修复完后再查询
select * from dynamic_stu1;
-- 需求: 把dynamic_stu1表结构数据都复制到dynamic_stu2分区表
create table dynamic_stu2(
id int,
name string,
age int
)partitioned by (month string)
row format delimited
fields terminated by ','
stored as textfile;
-- 开启动态分区支持, 默认就是true,无需操作
set hive.exec.dynamic.partition=true;
-- 动态分区方式1
insert into dynamic_stu2 select * from dynamic_stu1;
-- 查看分区
show partitions dynamic_stu2;
-- 想要演示动态分区方式2,需要删除刚才的分区
alter table dynamic_stu2 drop partition (month='202302');
alter table dynamic_stu2 drop partition (month='202303');
-- 动态分区方式2
insert into dynamic_stu2 partition (month) select * from
dynamic_stu1; -- 报错
set hive.exec.dynamic.partition.mode=nonstrict; -- 开启非严格模
式 默认为 strict(严格模式)
insert into dynamic_stu2 partition (month) select * from
dynamic_stu1; -- 成功
-- 再次查看分区
show partitions dynamic_stu2;

3.1 如何调整map和reduce的数量

1>是不是map数越多越好？答案是否定的。如果一个任务有很多小文件（远远小于块大小128m），则每个小文件也会被当做一个块，用一个map任务来完
成，而一个map任务启动和初始化的时间远远大于逻辑处理的时间，就会造成很大的资源浪费。而且，同时可执行的map数是受限的。
2>是不是保证每个map处理接近128m的文件块，就高枕无忧了？答案也是不一定。比如有一个127m的文件，正常会用一个map去完成，但这个文件只有一个或者两个小字段，却有几千万的记录，如果map处理的逻辑比较复杂，用一个map任务去做，肯定也比较耗时。
3>是不是reduce数越多越好？答案是否定的。如果reduce设置的过大，对整个作业会产生一定的影响。 ①过多的启动和初始化reduce也会消耗时间和资源；
②另外，有多少个reduce，就会有多少个输出文件，如果生成了很多个小文件，那么如果这些小文件作为下一个任务的输入，则也会出现小文件过多的问题；
如何调整mapTask数量:
小文件场景
当input的文件都很小,把小文件进行合并归档,减少map数, 设置map数量:
– 每个Map最大输入大小(这个值决定了合并后文件的数量)
set mapred.max.split.size=112345600;
– 一个节点上split的至少的大小(这个值决定了多个DataNode上的文件是否需要合并)
set mapred.min.split.size.per.node=112345600;
– 一个交换机下split的至少的大小(这个值决定了多个交换机上的文件是否需要合并)
set mapred.min.split.size.per.rack=112345600;
– 执行Map前进行小文件合并
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHive InputFormat;
大文件场景
当input的文件都很大，任务逻辑复杂，map执行非常慢的时候，可以考虑增加Map数，来使得每个map处理的数据量减少，从而提高任务的执行效率。
举例:如果表a只有一个文件，大小为120M，但包含几千万的记录，如果用1个map去完成这个任务，肯定是比较耗时的，这种情况下，我们要考虑将这一个文件合理的拆分成多个，这样就可以用多个map任务去完成。set mapred.reduce.tasks=10;
create table a_1 as select * from tab_info distribute
by rand(123);
这样会将a表的记录，随机的分散到包含10个文件的a_1表中，再用a_1代替上面sql中的a表，则会用10个map任务去完成。
如何reduce的数量:

总共受3个参数控制：
（1）每个Reduce处理的数据量默认是256MB
hive.exec.reducers.bytes.per.reducer=256123456
（2）每个任务最大的reduce数，默认为999
hive.exec.reducers.max=999
（3）mapreduce.job.reduces
该值默认为-1，由hive自己根据任务情况进行判断。因此，可以手动设置每个job的Reduce个数
set mapreduce.job.reduces = 8;

在什么情况下, 只能有一个reduce呢?

以下几种, 不管如何设置, 最终翻译后reduce只能有一个
1) 执行order by操作
2) 执行不需要group by直接聚合的操作
3) 执行笛卡尔积

4.并行执行

在执行一个SQL语句的时候, SQL会被翻译为MR, 一个SQL有可能被翻译成多个MR,那么在多个MR之间, 有些MR之间可能不存在任何的关联, 此时可以设置让这些没有关联的MR 并行执行, 从而提升效率 , 默认是一个一个来

set hive.exec.parallel=true; --打开任务并行执行,默认关闭
set hive.exec.parallel.thread.number=16; --同一个sql允许最大并行度，默认为8。
前提:
服务器必须有资源, 如果没有 即使支持并行, 也没有任何作用

select * from A ....
union all
select * from B ...;
例如:
select from (select * from A group by ...) tmp1 join
(select * from B group by xxx) on ...

5，严格模式

屏蔽一下操作:
1) 执行order by 不加 limit
2) 出现笛卡尔积的现象SQL
3) 查询分区表, 不带分区字段
前提: 数据量足够大, 如果数据量比较少, 严格模式对此三项内容不生效

set hive.mapred.mode = strict; --开启严格模式
set hive.mapred.mode = nostrict; --开启非严格模式

6.推测执行

Hadoop采用了推测执行（Speculative Execution）机制，它根据一定的法则推测出“拖后腿”的任务，并为这样的任务启动一个备份任务，让该任务与原始任务同时处理同一份数据，并最终选用最先成功运行完成任务的计算结果作为最终结果。hadoop中默认两个阶段都开启了推测执行机制。
hive本身也提供了配置项来控制reduce-side的推测执行：
set hive.mapred.reduce.tasks.speculative.execution=true;
关于调优推测执行机制，还很难给一个具体的建议。如果用户对于运行时的偏差非常敏感的话，那么可以将这些功能关闭掉。如果用户因为输入数据量很大而需要执行长时间的
map或者Reduce task的话，那么启动推测执行造成的浪费是非常巨大。

7，执行计划explain

使用EXPLAIN关键字可以模拟优化器执行SQL查询语句，从而知道MySQL是如何处理你的SQL语句的。帮助我们了解底层原理,hive调优,排查数据倾斜等有很有帮助
使用示例：explain [...] sql查询语句;
explain sql语句: 查看执行计划的基本信息

（1）stage dependencies：各个stage之间的依赖性
包含两部分:Stage-1和Stage-0，Stage-1 是根stage，Stage-0 依赖 Stage-1，
（2）stage plan：各个stage的执行计划
包含两部分: map端执行计划树和reduce端执行计划树

HDFS相关的面试题努力的搬砖人. java 面试 hdfs
以下是150道HDFS相关的面试题，涵盖了HDFS的基本概念、架构、操作、数据存储、高可用性、权限管理、性能优化、容错机制、与MapReduce的结合、安全性、数据压缩、监控与管理、与YARN的关系、数据一致性、数据备份与恢复等方面，希望对你有所帮助。HDFS基本概念1.HDFS是什么？它的设计目标是什么？•HDFS是Hadoop分布式文件系统，设计目标是实现对大规模数据的高吞吐量访问，适用于一次
Flink相关面试题努力的搬砖人. 面试 java 后端 flink
以下是150道ApacheFlink面试题及其详细回答，涵盖了Flink的基础知识、核心架构、API使用、性能调优等多个方面，每道题目都尽量详细且简单易懂：Flink基础概念类1.什么是ApacheFlink？ApacheFlink是一个开源的流处理和批处理框架，能够实现快速、可靠、可扩展的大数据处理。它既可以处理无界的数据流，也可以处理有界的数据批，提供了低延迟和高吞吐量的实时数据处理能力。Fl
基于Azure云平台构建实时数据仓库 weixin_30777913 云计算 azure 开发语言 spark python
设计Azure云架构方案实现AzureDeltaLake和AzureDatabricks，结合电商网站的流数据，构建实时数据仓库，支持T+0报表（如电商订单分析），具以及具体实现的详细步骤和关键PySpark代码。一、架构设计[电商网站]→[AzureEventHubs]→[AzureDatabricksStreaming]↓[AzureDeltaLake]←→[DatabricksSQLAnal
家庭 & 企业数据仓库：如何配置和管理 NAS 系统 Echo_Wish 运维探秘让你快速入坑运维数据仓库运维开发缓存
家庭&企业数据仓库：如何配置和管理NAS系统引言在数据为王的时代，我们的照片、视频、文档、代码，甚至企业级文件，都是无价之宝。那么，如何安全、可靠、低成本地存储这些数据？云存储太贵？移动硬盘不方便？别慌，今天我们就聊聊NAS（NetworkAttachedStorage，网络附加存储），教你如何从零配置一个高效的NAS系统，并且掌握它的日常管理技巧，让你的数据存储既安全又高效！1.选择合适的NAS
linux上安装postgresql9.5 crayon-shin-chan #postgresql surprise #linux linux ubuntu PostgreSQL 数据库
1.查看源版本czy@Mint~$sudoapt-getupdateczy@Mint~$apt-cachemadisonpostgresqlpostgresql|9.5+173ubuntu0.3|http://archive.ubuntu.com/ubuntuxenial-updates/mainamd64Packagespostgresql|9.5+173ubuntu0.3|http://arc
2017安全之势：云、大数据、IoT、人工智能 weixin_34392906 人工智能大数据嵌入式
“新技术让信息系统变成了孙悟空，开始无所不能，但安全仍是它的‘紧箍咒’！怎样解开这个‘紧箍咒’？各路安全厂商各显其能，但似乎路漫漫兮离目标还很遥远。”三未信安董事长张岳公在ZD至顶网《百位意见领袖寄语2017》中说出了这样一句话，我觉着很有道理。安全是一个永恒的话题，如果说它与新的信息技术相生相克也不过分。即便如此，我们更要尽可能的减少安全带来的束缚。2017已经到来，不妨来看看至顶网与业界大咖总
PostgreSQL_实例项目总述程序猿与金融与科技数据库 postgresql
目录前置：实例项目总述：前置：1最近新入PostgreSQL，打算用PostgreSQL存储股票日数据，以此为实例记录整个PostgreSQL使用过程2所以这次的博文是一个序列，都放在数据库专栏里，以PostgreSQL_打头3PostgreSQL的安装在这个系列里就不赘述了，安装过程简单。（如果有人实在搞不懂怎么安装，可以留言）实例项目总述：项目描述：股票日数据仓库数据来源：优矿1数据表结构设计
hadoop3.x--搭建hadoop高可用集群（HA模式）运维小菜 hadoop hadoop hdfs
hadoop高可用集群（HA模式）一、安装前1.集群规划2.安装前配置3.安装jdk与hadoop4.克隆虚拟机与互信配置5.搭建zookeeper集群二、HDFS1.配置hdfs2.初始化启动hdfs集群三、MapReduce与Yarn1.配置MapReduce2.配置yarn3.启动yarn四、验证1.查看java进程2.hdfs与yarn前台页面一、安装前1.集群规划hostnameipNN
直方图梯度提升：大数据时代的极速决策引擎万事可爱^ 大数据机器学习深度学习直方图梯度提升 GBDT 算法
一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树（GBDT）作为集成学习的代表算法，通过迭代构建决策树实现预测能力
从原理到实践：Go 语言内存优化策略深度解析叶间清风1998 服务器 linux 网络
目录一、引言二、Go语言内存管理基础原理2.1栈与堆内存分配2.2垃圾回收机制剖析三、内存优化策略与实践3.1合理使用指针传递3.2避免不必要的内存分配3.3优化切片与映射的使用3.4控制变量作用域3.5减少闭包导致的变量逃逸四、内存优化工具与性能分析4.1pprof工具的使用4.2其他性能分析辅助手段五、不同场景下的内存优化案例分析5.1高并发Web服务场景5.2大数据处理与分析场景六、总结与展
linux grep命令蓝菱 linux linux grep 正则表达式
转自http://www.cnblogs.com/end/archive/2012/02/21/2360965.htm1.作用Linux系统中grep命令是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。grep全称是GlobalRegularExpressionPrint，表示全局正则表达式版本，它的使用权限是所有用户。2.格式grep[options]3.主要参数[o
【已解决】将CentOS7系统安装至U盘（四）：安装Qt5.14.2（解决#error qt requires c++11 support问题） pyengine qt c++开发语言 centos
目录1下载安装文件2安装Qt5.14.2和QtCreator3解决编译问题1下载安装文件从Qt官网或清华大学镜像站https://mirrors.tuna.tsinghua.edu.cn/gnu/gcchttps://mirrors.tuna.tsinghua.edu.cn/qt/archive/qt/5.14/5.14.2/下载Qt安装文件。以清华大学镜像站为例，下载如下：wgethttps:/
SQLMesh SCD Type 2 深度解析：时间戳与列级跟踪的实战指南梦想画家数据分析工程 #python 数据工程分析工程 sqlmesh
在数据仓库架构中，缓慢变化维度（SlowlyChangingDimensions,SCD）是处理历史数据追踪的核心技术。SQLMesh作为新一代数据编织平台，其支持的SCDType2模型通过valid_from和valid_to双时间戳机制，为开发者提供了灵活的历史状态管理能力。本文将深入解析SQLMeshSCDType2的两种实现模式（基于时间戳与列级变更检测）、关键配置项及删除操作处理逻辑，让
在虚拟机上安装Hadoop 杜清卿 hadoop
基本步骤与安装java一致:先用finalshell将hadoop-3.1.3.tar.gz导入到opt目录下面的software文件夹下面，然后解压,最后配置环境变量。1.使用finalshell上传。这里直接鼠标拖动操作即可。2.解压。进入到Hadoop安装包路径下，cd/opt/software/，再解压安装文件到/opt/module下，对应的命令是:tar-zxvfhadoop-.1.3
hadoop集群配置-scp拓展使用杜清卿 hadoop 服务器大数据
任务1：在hadoop102上，将hadoop101中/opt/module/hadoop-3.1.3目录拷贝到hadoop102上。分析：使用scp进行拉取操作：先登录到hadoop2使用命令：scp-rroot@hadoop101:/opt/module/hadoop-3.1.3/opt/module/任务2：在hadoop101上操作，将hadoop100中/opt/module目录下所有目
硅谷企业的大数据平台架构什么样？看看Twitter、Airbnb、Uber的实践大数据v 分布式数据库大数据编程语言 hadoop
导读：本文分析一下典型硅谷互联网企业的大数据平台架构。作者：彭锋宋文欣孙浩峰来源：大数据DT（ID：hzdashuju）01Twitter的大数据平台架构Twitter是最早一批推进数字化运营的硅谷企业之一，其公司运营和产品迭代的很多功能是由其底层的大数据平台提供的。图7-2所示为Twitter大数据平台的基本示意图。▲图7-2Twitter大数据平台架构Twitter的大数据平台开发比较早，很多
安装Qt 5.15.2 noodleboy qt
安装Qt5.15.2自Qt5.15开始，Qt不提供离线安装包了，需要使用在线安装器安装，但是Qt5.15版本不直接显示。需要勾选Archive选项，且很有可能需要梯子工具。
【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
Zynq PL端IP核之AXI DMA Mazy.v fpga开发嵌入式硬件 arm开发单片机
1.AXIDMA简介Zynq提供了两种DMA，一种是PS中的DMA控制器，通过GP口与PL端连接，另一种是PL中的AXIDMAIP核（软核），通过HP口与PS端连接。Zynq有4个HP接口，每一个HP接口都包含控制和数据FIFO，这些FIFO为大数据量突发传输提供缓冲，让HP接口成为理想的高速数据传输接口。AXIDMAIP内核在AXI4内存映射和AXI4StreamIP接口之间提供高带宽直接储存访
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
ssh命令满分对我强制爱 linux 服务器运维 spark
ssh命令无需密码也可登录要先关闭防火墙，命令如下：systemctlstopfirewalldsystemctldisablefirewalldsystemctlstatusfirewalldeg：目标：hadoop100通过ssh访问hadoop101,hadoop102时不需要密码，其他两台设备也类似。具体操作如下：1.在hadoop100中生成公钥和密码。ssh-keygen-trsa三次
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
LakeHouse湖仓一体成为下一站灯塔，数仓、数据湖架构即将退出群聊科杰科技大数据数据仓库
摘要：当前的大数据技术应用趋势表明，客户对单一的数据湖和数仓架构并不满意。近年来几乎所有的数据仓库都增加了对Parquet和ORC格式的外部表支持，这使数仓用户可以从相同的SQL引擎查询数据湖表，但它不会使数据湖表更易于管理，也不会消除仓库中数据的ETL复杂性、陈旧性和高级分析挑战。KeenDataLakeHouse（湖仓一体）作为新一代大数据技术架构，将逐渐取代单一数据湖和数仓架构，成为大数据架
Mysql-经典实战案例（10）：如何用PT-Archiver完成大表的自动归档从不删库的DBA Mysql 经典实战案例 mysql 数据库
真实痛点：电商订单表存储优化场景现状分析某电商平台订单表（order_info）每月新增500万条记录主库：高频读写，SSD存储（空间告急）历史库：HDD存储，只读查询优化目标✅自动迁移7天前的订单到历史库✅每周六23:30执行，不影响业务高峰✅确保数据一致性第一章：前期准备：沙盒实验室搭建1.1实验环境架构生产库：10.33.112.22历史库：10.30.76.41.2环境初始化（双节点执行）
【赵渝强老师】达梦数据库MPP集群的架构数据库信创
为了支持海量数据存储和处理等方面的需求，为高端数据仓库提供解决方案，达梦数据库提供了大规模并行处理MPP架构，以极低的成本代价，提供高性能的并行计算。通过使用MPP可以解决以下问题：需要较高的系统性能支持以支持大量的复杂查询操作硬件束缚对数据库响应能力的影响降低数据库成本视频讲解如下：https://www.bilibili.com/video/BV1dBftYoEkk/?aid=11386961
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。