祈愿lucky

Hive语法，函数--学习笔记

1，排序处理

1.1cluster by排序

，在Hive中使用order by排序时是全表扫描，且仅使用一个Reduce完成。
在海量数据待排序查询处理时，可以采用【先分桶再排序】的策略提升效率。此时，
就可以使用cluster by语法。
cluster by语句可以指定根据某字段将数据进行分桶，在桶内再根据这个字段进行正序排序
通俗地说，就是根据一个字段来排序，先分桶再排序。[分桶虚拟，自动处理]
cluster by语句的语法：

select * from 表名 cluster by 字段名; # 正序排序

– 程序中动态设定reduce值
set mapreduce.job.reduces = 桶数;
– 查看reduce值
set mapreduce.job.reduces;
当然了，若数据量较小（比如小于TB），Hive处理不占优势。

-- 查看reduce值
set mapreduce.job.reduces; -- 默认值是-1
set mapreduce.job.reduces = -1;
-- order by
select *
from tb_student
order by score; -- 数据量小: 效率高, 没有分桶操作
-- cluster by
select
*
from tb_student
cluster by score; -- 海量数据查询: 排序效率高
-- 看运行时间
-- 1.先直接测试order by与cluster by操作: 排序效果一样; 2.设定桶数,
看运行时间

当要先分桶再排序处理时，可以使用hive的cluster by
一般地，cluster by仅对字段做正序排序，即升序。

1.2distribute by+sort by排序

先分组，再排序的使用

select * from 表名 distribute by 字段名 sort by 字段名;

说明：
（1）distribute by表示先按字段名执行分组；
（2）sort by用于在分组内负责对某字段进行排序；
（3）当且仅当distribute by与sort by字段名一致时，等同于cluster by效果。
创建分桶表设定排序字段

create [external] table 表名(
字段名 字段类型 [comment '注释'],
字段名 字段类型 [comment '注释'],
...
)
[clustered by (字段名) sorted by (字段名) into 分桶数 buckets]
[row format delimited
fields terminated by '指定分隔符'];

2.排序操作：
①order by 普通排序
②over(order by ^) 窗口函数
③cluster by 先分桶在排序
④distribute by+ sort by 先分表后排序
⑤clustered by + sorted by 创建分桶表+自动排序

-- 1
select
*
from tb_student
distribute by gender
sort by score;
-- 3
create table tb_bucket_student(
id int,
name string,
gender string,
score double
)
clustered by (gender) sorted by (score) into 3 buckets
row format delimited
fields terminated by ",";
show tables ;
-- 4
-- 5
load data inpath "/itheima/student_data.txt" into table
tb_bucket_student;
-- 导入数据: hdfs
select * from tb_bucket_student;

（1）distribute by+sort by语句配合一起使用时，就是先分后排序的思想观
念；
（2）注意：当要提升对海量数据的访问效率时，一般可以对表进行分区或分
桶。

2.正则表达式

使用场景：在网站注册新用户时，对用户名、手机号等的验证就使用了正则表达式。
在Hive中，可以使用RLIKE进行正则匹配

select *|字段名1,字段名2,... from 表名 where 字段名 rlike "正则内容";

select
*
from tb_orders
where
userAddress rlike ".*广东省.*"
and
totalMoney > 5000;
-- 5
select
*
from tb_orders
where userAddress rlike ".*省 .*市 .*区.*";

正则就是一段特殊的字符串，而正则语法规范，需要多实践、多思考，才能更加熟练化。

3，union与CTE语法

3.1union联合

连接查询的特点是多个表进行【横向】合并在一起！
也可以完成纵向合并或追加数据操作。
union联合可用于将多个SELECT语句的结果集，组合形成单个完全结果集。
一起看看union联合，语法：

select 语句1
union [ all | distinct ]
select 语句2
[ union select 语句 ...];

说明：
（1）union all不对数据内容进行去重，默认使用union all；
（2）union distinct可实现数据去重，但必须添加distinct关键字；
（3）每个select语句返回的列数量、名称必须一致，否则，将引发字段架构错误。

-- 显示所有
select * from tb_course1
union all
select * from tb_course2;
select * from tb_course1 union select * from tb_course2; --
默认去重
-- 去掉重复
select * from tb_course1
union distinct
select * from tb_course2;

-- 先联合, 再根据条件筛选数据
select
*
from
(select * from tb_course1
union all
select * from tb_course2) temp_course
where name in ("周杰轮", "王力鸿");
-- where name="周杰轮" or name="王力鸿";

（1）union可以用于将多个SELECT结果集合并，但要注意结果集的字段名、类型等架构要一致；
当使用union语句完成自动去除数据重复值时，记得设定为union distinct

3.2CTE语法

CTE（Common Table Expressions的缩写）公用表表达式，表示临时结果集。
CTE是一个在查询中，定义的临时命名结果集，并可在from子句中使用它。语法：

with 别名 as
(select查询语句)
[别名 as (select查询语句), ...]
select查询语句;

说明：
（1）每个CTE仅被定义一次，可被引用任意次，但是一旦此查询语句结束，cte
就失效；
（2）注意，CTE表达式仅在单个语句的执行范围内定义，并取别名。[from前置]

with stu as (
select * from tb_student
)
select * from stu;
-- 3
-- 先取别名, 引用, 再过滤
with stu as (
select * from tb_student
)
select * from stu where stu.gender="男"; // 好理解
with stu as (
select * from tb_student
)
select * from stu where gender="男";

with语句可以配合union一起使用
为了便于掌握union关键字，我们会发现：当union联合多表时，可以当成是一张完整数据表

4. 抽样、虚拟列

4.1抽样tablesample

解决的问题：
当数据量特别大时，对全体数据进行处理存在困难时，就可以抽取部分数据来进行处理，则显得尤为重要。
我们已知晓，在大数据体系且是真实的企业环境中，很容易出现超大数据容量的表，比如体积达到TB/PB级别。

对这种表一个简单的SELECT * 都会非常的慢，
哪怕LIMIT 10想要看10条数据，
我们发现，有可能也会走MapReduce计算流程。
这种时间等待是漫长且不合适的......

Hive支持抽样，需要使用tablesample语法：

select * from 表名 tablesample (bucket x out of y [on colname字段名|rand()]);

说明：（1）y表示桶的数量，比如设定为值5，则表示5桶；
（2）x是要抽样的桶编号，桶编号从1开始计算，colname字段名表示抽样的列（也就是按照那个字段分桶）；
（3）使用rand()表明在整个行中抽取样本而不是单个列；
（4）翻译为：按照colname字段名分成y桶，抽取其中的第x桶。

select
*
from tb_orders
-- tablesample ( bucket 1 out of 6 on userName); -- 数据倾斜
tablesample ( bucket 2 out of 6 on userName); -- 数据倾斜
-- 3
select
*
from tb_orders
tablesample ( bucket 4 out of 5 on orderNo);
-- 4
select
*
from tb_orders
tablesample ( bucket 2 out of 10 on rand());

当要快速从海量数据表中采样部分数据量，可以使用tablesample()；函数；
（2）使用部分数据采样形式，能提升获取局部数据量的效率，便于在调试海量数据的程序时使用。

4.2虚拟列

虚拟列表示未在表中真正存在的字段，在创建分区表中，分区列就是虚拟列的一个体现！
为了将Hive中的表进行分区（partition），这对每日增长的海量数据存储而言，是非常有用的。
为了保证HiveQL的高效运行，强烈推荐在where语句后，使用虚拟列（分区列）作为限定。[拿Web日志举例说明。]

2，Hive中有3个可用的虚拟列：

（1）INPUT__FILE__NAME
显示数据行所在的具体文件
（2）BLOCK__OFFSET__INSIDE__FILE
显示数据行所在文件的偏移量
（3）ROW__OFFSET__INSIDE__BLOCK # 没提示, 且默认不开启-需设置参数
[单独说明]
显示数据所在HDFS块的偏移量
# 偏移量指的是获取数据时，指针所在位置

对于 ROW__OFFSET__INSIDE__BLOCK 虚拟列，要设置参数：

-- 查看数据在HDFS块的偏移量设置是否开启
set hive.exec.rowoffset;
-- 设置开启
set hive.exec.rowoffset=true;
-- 若要关闭, 则需要重新设置为false

-- 若要关闭, 则需要重新设置为false
set hive.exec.rowoffset=false;
-- 5
use sz41db_bucket;
show tables ;
select
*,
INPUT__FILE__NAME,
BLOCK__OFFSET__INSIDE__FILE
from bucket_id_course;

（1）简单地说，虚拟列就是Hive内置在查询语句中的几个特殊标记，可直接取用
（2）当要在查询结果中显示数据文件名信息，可以使用 INPUT__FILE__NAME虚拟列。

5，Hive基础函数

了解Hive函数有哪些分类？
在Hive中，有一些能直接被调用使用，比如类似于current_database()调用方式：
Hive的函数，可分为两大类：

（1）内置函数（Built-in Functions）
数学函数
日期函数
字符串函数
条件函数
类型转换函数
数据脱敏函数
（2）用户定义函数（User-Defined Functions）
UDF（User Defined Functions）用户定义功能函数
UDAF（User Defined Aggregate Functions）用户定义聚合函数
UDTF（User Defined Table-generating Functions）用户定义表生成函数

内置函数属于Hive基础函数、用户定义函数属于Hive进阶函数。

-- 查看可用的所有函数
show functions;
-- 查看函数的使用方式
desc function extended 函数名;

当要查看某函数如何使用时，可以使用desc function extended 函数名语句查看帮助信息

在Hive中，当要使用函数时, 语法为[select 函数名(xx);]。

5.1]数学函数

rand() 获取一个完全随机数，取值范围0-1。 double
round(x [, y]) 取整/设置小数精度(四舍五入)。 double

select round(3.141592654,2);
select round(3.141592654);
-- 3
select rand()*100;
select round(rand()*100);

当要保留浮点数后几位小数时，推荐使用round()函数
一般地，数学函数主要是用于处理各类数值型内容项

5.2日期函数

select current_date();
desc function extended year; -- 有用
select year(`current_date`());
select year(`current_timestamp`());
select year("2023-11-14");
-- desc function extended month;
select month(current_date());
select day(current_date());
desc function extended hour;
select hour(current_timestamp());
select minute(current_timestamp());
select second(current_timestamp());

（2）通常情况下，当要处理时间日期时，要想到Hive中常用的日期函数。

5.3字符串函数

在Hive中，常用的字符串函数有：

-- 1
select concat("hello","WORLD");
select concat_ws("=","hello","WORLD");
-- 1-10-100-20
select split("1-10-100-20","-");
select split("1-10-100-20","-")[0];
-- 2
-- Hello Heima
select length("Hello Heima");
select lower("Hello Heima");
select upper("Hello Heima");
-- 3
-- 2022-08-22 17:28:01
-- 通过日期函数year()
select year("2022-08-22 17:28:01");
-- 截取
select substr("2022-08-22 17:28:01",0,3); // 无法截取到结束位end
select substr("2022-08-22 17:28:01",0,4);
-- select substring()
-- 分割, 提取
select split("2022-08-22 17:28:01","-")[0];

字符串函数通常用于处理string、varchar等字符串类型的数据结果。

5.4条件函数、转换类型

1,类型转换函数有：
cast(expras) 将expr值强制转换为给定类型type。例如，cast(‘1’ as int会将字符串 ‘1’ 转换为整数。

select current_database();
-- if
select if(1=1,"男","女");
select if(1=0,"男","女"); -- 等号 =; 后期编程语言中, 等号==
-- isnull
select isnull(null);
select isnull("hello"); -- 没约束, 判断
-- isnotnull
select isnotnull(null);
select isnotnull("hello");
select nvl(null,18); -- 没有年龄值, 则默认为18岁
select nvl(20,18);
-- cast
select cast("100" as int);
select cast(12.14 as string); -- double
select cast("hello" as int);
-- 1700096276154
select cast(1700096276154/1000 as int); -- 1700096276 秒[10位数]-格式

强制类型转换在Hive中不一定成功，若不成功，则会返回null值。

5.5 数据脱敏函数

我们知道，当把元数据存储在MySQL中，需要将元数据中敏感部分（如身份证、电话号码等）进行脱敏处理，再供用户使用
通俗地说，就是进行掩码处理，或者加密处理。

select mask_hash("123ABC");
select mask("123ABC");
select mask("AB12aa"); -- XXnnxx
-- 2
select mask_first_n("AA11nn8989AAAAAAA",4);
select mask_last_n("AA11nn8989AAAAAAA",4);
select mask_show_first_n("it66ABCDE",3);
select mask_show_last_n("it66ABCDE",3);

，要做数据脱敏操作，可以根据mask单词看DataGrip的快捷提示，并选择使用某个。

5.6其他函数

select hash("123456"); -- hash 哈希算法(散列算法) = 哈希码
select md5("123456"); -- e10adc3949ba59abbe56e057f20f883e
32位/不可逆的 动态值绑定了结果?
select sha1("123456"); --
7c4a8d09ca3762af61e59520943dc26494f8941b
-- 3
select length("e10adc3949ba59abbe56e057f20f883e");
select length("7c4a8d09ca3762af61e59520943dc26494f8941b");
-- 4 转换日期格式 转换为年月日 1700096276154
desc function date_format;
desc function from_unixtime;
-- a.把毫秒转换为秒, int
select cast(1700096276154/1000 as int);
-- b.使用函数即可
select from_unixtime(cast(1700096276154/1000 as int),"yyyyMM-dd");
select year(from_unixtime(cast(1700096276154/1000 as int),"yyyy-MM-dd"));

对于Hive函数的使用，若在应用中，还发现有新需求，可以通过查阅Hive函数资料来解决。

6.Hive高阶函数

用户自定义函数有：

用户定义函数（User-Defined Functions）
（1）UDF（User Defined Functions）用户定义功能函数
（2）UDTF（User Defined Table-generating Functions）用户定义表生成函数
（3）UDAF（User Defined Aggregate Functions）用户定义聚合函数

说明：
（1）最初，UDF、UDAF、UDTF这3个标准，是针对用户自定义函数分类的；
（2）目前，可以将这个分类标准直接扩大到Hive中的所有函数，包括内置函数和自定义函数

（1）UDF（User Defined Functions）用户定义功能函数
UDF函数可以理解为：普通函数。用于一进一出，即当输入一行数据时，则输出一行数据。比较常见的有split()分割函数。

select split("10-20-30-40","-");
-- 结果: ["10","20","30","40"]

（2）UDTF（User Defined Table-generating Functions）用户定义表生成函数
UDTF用于表生成函数。用于一进多出，即当输入一行时，则输出多行数据。比较常见的有：explode()。
（3）UDAF（User Defined Aggregate Functions）用户定义聚合函数
UDAF可表示为：聚合函数。用于多进一出，即当输入多行时，则输出一行数据。

6.1窗口函数

select
字段名, …
窗口函数() over([partition by xx order by xx [asc | desc]])
from 表名;
说明：
（1）窗口函数名可以是聚合函数，例如sum()、count()、avg()等，也可以是分
析函数；
（2）聚合函数有count()、sum()、avg()、min()、max()；
（3）分析函数有row_number、rank、dense_rank等；
（4）partition by用于分组、order by用于排序。
当要把某数据列添加到数据表时，可以使用窗口函数over()关键字

6.2json数据处理

JSON的全称是：JavaScript Object Notation，即JS对象标记法。在很多开发场景里，JSON数据传输很常见！
（1）数组（Array）用中括号[ ]表示；
（2）对象（0bject）用大括号{ }表示。
说明：在Hive中，没有json类的存在，一般使用string类型来修饰，叫做json字符串。

get_json_object(json_txt, path) 用于解析json字符串
说明：path参数通常可用于获取json中的数据内容，语法：“$.key”。

select
get_json_object(data,"$.device")
from json_device;
select
get_json_object(data,"$.device") device,
get_json_object(data,"$.deviceType") divece_type,
get_json_object(data,"$.signal") signal,
get_json_object(data,"$.time") int_time
from json_device;

split(from_unixtime(cast(get_json_object(data,"$.time")/1000
as int),"yyyy/MM/dd"),"/")[0] year,

6.3 炸裂函数

explode()可用于表生成函数，一进多出，即当输入一行时，则输出多行数据。
通俗地说，就是可以使用explode()炸开数据。
explode(array | mapdata)
用于炸裂数据内容，并分开数据结果。
通常情况下，炸裂函数会与侧视图配合一起使用。
侧视图（lateral view）原理是：
（1）将UDTF的结果构建成一个类似于视图的表；
（2）然后，将原表中的每一行和UDTF函数输出的每一行进行连接，生成一张新的虚拟表。
ateral view侧视图语法：

select ... from 表A 别名
lateral view
UDTF(xxx) 别名 as 列名1, 列名2, 列名3, ...;

create table table_nba(
team_name string,
champion_year array<string>
) row format delimited
fields terminated by ','
collection items terminated by '|';

select * from tb_nba;
-- a.单独获取到冠军年份
select
explode(champion_year)
from tb_nba;
-- b.显示出来??
select
*,
explode(champion_year) //报错了
from tb_nba;

-- 对year进行一个升序排序处理
select
*
from
(select
a.team_name,
b.year
from tb_nba a
lateral view
explode(champion_year) b as year) temp_nba
order by temp_nba.year;
select
*
from
(select
a.team_name,
b.year
from tb_nba a
lateral view
explode(champion_year) b as year) temp_nba
order by cast(temp_nba.year as int);

炸裂函数把数据炸开后，若在处理时遇到一些问题，可以考虑引入侧视图配合使用

华硕笔记本电脑无法开机故障排查与重装系统指南 mmoo_python 电脑 windows
华硕笔记本电脑无法开机故障排查与重装系统指南华硕笔记本电脑作为市场上备受欢迎的品牌之一，凭借其出色的性能和设计赢得了众多用户的青睐。然而，在日常使用中，偶尔会遇到笔记本电脑无法开机的问题。这一故障可能由多种原因引起，需要针对不同情况采取不同的解决方法。本文将详细介绍华硕笔记本电脑无法开机的故障排查步骤以及重装系统的具体操作，帮助用户快速解决问题。一、电源或电池问题华硕笔记本电脑无法开机的最常见原因
Python生成成绩报告单：从理论到实践 Tech Synapse python 开发语言
在教育信息化日益普及的今天，自动化生成和处理学生成绩报告单已成为学校和教育机构的一项重要任务。Python作为一种功能强大且易于学习的编程语言，非常适合用于这种数据处理和报告生成任务。本文将详细介绍如何使用Python生成成绩报告单，包括理论概述和完整的代码示例。一、理论概述1.数据存储与处理生成成绩报告单的第一步是存储和处理学生成绩数据。常见的数据存储方式包括CSV文件、Excel文件和数据库。
Redis学习笔记 csdn_bobo_6 redis 学习数据库
认识NoSQLNoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在处理web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，出现了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，特别是大数据应用难题。NoSQL特点方便扩展（
CTF学习笔记——[ACTF2020 新生赛]BackupFile Obs_cure 网络安全
一、[ACTF2020新生赛]BackupFile1.题目2.解题步骤看了一眼源码什么都没有。难道要暴力扫目录？先试试flag.php阿这还真有…但是还是什么都没有显示。再试试index.php的备份呢？备份有点东西。审计一下发现是弱类型。这段源码的大意就是输入一个key变量，如果key=str(123ffwsfwefwf24r2f32ir23jrw923rskfjwtsw54w3)，那么打印fl
L8打卡学习笔记无涯学徒1998 学习笔记支持向量机
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊SVM与集成学习SVMSVM线性模型SVM非线性模型SVM常用参数集成学习随机森林导入数据查看数据信息数据分析随机森林模型预测结果结果分析个人总结SVM超平面：SVM在特征空间中寻找一个能够最大化类别间隔的超平面，称为最大间隔超平面。这个超平面就是将数据集分成不同类别的边界。支持向量：支持向量是离分隔超平面最近的样本点，它们决定了超平面的
P5学习笔记无涯学徒1998 python pytorch
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊运动鞋品牌识别设置GPU导入数据构建CNN模型编写训练函数编写测试函数设置动态学习率等间隔动态调整自定义调整多间隔调整余弦退火正式训练结果可视化使用模型进行预测个人总结设置GPUimporttorchimporttorch.nnasnnimporttorchvision.transformsastransformsimporttorchv
【学习笔记】昇思25天学习打卡(D14)CV05-SSD目标检测.ipynb UnseenMe 昇思学习笔记目标检测
SSD目标检测模型简介SSD，全称SingleShotMultiBoxDetector，是WeiLiu在ECCV2016上提出的一种目标检测算法。使用NvidiaTitanX在VOC2007测试集上，SSD对于输入尺寸300x300的网络，达到74.3%mAP(meanAveragePrecision)以及59FPS；对于512x512的网络，达到了76.9%mAP，超越当时最强的FasterRC
PD协议（Power Delivery）高效安全解决充电宝给笔记本供电 skywalk8163 软硬件调试电脑笔记本充电
曾经一度想使用充电宝5V升压到交流220V，然后输出给插线板，接笔记本电源供电。后来从网上一看，原来已经有了pd协议。刚开始看到pd，思路一度想到了pdd，后来才知道PD是一种协议：‌PD协议（PowerDelivery）是一种更为高效和安全的充电解决方案，它支持更高的电压和电流输出，能够满足笔记本电脑等设备的充电需求‌。与传统的5V升压到220V再供电的方式相比（对，说的就是我，我刚开始就想用传
mysql的单表数据导入到hive数据库中熏陶数据库 mysql hive
1、将mysql的数据导出借助dbeaver工具，将单表数据table1格式导出为csv文件2、将csv的后缀名手动改为txt后缀，为了让每行的的字段是以，分隔3、将得到的txt文件上传到hdfs文件系统中4、目标机创建和table1一样的表结构的表，创建过程中要加上这几句ROWFORMATDELIMITEDFIELDSTERMINATEDBY','STOREDASTEXTFILE;如：CREAT
arm-linux平台、rk3288 SDL移植雨中来客 arm开发 linux SDL移植
一、所需环境资源1、arm-linux交叉编译器，这里使用的是gcc-linaro-6.3.12、linux交叉编译环境，这里使用的是Ubuntu20.043、sdl2源码https://github.com/libsdl-org/SDL/archive/refs/tags/release-2.30.11.tar.gz二、代码编译1、解压sdl2源码，并且cd到源码目录tar-xvfSDL-rel
【gopher的java学习笔记】一文讲懂controller，service，mapper，entity是什么 ThisIsClark gopher的java学习笔记 java 学习笔记
刚开始上手Java和Spring时，就被controller，service，mapper，entity这几个词搞懵了，搞不懂这些究竟代表什么，感觉使用golang开发的时候也没太接触过这些名词啊~经过两三个月的开发后，逐渐搞懂了这几个词的意义，也对为什么要这么分有了一点见解，总结了一下希望能帮到各位刚刚接触Java和Spring的同学。组件介绍Entity（实体）作用：代表数据库中的表结构，是数
Sqoop数据导出第3关：Hive数据导出至MySQL中是草莓熊吖 sqoop Educoder hive hadoop 数据仓库 sqoop
为了完成本关任务，你需要掌握：Hive数据导出至MySQL中。Hive数据导入MySQL中MySQL建表因为之前已经创建过数据库了，我们直接使用之前的数据库hdfsdb，在数据库中建表project，表结构如下：名类状态pro_noint主键，序号pro_namevarchar(20)课程名pro_teachervarchar(20)课程老师#首先进入MySQLmysql-uroot-p12312
把hive中的数据导出到mysql 樱浅沐冰笔记 hadoop hive mysql
注意事项！！！！1.hive中的表的字段和类型必须和mysql表中的字段和类型一样不如hive中的stnamevarchar（50），那么mysql中的字段和类型也必须为stnamestring2.sqoopexport--connectjdbc:mysql://localhost:3306/xiandian--usernameroot--passwordbigdata--tablem1--hca
深度学习中高斯噪声：为什么以及如何使用小白学视觉深度学习人工智能
点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达来源：DeepHubIMBA本文约1800字，建议阅读8分钟高斯噪声是深度学习中用于为输入数据或权重添加随机性的一种技术。在数学上，高斯噪声是一种通过向输入数据添加均值为零和标准差(σ)的正态分布随机值而产生的噪声。正态分布，也称为高斯分布，是一种连续概率分布，由其概率密度函数(PDF)定义：pdf(x)=(1/(σ*sqrt(
《Spark大数据分析与内存计算》——第三章阿万古课程作业 spark 数据分析大数据
第三章作业及答案快捷查找：Ctrl+F在搜索框中输入题目一.单选题（共17题）1.(单选题)并不是所有企业都能自己产生数据，从而用于决策辅助，而更多的互联网企业如电商等大部分是要靠什么来抓取互联网数据进行分析A.HadoopB.pythonC.SparkD.网路爬虫正确答案:D:网路爬虫;2.(单选题)什么负责即席查询的应用A.MLlibB.SparkStreamingC.GraphXD.Spar
Ajax：万字总结黑马笔记，学懂Ajax看这一篇就够了做一只猫前端 ajax javascript 前端
一、了解AjaxAjax的全称是AsynchronousJavascriptAndXML（异步JavaScript和XML）通俗的理解：在网页中利用XMLHttpRequest对象和服务器进行数据交互的方式，就是Ajax如：用户名检测：注册用户时，通过ajax的形式，动态检测用户名是否被占用搜索提示：当输入搜索关键字时，通过ajax的形式，动态加载搜索提示列表数据分页显示：当点击页码值的时候，通过
深度强化学习在高频交易中的动态策略优化与收益提升二进制独立开发非纯粹GenAI GenAI与Python python 人工智能神经网络自然语言处理生成对抗网络金融数据挖掘
文章目录1.高频交易的核心挑战与强化学习的适应性1.1高频交易中的核心问题1.2强化学习的适配性分析2.基于深度Q网络（DQN）的高频交易策略设计2.1状态空间构建：从LOB到特征工程2.2动作空间与奖励函数设计2.3DQN模型架构与训练优化3.业务视角下的策略优化与风险管理3.1策略有效性验证3.2实时部署与延迟优化3.3合规与伦理考量4.实验：基于NASDAQLOB数据的策略对比4.1数据集与
算法学习019 BFS实现迷踪步 c++算法学习中小学算法思维学习比赛算法题解信奥算法解析小兔子编程信奥算法详解算法宽度优先 BFS C++BFS 广度优先算法 c++迷宫步数 c++迷踪步
C++BFS实现迷踪步一、题目要求1、编程实现有一个n行m列的方格迷宫，用0表示可以通过，用1表示不可以通过，每一步可以向上、下、左、右任意方向移动一格，请计算从左上角(1，1)位置移动到右下角(n，m)位置，最少移动多少步？2、输入输出输入描述：第一行输入矩阵大小n和m
软件工程案例分析作业 SoftwareTeacher 编程语言人工智能 java python 大数据
现代软件工程构建之法作业https://bbs.csdn.net/forums/SoftwareEngineering?typeId=1723软件工程作业案例分析很多同学有疑惑：软件工程课是否就是枯燥的理论课？或者是几个牛人拼命写代码，其他人抱大腿的课？要不然就是学习一个程序语言，练习某个框架，搞一个职业培训的课？都不对！软件工程有理论，有实践，更重要的是分析，思辨，总结。在课程中，同学们自己组织
Hive数据仓库中的数据导出到MySQL的数据表不成功 sin2201 出错问题数据仓库 hive mysql
可能的原因：(1)没有下载flume和sqoop(2)权限问题：因为MySQL数据库拒绝了root用户从hadoop3主机的连接请求，root用户没有从hadoop3主机进行连接的权限解决：通过MySQL的授权命令来授予权限mysql>GRANTALLPRIVILEGESONsqoop_weblog.*TO'root'@'hadoop3'IDENTIFIEDBY'2020';QueryOK,0ro
理解inode zhanshenyn linux table unix file 存储 user
inode是一个重要概念，是理解Unix/Linux文件系统和硬盘储存的基础。我觉得，理解inode，不仅有助于提高系统操作水平，还有助于体会Unix设计哲学，即如何把底层的复杂性抽象成一个简单概念，从而大大简化用户接口。下面就是我的inode学习笔记，尽量保持简单。===================================理解inode作者：阮一峰一、inode是什么？理解inode
【机器学习】必会降维算法之：多维缩放（MDS） Carl_奕然机器学习算法人工智能
多维缩放（MDS）1、引言2、多维缩放（MDS）2.1定义2.2应用场景2.3核心原理2.4实现方式2.5算法公式2.6代码示例3、总结1、引言小鱼：最近小屌丝在休假，难得的清闲，我这也闲言少叙，书归正传，咱就聊一聊降为算法之：多维缩放(MDS)在机器学习和数据科学领域，多维缩放（MultidimensionalScaling，简称MDS）是一种常用的降维技术。它能够在尽可能保留原始数据点间距离的
docker builds not a command Zack Snyder docker eureka 容器运维云原生
我整理的一些关于【Docker】的项目学习资料（附讲解～～）和大家一起分享、学习一下：https://d.51cto.com/xltfov理解Docker和构建过程中的命令问题：处理“dockerbuildsnotacommand”错误Docker是一种流行的容器化技术，它允许开发者将应用程序及其所有依赖项打包到一个标准化的单元（容器）中，确保应用在任何环境中都能一致地运行。然而，在使用Docke
智能推理的革命：DeepSeek-R1 深度解析其算法与实现步子哥算法人工智能
在人工智能（AI）领域，语言模型（LargeLanguageModels,LLMs）正以惊人的速度发展，变得越来越智能，能够理解和生成复杂的语言内容。然而，尽管现有的模型在许多任务上表现出色，它们在深度推理和逻辑思维方面仍有显著的提升空间。DeepSeek-R1的出现，正是为了解决这一问题，通过强化学习（ReinforcementLearning,RL）赋予语言模型更强大的推理能力，开创了LLMs
转帖-在Eclipse中开发JSF ren_z_q JSF Eclipse Bean JSP Oracle
(转自http://www.blogjava.net/gaofeng/articles/127842.html作者:Java.net)Eclipse3.3刚刚发布,正在学习JSF,于是使用Eclipse3.3做了一个JSF的Demo,很简单,主要是页面的跳转、组件和Bean的绑定等基础...1、工具准备:Eclipse3.3WTP2.0(最好下载一个all-in-one的版本..省的麻烦)...依
package.json依赖包漏洞之yargs-Parser输入验证错误漏洞漏洞安全
背景有个安全扫描的流水线，扫描了负责的项目之后，发现一些漏洞。需要说明的是，这个扫描只是针对package.json文件。扫的是依赖树，而不是项目源代码，也不是打包后的代码。但既然是漏洞，都是可以好好学习下的。yargs-Parser输入验证错误漏洞(CVE-2020-7608)被扫描出来的是下面这样的：详情请查看：package.json依赖包漏洞之yargs-Parser输入验证错误漏洞
package.json依赖包漏洞之nodejs-glob-parent正则表达式拒绝服务漏洞漏洞安全前端
背景有个安全扫描的流水线，扫描了负责的项目之后，发现一些漏洞。需要说明的是，这个扫描只是针对package.json文件，扫的是依赖树，而不是项目源代码，也不是打包后的代码。但既然是漏洞，都是可以好好学习下的。nodejs-glob-parent正则表达式拒绝服务漏洞(CVE-2020-28469)被扫描出来的是下面这样的：从阿里云漏洞库中可以知道具体是什么漏洞。CVE-2020-28469漏洞的
python之函数的定义徐jiankang python基础日常总结 python 开发语言
博主简介：原互联网大厂tencent员工，网安巨头Venustech员工，阿里云开发社区专家博主，微信公众号java基础笔记优质创作者，csdn优质创作博主，创业者，知识共享者,欢迎关注，点赞，收藏。目录一、背景二、函数的定义三、参考四、总结一、背景实际开发过程中，经常会遇到很多完全相同或者非常相似的操作，这时，可以将实现类似操作的代码封装为函数，然后在需要的地方调用该函数。这样不仅可以实现代
第38周：猫狗识别 (Tensorflow实战第八周) weixin_46620278 tensorflow 人工智能 python
目录前言一、前期工作1.1设置GPU1.2导入数据输出二、数据预处理2.1加载数据2.2再次检查数据2.3配置数据集2.4可视化数据三、构建VGG-16网络3.1VGG-16网络介绍3.2搭建VGG-16模型四、编译五、训练模型六、模型评估七、预测总结前言本文为中的学习记录博客原作者：说在前面1）本周任务：了解model.train_on_batch()并运用；了解tqdm，并使用tqdm实现可视
如何在 Ubuntu 20.04 或 22.04 上安装 Python 3 百川Cs 计算机基础 ubuntu python linux pip conda
以下是关于如何在Ubuntu20.04或22.04上安装Python3的详细步骤。Python是一种广泛使用的编程语言，适用于自动化、数据分析、机器学习等领域。Ubuntu系统通常预装了Python3，但如果需要安装或升级到最新版本，可以按照以下方法操作。检查系统是否已安装Python3打开终端（快捷键：Ctrl+Alt+T）。输入以下命令检查是否已安装Python3：python3--versi
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户