LKL1026

【Python大数据笔记_day09_hive函数和调优】

hive函数

函数分类标准[重点]

原生分类标准:  内置函数 和 用户定义函数(UDF,UDAF,UDTF)

分类标准扩大化:  本来，UDF 、UDAF、UDTF这3个标准是针对用户自定义函数分类的； 但是，现在可以将这个分类标准扩大到hive中所有的函数，包括内置函数和自定义函数；

目前hive三大标准
UDF:（User-Defined-Function）普通函数:  特点是一进一出(输入一行数据输出一行数据)        举例: split
UDAF:（User-Defined Aggregation Function）聚合函数: 特点是多进一出(输入多行输出一行)   举例: count sum max  min  avg
UDTF:（User-Defined Table-Generating Functions）表生成函数:  特点是一进多出(输入一行输出多行)   举例: explode

查询所有hive函数名称:  show functions;
查看某函数使用帮助文档: desc function [extended] 函数名;         注意: 加上extended关键字能查看详细信息示例

-- 查看所有函数
show functions;

-- 分类标准扩大化
-- UDF: 普通函数 特点: 一进一出  举例: split()
-- 查看官方示例
describe function extended split;
-- 演示官方示例
SELECT split('oneAtwoBthreeCfour', '[ABC]'); -- ["one","two","three","four"]

-- UDAF: 聚合函数 特点: 多进一出 举例: sum() count() avg() max()  min()
-- 查看官方示例
describe function extended count;
/*
count(*): 不忽略null值统计个数
count(字段名): 忽略null值统计个数
count(常量): 举例 : count(1)  count(2)  ...
count(distinct 字段名): 忽略null值并且去重统计个数
*/

-- UDTF: 表生成函数 特点: 一进多哦出 举例: explode()
-- 查看官方示例
describe function extended explode;
/*
将数组a的元素分成多行，或将映射的元素分成多行和多列
数组: array[元素1,元素2,元素3...]   array(10,20,30)能够构造出数组[10,20,30]
映射: map{k1:v1,k2:v2...}  map('a',10,'b',20,'c',30)构造出映射{'a':10,'b':20,'c':30}
*/
-- 演示炸裂函数
select explode(array(10,20,30));
select explode(map('a',10,'b',20,'c',30));

复杂类型函数

hive复杂类型:   array  struct  map

array类型: 又叫数组类型,存储同类型的单数据的集合
     取值: 字段名[索引]   注意: 索引从0开始
     获取长度的函数: size(字段名)       常用
     判断是否包含某个数据的函数: array_contains(字段名,某数据)   常用
     对数组进行排序的函数: sort_array(数组)

struct类型: 又叫结构类型,可以存储不同类型单数据的集合
     取值: 字段名.子字段名n
    
map类型: 又叫映射类型,存储键值对数据的映射(根据key找value)
    取值: 字段名[key]
    获取长度的函数: size(字段名)        常用       
    获取所有key的函数: map_keys()            常用 
    获取所有value的函数: map_values()        常用

-- 演示集合函数
select array('binzi','666','888');
select size(array('binzi','666','888'));
select array_contains(array('binzi','666','888'),'binzi');
select sort_array(array(3,1,5,2,4)); -- [1,2,3,4,5]


select map('a',1,'b',2,'c',3);
select size(map('a',1,'b',2,'c',3));
select map_keys(map('a',1,'b',2,'c',3));-- ["a","b","c"]
select map_values(map('a',1,'b',2,'c',3));-- [1,2,3]

字符串函数

字符串常见的函数:
concat: 字符串紧凑拼接到一起生成新字符串
concat_ws: 字符串用指定分隔符拼接到一起生成新字符串        常用 
length: 获取字符串长度             常用 
lower: 把字符串中的字母全部变成小写
upper: 把字符串中的字母全部变成大写
trim: 把字符串两端的空白去除         常用 

拓展字符串函数
substr: 截取字符串         常用 
replace: 替换字符串        常用 
regexp_replace: 正则替换字符串
parse_url: 解析url(统一资源定位符)  组成: 协议/主机地址:端口号/资源路径?查询参数
get_json_object: 获取json对象解析对应数据

-- 1.字符串相关函数
-- 演示字符串常见的函数
-- concat: 字符串紧凑拼接到一起生成新字符串
select concat('binzi', '666', '888'); -- 'binzi666888'
-- concat_ws: 字符串用指定分隔符拼接到一起生成新字符串
select concat_ws('-', 'binzi', '666', '888'); -- 'binzi-666-888'
-- length: 获取字符串长度
select length('binzi-666'); -- 9
-- lower: 把字符串中的字母全部变成小写
select lower('BINZI-666'); -- 'binzi-666'
-- upper: 把字符串中的字母全部变成大写
select upper('binzi-666'); -- 'BINZI-666'
-- trim: 把字符串两端的空白去除
select '   binzi 666  '; -- '   binzi 666   '
select trim('   binzi 666  ');-- 'binzi 666'




-- substr(字符串,开始索引,截取长度): 截取字符串,截取长度如果不写默认到结尾
-- substring(字符串,开始索引,截取长度): 截取字符串
-- 注意: 正索引从1开始正着数  负索引从-1开始倒着数
select substr('binzi666',1,2); -- 'bi'
select substr('binzi666',1); -- -- 'binzi666'
select substr('binzi666',-4);--'i666'

-- 已知'2023-05-21'要求分别截取年月日
select substr('2023-05-21',1,4); -- 结果2023
select substr('2023-05-21',1,7); -- 结果2023-05
select substr('2023-05-21',6,2); -- 结果05
select substr('2023-05-21',-2,2); -- 结果21
-- current_date经常用于截取日期中的年月
select `current_date`();
select substr(`current_date`(),1,7);




-- replace(大字符串,敏感词,替换后的内容):替换字符串
select replace('你TMD哦','TMD','挺萌的');
select replace('binzi-666', '666', 'num');

--正则表达式替换函数：regexp_replace(str, regexp, rep)
select regexp_replace('binzi-666', '\\d+', 'num');
--正则表达式解析函数：regexp_extract(str, regexp, idx)
-- 正则中()代表分组,自动从1开始生成编号,提取正则匹配到的指定组内容
select regexp_extract('binzi-666-888', '(\\d+)-(\\d+)', 1);
select regexp_extract('binzi-666-888', '(\\d+)-(\\d+)', 2);


--URL解析函数：parse_url 注意要想一次解析出多个 可以使用parse_url_tuple这个UDTF函数
-- URL: 统一资源定位符 也就是咱们常说的网址   组成: 协议/主机地址:端口号/资源路径?查询参数
select parse_url('http://www.itcast.cn/path/binzi.html?user=binzi&pwd=123', 'HOST'); -- www.itcast.cn
select parse_url('http://www.itcast.cn/path/binzi.html?user=binzi&pwd=123', 'PATH'); -- /path/binzi.html
select parse_url('http://www.itcast.cn/path/binzi.html?user=binzi&pwd=123', 'QUERY'); -- user=binzi&pwd=123
select parse_url('http://www.itcast.cn/path/binzi.html?user=binzi&pwd=123', 'QUERY', 'user'); -- binzi
select parse_url('http://www.itcast.cn/path/binzi.html?user=binzi&pwd=123', 'QUERY', 'pwd'); -- 123

-- json解析函数：get_json_object(json_txt, path), 细节: 整个json字符串用单引号'包裹, json字符串中的键, 值用双引号"包裹.
-- json字符串的格式: {键:值, 键: 值}
-- json数组的格式: [{键:值, 键: 值}, {键:值, 键: 值}, {键:值, 键: 值}]      -- 索引从 0 开始.
select get_json_object('{"name":"杨过", "age":"18"}', '$.name');      -- 杨过, $表示json对象
select get_json_object('[{"name":"杨过", "age":"18"}, {"name":"小龙女", "age":"26"}]', '$.[0]'); -- {"name":"杨过", "age":"18"}
select get_json_object('[{"name":"杨过", "age":"18"}, {"name":"小龙女", "age":"26"}]', '$.[1].name'); -- 小龙女,   $表示json对象

日期时间函数

current_timestamp: 获取时间原点到现在的秒/毫秒,底层自动转换方便查看的日期格式        常用 
to_date: 字符串格式时间戳转日期(年月日)
current_date: 获取当前日期(年月日)        常用

year: 获取指定日期时间中的年        常用 
month:获取指定日期时间中的月        常用 
day:获取指定日期时间中的日          常用 
hour:获取指定日期时间中的时
minute:获取指定日期时间中的分
second:获取指定日期时间中的秒

dayofmonth: 获取指定日期时间中的月中第几天
dayofweek:获取指定日期时间中的周中第几天
quarter:获取指定日期时间中的所属季度
weekofyear:获取指定日期时间中的年中第几周

datediff: 获取两个指定时间的差值        常用 
date_add: 在指定日期时间上加几天        常用 
date_sub: 在指定日期时间上减几天

unix_timestamp: 获取unix时间戳(时间原点到现在的秒/毫秒)    注意: 可以使用yyyyMMdd HH:mm:ss进行格式化转换
from_unixtime:  把unix时间戳转换为日期格式的时间          注意: 如果传入的参数是0,获取的是时间原点1970-01-01 00:00:00

-- 2.日期时间函数
-- 获取当前时间戳(时间原点到现在的秒/毫秒)
select unix_timestamp(); -- 10位的数字代表多少秒
select current_timestamp(); -- 自动转换 年月日时分秒格式
-- 获取当前日期
select current_date();
-- 字符串格式时间戳转日期
select to_date('2023-05-21 11:19:31.222000000');
select to_date(current_timestamp());
-- 依次获取年月日时分秒
select year('2023-05-21 11:19:31.222000000'); -- 2023
select month('2023-05-21 11:19:31.222000000'); -- 5
select day('2023-05-21 11:19:31.222000000'); -- 21

select hour('2023-05-21 11:19:31.222000000'); -- 11
select minute('2023-05-21 11:19:31.222000000'); -- 19
select second('2023-05-21 11:19:31.222000000'); -- 31
-- 依次获取月中第几天,周中第几天,季度,年中第几周
select dayofmonth('2023-05-21 11:19:31.222000000'); -- 21
select dayofweek('2023-05-21 11:19:31.222000000'); -- 1
select quarter('2023-05-21 11:19:31.222000000'); -- 2
select weekofyear('2023-05-21 11:19:31.222000000'); -- 20

-- 计算时间差
select datediff(`current_date`(),'2023-11-03'); -- 12

-- 获取明天的日期
select date_add(current_timestamp(),1);
select date_sub(current_timestamp(),-1);
-- 获取昨天的日期
select date_sub(current_timestamp(),1);
select date_add(current_timestamp(),-1);


-- 拓展
--获取当前UNIX时间戳函数: unix_timestamp
select unix_timestamp();

--字符串日期转UNIX时间戳函数: unix_timestamp
select unix_timestamp("2023-5-21 11:38:56"); -- 1684669136

--指定格式日期转UNIX时间戳函数: unix_timestamp
select unix_timestamp('2023-05-21 11:38:56','yyyy-MM-dd HH:mm:ss'); --1684669136

--UNIX时间戳转日期函数: from_unixtime
select from_unixtime(1684669136); -- 2023-05-21 11:38:56
-- 获取时间原点日期
select from_unixtime(0); -- 1970-01-01 00:00:00

数学函数

round: 指定小数保留位数    常用
rand: 生成0-1的随机数
pi: 生成π结果
ceil: 向上取整
floor: 向下取整

-- 演示数学函数
-- 随机数
select rand();
-- 应用解决数据倾斜问题,可以把之前大量相同的值后面拼接随机数
select concat('男',rand());
select concat('男',rand());

-- 获取π值
select '3.1415926';
select pi();
-- 四舍五入设置保留位数
select round(pi(),4);
-- 向上取整
select ceil(pi());
-- 向下取整
select floor(pi());

条件函数[练习]

if(参数1,参数2,参数3): 如果参数1结果为true,就执行参数2内容,否则执行参数3的内容
case...when.then...end: 条件判断类似于编程语言中的if..else if ...else...     常用


isnull(数据) : 为空null: true 不为空:false

isnotnull(数据): 不为空: true 为空null:false

nvl(数据,参数2): 如果数据不为空打印数据,为空null打印第二个参数        常用 

coalesce(参数1,参数2...): 从左到右依次查找,返回第一个不是null的值,如果找到最后都是null,就返回null    常用

-- 演示条件函数
-- if(条件判断,true的时候执行此处,false的时候执行此处)
select if(10 > 5, '真', '假'); -- 真
select if(10 < 5, '真', '假');
--条件转换函数格式1: CASE a WHEN b THEN c [WHEN d THEN e]* [ELSE f] END
select
       case 7
           when 1 then '周一上班'
           when 2 then '周二上班'
           when 3 then '周三上班'
           when 4 then '周四上班'
           when 5 then '周五上班'
           when 6 then '周六休息'
           when 7 then '周日休息'
           else '老弟啊,你是外星人吗?'
       end;

-- 条件转换函数格式2:CASE  WHEN a==b THEN a==c [WHEN a==d THEN a==e]* [ELSE f] END
select
       case
           when 7==1 then '周一上班'
           when 7==2 then '周二上班'
           when 7==3 then '周三上班'
           when 7==4 then '周四上班'
           when 7==5 then '周五上班'
           when 7==6 then '周六休息'
           when 7==7 then '周日休息'
           else '老弟啊,你是外星人吗?'
       end;


-- 演示null相关函数
-- isnull(数据) 为空: true 不为空:false
select isnull(null); -- true
-- isnotnull(数据) 不为空: true 为空:false
select isnotnull('斌子'); -- true
-- nvl(数据,前面的数据是null的时候执行此处): 如果数据不为空打印数据,为空打印第二个参数
select nvl('binzi','666');
select nvl(null,'666');
-- coalesce(v1,v2...): 从左到右依次查找,返回第一个不是null的值,如果找到最后都是null,就返回null
select COALESCE(null,11,22,33);-- 11
select COALESCE(null,null,22,33);--22
select COALESCE(null,null,null,33);--33
select COALESCE(null,null,null,0);--0
select COALESCE(null,null,null,null);--null

类型转换函数

类型转换: cast(数据 as 要转换的类型)        常用

-- 演示类型转换函数

-- cast: 主要用于类型转换 注意: 转换失败返回null
select cast(3.14 as int); -- 3
select cast(3.14 as string) ; -- '3.14'
select cast('3.14' as float); -- 3.14
select cast('3.14' as int); -- 3
select cast('binzi' as int); -- null

-- -- 注意: 很多时候底层都默认做了自动转换
select '3'+3; -- 6


-- 实际应用场景:concat_ws要求被连接的必须是字符串,如果直接用666就报错
select concat_ws('_','binzi',666,'888'); --此行报错,因为concat_ws只能拼接字符串类型
select concat_ws('_','binzi',cast(666 as string),'888'); -- binzi_666_888

数据脱敏函数

-- 演示数据脱敏函数[了解]
-- mask_hash:  返回指定字符串的hash编码
select mask_hash('binzi');


-- 拓展
--将查询回的数据，大写字母转换为X，小写字母转换为x，数字转换为n。
select mask("abc123DEF"); -- xxxnnnXXX
--自定义替换的字母: 依次为大写小写数字
select mask("abc123DEF",'大','小','数');
select mask("abc123DEF",'/','.','%');

--mask_first_n(string str[, int n]
--对前n个进行脱敏替换 大写字母转换为X，小写字母转换为x，数字转换为n。
select mask_first_n("abc123DEF",6);

--mask_last_n(string str[, int n])
--对后n个进行脱敏替换 大写字母转换为X，小写字母转换为x，数字转换为n。
select mask_last_n("abc123DEF",6);

--mask_show_first_n(string str[, int n])
--除了前n个字符，其余进行掩码处理
select mask_show_first_n("abc123DEF",6);

--mask_show_last_n(string str[, int n])
select mask_show_last_n("abc123DEF",6);

其他函数

-- 演示其他函数
--取哈希值函数:hash
select hash("binzi"); -- 93742710

--MD5加密: md5(string/binary)
select md5("binzi"); -- 32位   072853027b387fcf891a610137f8dc1b
select length('072853027b387fcf891a610137f8dc1b');


--SHA-1加密: sha1(string/binary)
select sha1("binzi"); -- 40位 66368c80ca9125f9a8a945aaf1e1ec3f8b21f7f9
select length('66368c80ca9125f9a8a945aaf1e1ec3f8b21f7f9');

--SHA-2家族算法加密：sha2(string/binary, int)  (SHA-224, SHA-256, SHA-384, SHA-512)
select sha2("binzi",224);
select sha2("binzi",512);

--crc32加密:
select crc32("binzi"); -- 3221865747


-- 当前环境相关的
select current_user(),logged_in_user(),current_database(),version();

炸裂函数实战[练习]

把一个容器的多个数据炸裂出单独展示:  explode(容器)

炸裂函数配合侧视图使用如下
格式:select 原表别名.字段名,侧视图名.字段名 from 原表 原表别名 lateral view explode(要炸开的字段) 侧视图名 as 字段名 ;

-- UDTF: 一进多出
select explode(array('binzi', '666', '888'));
select explode(map('a', 1, 'b', 2, 'c', 3));

实战

-- 将NBA总冠军球队数据使用explode进行拆分，并且根据夺冠年份进行倒序排序。
--step1:建表
create table the_nba_championship(
           team_name string,
           champion_year array
) row format delimited
fields terminated by ','
collection items terminated by '|';

--step2:加载数据文件到表中  先上传到hdfs/source目录
load data  inpath '/source/The_NBA_Championship.txt' into table the_nba_championship;

--step3:验证
select * from the_nba_championship;


-- 只查询冠军年份,降序排序
select explode(champion_year) as year from the_nba_championship ;

-- 配合侧视图完成需求
with tmp as(
    select  a.team_name,b.year
    from the_nba_championship a
    lateral view explode(champion_year) b as year
    )
select * from tmp order by year desc;

堆内存错误

报错

Error while processing statement: FAILED: Execution Error, return code -101 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask. Java heap space

解决方案:

方式1: 找到hive-env.sh,添加以下内容

    export HADOOP_HEAPSIZE=2048

方式2: 找到hive-site.xml添加以下内容

  
    
        hive.heapsize
        2048

高频面试题[练习]

行转列

collect_set(字段名): 把多个数据收集到一起,默认去重
collect_list(字段名): 把多个数据收集到一起,默认不去重
把多个子串用指定分隔符拼接成一个大字符串: concat_ws(分隔符,多个数据...)      注意: 如果拼接数据不是字符串可以使用cast转换

示例:

-- 数据准备
--建表
create table row2col2(
                         col1 string,
                         col2 string,
                         col3 int
)row format delimited fields terminated by '\t';

--加载数据到表中
load data inpath '/source/r2c2.txt' into table row2col2;
-- 验证数据
select * from row2col2;
/*
需求1: 把原表数据变成以下格式
a b [1,2,3]
c d [4,5,6]
*/
select
    col1,
    col2,
    collect_list(col3)
from
    row2col2
group by
    col1, col2;

/*
需求2: 把原表数据变成以下格式
a b '1-2-3'
c d '4-5-6'
*/
select
    col1,
    col2,
    concat_ws('-',collect_list(cast(col3 as string)))
from
    row2col2
group by
    col1, col2;

列转行

知识点

把字符串按照指定分隔符切割: split(字符串,分隔符)

炸裂函数配合侧视图使用格式: select 原表别名.字段名,侧视图名.字段名 from 原表 原表别名 lateral view explode(要炸开的字段) 侧视图名 as 字段名 ;

需求

示例

-- 列转行
--创建表
create table col2row2(
                         col1 string,
                         col2 string,
                         col3 string
)row format delimited fields terminated by '\t';

--加载数据
load data  inpath '/source/c2r2.txt' into table col2row2;
-- 验证数据
select * from col2row2;


-- 单列数据先切割再炸开
select split(col3,',') from col2row2;
select explode(split(col3,',')) from col2row2;

-- 再去完成需求,列转行生成最后完整表
select col1,col2,tmp.col3
from col2row2
 lateral view explode(split(col3,',')) tmp as col3;

JSON文件处理

get_json_object: 获取json对象解析对应数据  一次只能提取一个字段

json_tuple: 直接获取json对应数据  这是一个UDTF函数 可以一次解析提取多个字段

注意: 因为json_tuple是UDTF函数,所以也可以配合侧视图使用

-- 演示json解析
-- 需求: 把json解析后的数据保存成一个新表
--创建表
create table tb_json_test1 (
    json string
);

--加载数据
load data  inpath '/source/device.json' into table tb_json_test1;
-- 查看数据
select * from tb_json_test1;

-- 方式1: 逐个(字段)处理, get_json_object UDF函数 最大弊端是一次只能解析提取一个字段
-- get_json_object UDF函数 最大弊端是一次只能解析提取一个字段
create table device1 as
select
    --获取设备名称
    get_json_object(json,"$.device") as device,
    --获取设备类型
    get_json_object(json,"$.deviceType") as deviceType,
    --获取设备信号强度
    get_json_object(json,"$.signal") as signal,
    --获取时间
    get_json_object(json,"$.time") as stime
from tb_json_test1;


-- 方式2: 逐条处理. json_tuple 这是一个UDTF函数 可以一次解析提取多个字段
--json_tuple 这是一个UDTF函数 可以一次解析提取多个字段
--单独使用 解析所有字段
create table device2 as
select
    json_tuple(json,"device","deviceType","signal","time") as (device,deviceType,signal,stime)
from tb_json_test1;

--搭配侧视图使用(本次了解)
select
    device,deviceType,signal,stime
from tb_json_test1
         lateral view json_tuple(json,"device","deviceType","signal","time") b
         as device,deviceType,signal,stime;


-- 方式3: 在建表时候, 直接处理json, row format SerDe '能处理Json的SerDe类'
--建表的时候直接使用JsonSerDe解析
create table tb_json_test2 (
                               device string,
                               deviceType string,
                               signal double,
                               `time` string
)ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe' STORED AS TEXTFILE;
-- 加载数据
load data  inpath '/source/device.json' into table tb_json_test2;
-- 查看
select * from tb_json_test2;

开窗函数

基础使用[回顾]

基础知识点[重点]

开窗函数格式:  select ... 开窗函数 over(partition by 分组字段名 order by 排序字段名 asc|desc) ... from 表名;

聚合开窗函数: 原来学的聚合函数(max,min,sum,count,avg)配合over()使用的时候,这些聚合函数也可以叫开窗函数

排序开窗函数: row_number  dense_rank  rank
            row_number: 巧记: 1234   特点: 唯一且连续
            dense_rank: 巧记: 1223   特点: 并列且连续
               rank   : 巧记: 1224   特点: 并列不连续

-- 开窗函数: hive和mysql8都能使用
-- 开窗函数本质在表后新增了一列
-- 聚合开窗函数: max min sum avg count
-- 聚合函数配合over()使用,也可以叫开窗函数
select col1,
       max(col3) over()
from row2col2;


-- 排序开窗函数: row_number  rank  dense_rank
-- 排序函数必须配合over(order by 排序字段 asc|desc)
/*
row_number: 巧记: 1234   特点: 唯一且连续
dense_rank: 巧记: 1223   特点: 并列且连续
   rank   : 巧记: 1224   特点: 并列不连续
*/
select *,
       row_number() over (order by signal desc),
       dense_rank() over (order by signal desc),
       rank() over (order by signal desc)
from device1;

-- 开窗函数分组
-- 注意不能用group by ,需要使用partition by,可以理解成partition by是group by的子句
-- 演示排序函数和分组配合使用: 先分组再组内排序
select *,
       row_number() over (partition by deviceType order by signal desc),
       dense_rank() over (partition by deviceType order by signal desc),
       rank() over (partition by deviceType order by signal desc)
from device1;
-- 演示聚合函数和分组配合使用
select *,
       max(signal) over(partition by deviceType)
from device1;


-- 演示聚合函数同时和分组以及排序关键字配合使用
--需求：求出每个用户截止到当天，累积的总pv数
---建表并且加载数据
create table website_pv_info(
   cookieid string,
   createtime string,   --day
   pv int
) row format delimited
fields terminated by ',';
-- 建表
create table website_url_info (
    cookieid string,
    createtime string,  --访问时间
    url string       --访问页面
) row format delimited
fields terminated by ',';
-- 加载数据  直接上传website_pv_info.txt和website_url_info.txt到hdfs中指定表路径中
-- 查询数据
select * from website_pv_info;
select * from website_url_info;

--需求：求出每个用户截止到当天，累积的总pv数
--sum(...) over( partition by... order by ... )，在每个分组内，连续累积求和
select cookieid, createtime,  pv,
       sum(pv) over(partition by cookieid order by createtime) as current_total_pv
from website_pv_info;

开窗函数控制范围

开窗函数控制范围: rows between
                    - unbounded: 无界限
                    - x preceding:往前x行
                    - x following:往后x行
                    - current row:当前行
       
                    - unbounded preceding :表示从前面的起点  第一行
                    - unbounded following :表示到后面的终点  最后一行

-- 演示窗口范围的控制
/*
rows between
    - preceding：往前
    - following：往后
    - current row：当前行
    - unbounded：起点
    - unbounded preceding 表示从前面的起点  第一行
    - unbounded following：表示到后面的终点  最后一行
*/
--默认从第一行到当前行
select cookieid,createtime,pv,
       sum(pv) over(partition by cookieid order by createtime) as pv1
from website_pv_info;

--第一行到当前行 等效于rows between不写 默认就是第一行到当前行
select cookieid,createtime,pv,
       sum(pv) over(partition by cookieid order by createtime rows between unbounded preceding and current row) as pv2
from website_pv_info;


--向前3行至当前行
select cookieid,createtime,pv,
       sum(pv) over(partition by cookieid order by createtime rows between 3 preceding and current row) as pv4
from website_pv_info;

--向前3行 向后1行
select cookieid,createtime,pv,
       sum(pv) over(partition by cookieid order by createtime rows between 3 preceding and 1 following) as pv5
from website_pv_info;

--当前行至最后一行
select cookieid,createtime,pv,
       sum(pv) over(partition by cookieid order by createtime rows between current row and unbounded following) as pv6
from website_pv_info;

--第一行到最后一行 也就是分组内的所有行
select cookieid,createtime,pv,
       sum(pv) over(partition by cookieid order by createtime rows between unbounded preceding  and unbounded following) as pv6
from website_pv_info;

其他开窗函数

其他开窗函数: ntile   lag和lead   first_value和last_value

ntile(x)功能: 将分组排序之后的数据分成指定的x个部分（x个桶）   
        注意ntile规则:尽量平均分配 ，优先满足最小(编号1)的桶，彼此最多不相差1个。

lag: 用于统计窗口内往上第n行值
lead:用于统计窗口内往下第n行值

first_value: 取分组内排序后，截止到当前行，第一个值
last_value : 取分组内排序后，截止到当前行，最后一个值

注意: 窗口函数结果都是单独生成一列存储对应数据

-- 演示其他函数
-- 演示ntile
--把每个分组内的数据分为3桶
SELECT
    cookieid,
    createtime,
    pv,
    ntile(3) OVER(PARTITION BY cookieid ORDER BY createtime) AS rn2
FROM website_pv_info
ORDER BY cookieid,createtime;

--需求：统计每个用户pv数最多的前3分之1天。
--理解：将数据根据cookieid分 根据pv倒序排序 排序之后分为3个部分 取第一部分
SELECT * from
(SELECT
     cookieid,
     createtime,
     pv,
     NTILE(3) OVER(PARTITION BY cookieid ORDER BY pv DESC) AS rn
 FROM website_pv_info) tmp where rn =1;




--lag 用于统计窗口内往上第n行值
select cookieid, createtime, url,
    row_number() over (partition by cookieid order by createtime) rn,
    lag(createtime, 1) over (partition by cookieid order by createtime) la1,
    lag(createtime, 2, '2000-01-01 00:00:00') over (partition by cookieid order by createtime) la2
from website_url_info;


--lead 用于统计窗口内往下第n行值
select cookieid, createtime, url,
    row_number() over (partition by cookieid order by createtime) rn,
    lead(createtime, 1) over (partition by cookieid order by createtime) la1,
    lead(createtime, 2, '2000-01-01 00:00:00') over (partition by cookieid order by createtime) la2
from website_url_info;


--FIRST_VALUE 取分组内排序后，截止到当前行，第一个值
select cookieid, createtime, url,
    row_number() over (partition by cookieid order by createtime) rn,
    first_value(url) over (partition by cookieid order by createtime) fv
from website_url_info;


--LAST_VALUE  取分组内排序后，截止到当前行，最后一个值
select cookieid, createtime, url,
    row_number() over (partition by cookieid order by createtime) rn,
    last_value(url) over (partition by cookieid order by createtime rows between unbounded preceding and unbounded following) fv
from website_url_info;

hive调优

hive官方配置URL: Configuration Properties - Apache Hive - Apache Software Foundation

hive命令个参数配置

hive参数配置的意义:开发hive应用调优时,不可避免地需要设定hive的参数.设定hive的参数可以调优HQL代码的执行效率,或帮助定位问题.然而实践中经常遇到的一个问题,为什么我设定的参数没有起作用?这是对hive参数配置几种方式不了解导致的!

hive参数设置范围 : 配置文件参数 > 命令行参数 > set参数声明

hive参数设置优先级: set参数声明 > 命令行参数 > 配置文件参数

注意: 一般执行SQL需要指定的参数, 都是通过 set参数声明方式进行配置,因为它属于当前会话的临时设置,断开后就失效了

hive数据压缩

hive底层是运行MapReduce,所以hive支持什么压缩格式本质上取决于MapReduce.

压缩对比

在后续可能会使用GZ(GZIP), 保证压缩后的数据更小, 同时压缩和解压的速度比较OK的,

但是大部分的选择主要会选择另一种压缩方案, snappy, 此种方案可以保证在合理的压缩比下, 拥有更高的解压缩的速度

snappy | A fast compressor/decompressor On a single core of a Core i7 processor in 64-bit mode, Snappy compresses at about 250 MB/sec or more and decompresses at about 500 MB/sec or more.

开始压缩

开启map输出阶段压缩可以减少job中map和Reduce task间数据传输量. 当Hive将输出写入到表中时，输出内容同样可以进行压缩。用户可以通过在查询语句或执行脚本中设置这个值为true，来开启输出结果压缩功能。

-- 创建数据库
create database hive05;
-- 使用库
use hive05;


-- 开启压缩(map阶段或者reduce阶段)
--开启hive支持中间结果的压缩方案
set hive.exec.compress.intermediate; -- 查看默认
set hive.exec.compress.intermediate=true ;
--开启hive支持最终结果压缩
set hive.exec.compress.output; -- 查看默认
set hive.exec.compress.output=true;

--开启MR的map端压缩操作
set mapreduce.map.output.compress; -- 查看默认
set mapreduce.map.output.compress=true;
--设置mapper端压缩的方案
set mapreduce.map.output.compress.codec; -- 查看默认
set mapreduce.map.output.compress.codec= org.apache.hadoop.io.compress.SnappyCodec;

-- 开启MR的reduce端的压缩方案
set mapreduce.output.fileoutputformat.compress; -- 查看默认
set mapreduce.output.fileoutputformat.compress=true;
-- 设置reduce端压缩的方案
set mapreduce.output.fileoutputformat.compress.codec; -- 查看默认
set mapreduce.output.fileoutputformat.compress.codec = org.apache.hadoop.io.compress.SnappyCodec;
--设置reduce的压缩类型
set mapreduce.output.fileoutputformat.compress.type; -- 查看默认
set mapreduce.output.fileoutputformat.compress.type=BLOCK;

hive数据存储

行列存储原理

行存储的特点: 查询满足条件的一整行数据的时候，列存储则需要去每个聚集的字段找到对应的每个列的值，行存储只需要找到其中一个值，其余的值都在相邻地方，所以此时行存储查询的速度更快。
列存储的特点: 因为每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量；每个字段的数据类型一定是相同的，列式存储可以针对性的设计更好的设计压缩算法。

行存储: textfile和squencefile
   优点: 每行数据连续存储 select * from 表名; 查询速度相对较快
   缺点: 每列类型不一致,空间利用率不高 select 列名 from 表名; 查询速度相对较慢
列存储: orc和parquet
   优点: 每列数据连续存储 select 列名 from 表名; 查询速度相对较快
   缺点: 因为每行数据不是连续存储 select * from 表名;查询速度相对较慢

注意: ORC文件格式的数据, 默认内置一种压缩算法:zlib , 在实际生产中一般会将ORC压缩算法替换为 snappy使用,格式为: STORED AS orc tblproperties ("orc.compress"="SNAPPY")

存储压缩比

-- 存储格式应用对比
-- 演示textfile行存储格式: 18.1 m
create table log_text (
    track_time string,
    url string,
    session_id string,
    referer string,
    ip string,
    end_user_id string,
    city_id string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE ; -- TEXTFILE当前默认的,可以省略

-- 查询数据
select * from log_text;



-- 演示orc列存储(默认zlib): 2.78 m
create table log_orc(
track_time string,
url string,
session_id string,
referer string,
ip string,
end_user_id string,
city_id string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS orc ;-- 默认内置一种压缩算法:ZLIB

-- 加载数据(先上传数据文件到根目录)
insert into table log_orc select * from log_text;
-- 查询数据
select * from log_orc;


-- [重点orc配合snappy]
-- 演示orc列存储(指定snappy): 3.75 m
create table log_orc_snappy(
    track_time string,
    url string,
    session_id string,
    referer string,
    ip string,
    end_user_id string,
    city_id string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS orc tblproperties ("orc.compress"="SNAPPY"); -- 配合SNAPPY压缩

-- 加载数据(先上传数据文件到根目录)
insert into table log_orc_snappy select * from log_text;
-- 查询数据
select * from log_orc_snappy;

/*ORC文件格式的数据, 默认内置一种压缩算法:ZLIB , 在实际生产中一般会将ORC压缩算法替换为 snappy
格式为: STORED AS orc tblproperties ("orc.compress"="SNAPPY") */




-- 演示parquet压缩存储:13.09 m
create table log_parquet(
track_time string,
url string,
session_id string,
referer string,
ip string,
end_user_id string,
city_id string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS PARQUET ;

-- 加载数据(先上传数据文件到根目录)
insert into table log_parquet select * from log_text;
-- 查询数据
select * from log_parquet;

拓展dfs -du -h

-- 查看hdfs文件大小除了去页面查看,还可以通过命令
dfs -du -h '/user/hive/warehouse/hive05.db/log_text/log.data' ;
dfs -du -h '/user/hive/warehouse/hive05.db/log_orc/000000_0' ;
dfs -du -h '/user/hive/warehouse/hive05.db/log_orc_snappy/000000_0' ;
dfs -du -h '/user/hive/warehouse/hive05.db/log_parquet/000000_0' ;

你可能感兴趣的:(Python大数据学习笔记,大数据,笔记,hive)

Python：函数也是对象 Alidme python 开发语言
寒假学习打卡第十七天今天补做了一下MIT6.100L的课后作业，明天就可以开新课了。顺便整理了一下Python里面的一个重要概念：函数也是对象1、函数名可以赋值到其他变量defadd(a,b):returna+bx=10y=5print(add(x,y))#15a_plus_b=addprint(a_plus_b(x,y))#15在以上代码，我们将add函数赋值给a_plus_b这个变量，此时a_
Python代码性能优化的综合指南 engchina LINUX python 性能优化开发语言
Python代码性能优化的综合指南计算Python脚本的执行时间I.I/O密集型操作I/O密集型操作的优化方法II.使用生成器生成列表和字典1.传统方法2.使用生成器优化代码III.避免字符串拼接，使用`join()`IV.使用`map()`替换循环传统循环方法使用`map()`函数实现相同功能V.选择合适的数据结构少量数据测试`collections.deque`的使用方法VI.避免不必要的函数
毕设开源 python大数据旅游数据分析可视化系统(源码分享) bee_dc 毕业设计毕设大数据
文章目录0前言1课题背景2数据处理3数据可视化工具3.1django框架介绍3.2ECharts4Django使用echarts进行可视化展示（mysql数据库）4.1修改setting.py连接mysql数据库4.2导入数据4.3使用echarts可视化展示5实现效果5.1前端展示5.2后端展示6最后0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到
【人工智能】基于Python的机器翻译系统，从RNN到Transformer的演进与实现蒙娜丽宁 Python杂谈人工智能人工智能 python 机器翻译
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界机器翻译（MachineTranslation,MT）作为自然语言处理领域的重要应用之一，近年来受到了广泛的关注。在本篇文章中，我们将详细探讨如何使用Python实现从传统的循环神经网络（RNN）到现代Transformer模型的机器翻译系统。文章将从机
Python 字符串占位符的全面指南威桑 Python python 开发语言字符串占位符
在Python开发中，动态插入变量或计算结果到字符串中是一种常见的需求。为此，Python提供了多种字符串格式化方法，其中占位符是关键部分。1.什么是字符串占位符？字符串占位符是字符串中用来标记需要动态插入的变量或表达式的位置的符号。它们使得格式化字符串变得更加简洁、动态，并且易于维护。例如：name="Alice"age=25print(f"Mynameis{name}andIam{age}ye
如何利用Python函数求导数？Python函数求导数的方法程序员二飞 python 人工智能开发语言
导数也叫导函数值，又名微商，是微积分中的重要基础概念。今天这篇文章主要是有关利用Python函数来进行导数的求取，给大家介绍了几种Python函数求导数的方法，感兴趣的小伙伴一起来看看吧。想要使用Python函数求导数，首先要打开Python的运行环境，然后打开一个求取导数的模块包，使用它进行求导的求取方法如下：1、首先我们要打开Python运行环境在运行窗口中，输入cmd命令，进入到命令行窗口中
Python 运维（二）：Python 虚拟环境水滴技术 Python入门核心技术 python linux 开发语言虚拟环境
本文收录于《Python入门核心技术》专栏，专栏总目录：点这里，订阅后可阅读专栏内所有文章。大家好，我是水滴~~本文介绍了如何创建和使用Python虚拟环境，以及如何管理项目的依赖库。通过合理使用虚拟环境，你可以更好地组织和管理Python项目，提高开发效率和代码可靠性。文章内容包含大量的示例代码，希望能够帮助新手同学快速入门。文章目录1.什么是Python虚拟环境？2.创建Python虚拟环境2
python函数求导_python怎么实现函数求导 weixin_39521068 python函数求导
python实现函数求导的方法是：1、利用sympy库中的symbols方法传入x和y变量；2、利用sympy库中的diff函数传入需要求导的函数即可返回求导之后的结果。python利用sympy库对某个函数求导，numpy库使用该求导结果计算的程序在python数据处理过程中，我们经常会遇见这样一种情况。需要对一个函数表达式求偏导，并将具体数值代入导数式。而python中通常可用于函数求导的函数
python 求导实现_python – NumPy中的Softmax导数接近0(实现) 非凡运营笔记 python 求导实现
这是如何以更加矢量化的numpy方式计算softmax函数的导数的答案.然而,偏导数逼近零的事实可能不是数学问题,并且只是学习率或复杂深度神经网络的已知死亡权重问题.像ReLU这样的图层有助于防止后一问题.首先,我使用了以下信号(仅复制您的上一个条目),使其成为4个样本x3个特征,因此更容易看到尺寸发生了什么.>>>signal=[[0.3394572666491664,0.30890680539
【sympy】用python的库 sympy 求导数 kt4ngw python python sympy 求导数
diff(f,x)diff(f,x)diff(f,x)求导数可引入求微分方程sympy求微分方程.(点击可跳转)1.一阶导数基本格式print(diff(f,x))#f为所求导函数，x为对x进行求导例：求该函数的导数f(x)=cos(x)f(x)=cos(x)f(x)=cos(x)程序，如下fromsympyimport*x=symbols('x')print(diff(cos(x),x))结果：
使用Python函数计算导数 NoABug python 开发语言 Python
导数是微积分中一个重要的概念，它可以描述函数在给定点的变化率。在Python中，我们可以使用各种数值计算库来计算导数。本文将介绍如何使用Python函数来计算导数，并提供相应的源代码。首先，我们需要导入相关的数值计算库。其中，最常用的库是NumPy，它提供了许多数值计算的功能。importnumpyasnp接下来，我们定义一个函数，例如：deff(x):returnx**2+
2025数学建模美赛C题【Models for Olympic Medal Tables】第一问步入烟尘 2025数学建模美赛C题 2025数学建模美赛数学建模奥运会历史奖牌
本文为个人解题笔记，仅供参考学习。本文C题的第一问。其他问题均在本专栏内，订阅一次，全部可见。文章目录问题1解题全流程解题完整过程：建立预测奥运会奖牌数的数学模型1.数据分析与清理1.1数据来源与结构1.2数据清理2.探索性数据分析(EDA)2.1国家奖牌分布趋势2.2奖牌与赛事数量的关系2.3主办国优势分析3.模型建立3.1奖牌数预测模型3.2奖牌首次获得预测模型3.3奖牌分布与赛事类型关联模型
Python 3.8 64位安装包：为Windows用户提供高效编程体验郎磊权Halden
Python3.864位安装包：为Windows用户提供高效编程体验项目地址:https://gitcode.com/open-source-toolkit/061a8项目介绍Python3.864位安装包是一个专为Windows操作系统设计的Python编程语言安装包。Python3.8作为Python编程语言的一个重要版本，不仅继承了Python一贯的简洁易用特性，还引入了许多新功能和改进，使
用python求导「已注销」 python 开发语言后端
#-*-coding:utf-8-*-"""CreatedonMonNov821:36:352021@author:Machi"""importsympyasspx,y,z=sp.symbols('xyz')func=z*sp.sin(2*sp.pi**x
【Python】Python 虚拟环境与依赖管理全指南丶2136 python #pip python 开发语言 pip
目录引言一、什么是虚拟环境？1.1定义与功能1.2为什么需要虚拟环境？1.3工作原理1.4虚拟环境与全局环境的隔离关系图二、pip和虚拟环境的关系2.1`pip`在虚拟环境中的工作2.2`pip`和虚拟环境结合的优势三、虚拟环境基本操作3.1创建虚拟环境3.2激活与退出虚拟环境四、在虚拟环境中安装包4.1使用`pip`安装包4.2查看已安装包五、常用命令六、管理依赖与包6.1`requiremen
Python | python3.8安装教程（Windows环境）一只野生猿人 python
摘要：本文将介绍python的安装教程，适用于首次安装python的用户官网链接：https://www.python.org/配置说明运行环境：Windows11安装版本：python3.8.01、下载安装程序进入官网，选择Windows版本下载在下载列表中选择64位的安装程序二、安装python3.8.0先勾选下方两个选项，并选择自定义安装勾选下方三个选项，并点击下一步先勾选下方两个选项，再修
python正则表达式操作指南_Python正则表达式操作指南 weixin_39566864 python正则表达式操作指南
Python正则表达式操作指南出自Ubuntu中文原文作者：A.M.Kuchling([email protected])翻译人员：FireHare校对人员：Leal适用版本：Python1.5及后续版本摘要本文是通过Python的re模块来使用正则表达式的一个入门教程，和库参考手册的对应章节相比，更为浅显易懂、循序渐进。目录[编辑]简介Python自1.5版本起增加了re模块，它提供Perl风格的正则表达式模
Python正则表达式指南 weixin_33755554 python
http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html1.正则表达式基础1.1.简单介绍正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具，拥有自己独特的语法以及一个独立的处理引擎，效率上可能不如str自带的方法，但功能十分强大。得益于这一点，在提供了正则表达式的语言里，正则表达式的语法都是一样的，区别只在于不
Java程序员开发软件(工具)清单 nshkfhwr Java MySQL Linux java tomcat maven kafka eclipse
亲！你准备好了吗？【001】项目管理：禅道/JIRA【002】办公协同：钉钉【003】工作邮件：Foxmail/OutLook【004】项目文档：MS-Office(Word/Excel/PowerPoint)/WPS【005】MD-笔记：Typro【006】个人PKM：Zim-Wiki/思源笔记【007】ToDO清单：Todo清单【008】文件搜索：Everything【009】桌面整理：Fen
【Numpy核心编程攻略：Python数据处理、分析详解与科学计算】2.1 NumPy高级索引：布尔型与花式索引的底层原理精通代码大仙 numpy python numpy python 开发语言
2.1NumPy高级索引：布尔型与花式索引的底层原理目录NumPy高级索引：布尔型与花式索引的底层原理布尔索引花式索引索引优化技巧NumPy索引体系基本索引高级索引布尔索引花式索引掩码机制元素筛选整数数组多维索引内存拷贝内存重组文章内容NumPy是Python中非常重要的数值计算库，提供了高效的数组操作功能。在NumPy中，高级索引（AdvancedIndexing）是处理数组时非常强大的工具。本
【Numpy核心编程攻略：Python数据处理、分析详解与科学计算】1.29 内存奥秘：跨语言内存管理实战精通代码大仙 numpy python numpy python 开发语言
1.29内存奥秘：跨语言内存管理实战目录内存奥秘：跨语言内存管理实战Cython内存视图高级用法与C++共享内存的案例使用tracemalloc调试内存泄漏SIMD指令的内存对齐自定义内存分配器内存映射的原子操作非对齐内存访问的性能影响优化非对齐内存访问的方法共享内存的安全性和效率内存管理的最佳实践1.29.1Cython内存视图高级用法1.29.2与C++共享内存的案例1.29.3使用trace
activeMQ笔记之一 kongxiangqi activemq jms session 消息中间件 api 企业应用
1.JMS介绍JMS源于企业应用对于消息中间件的需求，使应用程序可以通过消息进行异步处理而互不影响。Sun公司和它的合作伙伴设计的JMSAPI定义了一组公共的应用程序接口和相应语法，使得Java程序能够和其他消息组件进行通信。JMS有四个组成部分：JMS服务提供者、消息管理对象、消息的生产者消费者和消息本身。1)JMS服务提供者实现消息队列和通知，同时实现消息管理的API。JMS已经是J2EEAP
大数据“超能力”：数据安全和隐私该如何保障？大数据在线云静思园大数据数据安全数据隐私英特尔
一人人都喜欢超级英雄。不论是超人还是钢铁侠，又或者是小蜘蛛和绿巨人，几乎每一个超级英雄漫画及电影的粉丝，都曾为其不公遭遇打抱不平：“他们明明是在用超能力做好事，拯救人类的，为什么电影里的政府和平民会这么蠢，总对他们缺乏信任，满是提防。”这就是所谓的“叶公好龙”了，因为当你身边真出现了个能把卡车当皮球一样抛来抛去的人时，你的反应恐怕也好不到哪儿去，可能也巴不得有政府出面，逼他接受《超级英雄注册法案》
Python-基于PyQt5,pdf2docx,pathlib的PDF转Word工具闪云-微星 WPS pdf word pyqt python wps pycharm
前言：日常生活中，我们常常会跟WPSOffice打交道。作表格，写报告，写PPT......可以说，我们的生活已经离不开WPSOffice了。与此同时，我们在这个过程中也会遇到各种各样的技术阻碍，例如部分软件的PDF转Word需要收取额外费用等。那么，可不可以自己开发一个小工具来实现PDF转Word这个功能呢?答案是肯定的，Python生来就是为应用层开发的。话不多说，我们直接开始今天的Pytho
Python-基于mediapipe,pyautogui,cv2和numpy的电脑手势截屏工具（进阶版）闪云-微星计算机视觉 python 开发语言 opencv pycharm 计算机视觉 windows numpy
前言：在我们的日常生活中，手机已经成为我们每天工作，学习，生活的一个不可或缺的部分。众所周知：为了我们的使用方便，手机里面的很多功能非常人性化，既便捷又高效，其中就有手机的截屏方式，它们花样繁多，如三指截屏，手势截屏等。那么怎么在电脑里面也实现这个功能呢？（虽然我们知到电脑也有快捷的截屏方式-Ctrl+Shift+S。但是很明显，这依然不够快捷，因为这至少需要用户的两次手动操作）。那么废话不多说，
深度学习篇---数据存储类型 Ronin-Lotus 深度学习篇深度学习人工智能学习笔记 C Python 数据类型
文章目录前言第一部分：C语言中的数据存储类型1.char（通常是8位）优点缺点2.short（通常是16位）优点缺点3.int（通常是32位）优点缺点4.long（通常是32位或64位）优点缺点5.longlong（通常是64位）优点缺点6.float（通常是32位）优点缺点7.double（通常是64位）优点缺点第二部分：Python中的数据存储类型1.int（整数类型）优点缺点2.float（
Python酷库之旅-第三方库Pandas(036) 神奇夜光杯 python pandas 开发语言人工智能 excel 学习与成长基础知识
目录一、用法精讲111、pandas.Series.item方法111-1、语法111-2、参数111-3、功能111-4、返回值111-5、说明111-6、用法111-6-1、数据准备111-6-2、代码示例111-6-3、结果输出112、pandas.Series.xs方法112-1、语法112-2、参数112-3、功能112-4、返回值112-5、说明112-6、用法112-6-1、数据准备
Python中的正则表达式完全指南一键难忘 python 正则表达式 mysql
Python中的正则表达式完全指南正则表达式（RegularExpressions，简称regex）是一个非常强大的工具，广泛应用于文本处理、数据清洗、日志分析等领域。Python提供了re模块来处理正则表达式，它可以帮助我们在字符串中查找、替换、分割、匹配复杂模式等操作。本文将全面介绍Python中正则表达式的使用，包括基础语法、常用操作符、实用技巧，并配有代码实例，帮助大家深入理解。正则表达式
Mac系统安装 deepxde +VS code + pytorch 积分酱 pytorch python 人工智能机器学习
deepxde在Mac系统安装和学习笔记系列因为换了苹果电脑MacBookPro，所以软件都需要重新安装，记录一下安装过程。我的配置是python+VSCode。打开终端，直接按住command+空格键，输入终端就可以打开了。1.deepxde安装首先输入python3--version查看python版本，我的是Python3.9.13然后输入python3-mpip-V查看自己的pip版本，我
Python入门教程丨3.2 再见Excel！用Python这5个模块，我把3天工作压缩到3分钟凌小添 Python教程 python excel 开发语言
⭐还在用Excel手动算均值方差？还在为海量数据统计熬夜加班？用Python这5把「数据手术刀」写一次代码，就能直接复用，专业报告自动生成！本期内容：模块核心功能应用场景math数学计算几何、物理模拟random生成随机数据游戏、抽样测试statistics统计分析回归分析、市场调研numpy数组与矩阵运算图像处理、机器学习pandas表格数据处理与分析金融分析、数据清洗一、基础数学库1.1mat
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =