墨染百城

Hive基于SQL创建漏斗模型

总结

为了突出重点，总结就写在最前面了。从拿到需求开始，我们经历了以下步骤来完成工作：

需求分析
设计测试数据集及测试用例
数据清洗
需要实现
测试

其中数据清洗主要是做了两个工作：

去掉用户每一次访问中重复的页面记录，只保留每个页面的最后一次访问记录。
将用户访问记录进行合并，将所有访问过的页面和访问时间整合到1行当中。

实现的判断依据如下：

乱序漏斗：访问的页面数小于4，或者页面顺序不对。
顺序漏斗：访问的页面数等于4，且页面顺序严格对应。
顺序间隔漏斗：访问的页面数等于4，且页面顺序严格对应，且访问B页面的时间-访问A页面的时间超过2小时。

实现过程中主要使用了下面的函数：

rank
concat_ws
collect_set
split
unix_timestamp
子查询

需求

概述

一般来说，客户会按照A->B->C->D的顺序来访问页面，而且越到后面的页面访问率就越低，比如A是网站首页，B是列表页，C是详情页，D是支付页，根据常识，很容易知道A页面的访问率是最高的而D则是最低的。

现在有一个需求：使用SQL语句来完成以下的工作：

找出乱序访问的用户访问记录，即不按照A->B->C->D的顺序访问的
找出顺序访问的用户访问记录，即严格按照A->B->C->D的顺序访问的
找出顺序的并符合间隔条件的用户访问记录，即严格按照A->B->C->D的顺序访问的，并且访问A后超过2小时再访问B的。

分析

这个需求表述的不是很清楚，我们再来明确一下各种情况应该怎么处理。

首先要完成这种数据漏斗，必须能够将一个用户的每次访问严格的界定开来，即有办法区分每个用户的每次访问都请求了哪些网址，这项工作显然不应该是我们这次的任务，故假定数据集符合该要求。

其次，还有一些特殊的情况的处理需要进一步明确：

如果一个用户在访问下一个页面之前多次访问上一个页面应该如何处理间隔？如A->A->B->C->D
如果一个用户按照顺序访问完后又重新访问某个页面应该如何处理？是算顺序还是逆序？如A->B->C->D->C

对于第1个问题，按照最后一次访问的时间为准；对于第2个问题，则约定其为乱序访问。

数据集及测试用例

我们并没有现成的数据集可以使用。为了说明问题，需要我们自己创建一个数据集用于测试。

表结构设计

为了说明问题方便，在不影响结论的情况下，应该让表结构尽可能的简单。必须的字段包括：

session_id 用于界定每个用户的一次访问，在一次访问中的多个请求该字段相同
url 请求链接地址
req_time 访问页面的时间

测试数据

用等价类划分法来给一些测试数据。等价类大概划成下面这样：

基于这样的等价类划分，可以给出下面的测试数据集：

页面无缺失，顺序，超过间隔，无重复页面
session_id  req_url     req_time
s_01        a.html      2017-03-26 08:00:00
s_01        b.html      2017-03-26 10:01:00
s_01        c.html      2017-03-26 10:03:00
s_01        d.html      2017-03-26 10:04:00

页面无缺失，顺序，超过间隔，有重复页面
session_id  req_url     req_time
s_02        a.html      2017-03-26 08:00:00
s_02        a.html      2017-03-26 09:00:00
s_02        b.html      2017-03-26 11:01:00
s_02        c.html      2017-03-26 11:03:00
s_02        d.html      2017-03-26 11:04:00

页面无缺失，顺序，间隔不足，无重复页面
session_id  req_url     req_time
s_03        a.html      2017-03-26 08:00:00
s_03        b.html      2017-03-26 09:01:00
s_03        c.html      2017-03-26 09:03:00
s_03        d.html      2017-03-26 09:04:00

页面无缺失，顺序，间隔不足，有重复页面
session_id  req_url     req_time
s_04        a.html      2017-03-26 08:00:00
s_04        a.html      2017-03-26 09:00:00
s_04        b.html      2017-03-26 10:01:00
s_04        c.html      2017-03-26 10:03:00
s_04        d.html      2017-03-26 10:04:00

页面无缺失，顺序访问完后乱序，超过间隔，有重复页面
session_id  req_url     req_time
s_05        a.html      2017-03-26 08:00:00
s_05        b.html      2017-03-26 10:01:00
s_05        c.html      2017-03-26 10:03:00
s_05        d.html      2017-03-26 10:04:00
s_05        c.html      2017-03-26 11:04:00

页面无缺失，顺序访问完后乱序，间隔不足，有重复页面
session_id  req_url     req_time
s_06        a.html      2017-03-26 09:00:00
s_06        b.html      2017-03-26 10:01:00
s_06        c.html      2017-03-26 10:03:00
s_06        d.html      2017-03-26 10:04:00
s_06        c.html      2017-03-26 11:04:00

页面无缺失，其他乱序，超过间隔，有重复页面
session_id  req_url     req_time
s_07        a.html      2017-03-26 07:00:00
s_07        b.html      2017-03-26 10:01:00
s_07        c.html      2017-03-26 10:03:00
s_07        d.html      2017-03-26 10:04:00
s_07        c.html      2017-03-26 11:04:00

页面无缺失，其他乱序，超过间隔，无重复页面
session_id  req_url     req_time
s_08        a.html      2017-03-26 07:00:00
s_08        c.html      2017-03-26 10:01:00
s_08        b.html      2017-03-26 10:03:00
s_08        d.html      2017-03-26 10:04:00

页面无缺失，其他乱序，间隔不足，有重复页面
session_id  req_url     req_time
s_09        a.html      2017-03-26 09:00:00
s_09        b.html      2017-03-26 10:01:00
s_09        c.html      2017-03-26 10:03:00
s_09        d.html      2017-03-26 10:04:00
s_09        c.html      2017-03-26 11:04:00

页面无缺失，其他乱序，间隔不足，无重复页面
session_id  req_url     req_time
s_10        a.html      2017-03-26 09:00:00
s_10        c.html      2017-03-26 10:01:00
s_10        b.html      2017-03-26 10:03:00
s_10        d.html      2017-03-26 10:04:00

页面缺失，其他乱序，超过间隔，有重复页面
session_id  req_url     req_time
s_11        a.html      2017-03-26 07:00:00
s_11        b.html      2017-03-26 10:03:00
s_11        d.html      2017-03-26 10:04:00
s_11        d.html      2017-03-26 11:04:00

页面缺失，其他乱序，超过间隔，无重复页面
session_id  req_url     req_time
s_12        a.html      2017-03-26 07:00:00
s_12        b.html      2017-03-26 10:03:00
s_12        d.html      2017-03-26 10:04:00

页面缺失，其他乱序，间隔不足，有重复页面
session_id  req_url     req_time
s_13        a.html      2017-03-26 07:00:00
s_13        d.html      2017-03-26 10:04:00
s_13        d.html      2017-03-26 11:04:00

页面缺失，其他乱序，间隔不足，无重复页面
session_id  req_url     req_time
s_14        a.html      2017-03-26 07:00:00
s_14        d.html      2017-03-26 10:04:00

测试用例

有了数据集，我们就可以给出下面的测试用例：

数据漏斗	期望输出	实际输出
乱序漏斗	s_05 s_06 s_07 s_08 s_09 s_10 s_11 s_12 s_13 s_14
顺序漏斗	s_01 s_02 s_03 s_04
顺序间隔漏斗	s_01 s_02

准备工作

完成了需求分析以及测试数据和测试用例的准备以后，我们就可以开始实现这几个数据漏斗了。

使用下面的命令在Hive中创建一个表，用于存放用户访问数据。

use test_db;

create table t_visitlog(session_id string,req_url string,req_time timestamp)
row format delimited
fields terminated by ',';

然后创建一个数据文件，visitlog.data，输入下面的内容：

s_01,a.html,2017-03-26 08:00:00
s_01,b.html,2017-03-26 10:01:00
s_01,c.html,2017-03-26 10:03:00
s_01,d.html,2017-03-26 10:04:00
s_02,a.html,2017-03-26 08:00:00
s_02,a.html,2017-03-26 09:00:00
s_02,b.html,2017-03-26 11:01:00
s_02,c.html,2017-03-26 11:03:00
s_02,d.html,2017-03-26 11:04:00
s_03,a.html,2017-03-26 08:00:00
s_03,b.html,2017-03-26 09:01:00
s_03,c.html,2017-03-26 09:03:00
s_03,d.html,2017-03-26 09:04:00
s_04,a.html,2017-03-26 08:00:00
s_04,a.html,2017-03-26 09:00:00
s_04,b.html,2017-03-26 10:01:00
s_04,c.html,2017-03-26 10:03:00
s_04,d.html,2017-03-26 10:04:00
s_05,a.html,2017-03-26 08:00:00
s_05,b.html,2017-03-26 10:01:00
s_05,c.html,2017-03-26 10:03:00
s_05,d.html,2017-03-26 10:04:00
s_05,c.html,2017-03-26 11:04:00
s_06,a.html,2017-03-26 09:00:00
s_06,b.html,2017-03-26 10:01:00
s_06,c.html,2017-03-26 10:03:00
s_06,d.html,2017-03-26 10:04:00
s_06,c.html,2017-03-26 11:04:00
s_07,a.html,2017-03-26 07:00:00
s_07,b.html,2017-03-26 10:01:00
s_07,c.html,2017-03-26 10:03:00
s_07,d.html,2017-03-26 10:04:00
s_07,c.html,2017-03-26 11:04:00
s_08,a.html,2017-03-26 07:00:00
s_08,c.html,2017-03-26 10:01:00
s_08,b.html,2017-03-26 10:03:00
s_08,d.html,2017-03-26 10:04:00
s_09,a.html,2017-03-26 09:00:00
s_09,b.html,2017-03-26 10:01:00
s_09,c.html,2017-03-26 10:03:00
s_09,d.html,2017-03-26 10:04:00
s_09,c.html,2017-03-26 11:04:00
s_10,a.html,2017-03-26 09:00:00
s_10,c.html,2017-03-26 10:01:00
s_10,b.html,2017-03-26 10:03:00
s_10,d.html,2017-03-26 10:04:00
s_11,a.html,2017-03-26 07:00:00
s_11,b.html,2017-03-26 10:03:00
s_11,d.html,2017-03-26 10:04:00
s_11,d.html,2017-03-26 11:04:00
s_12,a.html,2017-03-26 07:00:00
s_12,b.html,2017-03-26 10:03:00
s_12,d.html,2017-03-26 10:04:00
s_13,a.html,2017-03-26 07:00:00
s_13,d.html,2017-03-26 10:04:00
s_13,d.html,2017-03-26 11:04:00
s_14,a.html,2017-03-26 07:00:00
s_14,d.html,2017-03-26 10:04:00

然后使用下面的命令将其上传到hdfs中。

hadoop fs -put visitlog.data /user/hive/warehouse/test_db.db/t_visitlog/

然后使用下面的SQL语句检查是否上传成功：

select * from t_visitlog;

我这边是上传成功的。到这里我们就完成了准备工作。

数据清洗

接下来，我们要将数据进行一些处理，使得后面的工作更容易开展，主要工作包括：

去掉每一次访问中重复的页面记录，只保留每个页面的最后一次访问记录。
将用户访问记录进行合并，每个session_id对应一行记录。

去掉重复的页面记录

使用下面的SQL语句即可实现去掉每一次访问中重复的页面记录，同时只保留每个页面最后一次访问记录。

select session_id,req_url,req_time from(
    select session_id,req_url,req_time,rank() over(partition by session_id,req_url order by req_time desc) as rank 
    from(
        select session_id,req_url,req_time
        from t_visitlog
        distribute by session_id,req_url
        sort by session_id,req_time desc
    )a
)b
where rank = 1;

为了粘贴方便，这里就不缩进了。

为了方便后续的操作，我们使用下面的SQL语句将查询结果放到一个新的表t_vlog_norepeat中。

使用下面的命令来查看一下新创建的表的结构：

desc t_vlog_norepeat;

输出结果如下：

session_id              string                                      
req_url                 string                                      
req_time                timestamp

是符合我们要求的。

合并访问记录

使用下面的命令将访问记录保存到t_vlog_merge表中去。

create table t_vlog_merge as
select session_id,concat_ws(',',collect_set(vr)) as vtext 
from(
    select distinct session_id,concat_ws('_',cast(req_time as string),req_url) as vr 
    from (
    select session_id,req_url,req_time from t_vlog_norepeat sort by session_id,req_time asc
    )a
) temp
group by session_id;

结果如下：

s_01    2017-03-26 08:00:00_a.html,2017-03-26 10:01:00_b.html,2017-03-26 10:03:00_c.html,2017-03-26 10:04:00_d.html
s_02    2017-03-26 09:00:00_a.html,2017-03-26 11:01:00_b.html,2017-03-26 11:03:00_c.html,2017-03-26 11:04:00_d.html
s_03    2017-03-26 08:00:00_a.html,2017-03-26 09:01:00_b.html,2017-03-26 09:03:00_c.html,2017-03-26 09:04:00_d.html
s_04    2017-03-26 09:00:00_a.html,2017-03-26 10:01:00_b.html,2017-03-26 10:03:00_c.html,2017-03-26 10:04:00_d.html
s_05    2017-03-26 08:00:00_a.html,2017-03-26 10:01:00_b.html,2017-03-26 10:04:00_d.html,2017-03-26 11:04:00_c.html
s_06    2017-03-26 09:00:00_a.html,2017-03-26 10:01:00_b.html,2017-03-26 10:04:00_d.html,2017-03-26 11:04:00_c.html
s_07    2017-03-26 07:00:00_a.html,2017-03-26 10:01:00_b.html,2017-03-26 10:04:00_d.html,2017-03-26 11:04:00_c.html
s_08    2017-03-26 07:00:00_a.html,2017-03-26 10:01:00_c.html,2017-03-26 10:03:00_b.html,2017-03-26 10:04:00_d.html
s_09    2017-03-26 09:00:00_a.html,2017-03-26 10:01:00_b.html,2017-03-26 10:04:00_d.html,2017-03-26 11:04:00_c.html
s_10    2017-03-26 09:00:00_a.html,2017-03-26 10:01:00_c.html,2017-03-26 10:03:00_b.html,2017-03-26 10:04:00_d.html
s_11    2017-03-26 07:00:00_a.html,2017-03-26 10:03:00_b.html,2017-03-26 11:04:00_d.html
s_12    2017-03-26 07:00:00_a.html,2017-03-26 10:03:00_b.html,2017-03-26 10:04:00_d.html
s_13    2017-03-26 07:00:00_a.html,2017-03-26 11:04:00_d.html
s_14    2017-03-26 07:00:00_a.html,2017-03-26 10:04:00_d.html

实现

实现乱序漏斗

我们来分析一下乱序漏斗的几个特征，第1个是按照”,”分割后长度不为4，第2个就是按照”,”分割后页面顺序不对。

使用下面的代码即可实现乱序漏斗：

select session_id 
from(
    select session_id,vtext,split(vtext,',') as arr from t_vlog_merge
) temp
where size(arr) != 4 or split(arr[0],'_')[1] != 'a.html'
or split(arr[1],'_')[1] != 'b.html' or split(arr[2],'_')[1] != 'c.html'
or split(arr[3],'_')[1] != 'd.html';

输出结果为：

s_05
s_06
s_07
s_08
s_09
s_10
s_11
s_12
s_13
s_14

实现顺序漏斗

使用下面的代码即可实现顺序漏斗：

select session_id 
from(
    select session_id,vtext,split(vtext,',') as arr from t_vlog_merge
) temp
where size(arr) == 4 and split(arr[0],'_')[1] == 'a.html'
and split(arr[1],'_')[1] == 'b.html' and split(arr[2],'_')[1] == 'c.html'
and split(arr[3],'_')[1] == 'd.html';

输出结果：

s_01
s_02
s_03
s_04

实现顺序间隔漏斗

使用下面的代码可以实现顺序间隔漏斗（访问A页面2小时以后访问B）：

select session_id 
from(
    select session_id,vtext,split(vtext,',') as arr from t_vlog_merge
) temp
where size(arr) == 4 and split(arr[0],'_')[1] == 'a.html'
and split(arr[1],'_')[1] == 'b.html' and split(arr[2],'_')[1] == 'c.html'
and split(arr[3],'_')[1] == 'd.html' 
and unix_timestamp(split(arr[1],'_')[0]) - unix_timestamp(split(arr[0],'_')[0]) > 7200;

输出结果：

s_01
s_02

测试

上面已经测试过了，测试结果如下：

数据漏斗	期望输出	实际输出
乱序漏斗	s_05 s_06 s_07 s_08 s_09 s_10 s_11 s_12 s_13 s_14	s_05 s_06 s_07 s_08 s_09 s_10 s_11 s_12 s_13 s_14
顺序漏斗	s_01 s_02 s_03 s_04	s_01 s_02 s_03 s_04
顺序间隔漏斗	s_01 s_02	s_01 s_02

参考资料

http://blog.csdn.net/suiyingli39/article/details/53319704

http://blog.csdn.net/hua245942641/article/details/50298989

http://blog.csdn.net/liyantianmin/article/details/48262109

http://blog.csdn.net/mtj66/article/details/52629876

https://yq.aliyun.com/articles/25890

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Presto【基础 01】简介+架构+数据源+数据模型 2401_84254343 程序员架构
一个Catalog包含Schema和Connector。例如，配置JMX的Catalog，通过JXMConnector访问JXM信息。当执行一条SQL语句时，可以同时运行在多个Catalog。Presto处理table时，是通过表的完全限定（fully-qualified）名来找到Catalog。例如，一个表的权限定名是hive.test_data.test，则test是表名，test_data是
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
hive血缘关系之输入表与目标表的解析 zxfBdd hive 大数据治理大数据
接了一个新需求：需要做数据仓库的血缘关系。正所谓兵来将挡水来土掩，那咱就动手吧。血缘关系是数据治理的一块，其实有专门的第三方数据治理框架，但考虑到目前的线上环境已经趋于稳定，引入新的框架无疑是劳民伤财，伤筋动骨，所以就想以最小的代价把这个事情给做了。目前我们考虑做的血缘关系呢只是做输入表和输出表，最后会形成一张表与表之间的链路图。这个东西的好处就是有助于仓库人员梳理业务，后面可能还会做字段之间的血
初级练习[3]:Hive SQL子查询应用大数据深度洞察 Hive hive sql hadoop 数据仓库大数据数据库
目录环境准备看如下链接子查询查询所有课程成绩均小于60分的学生的学号、姓名查询没有学全所有课的学生的学号、姓名解释：没有学全所有课，也就是该学生选修的课程数<总的课程数。查询出只选修了三门课程的全部学生的学号和姓名环境准备看如下链接环境准备https://blog.csdn.net/qq_45115959/article/details/142057624?spm=1001.2014.3001.5
Linux下载压缩包：tar.gz、zip、tar.bz2格式全攻略 promise524 Linux linux 运维服务器后端 bash shell
在Linux中，下载各种格式的压缩包（如.tar.gz、.zip、.tar.bz2等）通常使用命令行工具如wget和curl。1.使用wget下载压缩包wget是Linux中最常用的文件下载工具，支持HTTP、HTTPS、FTP等协议，可以直接从命令行下载文件。基本命令：wget[URL]下载.tar.gz文件wgethttps://test.com/archive.tar.gz此命令将从指定的U
Anaconda版本和Python版本对应关系纬领网络 python anaconda3
官网下载地址：https://repo.anaconda.com/archive/下载地址：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/anaconda3版本基础python版本Anaconda3-2024.06-1Python3.12.4Anaconda3-2024.02-1Python3.11.7Anaconda3-2023.09
R语言包AMORE安装报错问题以及RStudio与Rtools环境配置卡卡_R-Python R语言数据分析与可视化 r语言开发语言
在使用R语言进行AMORE安装时会遇到报错，这时候需要采用解决办法：'''AMORE包安装，需要离线官网下载安装包：Indexof/src/contrib/Archive/AMORE(r-project.org)https://cran.r-project.org/src/contrib/Archive/AMORE/一、出现的问题最近开始学习R语言，安装了最新版的R4.4.1和RStudio，但安
中级练习[3]：Hive SQL用户行为与商品销售数据分析大数据深度洞察 Hive hive 数据仓库大数据 sql
目录1.用户累计消费金额及VIP等级查询1.1题目需求1.2代码实现2.首次下单后第二天连续下单的用户比率查询2.1题目需求2.2代码实现3.每个商品销售首年的年份、销售数量和销售金额统计3.1题目需求3.2代码实现1.用户累计消费金额及VIP等级查询1.1题目需求从订单信息表(order_info)中统计每个用户截止其每个下单日期的累积消费金额，以及每个用户在其每个下单日期的VIP等级。VIP等
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
博客园怎么了？ YYH1992
新年好，给大家拜个早年！今年来到安徽过年，无聊中，不知不觉中又来到博客园了（忠实粉丝哦），却发现一件奇怪的事情，请看截图难道博客园被挂马了？抑或其它问题？如果真有问题，还请dudu抓紧时间修正，免得影响我们园子的声誉！我要下线了，出去买回家的车票了，只能年后回家了。。。转载于:https://www.cnblogs.com/HollisYao/archive/2008/02/06/1065351.
linux下文件的复制、移动与删除搬砖中年人
一、文件复制命令cp命令格式：cp[-adfilprsu]源文件(source)目标文件(destination)cp[option]source1source2source3...directory参数说明：-a:是指archive的意思，也说是指复制所有的目录-d:若源文件为连接文件(linkfile)，则复制连接文件属性而非文件本身-f:强制(force)，若有重复或其它疑问时，不会询问用户
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
兼容 Trino Connector，扩展 Apache Doris 数据源接入能力｜Lakehouse 使用手册 vvvae1234 apache
ApacheDoris内置支持包括Hive、Iceberg、Hudi、Paimon、LakeSoul、JDBC在内的多种Catalog，并为其提供原生高性能且稳定的访问能力，以满足与数据湖的集成需求。而随着ApacheDoris用户的增加，新的数据源连接需求也随之增加。因此，从3.0版本开始，ApacheDoris引入了TrinoConnector兼容框架。Trino/Presto作为业界较早应用
SAP HANA makaitai BW sap 数据库工具报表 layer 服务器
原文地址：http://LiuAlex.com/archives/1776也是刚刚开始学习HANA的一些知识，一边看书一遍做笔记，说到底无非是用自己的语言来理解标准帮组文档所讲解的意思，肯定有理解失误的地方，毕竟没有参加过标准培训，即使有培训，从老师那边来的知识也不可能是完整的传授过来，中间多少的知识遗漏是正常的，所以多看看HELP的文档，应该可以原汁原味的理解作者的意思。这张图片是从SAPHAN
Hive SQL查询汇总分析大数据深度洞察 Hive hive sql hadoop 数据仓库数据库大数据
目录SQL查询汇总分析成绩查询查询编号为“02”的课程的总成绩查询参加考试的学生个数分组查询查询各科成绩最高和最低的分查询每门课程有多少学生参加了考试（有考试成绩）查询男生、女生人数分组结果的条件查询平均成绩大于60分的学生的学号和平均成绩查询至少选修四门课程的学生学号查询同姓（假设每个学生姓名的第一个字为姓）的学生名单并统计同姓人数大于2的姓查询每门课程的平均成绩，结果按平均成绩升序排序，平均成
RMAN-08137 rman delete archivelog force jnrjian 数据库 oracle
deleteforcearchiveloguntiltime'trunc(sysdate-4)'backedup1timestodevicetypedisk;SymptomsDatabaseAClonedtoDatabaseBonCloneserver.GoldenGateisConfiguredonSourcedatbaseA.DatabaseBwhichisclonedfromSourcedo
hive表格统计信息不准确 weixin_41956627 hive hive hadoop 数据仓库
问题描述有个hive分区表，orc存储格式，有个分区，查询selectcount(1)fromtablewheredt='yyyyMMdd'结果是0，但查询select*fromtablewheredt='yyyyMMdd'又能查到数据，去hdfs对应目录下查看，也能看到有数据文件解决执行如下sqlANALYZETABLEdb.table1PARTITION(dt='20240908')COMPU
Conda创建环境失败：000和404错误柚柚柚柚柚 conda
一、首先下载Anaconda1.打开网址Indexof/anaconda/archive/|清华大学开源软件镜像站|TsinghuaOpenSourceMirror，滑到最底部，下载Anaconda3-5.3.1-Linux-x86_64.sh。2.使用winscp拖动本地的Anaconda3-5.3.1-Linux-x86_64.sh到服务器的个人工作目录下。二、安装Anaconda软件，创建虚
C#中两个问号的含义 weixin_30363981 测试
stringstrParam=Request.Params["param"]??"";取??左边的值,如果??左边的值为null则取右边的值转载于:https://www.cnblogs.com/shadowtale/archive/2012/10/19/2731152.html
如何下载各个版本的tomcat-比如tomcat9 耳边轻语999 tomcat java
1，找到tomcat官网https://tomcat.apache.org/ApacheTomcat®-Welcome!找到tomcat9，或者archives1.1，找到对应版本1.2，找到小版本1.3，找到bin2，Indexof/dist/tomcat/tomcat-9/v9.0.39/bin2.1，下载对应的解压版本或者安装版本
Percona-toolkit工具详解小一_d28d
1.pt工具安装[root@master~]#yuminstall-ypercona-toolkit-3.1.0-2.el7.x86_64.rpm2.常用工具使用介绍2.1pt-archiver归档表#重要参数--limit100每次取100行数据用pt-archive处理--txn-size100设置100行为一个事务提交一次，--where'id>/root/db/checksum.logpt
Ubuntu更换apt-get的下载源愤愤的有痣青年
将以下内容替换/etc/apt/sources.list中的内容deb-srchttp://archive.ubuntu.com/ubuntuxenialmainrestricted#Addedbysoftware-propertiesdebhttp://mirrors.aliyun.com/ubuntu/xenialmainrestricteddeb-srchttp://mirrors.aliy
apt 下载指定架构的包及离线安装的方法错误重复学习记录 linux
#设置系统架构sudodpkg--add-architectureamd64#安装apt-rdependssudoaptinstallapt-rdepends#创建单独的目录mkdir-p/home/apt/postgresql-client-common#仅下载安装包sudoapt-getinstall--download-onlysudomv/var/cache/apt/archives/*/
游戏运营环节的一些关键转化率 turtle081025 数据分析游戏网络游戏运营
转载于http://www.gamedatas.com/archives/134转化率这个指标在各行各业的数据分析中运用的非常之广泛，例如：电商中就会存在，点击到订单生成的一系列转化率，传统的销售行业也会在做广告的时候考虑该广告能够转化多少订单，而在游戏行业，转化率同样是一个不容忽视的指标。一般来说，游戏运营的过程中主要会关注到这些转化率：1.下载-安装（激活）转化率；2.安装（激活）-注册转化率
Python API操作RocketMQ 京城小筑 #Python编程 python
背景：开发背景:公司相关报表需求需要将订单业务数据同步至RocketMQ中，由于需要保证开发的一致性(多个部门协同开发)，所以采用读取Hive离线数据的方式通过PythonAPI写入RocketMQ中，便于其他开发同事调用~开发环境:本地调试系统MacPython3.7.5rocketmq0.4.4(Python模块)rocketmq-client-python2.0.0(Python模块)服务器
hive搭建 -----内嵌模式和本地模式 lzhlizihang hive hadoop
文章目录一、内嵌模式（使用较少）1、上传、解压、重命名2、配置环境变量3、配置conf下的hive-env.sh4、修改conf下的hive-site.xml5、启动hadoop集群6、给hdfs创建文件夹7、修改hive-site.xml中的非法字符8、初始化元数据9、测试是否成功10、内嵌模式的缺点二、本地模式（最常用）1、检查mysql是否正常2、上传、解压、重命名3、配置环境变量4、修改c
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round