W_chuanqi

用户行为数据分析

文章目录

用户行为数据分析
- 1 项目描述
- 2 项目需求
- 3 数据准备
- - 1、创建user_data数据表用于导入user_data.csv中的数据
  - 2、加载user_data.csv中的数据到user_data表
  - 3、接下来进行数据清洗，包括：删除重复值，时间戳格式化，删除异常值。
- 4 统计分析
- - 1、查询总访问量PV，总用户量UV
  - 2、查询日均访问量，日均用户量
  - 3、查询每个用户的购物情况
  - 4、根据user_behavior_count的结果查询复购率
  - 5、统计转化率
  - 6、统计一天内活跃时段点击数、收藏数、加购物车数、购买数的分布
  - 7、统计周用户点击数、收藏数、加购物车数、购买数的活跃分布
  - 8、统计用户最近一次的购买时间，降序排序只显示前10条记录
  - 9、统计消费频率最高的前10名用户

用户行为数据分析

1 项目描述

user_data.csv是一份用户行为数据，时间区间为2017-11-25到2017-12-03，总计29132493条记录，大小为1.0G，包含5个字段。数据集的每一行表示一条用户行为，由用户ID、商品ID、商品类目ID、行为类型和时间戳组成，并以逗号分隔。关于数据集中每一列的详细描述如下：

列名称	字段名	数据类型	说明
用户ID	user_id	string	用户ID
商品ID	item_id	string	商品ID
商品类目ID	category_id	string	商品类目ID
行为类型	behavior_type	string	行为类型，包括(pv, buy, cart, fav)
时间戳	create_time	int	行为时间戳

用户行为类型共有四种，它们分别是

行为类型	说明
pv	商品详情页pv，等价于点击
buy	商品购买
cart	将商品加入购物车
fav	收藏商品

2 项目需求

1、查询总访问量PV，总用户量UV

2、查询日均访问量，日均用户量

3、查询每个用户的购物情况（统计点击、商品购买、加入购物车、收藏的次数），统计结果放入表user_behavior_count

4、根据user_behavior_count的结果查询复购率：产生两次或两次以上购买的用户占购买用户的比例

5、统计用户各环节行为转化率，分别统计从“点击”到“(加购物车+收藏)”的转化率，和从“(加购物车+收藏)”到“购买”的转化率

6、统计一天内活跃时段点击数、收藏数、加购物车数、购买数的分布

7、统计周用户击数、收藏数、加购物车数、购买数的活跃分布

8、统计用户最近一次的购买时间，降序排序只显示前10个记录

9、统计消费频率最高的前10名用户

3 数据准备

将数据加载到hive，然后通过hive对数据进行处理

1、创建user_data数据表用于导入user_data.csv中的数据

-- 创建表
create table if not exists user_data
(
    user_id       string COMMENT '用户ID',
    item_id       string COMMENT '商品ID',
    category_id   string COMMENT '商品类目ID',
    behavior_type string COMMENT '行为类型',
    create_time   int COMMENT '行为时间戳'
) row format delimited fields terminated by ','
    stored as textfile;

2、加载user_data.csv中的数据到user_data表

上传user_data.csv到虚拟机：

加载数据到user_data表：

load data local inpath '/root/data/user_data.csv' into table user_data;

测试数据是否导入：

select * from user_data limit 10;

结果为：

3、接下来进行数据清洗，包括：删除重复值，时间戳格式化，删除异常值。

（1）user_data表中的create_time是int类型，是时间戳字段。在实际使用时时间戳字段使用不方便，为了使用方便需要把时间戳字段改为日期时间字符串。创建user_data_new表，把其中的create_time字段数据类型从int改为string类型，用于存储日期时间字符串。

-- 创建表
create table if not exists user_data_new
(
    user_id       string COMMENT '用户ID',
    item_id       string COMMENT '商品ID',
    category_id   string COMMENT '商品类目ID',
    behavior_type string COMMENT '行为类型',
    create_time   string COMMENT '行为时间戳'
) row format delimited fields terminated by ','
    stored as textfile;

结果为：

（2）对user_data进行数据清洗，去掉完全重复的数据。分组操作可以达到去重的目的，对谁去重就对谁分组。

查看去重前数据量：

select count(1) from user_data;

结果为：

数据去重：

insert overwrite table user_data
select user_id, item_id, category_id, behavior_type, create_time
from user_data
group by user_id, item_id, category_id, behavior_type, create_time;

查看去重后数据量：

select count(1) from user_data;

结果为：

（3）对user_data进行数据清洗，int类型的时间戳格式化成日期时间字符串，新数据存于user_data_new表中。使用函数from_unixtime进行日期时间格式化。

insert overwrite table user_data_new
select user_id, item_id, category_id, behavior_type, from_unixtime(create_time, 'yyyy-MM-dd HH:mm:ss')
from user_data;

查看数据是否格式化成功：

select * from user_data_new limit 10;

（4）查看user_data_new表中create_time字段是否有异常值，为NULL的或不在统计时间范围内的

方法一：直接查找

select *
from user_data_new
where date(create_time) not between '2017-11-25' and '2017-12-03'
   or create_time is null;

发现有异常值：

我们发现异常数据也是比较大的，不太容易观察。

方法二：根据group分组聚合

select date(create_time) as day
from user_data_new
group by date(create_time)
having day not between '2017-11-25' and '2017-12-03'
    or day is null
order by day;

结果为：

发现异常值还是比较多的。

（5）对user_data_new表进行数据清洗，去掉时间异常的数据。把create_time处于’2017-11-25’ 和 '2017-12-03’之间的数据认为是正常数据。

cast(create_time as date)可以把日期时间字符串转为日期

insert overwrite table user_data_new
select user_id, item_id, category_id, behavior_type, create_time
from user_data_new
where cast(create_time as date) between '2017-11-25' and '2017-12-03';

检查一下是否还有异常数据：

create_time 没有异常数据了。

（6）查看 user_data_new表中behavior_type 是否有异常值，可用分组运算查看behavior_type的值

select behavior_type from user_data_new group by behavior_type;

behavior_type 发现没有异常值。

4 统计分析

1、查询总访问量PV，总用户量UV

select sum(if(behavior_type = 'pv', 1, 0)) as pv,
       count(distinct user_id)             as uv
from user_data_new;

结果为：

2、查询日均访问量，日均用户量

日期比较函数： datediff

语法： datediff(string enddate, string startdate)

返回值： int

说明：返回结束日期减去开始日期的天数。

-- datediff(string enddate, string startdate)得到的天数需要加1
select sum(if(behavior_type = 'pv', 1, 0)) / (datediff('2017-12-03', '2017-11-25') + 1) as avg_pv,
       count(distinct user_id) / (datediff('2017-12-03', '2017-11-25') + 1)             as avg_uv
from user_data_new;

结果为：

每日访问量，每日用户量（建议使用这个）：

select date(create_time)                   as day,
       sum(if(behavior_type = 'pv', 1, 0)) as pv,
       count(distinct user_id)             as uv
from user_data_new
group by date(create_time)
order by day;

结果为;

3、查询每个用户的购物情况

查询每个用户的购物情况（统计点击、商品购买、加入购物车、收藏的次数），统计结果放入表user_behavior_count。

create table user_behavior_count as
select user_id,
       sum(if(behavior_type = 'pv', 1, 0))   pv,
       sum(if(behavior_type = 'buy', 1, 0))  buy,
       sum(if(behavior_type = 'cart', 1, 0)) cart,
       sum(if(behavior_type = 'fav', 1, 0))  fav
from user_data_new
group by user_id;

查看数据是否导入表中：

select * from user_behavior_count limit 10;

结果为：

4、根据user_behavior_count的结果查询复购率

复购率：产生两次或两次以上购买的用户占购买用户的比例

select sum(if(buy > 1, 1, 0)) / sum(if(buy > 0, 1, 0)) rate
from user_behavior_count;

结果为：

5、统计转化率

统计用户各环节行为转化率，分别统计从“点击”到“(加购物车+收藏)”的转化率，和从“(加购物车+收藏)”到“购买”的转化率。

select round(sum(cart + fav) / sum(pv), 4), round(sum(buy) / sum(cart + fav), 4)
from user_behavior_count;

结果为：

从“点击”到“(加购物车+收藏)”的转化率为0.0946，比较低，可能由于多种因素导致，以下是一些常见的原因：

网站设计不够吸引人：用户在点击进入网站后，如果网站布局、颜色、文字排版等没有吸引力，用户可能会失去兴趣，不再进行后续的操作；
目标用户不明确：如果网站的推广广告或者流量来源渠道不够明确，会吸引一些不符合目标用户要求的人群，他们不会对网站感兴趣，因此不会进行加购物车或收藏操作；
商品的价格过高或者质量不好：如果网站商品的价格过高或者质量不好，用户可能会选择不进行购买、加购物车或者收藏的操作；
用户体验不佳：如果进行加购物车或者收藏的流程复杂、页面加载时间较长等，会影响用户体验，导致用户放弃操作；
流量质量差：如果网站的流量质量较差，也会导致用户没有进行加购物车或收藏的行为。

从“(加购物车+收藏)”到“购买”的转化率为0.2377，相对较高，可能是因为进行加购物车和收藏的都是对商品感兴趣的，他们购买商品的意愿更强烈。

6、统计一天内活跃时段点击数、收藏数、加购物车数、购买数的分布

思路：我是按照天、小时进行分组然后聚合的。

select date(create_time)                     day,
       hour(create_time)                     hour,
       sum(if(behavior_type = 'pv', 1, 0))   pv,
       sum(if(behavior_type = 'buy', 1, 0))  buy,
       sum(if(behavior_type = 'cart', 1, 0)) cart,
       sum(if(behavior_type = 'fav', 1, 0))  fav
from user_data_new
group by date(create_time), hour(create_time) -- 不能使用别名
order by day, hour
limit 10;

结果为：

也可以使用字符串函数截取，然后分组聚合。

有人是按照时间进行划分的：

select hour(create_time)                     hour,
       sum(if(behavior_type = 'pv', 1, 0))   pv,
       sum(if(behavior_type = 'buy', 1, 0))  buy,
       sum(if(behavior_type = 'cart', 1, 0)) cart,
       sum(if(behavior_type = 'fav', 1, 0))  fav
from user_data_new
group by hour(create_time)
order by hour;

结果为：

7、统计周用户点击数、收藏数、加购物车数、购买数的活跃分布

如何计算周几？

方法一：这样得到的周日为第0天。

pmod(int a, int b)，pmod(double a, double b)：返回a除b的余数的绝对值。

datediff(endDate, startDate)：返回startDate到endDate相差的天数

计算create_time所代表的日期是星期几，pmod(datediff(create_time, ‘1920-01-01’) - 3, 7)

方法二：这样得到的周日为第7天。
select dayofweek('2017-11-25');

以第一种方法为例：

select month(create_time)                               month,
       pmod(datediff(create_time, '1920-01-01') - 3, 7) weekday,
       sum(if(behavior_type = 'pv', 1, 0))              pv,
       sum(if(behavior_type = 'fav', 1, 0))             fav,
       sum(if(behavior_type = 'cart', 1, 0))            cart,
       sum(if(behavior_type = 'buy', 1, 0))             buy
from user_data_new
group by month(create_time), pmod(datediff(create_time, '1920-01-01') - 3, 7)
order by month, weekday;

结果为：

8、统计用户最近一次的购买时间，降序排序只显示前10条记录

select user_id, max(create_time) latest_date
from user_data_new
where behavior_type = 'buy' --指定行为为buy
group by user_id
order by latest_date desc
limit 10;

结果为：

9、统计消费频率最高的前10名用户

select user_id, buy
from user_behavior_count
order by buy desc
limit 10;

结果为：

参考文章：

https://blog.csdn.net/weixin_46436010/article/details/129732809?spm=1001.2014.3001.5502

基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
C++11中的std::function
文章转载自：http://www.jellythink.com/archives/771看看这段代码先来看看下面这两行代码：std::functiononKeyPressed;std::functiononKeyReleased;这两行代码是从Cocos2d-x中摘出来的，重点是这两行代码的定义啊。std::function这是什么东西？如果你对上述两行代码表示毫无压力，那就不妨再看看本文，就当温
数据分析常用指标名词解释及计算公式走过冬季学习笔记数据分析大数据
数据分析中有大量常用指标，它们帮助我们量化业务表现、用户行为、产品健康度等。下面是一些核心指标的名词解释及计算方式，按常见类别分类：一、流量与用户规模指标页面浏览量名词解释：用户访问网站或应用时，每次加载或刷新一个页面就算一次PV。它衡量的是页面被打开的总次数。计算方式：PV=∑(所有页面被加载的次数)(通常由埋点或日志直接统计)独立访客数名词解释：在特定时间范围内（如一天、一周、一月），访问网站
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AWS 管理秘籍（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/cf1c4e1db999839ba88fc56df4011156译者：飞龙协议：CCBY-NC-SA4.0序言AWS平台的增长速度非常快，正在被各行各业广泛采用。正如俗话所说，朋友不会让朋友建立数据中心。不管从哪个角度看，按需计算、网络和存储的模式将持续存在。尤其是当你看到AWS平台在功能和增强方面的更新速度时，很难再去反对站在巨人的肩膀上，尤其是
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
AWS Terraform 架构指南（二）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/8b2d222956a050c7632b9eee086dadcf译者：飞龙协议：CCBY-NC-SA4.0第七章：7在项目中实现Terraform您准备好开始使用Terraform开发您的AWS基础设施了吗？在本章中，您将学习Terraform的基础知识，并了解如何在AWS中部署您的第一个模板。我们将介绍选择合适的AWS提供商和选择满足您项目需求的
python-pandas数据分析+案例分析
文章目录前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比2.车辆销售规模及环比、不同价位车销量及环比3.各车系、厂商、品牌车销量及环比，市占率及变化趋势4.品牌、车类、车型、级别的各top销量二、地质灾害航空公司客户价值分析1.原始数据存在少量的缺失值和异常值前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比importnump
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
数据分析案例-电脑笔记本价格数据可视化分析3 艾派森数据分析信息可视化 python 数据分析数据挖掘电脑
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍3.技术工具
用Python做数据分析之数据统计学掌门 Python 数据分析大数据 python 数据分析人工智能
接下来说说数据统计部分，这里主要介绍数据采样，标准差，协方差和相关系数的使用方法。1、数据采样Excel的数据分析功能中提供了数据抽样的功能，如下图所示。Python通过sample函数完成数据采样。2、数据抽样Sample是进行数据采样的函数，设置n的数量就可以了。函数自动返回参与的结果。1#简单的数据采样2df_inner.sample(n=3)3、简单随机采样Weights参数是采样的权重，
pandas销售数据分析
pandas销售数据分析数据保存在data目录消费者数据：customers.csv商品数据：products.csv交易数据：transactions.csvcustomers.csv数据结构：字段描述customer_id客户IDgender性别age年龄region地区membership_date会员日期products.csv数据结构：字段描述product_id产品IDcategory
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
精益敏捷之道（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0b2addbef6e2afb0ce49d44d7300959a译者：飞龙协议：CCBY-NC-SA4.0前言“精益敏捷之道：通过价值流管理释放企业潜力”一书源于首席作者塞西尔·‘加里’·鲁普与尊敬的同事理查德·克纳斯特、史蒂夫·佩雷拉和艾尔·沙洛韦的合作努力。他们的目标是为IT专家、商业专业人士以及各行业和组织的领域专家提供一本关于现代精益敏捷和
Python DevOps 实用指南（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0228db3442938136abc9262d5596d201译者：飞龙协议：CCBY-NC-SA4.0序言欢迎阅读本书！让我们来谈谈本书的内容以及你将从中学到的东西。本书涉及两件事：DevOps和Python。它讲述了这两者是如何相互作用的——无论你称它们为实体、哲学、框架，或者其他任何名称。本书将帮助你在技术层面上理解Python，同时也在概
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
Python 取证学习指南第二版（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0前言在编写《学习Python取证》一书时，我们有一个目标：以一种方式教授Python在取证中的应用，使得没有编程经验的读者可以立即跟随并开发出可以用于案件工作中的实用代码。但这并不意味着本书仅适合Python新手；在整个过程中，我们会逐步让读者
Python 取证学习指南第二版（三）
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0第七章：模糊哈希哈希是DFIR中最常见的处理过程之一。这个过程允许我们总结文件内容，并分配一个代表文件内容的独特且可重复的签名。我们通常使用MD5、SHA1和SHA256等算法对文件和内容进行哈希。这些哈希算法非常有价值，因为我们可以用它们进行
低版本hive(1.2.1)UDF实现清除历史分区数据 ༺水墨石༻ hive hive UDF hive hadoop 数据仓库
目标：通过UDF实现对表历史数据清除入参：表名、保留天数N一、pom文件4.0.0com.examplehive-udf-example1.0-SNAPSHOTjarhive-udf-exampleHiveUDFfordeletingpartitionsbydateUTF-81.81.8org.apache.hivehive-exec1.2.1org.apache.hivehive-metasto
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
Python数据分析：从入门到精通
引言在当今数据驱动的时代，数据分析已成为企业和组织做出明智决策的关键。Python作为一种强大的编程语言，因其简洁性和丰富的数据分析库而成为数据科学领域的首选工具。无论你是初学者还是有一定经验的数据分析师，本指南都将带你从入门到精通Python数据分析，掌握必备技能和最佳实践。数据分析的重要性与Python的角色数据分析涉及收集、处理和解释数据，以揭示模式、趋势和见解。它有助于解决复杂问题，优化业
shell脚本实现Hive库表迁移 docsz hive Linux shell
1、获取hive所有库的建表语句#获取hive所有库的建表语句#!/bin/bashmkdir-p~/hive/tables/tablesDDL#获取库名hive-e"showdatabases;">~/hive/databases.txtsed-i'1,3d'~/hive/databases.txtsed-i'$d'~/hive/databases.txtcat~/hive/databases.
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h

用户行为数据分析

文章目录

用户行为数据分析

1 项目描述

2 项目需求

3 数据准备

1、创建user_data数据表用于导入user_data.csv中的数据

2、加载user_data.csv中的数据到user_data表

3、接下来进行数据清洗，包括：删除重复值，时间戳格式化，删除异常值。

4 统计分析

1、查询总访问量PV，总用户量UV

2、查询日均访问量，日均用户量

3、查询每个用户的购物情况

4、根据user_behavior_count的结果查询复购率

5、统计转化率

6、统计一天内活跃时段点击数、收藏数、加购物车数、购买数的分布

7、统计周用户点击数、收藏数、加购物车数、购买数的活跃分布

8、统计用户最近一次的购买时间，降序排序只显示前10条记录

9、统计消费频率最高的前10名用户

你可能感兴趣的:(Hive数据仓库,数据分析,大数据,hive)