livan1234

实战演习（二）——网站点击流数据分析

笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值，找寻数据的秘密，笔者认为，数据的价值不仅仅只体现在企业中，个人也可以体会到数据的魅力，用技术力量探索行为密码，让大数据助跑每一个人，欢迎直筒们关注我的公众号，大家一起讨论数据中的那些有趣的事情。

我的公众号为：livandata

网站点击流数据分析，业务知识，推荐书籍：

《网站分析实战——如何以数据驱动决策，提升网站价值》王彦平，吴盛锋编著

网站找些案例：

本文对应的代码为：https://github.com/livan123/web_click_mr

网站点击流数据分析项目业务背景

1.1 什么是点击流数据

1.1.1 WEB访问日志

即指用户访问网站时的所有访问、浏览、点击行为数据。比如点击了哪一个链接，在哪个网页停留时间最多，采用了哪个搜索项、总体浏览时间等。而所有这些信息都可被保存在网站日志中。通过分析这些数据，可以获知许多对网站运营至关重要的信息。采集的数据越全面，分析就能越精准。

日志的生成渠道：

1）是网站的web服务器所记录的web访问日志；

2）是通过在页面嵌入自定义的js代码来获取用户的所有访问行为（比如鼠标悬停的位置，点击的页面组件等），然后通过ajax请求到后台记录日志；这种方式所能采集的信息最全面；

3）通过在页面上埋点1像素的图片，将相关页面访问信息请求到后台记录日志；

日志数据内容详述：

在实际操作中，有以下几个方面的数据可以被采集：

访客的系统属性特征。比如所采用的操作系统、浏览器、域名和访问速度等。
访问特征。包括停留时间、点击的URL等。
来源特征。包括网络内容信息类型、内容分类和来访URL等。
产品特征。包括所访问的产品编号、产品类别、产品颜色、产品价格、产品利润、产品数量和特价等级等。

以电商某东为例，其点击日志格式如下：

GET /log.gif?t=item.010001&m=UA-J2011-1&pin=-&uid=1679790178&sid=1679790178|12&v=je=1$sc=24-bit$sr=1600x900$ul=zh-cn$cs=GBK$dt=【云南白药套装】

云南白药 牙膏 180g×3 （留兰香型）【行情 报价价格 评测】-京东$hn=item.jd.com$fl=16.0 r0$os=win$br=chrome$bv=39.0.2171.95$wb=1437269412$xb=1449548587$yb=1456186252$zb=12$cb=4$usc=direct$ucp=-$umd=none$uct=-$ct=1456186505411$lt=0$tad=-$sku=1326523$cid1=1316$cid2=1384$cid3=1405$brand=20583$pinid=-&ref=&rm=1456186505411 HTTP/1.1

1.1.2 点击流数据模型

点击流概念

点击流这个概念更注重用户浏览网站的整个流程，网站日志中记录的用户点击就像是图上的“点”，而点击流更像是将这些“点”串起来形成的“线”。也可以把“点”认为是网站的Page，而“线”则是访问网站的Session。所以点击流数据是由网站日志中整理得到的，它可以比网站日志包含更多的信息，从而使基于点击流数据统计得到的结果更加丰富和高效。

点击流模型生成

点击流数据在具体操作上是由散点状的点击日志数据梳理所得，从而，点击数据在数据建模时应该存在两张模型表（Pageviews和visits）：

用于生成点击流的访问日志表

时间戳	IP地址	Cookie	Session	请求URL	Referal
2012-01-01 12:31:12	101.0.0.1	User01	S001	/a/...	somesite.com
2012-01-01 12:31:16	201.0.0.2	User02	S002	/a/...	-
2012-01-01 12:33:06	101.0.0.2	User03	S002	/b/...	baidu.com
2012-01-01 15:16:39	234.0.0.3	User01	S003	/c/...	google.com
2012-01-01 15:17:11	101.0.0.1	User01	S004	/d/...	/c/...
2012-01-01 15:19:23	101.0.0.1	User01	S004	/e/...	/d/....

页面点击流模型Pageviews表

Session	userid	时间	访问页面URL	停留时长	第几步
S001	User01	2012-01-01 12:31:12	/a/....	30	1
S002	User02	2012-01-01 12:31:16	/a/....	10	1
S002	User02	2012-01-01 12:33:06	/b/....	110	2
S002	User02	2012-01-01 12:35:06	/e/....	30	3

点击流模型Visits表

Session	起始时间	结束时间	进入页面	离开页面	访问页面数	IP	cookie	referal
S001	2012-01-01 12:31:12	2012-01-01 12:31:12	/a/...	/a/...	1	101.0.0.1	User01	somesite.com
S002	2012-01-01 12:31:16	2012-01-01 12:35:06	/a/...	/e/...	3	201.0.0.2	User02	-
S003	2012-01-01 12:35:42	2012-01-01 12:35:42	/c/...	/c/...	1	234.0.0.3	User03	baidu.com
S003	2012-01-01 15:16:39	2012-01-01 15:19:23	/c/...	/e/...	3	101.0.0.1	User01	google.com
……	……	……	……	……	……	……	……	……

这就是点击流模型。当WEB日志转化成点击流数据的时候，很多网站分析度量的计算变得简单了，这就是点击流的“魔力”所在。基于点击流数据我们可以统计出许多常见的网站分析度量

作业：

1.原始数据：access.log.fensi

2.清洗数据，得到规整的结果，即上面第一个表；

时间戳	IP地址	Cookie	Session	请求URL	Referal
2012-01-01 12:31:12	101.0.0.1	User01	S001	/a/...	somesite.com
2012-01-01 12:31:16	201.0.0.2	User02	S002	/a/...	-
2012-01-01 12:33:06	101.0.0.2	User03	S002	/b/...	baidu.com
2012-01-01 15:16:39	234.0.0.3	User01	S003	/c/...	google.com
2012-01-01 15:17:11	101.0.0.1	User01	S004	/d/...	/c/...
2012-01-01 15:19:23	101.0.0.1	User01	S004	/e/...	/d/....

3.从上述数据清洗出第二个表Pageviews、第三个表Visits。

1.2网站流量数据分析的意义

网站流量统计分析，可以帮助网站管理员、运营人员、推广人员等实时获取网站流量信息，并从流量来源、网站内容、网站访客特性等多方面提供网站分析的数据依据。从而帮助提高网站流量，提升网站用户体验，让访客更多的沉淀下来变成会员或客户，通过更少的投入获取最大化的收入。

如下表：

网站的眼睛

网站的神经

网站的大脑

访问者来自哪里？

访问者在寻找什么？

哪些页面最受欢迎？

访问者从哪里进入？

网页布局合理吗？

网站导航清晰吗？

哪些功能存在问题

网站内容有效吗

转化路径靠谱吗？

如何分解目标？

如何分配广告预算？

如何衡量产品表现？

哪些产品需要优化？

哪些指标需要关注？

点击流分析的意义可分为两大方面：

1、技术上：

可以合理修改网站结构及适度分配资源，构建后台服务器群组，比如

辅助改进网络的拓扑设计，提高性能

在有高度相关性的节点之间安排快速有效的访问路径

帮助企业更好地设计网站主页和安排网页内容

2、业务上：

帮助企业改善市场营销决策，如把广告放在适当的Web页面上。
优化页面及业务流程设计，提高流量转化率。
帮助企业更好地根据客户的兴趣来安排内容。
帮助企业对客户群进行细分，针对不同客户制定个性化的促销策略等。

终极目标是：改善网站(电商、社交、电影、小说)的运营，获取更高投资回报率（ROI）

1.3 如何进行网站流量分析

流量分析整体来说是一个内涵非常丰富的体系，其整体过程是一个金字塔结构：

1.3.1 流量分析模型举例

通常有以下几大类的分析需求：

1)网站流量质量分析

流量对于每个网站来说都是很重要，但流量并不是越多越好，应该更加看重流量的质量，换句话来说就是流量可以为我们带来多少收入。

2)网站流量多维度细分

细分是指通过不同维度对指标进行分割，查看同一个指标在不同维度下的表现，进而找出有问题的那部分指标，对这部分指标进行优化。

3)网站内容及导航分析

对于所有网站来说，页面都可以被划分为三个类别：

导航页
功能页
内容页

首页和列表页都是典型的导航页；

站内搜索页面、注册表单页面和购物车页面都是典型的功能页，

而产品详情页、新闻和文章页都是典型的内容页。

比如从内容导航分析中，以下两类行为就是网站运营者不希望看到的行为：

第一个问题：访问者从导航页进入，在还没有看到内容页面之前就从导航页离开网站，需要分析导航页造成访问者中途离开的原因。

第二个问题：访问者从导航页进入内容页后，又返回到导航页，说明需要分析内容页的最初设计，并考虑中内容页提供交叉的信息推荐

4)网站转化及漏斗分析

所谓转化，即网站业务流程中的一个封闭渠道，引导用户按照流程最终实现业务目标（比如商品成交）；而漏斗模型则是指进入渠道的用户在各环节递进过程中逐渐流失的形象描述；

对于转化渠道，主要进行两部分的分析：

访问者的流失和迷失

阻力和流失

造成流失的原因很多，如：

不恰当的商品或活动推荐

对支付环节中专业名词的解释、帮助信息等内容不当

迷失

造成迷失的主要原因是转化流量设计不合理，访问者在特定阶段得不到需要的信息，并且不能根据现有的信息作出决策

总之，网站流量分析是一门内容非常丰富的学科，本课程中主要关注网站分析过程中的技术运用，更多关于网站流量分析的业务知识可学习推荐资料。

1.3.2 流量分析常见指标

课程中涉及的分析指标主要位于以下几大方面：

1)基础分析（PV,IP,UV）

趋势分析：根据选定的时段，提供网站流量数据，通过流量趋势变化形态，为您分析网站访客的访问规律、网站发展状况提供参考。
对比分析：根据选定的两个对比时段，提供网站流量在时间上的纵向对比报表，帮您发现网站发展状况、发展规律、流量变化率等。
当前在线：提供当前时刻站点上的访客量，以及最近15分钟流量、来源、受访、访客变化情况等，方便用户及时了解当前网站流量状况。
访问明细：提供最近7日的访客访问记录，可按每个PV或每次访问行为（访客的每次会话）显示，并可按照来源、搜索词等条件进行筛选。通过访问明细，用户可以详细了解网站流量的累计过程，从而为用户快速找出流量变动原因提供最原始、最准确的依据。

2)来源分析

来源分类：提供不同来源形式（直接输入、搜索引擎、其他外部链接、站内来源）、不同来源项引入流量的比例情况。通过精确的量化数据，帮助用户分析什么类型的来路产生的流量多、效果好，进而合理优化推广方案。
搜索引擎：提供各搜索引擎以及搜索引擎子产品引入流量的比例情况。从搜索引擎引入流量的的角度，帮助用户了解网站的SEO、SEM效果，从而为制定下一步SEO、SEM计划提供依据。
搜索词：提供访客通过搜索引擎进入网站所使用的搜索词，以及各搜索词引入流量的特征和分布。帮助用户了解各搜索词引入流量的质量，进而了解访客的兴趣关注点、网站与访客兴趣点的匹配度，为优化SEO方案及SEM提词方案提供详细依据。
最近7日的访客搜索记录，可按每个PV或每次访问行为（访客的每次会话）显示，并可按照访客类型、地区等条件进行筛选。为您搜索引擎优化提供最详细的原始数据。
来路域名：提供具体来路域名引入流量的分布情况，并可按“社会化媒体”、“搜索引擎”、“邮箱”等网站类型对来源域名进行分类。帮助用户了解哪类推广渠道产生的流量多、效果好，进而合理优化网站推广方案。
来路页面：提供具体来路页面引入流量的分布情况。尤其对于通过流量置换、包广告位等方式从其他网站引入流量的用户，该功能可以方便、清晰地展现广告引入的流量及效果，为优化推广方案提供依据。
来源升降榜：提供开通统计后任意两日的TOP10000搜索词、来路域名引入流量的对比情况，并按照变化的剧烈程度提供排行榜。用户可通过此功能快速找到哪些来路对网站流量的影响比较大，从而及时排查相应来路问题。

3)受访分析

受访域名：提供访客对网站中各个域名的访问情况。一般情况下，网站不同域名提供的产品、内容各有差异，通过此功能用户可以了解不同内容的受欢迎程度以及网站运营成效。
受访页面：提供访客对网站中各个页面的访问情况。站内入口页面为访客进入网站时浏览的第一个页面，如果入口页面的跳出率较高则需要关注并优化；站内出口页面为访客访问网站的最后一个页面，对于离开率较高的页面需要关注并优化。
受访升降榜：提供开通统计后任意两日的TOP10000受访页面的浏览情况对比，并按照变化的剧烈程度提供排行榜。可通过此功能验证经过改版的页面是否有流量提升或哪些页面有巨大流量波动，从而及时排查相应问题。
热点图：记录访客在页面上的鼠标点击行为，通过颜色区分不同区域的点击热度；支持将一组页面设置为"关注范围"，并可按来路细分点击热度。通过访客在页面上的点击量统计，可以了解页面设计是否合理、广告位的安排能否获取更多佣金等。
用户视点：提供受访页面对页面上链接的其他站内页面的输出流量，并通过输出流量的高低绘制热度图，与热点图不同的是，所有记录都是实际打开了下一页面产生了浏览次数（PV）的数据，而不仅仅是拥有鼠标点击行为。
访问轨迹：提供观察焦点页面的上下游页面，了解访客从哪些途径进入页面，又流向了哪里。通过上游页面列表比较出不同流量引入渠道的效果；通过下游页面列表了解用户的浏览习惯，哪些页面元素、内容更吸引访客点击。

4)访客分析

地区运营商：提供各地区访客、各网络运营商访客的访问情况分布。地方网站、下载站等与地域性、网络链路等结合较为紧密的网站，可以参考此功能数据，合理优化推广运营方案。
终端详情：提供网站访客所使用的浏览终端的配置情况。参考此数据进行网页设计、开发，可更好地提高网站兼容性，以达到良好的用户交互体验。
新老访客：当日访客中，历史上第一次访问该网站的访客记为当日新访客；历史上已经访问过该网站的访客记为老访客。新访客与老访客进入网站的途径和浏览行为往往存在差异。该功能可以辅助分析不同访客的行为习惯，针对不同访客优化网站，例如为制作新手导航提供数据支持等。
忠诚度：从访客一天内回访网站的次数（日访问频度）与访客上次访问网站的时间两个角度，分析访客对网站的访问粘性、忠诚度、吸引程度。由于提升网站内容的更新频率、增强用户体验与用户价值可以有更高的忠诚度，因此该功能在网站内容更新及用户体验方面提供了重要参考。
活跃度：从访客单次访问浏览网站的时间与网页数两个角度，分析访客在网站上的活跃程度。由于提升网站内容的质量与数量可以获得更高的活跃度，因此该功能是网站内容分析的关键指标之一。

5)转化路径分析

转化定义

·访客在您的网站完成了某项您期望的活动，记为一次转化，如注册或下载。

目标示例

·获得用户目标：在线注册、创建账号等。

·咨询目标：咨询、留言、电话等。

·互动目标：视频播放、加入购物车、分享等。

·收入目标：在线订单、付款等。

转化数据的应用

·在报告的自定义指标中勾选转化指标，实时掌握网站的推广及运营情况。

·结合“全部来源”、“转化路径”、“页面上下游”等报告分析访问漏斗，提高转化率。

·对“转化目标”设置价值，预估转化收益，衡量ROI。

路径分析：根据设置的特定路线，监测某一流程的完成转化情况，算出每步的转换率和流失率数据，如注册流程，购买流程等。

转化率存在一个漏斗模型：

转化类型：

页面

事件

2 整体技术流程及架构

2.1 数据处理流程

该项目是一个纯粹的数据分析项目，其整体流程基本上就是依据数据的处理流程进行，依此有以下几个大的步骤：

数据采集

首先，通过页面嵌入JS代码的方式获取用户访问行为，并发送到web服务的后台记录日志

然后，将各服务器上生成的点击流日志通过实时或批量的方式汇聚到HDFS文件系统中

当然，一个综合分析系统，数据源可能不仅包含点击流数据，还有数据库中的业务数据（如用户信息、商品信息、订单信息等）及对分析有益的外部数据。

数据预处理

通过mapreduce程序对采集到的点击流数据进行预处理，比如清洗，格式整理，滤除脏数据等

数据入库

将预处理之后的数据导入到HIVE仓库中相应的库和表中

数据分析

项目的核心内容，即根据需求开发ETL分析语句，得出各种统计结果

数据展现

将分析所得数据进行可视化

2.2 项目结构

由于本项目是一个纯粹数据分析项目，其整体结构亦跟分析流程匹配，并没有特别复杂的结构，如下图：

其中，需要强调的是：

系统的数据分析不是一次性的，而是按照一定的时间频率反复计算，因而整个处理链条中的各个环节需要按照一定的先后依赖关系紧密衔接，即涉及到大量任务单元的管理调度，所以，项目中需要添加一个任务调度模块

2.3 数据展现

数据展现的目的是将分析所得的数据进行可视化，以便运营决策人员能更方便地获取数据，更快更简单地理解数据

3 模块开发——数据采集

3.1 需求

数据采集的需求广义上来说分为两大部分。

1）是在页面采集用户的访问行为，具体开发工作：

开发页面埋点js，采集用户访问行为
后台接受页面js请求记录日志

此部分工作也可以归属为“数据源”，其开发工作通常由web开发团队负责

2）是从web服务器上汇聚日志到HDFS，是数据分析系统的数据采集，此部分工作由数据分析平台建设团队负责，具体的技术实现有很多方式：

Shell脚本

优点：轻量级，开发简单

缺点：对日志采集过程中的容错处理不便控制

Java采集程序

优点：可对采集过程实现精细控制

缺点：开发工作量大

Flume日志采集框架

成熟的开源日志采集系统，且本身就是hadoop生态体系中的一员，与hadoop体系中的各种框架组件具有天生的亲和力，可扩展性强

3.2 技术选型

在点击流日志分析这种场景中，对数据采集部分的可靠性、容错能力要求通常不会非常严苛，因此使用通用的flume日志采集框架完全可以满足需求。

本项目即使用flume来实现日志采集。

3.3 Flume日志采集系统搭建

数据源信息

本项目分析的数据用nginx服务器所生成的流量日志，存放在各台nginx服务器上，如：

/var/log/httpd/access_log.2015-11-10-13-00.log

/var/log/httpd/access_log.2015-11-10-14-00.log

/var/log/httpd/access_log.2015-11-10-15-00.log

/var/log/httpd/access_log.2015-11-10-16-00.log

数据内容样例

数据的具体内容在采集阶段其实不用太关心。

58.215.204.118 - - [18/Sep/2013:06:51:35 +0000] "GET /wp-includes/js/jquery/jquery.js?ver=1.10.2 HTTP/1.1" 304 0 "http://blog.fens.me/nodejs-socketio-chat/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"

字段解析：

1、访客ip地址： 58.215.204.118

2、访客用户信息： - -

3、请求时间：[18/Sep/2013:06:51:35 +0000]

4、请求方式：GET

5、请求的url：/wp-includes/js/jquery/jquery.js?ver=1.10.2

6、请求所用协议：HTTP/1.1

7、响应码：304

8、返回的数据流量：0

9、访客的来源url：http://blog.fens.me/nodejs-socketio-chat/

10、访客所用浏览器：Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0

日志文件生成规律

基本规律为：

当前正在写的文件为access_log；

文件体积达到64M，或时间间隔达到60分钟，即滚动重命名切换成历史日志文件；

形如： access_log.2015-11-10-13-00.log

当然，每个公司的web服务器日志策略不同，可在web程序的log4j.properties中定义，如下：

log4j.appender.logDailyFile = org.apache.log4j.DailyRollingFileAppender

log4j.appender.logDailyFile.layout = org.apache.log4j.PatternLayout

log4j.appender.logDailyFile.layout.ConversionPattern = [%-5p][%-22d{yyyy/MM/dd HH:mm:ssS}][%l]%n%m%n

log4j.appender.logDailyFile.Threshold = DEBUG

log4j.appender.logDailyFile.ImmediateFlush = TRUE

log4j.appender.logDailyFile.Append = TRUE

log4j.appender.logDailyFile.File = /var/logs/access_log

log4j.appender.logDailyFile.DatePattern = '.'yyyy-MM-dd-HH-mm'.log'

log4j.appender.logDailyFile.Encoding = UTF-8

Flume采集实现

Flume采集系统的搭建相对简单：

在个web服务器上部署agent节点，修改配置文件
启动agent节点，将采集到的数据汇聚到指定的HDFS目录中

如下图：

版本选择：apache-flume-1.6.0
采集规则设计：

采集源：nginx服务器日志目录
存放地：hdfs目录/home/hadoop/weblogs/

采集规则配置详情

agent1.sources = source1

agent1.sinks = sink1

agent1.channels = channel1

# Describe/configure spooldir source1

#agent1.sources.source1.type = spooldir

#agent1.sources.source1.spoolDir = /var/logs/nginx/

#agent1.sources.source1.fileHeader = false

# Describe/configure tail -F source1

#使用exec作为数据源source组件

agent1.sources.source1.type = exec

#使用tail -F命令实时收集新产生的日志数据

agent1.sources.source1.command = tail -F /var/logs/nginx/access_log

agent1.sources.source1.channels = channel1

#configure host for source

#配置一个拦截器插件

agent1.sources.source1.interceptors = i1

agent1.sources.source1.interceptors.i1.type = host

#使用拦截器插件获取agent所在服务器的主机名

agent1.sources.source1.interceptors.i1.hostHeader = hostname

#配置sink组件为hdfs

agent1.sinks.sink1.type = hdfs

#a1.sinks.k1.channel = c1

#agent1.sinks.sink1.hdfs.path=hdfs://hdp-node-01:9000/weblog/flume-collection/%y-%m-%d/%H%M%S

#指定文件sink到hdfs上的路径

agent1.sinks.sink1.hdfs.path=

hdfs://hdp-node-01:9000/weblog/flume-collection/%y-%m-%d/%H-%M_%hostname

#指定文件名前缀

agent1.sinks.sink1.hdfs.filePrefix = access_log

agent1.sinks.sink1.hdfs.maxOpenFiles = 5000

#指定每批下沉数据的记录条数

agent1.sinks.sink1.hdfs.batchSize= 100

agent1.sinks.sink1.hdfs.fileType = DataStream

agent1.sinks.sink1.hdfs.writeFormat =Text

#指定下沉文件按1G大小滚动

agent1.sinks.sink1.hdfs.rollSize = 1024*1024*1024

#指定下沉文件按1000000条数滚动

agent1.sinks.sink1.hdfs.rollCount = 1000000

#指定下沉文件按30分钟滚动

agent1.sinks.sink1.hdfs.rollInterval = 30

#agent1.sinks.sink1.hdfs.round = true

#agent1.sinks.sink1.hdfs.roundValue = 10

#agent1.sinks.sink1.hdfs.roundUnit = minute

agent1.sinks.sink1.hdfs.useLocalTimeStamp = true

# Use a channel which buffers events in memory

#使用memory类型channel

agent1.channels.channel1.type = memory

agent1.channels.channel1.keep-alive = 120

agent1.channels.channel1.capacity = 500000

agent1.channels.channel1.transactionCapacity = 600

# Bind the source and sink to the channel

agent1.sources.source1.channels = channel1

agent1.sinks.sink1.channel = channel1

启动采集：

在部署了flume的nginx服务器上，启动flume的agent，命令如下：

bin/flume-ng agent --conf ./conf -f ./conf/weblog.properties.2 -n agent

注意：启动命令中的 -n 参数要给配置文件中配置的agent名称

4 模块开发——数据预处理

4.1 主要目的：

过滤“不合规”数据

格式转换和规整

根据后续的统计需求，过滤分离出各种不同主题的基础数据。

要分析的日志内容为：

4.2 实现方式：

开发一个mr程序WeblogPreProcess(内容太长，见工程代码)

贴源表：对接外部数据的层，表结构定义与外部数据源一致，主要是方便上层表的数据结构一致，方便后期统计与数据管理。

日志的解析为：

运行mr对数据进行预处理

hadoop jar weblog.jar cn.itcast.bigdata.hive.mr.WeblogPreProcess /weblog/input /weblog/preout

4.3 点击流模型数据梳理

由于大量的指标统计从点击流模型中更容易得出，所以在预处理阶段，可以使用mr程序来生成点击流模型的数据

4.3.1 点击流模型pageviews表

点击流模型的设计mr为：

梳理visit模型：

运行Pageviews对数据进行处理：

hadoop jar weblogpreprocess.jar \

cn.itcast.bigdata.hive.mr.ClickStreamThree \

/user/hive/warehouse/dw_click.db/test_ods_weblog_origin/datestr=2013-09-20/ /test-click/pageviews/

表结构：

(表定义及数据导入见6.2节)

4.3.2 点击流模型visit信息表

注：“一次访问”=“N次连续请求”

直接从原始数据中用hql语法得出每个人的“次”访问信息比较困难，可先用mapreduce程序分析原始数据得出“次”信息数据，然后再用hql进行更多维度统计

用MR程序从pageviews数据中，梳理出每一次visit的起止时间、页面信息

代码见工程

hadoop jar weblogpreprocess.jar cn.itcast.bigdata.hive.mr.ClickStreamVisit /weblog/sessionout /weblog/visitout

然后，在hive仓库中建点击流visit模型表

drop table if exist click_stream_visit;

create table click_stream_visit(

session string,

remote_addr string,

inTime string,

outTime string,

inPage string,

outPage string,

referal string,

pageVisits int)

partitioned by (datestr string);

然后，将MR运算得到的visit数据导入visit模型表

load data inpath '/weblog/visitout' into table click_stream_visit partition(datestr='2013-09-18');

5 模块开发——数据仓库设计

注：采用星型模型：中间一个事实表，四周为维度表；

（雪花模型：中间是一个事实表，四周是主要的键表，再往外是维度表，这样的三段样式为雪花模型）

5.1 事实表

原始数据表:t_origin_weblog
valid	string	是否有效
remote_addr	string	访客ip
remote_user	string	访客用户信息
time_local	string	请求时间
request	string	请求url
status	string	响应码
body_bytes_sent	string	响应字节数
http_referer	string	来源url
http_user_agent	string	访客终端信息
t_etl_referurl：
ETL中间表：t_etl_referurl
valid	string	是否有效
remote_addr	string	访客ip
remote_user	string	访客用户信息
time_local	string	请求时间
request	string	请求url
request_host	string	请求的域名
status	string	响应码
body_bytes_sent	string	响应字节数
http_referer	string	来源url
http_user_agent	string	访客终端信息
valid	string	是否有效
remote_addr	string	访客ip
remote_user	string	访客用户信息
time_local	string	请求时间
request	string	请求url
status	string	响应码
body_bytes_sent	string	响应字节数
http_referer	string	外链url
http_user_agent	string	访客终端信息
host	string	外链url的域名
path	string	外链url的路径
query	string	外链url的参数
query_id	string	外链url的参数值
t_ods_access_detail：
访问日志明细宽表：t_ods_access_detail
valid	string	是否有效
remote_addr	string	访客ip
remote_user	string	访客用户信息
time_local	string	请求时间
request	string	请求url整串
request_level1	string	请求的一级栏目
request_level2	string	请求的二级栏目
request_level3	string	请求的三级栏目
status	string	响应码
body_bytes_sent	string	响应字节数
http_referer	string	来源url
http_user_agent	string	访客终端信息
valid	string	是否有效
remote_addr	string	访客ip
remote_user	string	访客用户信息
time_local	string	请求时间
request	string	请求url
status	string	响应码
body_bytes_sent	string	响应字节数
http_referer	string	外链url
http_user_agent	string	访客终端信息整串
http_user_agent_browser	string	访客终端浏览器
http_user_agent_sys	string	访客终端操作系统
http_user_agent_dev	string	访客终端设备
host	string	外链url的域名
path	string	外链url的路径
query	string	外链url的参数
query_id	string	外链url的参数值
daystr	string	日期整串
tmstr	string	时间整串
month	string	月份
day	string	日
hour	string	时
minute	string	分
##	##	##
mm	string	分区字段--月
dd	string	分区字段--日

5.2 维度表

时间维度 v_year_month_date

year

month

day

hour

minute

访客地域维度t_dim_area

北京

上海

广州

深圳

河北

河南

终端类型维度t_dim_termination

firefox

chrome

safari

ios

android

网站栏目维度 t_dim_section

跳蚤市场

房租信息

休闲娱乐

建材装修

本地服务

人才市场

6 模块开发——ETL

该项目的数据分析过程在hadoop集群上实现，主要应用hive数据仓库工具，因此，采集并经过预处理后的数据，需要加载到hive数据仓库中，以进行后续的挖掘分析。

6.1创建原始数据表

在hive仓库中建贴源数据表

drop table if exists ods_weblog_origin;

create table ods_weblog_origin(

valid string,

remote_addr string,

remote_user string,

time_local string,

request string,

status string,

body_bytes_sent string,

http_referer string,

http_user_agent string)

partitioned by (datestr string)

row format delimited

fields terminated by '\001';

点击流模型pageviews表：

drop table if exists ods_click_pageviews;

create table ods_click_pageviews(

Session string,

remote_addr string,

time_local string,

request string,

visit_step string,

page_staylong string,

http_referer string,

http_user_agent string,

body_bytes_sent string,

status string)

partitioned by (datestr string)

row format delimited

fields terminated by '\001';

时间维表创建：

drop table dim_time if exists ods_click_pageviews;

create table dim_time(

year string,

month string,

day string,

hour string)

row format delimited

fields terminated by ',

6.2导入数据

导入清洗结果数据到贴源数据表ods_weblog_origin：每天有数据导入到脚本，因此需要写一个脚本运行：load_ods_table.sh

load data inpath '/weblog/preprocessed/16-02-24-16/' overwrite into table ods_weblog_origin partition(datestr='2013-09-18');

0: jdbc:hive2://localhost:10000> show partitions ods_weblog_origin;

+-------------------+--+

| partition |

+-------------------+--+

| timestr=20151203 |

+-------------------+--+

0: jdbc:hive2://localhost:10000> select count(*) from ods_origin_weblog;

+--------+--+

| _c0 |

+--------+--+

| 11347 |

+--------+--+

导入点击流模型pageviews数据到ods_click_pageviews表：

0: jdbc:hive2://hdp-node-01:10000> load data inpath '/weblog/clickstream/pageviews' overwrite into table ods_click_pageviews partition(datestr='2013-09-18');

0: jdbc:hive2://hdp-node-01:10000> select count(1) from ods_click_pageviews;

+------+--+

| _c0 |

+------+--+

| 66 |

+------+--+

导入点击流模型visit数据到ods_click_visit表

导入时间维表：

load data inpath '/dim_time.txt' into table dim_time;

6.3 生成ODS层明细宽表

6.3.1 需求概述

整个数据分析的过程是按照数据仓库的层次分层进行的，总体来说，是从ODS原始数据中整理出一些中间表（比如，为后续分析方便，将原始数据中的时间、url等非结构化数据作结构化抽取，将各种字段信息进行细化，形成明细表），然后再在中间表的基础之上统计出各种指标数据。

6.3.2 ETL实现

建表——明细表 (源：ods_weblog_origin) （目标：ods_weblog_detail）

drop table ods_weblog_detail;

create table ods_weblog_detail(

valid string, --有效标识

remote_addr string, --来源IP

remote_user string, --用户标识

time_local string, --访问完整时间

daystr string, --访问日期

timestr string, --访问时间

month string, --访问月

day string, --访问日

hour string, --访问时

request string, --请求的url

status string, --响应码

body_bytes_sent string, --传输字节数

http_referer string, --来源url

ref_host string, --来源的host

ref_path string, --来源的路径

ref_query string, --来源参数query

ref_query_id string, --来源参数query的值

http_user_agent string --客户终端标识

)

partitioned by (datestr string);

http_referer：

http://www.baidu.com/aapath?sousuoci=’angel’

parse_url_tuple(url,’HOST’,’PATH’,’QUERY’,’QUERY:id’)

--抽取refer_url到中间表 "t_ods_tmp_referurl"

--将来访url分离出host path query query id

在对来访数据进行抽取时，需要写一个函数，可以使用：Parse_url_tuple()

drop table if exists t_ods_tmp_referurl;

create table t_ ods _tmp_referurl as

SELECT a.*,b.*

FROM ods_origin_weblog a LATERAL VIEW parse_url_tuple(regexp_replace(http_referer, "\"", ""), 'HOST', 'PATH','QUERY', 'QUERY:id') b as host, path, query, query_id;

--抽取转换time_local字段到中间表明细表 ”t_ ods _detail”

drop table if exists t_ods_tmp_detail;

create table t_ods_tmp_detail as

select b.*,substring(time_local,0,10) as daystr,

substring(time_local,11) as tmstr,

substring(time_local,5,2) as month,

substring(time_local,8,2) as day,

substring(time_local,11,2) as hour

From t_ ods _tmp_referurl b;

以上语句可以改写成：

insert into table zs.ods_weblog_detail partition(datestr='$day_01')

select c.valid,c.remote_addr,c.remote_user,c.time_local,

substring(c.time_local,0,10) as daystr,

substring(c.time_local,12) as tmstr,

substring(c.time_local,6,2) as month,

substring(c.time_local,9,2) as day,

substring(c.time_local,11,3) as hour,

c.request,c.status,c.body_bytes_sent,c.http_referer,c.ref_host,c.ref_path,c.ref_query,c.ref_query_id,c.http_user_agent

from

(SELECT

a.valid,a.remote_addr,a.remote_user,a.time_local,

a.request,a.status,a.body_bytes_sent,a.http_referer,a.http_user_agent,b.ref_host,b.ref_path,b.ref_query,b.ref_query_id

FROM zs.ods_weblog_origin a LATERAL VIEW parse_url_tuple(regexp_replace(http_referer, "\"", ""), 'HOST', 'PATH','QUERY', 'QUERY:id') b as ref_host, ref_path, ref_query, ref_query_id) c

0: jdbc:hive2://localhost:10000> show partitions ods_weblog_detail;

+---------------------+--+

| partition |

+---------------------+--+

| dd=18%2FSep%2F2013 |

+---------------------+--+

1 row selected (0.134 seconds)

7 模块开发——统计分析

注：每一种统计指标都可以跟各维度表进行叉乘，从而得出各个维度的统计结果

篇幅限制，叉乘的代码及注释信息详见项目工程代码文件

为了在前端展示时速度更快，每一个指标都事先算出各维度结果存入mysql

提前准备好维表数据，在hive仓库中创建相应维表，如：

时间维表：

create table v_time(year string,month string,day string,hour string)

row format delimited

fields terminated by ',';

load data local inpath '/home/hadoop/v_time.txt' into table v_time;

在实际生产中，究竟需要哪些统计指标通常由相关数据需求部门人员提出，而且会不断有新的统计需求产生，以下为网站流量分析中的一些典型指标示例。

PV统计

1.1 多维度统计PV总量

1. 时间维度

--计算指定的某个小时pvs

select count(*),month,day,hour from dw_click.ods_weblog_detail group by month,day,hour;

--计算该处理批次（一天）中的各小时pvs

drop table dw_pvs_hour;

create table dw_pvs_hour(month string,day string,hour string,pvs bigint) partitioned by(datestr string);

insert into table dw_pvs_hour partition(datestr='2016-03-18')

select a.month as month,a.day as day,a.hour as hour,count(1) as pvs from ods_weblog_detail a

where a.datestr='2016-03-18' group by a.month,a.day,a.hour;

或者用时间维表关联

维度：日

drop table dw_pvs_day;

create table dw_pvs_day(pvs bigint,month string,day string);

insert into table dw_pvs_day

select count(1) as pvs,a.month as month,a.day as day from dim_time a

join ods_weblog_detail b

on b.dd='18/Sep/2013' and a.month=b.month and a.day=b.day

group by a.month,a.day;

--或者，从之前算好的小时结果中统计

Insert into table dw_pvs_day

Select sum(pvs) as pvs,month,day from dw_pvs_hour group by month,day having day='18';

结果如下：

维度：月

drop table t_display_pv_month;

create table t_display_pv_month (pvs bigint,month string);

insert into table t_display_pv_month

select count(*) as pvs,a.month from t_dim_time a

join t_ods_detail_prt b on a.month=b.month group by a.month;

2. 按终端维度统计pv总量

注：探索数据中的终端类型

select distinct(http_user_agent) from ods_weblog_detail where http_user_agent like '%Mozilla%' limit 200;

终端维度：uc

drop table t_display_pv_terminal_uc;

create table t_display_pv_ terminal_uc (pvs bigint,mm string,dd string,hh string);

终端维度：chrome

drop table t_display_pv_terminal_chrome;

create table t_display_pv_ terminal_ chrome (pvs bigint,mm string,dd string,hh string);

终端维度：safari

drop table t_display_pv_terminal_safari;

create table t_display_pv_ terminal_ safari (pvs bigint,mm string,dd string,hh string);

3. 按栏目维度统计pv总量

栏目维度：job

栏目维度：news

栏目维度：bargin

栏目维度：lane

1.2 人均浏览页数

需求描述：比如，今日所有来访者，平均请求的页面数

--总页面请求数/去重总人数

drop table dw_avgpv_user_d;

create table dw_avgpv_user_d(

day string,

avgpv string);

insert into table dw_avgpv_user_d

select '2013-09-18',sum(b.pvs)/count(b.remote_addr) from

(select remote_addr,count(1) as pvs from ods_weblog_detail where datestr='2013-09-18' group by remote_addr) b;

1.3 按referer维度统计pv总量

需求：按照来源及时间维度统计PVS，并按照PV大小倒序排序

-- 按照小时粒度统计，查询结果存入：( "dw_pvs_referer_h" )

drop table dw_pvs_referer_h;

create table dw_pvs_referer_h(referer_url string,referer_host string,month string,day string,hour string,pv_referer_cnt bigint) partitioned by(datestr string);

insert into table dw_pvs_referer_h partition(datestr='2016-03-18')

select http_referer,ref_host,month,day,hour,count(1) as pv_referer_cnt

from ods_weblog_detail

group by http_referer,ref_host,month,day,hour

having ref_host is not null

order by hour asc,day asc,month asc,pv_referer_cnt desc;

按天粒度统计各来访域名的访问次数并排序

drop table dw_ref_host_visit_cnts_h;

create table dw_ref_host_visit_cnts_h(ref_host string,month string,day string,hour string,ref_host_cnts bigint) partitioned by(datestr string);

insert into table dw_ref_host_visit_cnts_h partition(datestr='2016-03-18')

select ref_host,month,day,hour,count(1) as ref_host_cnts

from ods_weblog_detail

group by ref_host,month,day,hour

having ref_host is not null

order by hour asc,day asc,month asc,ref_host_cnts desc;

注：还可以按来源地域维度、访客终端维度等计算

1.4 统计pv总量最大的来源TOPN

需求描述：按照时间维度，比如，统计一天内产生最多pvs的来源topN

需要用到row_number函数

以下语句对每个小时内的来访host次数倒序排序标号，

select ref_host,ref_host_cnts,concat(month,hour,day),

row_number() over (partition by concat(month,hour,day) order by ref_host_cnts desc) as od

from dw_ref_host_visit_cnts_h

效果如下：

根据上述row_number的功能，可编写Hql取各小时的ref_host访问次数topn

drop table dw_pvs_refhost_topn_h;

create table dw_pvs_refhost_topn_h(

hour string,

toporder string,

ref_host string,

ref_host_cnts string

) partitioned by(datestr string);

insert into table zs.dw_pvs_refhost_topn_h partition(datestr='2016-03-18')

select t.hour,t.od,t.ref_host,t.ref_host_cnts from

(select ref_host,ref_host_cnts,concat(month,day,hour) as hour,

row_number() over (partition by concat(month,day,hour) order by ref_host_cnts desc) as od

from zs.dw_ref_host_visit_cnts_h) t where od<=3;

结果如下：

注：还可以按来源地域维度、访客终端维度等计算

受访分析

统计每日最热门的页面top10

drop table dw_pvs_d;

create table dw_pvs_d(day string,url string,pvs string);

insert into table dw_pvs_d

select '2013-09-18',a.request,a.request_counts from

(select request as request,count(request) as request_counts from ods_weblog_detail where datestr='2013-09-18' group by request having request is not null) a

order by a.request_counts desc limit 10;

结果如下：

注：还可继续得出各维度交叉结果

访客分析

3.1 独立访客

需求描述：按照时间维度比如小时来统计独立访客及其产生的pvCnts

对于独立访客的识别，如果在原始日志中有用户标识，则根据用户标识即很好实现;

此处，由于原始日志中并没有用户标识，以访客IP来模拟，技术上是一样的，只是精确度相对较低

时间维度：时

drop table dw_user_dstc_ip_h;

create table dw_user_dstc_ip_h(

remote_addr string,

pvs bigint,

hour string);

insert into table dw_user_dstc_ip_h

select remote_addr,count(1) as pvs,concat(month,day,hour) as hour

from ods_weblog_detail

Where datestr='2013-09-18'

group by concat(month,day,hour),remote_addr;

在此结果表之上，可以进一步统计出，每小时独立访客总数，每小时请求次数topn访客等

如每小时独立访客总数：

select count(1) as dstc_ip_cnts,hour from dw_user_dstc_ip_h group by hour;

练习：

统计每小时请求次数topn的独立访客

时间维度：月

select remote_addr,count(1) as counts,month

from ods_weblog_detail

group by month,remote_addr;

时间维度：日

select remote_addr,count(1) as counts,concat(month,day) as day

from ods_weblog_detail

Where dd='18/Sep/2013'

group by concat(month,day),remote_addr;

注：还可以按来源地域维度、访客终端维度等计算

3.2 每日新访客

需求描述：将每天的新访客统计出来

实现思路：创建一个去重访客累积表，然后将每日访客对比累积表

时间维度：日

--历日去重访客累积表

drop table dw_user_dsct_history;

create table dw_user_dsct_history(

day string,

ip string

)

partitioned by(datestr string);

--每日新用户追加到累计表

drop table dw_user_dsct_history;

create table dw_user_dsct_history(

day string,

ip string

)

partitioned by(datestr string);

--每日新用户追加到累计表

insert into table dw_user_dsct_history partition(datestr='2013-09-19')

select tmp.day as day,tmp.today_addr as new_ip from

(

select today.day as day,today.remote_addr as today_addr,old.ip as old_addr

from

(select distinct remote_addr as remote_addr,"2013-09-19" as day from ods_weblog_detail where datestr="2013-09-19") today

left outer join

dw_user_dsct_history old

on today.remote_addr=old.ip

) tmp

where tmp.old_addr is null;

验证：

select count(distinct remote_addr) from ods_weblog_detail;

-- 1005

select count(1) from dw_user_dsct_history where prtflag_day='18/Sep/2013';

--845

select count(1) from dw_user_dsct_history where prtflag_day='19/Sep/2013';

--160

时间维度：月

类似日粒度算法

注：还可以按来源地域维度、访客终端维度等计算

Visit分析（点击流模型）

4.2 回头/单次访客统计

需求描述：查询今日所有回头访客及其访问次数

实现思路：上表中出现次数>1的访客，即回头访客；反之，则为单次访客

drop table dw_user_returning;

create table dw_user_returning(

day string,

remote_addr string,

acc_cnt string)

partitioned by (datestr string);

insert overwrite table dw_user_returning partition(datestr='2013-09-18')

select tmp.day,tmp.remote_addr,tmp.acc_cnt

from

(select '2013-09-18' as day,remote_addr,count(session) as acc_cnt from click_stream_visit group by remote_addr) tmp

where tmp.acc_cnt>1;

4.3 人均访问频次

需求：统计出每天所有用户访问网站的平均次数（visit）

总visit数/去重总用户数

select sum(pagevisits)/count(distinct remote_addr) from click_stream_visit partition(datestr='2013-09-18');

5. Visit分析另一种实现方式

5.1 mr程序识别出访客的每次访问

a.) 首先开发MAPREDUCE程序：UserStayTime

注：代码略长，见项目工程代码

b.) 提交MAPREDUCE程序进行运算

[hadoop@hdp-node-01 ~]$ hadoop jar weblog.jar cn.itcast.bigdata.hive.mr.UserStayTime /weblog/input /weblog/stayout4

--导入hive表("t_display_access_info")中

drop table ods_access_info;

create table ods_access_info(remote_addr string,firt_req_time string,last_req_time string,stay_long string)

partitioned by(prtflag_day string)

row format delimited

fields terminated by '\t';

load data inpath '/weblog/stayout4' into table ods_access_info partition(prtflag_day='18/Sep/2013');

创建表时stay_long使用的string类型，但是在后续过程中发现还是用bigint更好，进行表修改

alter table ods_access_info change column stay_long stay_long bigint;

5.2 将mr结果导入访客访问信息表 "t_display_access_info"

由于有一些访问记录是单条记录，mr程序处理处的结果给的时长是0，所以考虑给单次请求的停留时间一个默认市场30秒

drop table dw_access_info;

create table dw_access_info(remote_addr string,firt_req_time string,last_req_time string,stay_long string)

partitioned by(prtflag_day string);

insert into table dw_access_info partition(prtflag_day='19/Sep/2013')

select remote_addr,firt_req_time,last_req_time,

case stay_long

when 0 then 30000

else stay_long

end as stay_long

from ods_access_info

where prtflag_day='18/Sep/2013';

在访问信息表的基础之上，可以实现更多指标统计，如：

统计所有用户停留时间平均值，观察用户在站点停留时长的变化走势

select prtflag_day as dt,avg(stay_long) as avg_staylong

from dw_access_info group by prtflag_day;

5.3 回头/单次访客统计

注：从上一步骤得到的访问信息统计表“dw_access_info”中查询

--回头访客访问信息表 "dw_access_info_htip"

drop table dw_access_info_htip;

create table dw_access_info_htip(remote_addr string, firt_req_time string, last_req_time string, stay_long string,acc_counts string)

partitioned by(prtflag_day string);

insert into table dw_access_info_htip partition(prtflag_day='18/Sep/2013')

select b.remote_addr,b.firt_req_time,b.last_req_time,b.stay_long,a.acc_counts from

(select remote_addr,count(remote_addr) as acc_counts from dw_access_info where prtflag_day='18/Sep/2013' group by remote_addr having acc_counts>1) a

join

dw_access_info b

on a.remote_addr = b.remote_addr;

--单次访客访问信息表 "dw_access_info_dcip"

drop table dw_access_info_dcip;

create table dw_access_info_dcip(remote_addr string, firt_req_time string, last_req_time string, stay_long string,acc_counts string)

partitioned by(prtflag_day string);

insert into table dw_access_dcip partition(prtflag_day='18/Sep/2013')

select b.remote_addr,b.firt_req_time,b.last_req_time,b.stay_long,a.acc_counts from

(select remote_addr,count(remote_addr) as acc_counts from dw_access_info where prtflag_day='18/Sep/2013' group by remote_addr having acc_counts<2) a

join

dw_access_info b

on a.remote_addr = b.remote_addr;

在回头/单词访客信息表的基础之上，可以实现更多统计指标，如：

--当日回头客占比

drop table dw_htpercent_d;

create table dw_htpercent_d(day string,ht_percent float);

Insert into table dw_htpercent_d

select '18/Sep/2013',(tmp_ht.ht/tmp_all.amount)*100 from

(select count( distinct a.remote_addr) as ht from dw_access_info_htip a where prtflag_day='18/Sep/2013') tmp_ht

Join

(select count(distinct b.remote_addr) as amount from dw_access_info b where prtflag_day='18/Sep/2013') tmp_all;

5.4 人均访问频度

--总访问次数/去重总人数，从访客次数汇总表中查询

select avg(user_times.counts) as user_access_freq

from

(select remote_addr,counts from t_display_htip

union all

select remote_addr,counts from t_display_access_dcip) user_times;

--或直接从访问信息表 t_display_access_info 中查询

select avg(a.acc_cts) from

(select remote_addr,count(*) as acc_cts from dw_access_info group by remote_addr) a;

关键路径转化率分析——漏斗模型

转化：在一条指定的业务流程中，各个步骤的完成人数及相对上一个步骤的百分比

6.1 需求分析

6.2 模型设计

定义好业务流程中的页面标识，下例中的步骤为：

Step1、 /item%

Step2、 /category

Step3、 /order

Step4、 /index

6.3 开发实现

分步骤开发：

查询每一个步骤的总访问人数

create table route_numbs as

select 'step1' as step,count(distinct remote_addr) as numbs from ods_click_pageviews where request like '/item%'

union

select 'step2' as step,count(distinct remote_addr) as numbs from ods_click_pageviews where request like '/category%'

union

select 'step3' as step,count(distinct remote_addr) as numbs from ods_click_pageviews where request like '/order%'

union

select 'step4' as step,count(distinct remote_addr) as numbs from ods_click_pageviews where request like '/index%';

查询每一步骤相对于路径起点人数的比例

思路：利用join

select rn.step as rnstep,rn.numbs as rnnumbs,rr.step as rrstep,rr.numbs as rrnumbs from route_num rn

inner join

route_num rr

select tmp.rnstep,tmp.rnnumbs/tmp.rrnumbs as ratio

from

(

select rn.step as rnstep,rn.numbs as rnnumbs,rr.step as rrstep,rr.numbs as rrnumbs from route_num rn

inner join

route_num rr) tmp

where tmp.rrstep='step1';

查询每一步骤相对于上一步骤的漏出率

select tmp.rrstep as rrstep,tmp.rrnumbs/tmp.rnnumbs as ration

from

(

select rn.step as rnstep,rn.numbs as rnnumbs,rr.step as rrstep,rr.numbs as rrnumbs from route_num rn

inner join

route_num rr) tmp

where cast(substr(tmp.rnstep,5,1) as int)=cast(substr(tmp.rrstep,5,1) as int)-1

汇总以上两种指标

select abs.step,abs.numbs,abs.ratio as abs_ratio,rel.ratio as rel_ratio

from

(

select tmp.rnstep as step,tmp.rnnumbs as numbs,tmp.rnnumbs/tmp.rrnumbs as ratio

from

(

select rn.step as rnstep,rn.numbs as rnnumbs,rr.step as rrstep,rr.numbs as rrnumbs from route_num rn

inner join

route_num rr) tmp

where tmp.rrstep='step1'

) abs

left outer join

(

select tmp.rrstep as step,tmp.rrnumbs/tmp.rnnumbs as ratio

from

(

select rn.step as rnstep,rn.numbs as rnnumbs,rr.step as rrstep,rr.numbs as rrnumbs from route_num rn

inner join

route_num rr) tmp

where cast(substr(tmp.rnstep,5,1) as int)=cast(substr(tmp.rrstep,5,1) as int)-1

) rel

on abs.step=rel.step

8 模块开发——结果导出

报表统计结果，由sqoop从hive表中导出，示例如下，详见工程代码

sqoop export \

--connect jdbc:mysql://hdp-node-01:3306/webdb --username root --password root \

--table click_stream_visit \

--export-dir /user/hive/warehouse/dw_click.db/click_stream_visit/datestr=2013-09-18 \

--input-fields-terminated-by '\001'

9 模块开发——工作流调度

注：将整个项目的数据处理过程，从数据采集到数据分析，再到结果数据的导出，一系列的任务分割成若干个oozie的工作流，并用coordinator进行协调

工作流定义示例

Ooize配置片段示例，详见项目工程

1、日志预处理mr程序工作流定义

${jobTracker}

${nameNode}

mapreduce.job.map.class

cn.itcast.bigdata.hive.mr.WeblogPreProcess$WeblogPreProcessMapper

mapreduce.job.output.key.class

org.apache.hadoop.io.Text

mapreduce.job.output.value.class

org.apache.hadoop.io.NullWritable

mapreduce.input.fileinputformat.inputdir

${inpath}

mapreduce.output.fileoutputformat.outputdir

${outpath}

mapred.mapper.new-api

true

mapred.reducer.new-api

true

2、数据加载etl工作流定义：

${jobTracker}

${nameNode}

mapred.job.queue.name

${queueName}

jdbc:hive2://hdp-node-01:10000

input=/weblog/outpre2

Hive2 (Beeline) action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]

3、数据加载工作流所用hive脚本：

create database if not exists dw_weblog;

use dw_weblog;

drop table if exists t_orgin_weblog;

create table t_orgin_weblog(valid string,remote_addr string,

remote_user string,

time_local string,

request string,

status string,

body_bytes_sent string,

http_referer string,

http_user_agent string)

row format delimited

fields terminated by '\001';

load data inpath '/weblog/preout' overwrite into table t_orgin_weblog;

drop table if exists t_ods_detail_tmp_referurl;

create table t_ods_detail_tmp_referurl as

SELECT a.*,b.*

FROM t_orgin_weblog a

LATERAL VIEW parse_url_tuple(regexp_replace(http_referer, "\"", ""), 'HOST', 'PATH','QUERY', 'QUERY:id') b as host, path, query, query_id;

drop table if exists t_ods_detail;

create table t_ods_detail as

select b.*,substring(time_local,0,11) as daystr,

substring(time_local,13) as tmstr,

substring(time_local,4,3) as month,

substring(time_local,0,2) as day,

substring(time_local,13,2) as hour

from t_ods_detail_tmp_referurl b;

drop table t_ods_detail_prt;

create table t_ods_detail_prt(

valid string,

remote_addr string,

remote_user string,

time_local string,

request string,

status string,

body_bytes_sent string,

http_referer string,

http_user_agent string,

host string,

path string,

query string,

query_id string,

daystr string,

tmstr string,

month string,

day string,

hour string)

partitioned by (mm string,dd string);

insert into table t_ods_detail_prt partition(mm='Sep',dd='18')

select * from t_ods_detail where daystr='18/Sep/2013';

insert into table t_ods_detail_prt partition(mm='Sep',dd='19')

select * from t_ods_detail where daystr='19/Sep/2013';

更多工作流及hql脚本定义详见项目工程

工作流单元测试

1、工作流定义配置上传

[hadoop@hdp-node-01 wf-oozie]$ hadoop fs -put hive2-etl /user/hadoop/oozie/myapps/

[hadoop@hdp-node-01 wf-oozie]$ hadoop fs -put hive2-dw /user/hadoop/oozie/myapps/

[hadoop@hdp-node-01 wf-oozie]$ ll

total 12

drwxrwxr-x. 2 hadoop hadoop 4096 Nov 23 16:32 hive2-dw

drwxrwxr-x. 2 hadoop hadoop 4096 Nov 23 16:32 hive2-etl

drwxrwxr-x. 3 hadoop hadoop 4096 Nov 23 11:24 weblog

[hadoop@hdp-node-01 wf-oozie]$ export OOZIE_URL=http://localhost:11000/oozie

2、工作流单元提交启动

oozie job -D inpath=/weblog/input -D outpath=/weblog/outpre -config weblog/job.properties -run

启动etl的hive工作流

oozie job -config hive2-etl/job.properties -run

启动pvs统计的hive工作流

oozie job -config hive2-dw/job.properties -run

3、工作流coordinator配置（片段）

多个工作流job用coordinator组织协调：

[hadoop@hdp-node-01 hive2-etl]$ ll

total 28

-rw-rw-r--. 1 hadoop hadoop 265 Nov 13 16:39 config-default.xml

-rw-rw-r--. 1 hadoop hadoop 512 Nov 26 16:43 coordinator.xml

-rw-rw-r--. 1 hadoop hadoop 382 Nov 26 16:49 job.properties

drwxrwxr-x. 2 hadoop hadoop 4096 Nov 27 11:26 lib

-rw-rw-r--. 1 hadoop hadoop 1910 Nov 23 17:49 script.q

-rw-rw-r--. 1 hadoop hadoop 687 Nov 23 16:32 workflow.xml

config-default.xml

jobTracker

hdp-node-01:8032

nameNode

hdfs://hdp-node-01:9000

queueName

default

job.properties

user.name=hadoop

oozie.use.system.libpath=true

oozie.libpath=hdfs://hdp-node-01:9000/user/hadoop/share/lib

oozie.wf.application.path=hdfs://hdp-node-01:9000/user/hadoop/oozie/myapps/hive2-etl/

workflow.xml

${jobTracker}

${nameNode}

mapred.job.queue.name

${queueName}

jdbc:hive2://hdp-node-01:10000

input=/weblog/outpre2

Hive2 (Beeline) action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]

coordinator.xml

${workflowAppUri}

jobTracker

${jobTracker}

nameNode

${nameNode}

queueName

${queueName}

10 模块开发——数据展示

在企业的数据分析系统中，前端展现工具有很多，代码使用常见的springmvc的项目，此处仅做介绍，有兴趣的可以自己写一个项目，仅作展示使用。

独立部署专门系统的方式：以Business Objects(BO,Crystal Report),Heperion(Brio),Cognos等国外产品为代表的，它们的服务器是单独部署的，与应用程序之间通过某种协议沟通信息
有WEB程序展现方式：通过独立的或者嵌入式的java web系统来读取报表统计结果，以网页的形式对结果进行展现，如，100%纯Java的润乾报表

本日志分析项目采用自己开发web程序展现的方式：

Web展现程序采用的技术框架：

Jquery + Echarts + springmvc + spring + mybatis + mysql

展现的流程：

使用ssh从mysql中读取要展现的数据
使用json格式将读取到的数据返回给页面
在页面上用echarts对json解析并形成图标

Web程序工程结构

采用maven管理工程，引入SSH框架依赖及jquery+echarts的js库

Web程序的实现代码

采用典型的MVC架构实现

页面	HTML + JQUERY + ECHARTS
Controller	SpringMVC
Service	Service
DAO	Mybatis
数据库	Mysql

代码示例：ChartServiceImpl

@Service("chartService")

public class ChartServiceImpl implements IChartService {

@Autowired

IEchartsDao iEchartsDao;

public EchartsData getChartsData() {

List xAxiesList = iEchartsDao.getXAxiesList("");

List pointsDataList = iEchartsDao.getPointsDataList("");

EchartsData data = new EchartsData();

ToolBox toolBox = EchartsOptionUtil.getToolBox();

Serie serie = EchartsOptionUtil.getSerie(pointsDataList);

ArrayList series = new ArrayList();

series.add(serie);

List xAxis = EchartsOptionUtil.getXAxis(xAxiesList);

List yAxis = EchartsOptionUtil.getYAxis();

HashMap title = new HashMap();

title.put("text", "pvs");

title.put("subtext", "超级pvs");

HashMap tooltip = new HashMap();

tooltip.put("trigger", "axis");

HashMap legend = new HashMap();

legend.put("data", new String[]{"pv统计"});

data.setTitle(title);

data.setTooltip(tooltip);

data.setLegend(legend);

data.setToolbox(toolBox);

data.setCalculable(true);

data.setxAxis(xAxis);

data.setyAxis(yAxis);

data.setSeries(series);

return data;}

public List> getGaiKuangList(String date) throws ParseException{

HashMap gaiKuangToday = iEchartsDao.getGaiKuang(date);

SimpleDateFormat sf = new SimpleDateFormat("MMdd");

Date parse = sf.parse(date);

Calendar calendar = Calendar.getInstance();

calendar.setTime(parse);

calendar.add(Calendar.DAY_OF_MONTH, -1);

Date before = calendar.getTime();

String beforeString = sf.format(before);

System.out.println(beforeString);

HashMap gaiKuangBefore = iEchartsDao.getGaiKuang(beforeString);

ArrayList> gaiKuangList = new ArrayList>();

gaiKuangList.add(gaiKuangToday);

gaiKuangList.add(gaiKuangBefore);

return gaiKuangList; }

public static void main(String[] args) {

ChartServiceImpl chartServiceImpl = new ChartServiceImpl();

EchartsData chartsData = chartServiceImpl.getChartsData();

Gson gson = new Gson();

String json = gson.toJson(chartsData);

System.out.println(json);

}

Web程序的展现效果

网站概况

流量分析

来源分析

访客分析

Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
如何在Windows系统下使用Dockerfile构建Docker镜像：完整指南 996蹲坑 windows docker 容器
前言Docker作为当前最流行的容器化技术，已经成为开发、测试和运维的必备工具。本文将详细介绍在Windows系统下使用Dockerfile构建Docker镜像的完整流程，包括两种镜像构建方式的对比、Dockerfile核心指令详解、实战案例演示以及Windows系统下的特殊注意事项。一、Docker镜像构建的两种方式1.容器转为镜像（不推荐）这种方式适合临时保存容器状态，但不适合生产环境使用：#
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
HIVE（二） 2301_78012738 hive 数据仓库
目录访问HIVE的三种方式DDLDML数据操作向表中装载数据数据导出常用函数Like和RLike分组Join排序分区表和分桶表访问HIVE的三种方式启动Hive命令，CtrlC退出客户端，执行测试语句，与sql一致[wyc@hadoop102hive]$bin/hive经验小结：在hive中执行语句报错：ExecutionError,returncode2fromorg.apache.hadoop
OpenCV入门到精通：从基础到实战的全面指南
摘要：本文旨在为初学者和有一定经验的开发者提供OpenCV从入门到精通的全面指南。文章首先介绍了OpenCV的基本概念和安装方法，然后深入讲解了图像处理基础、特征检测与匹配、视频处理与分析等核心内容，最后通过实战案例展示了OpenCV在计算机视觉任务中的应用。关键词：OpenCV；图像处理；特征检测；视频分析；实战案例引言OpenCV（OpenSourceComputerVisionLibrary
多模态模型在RagFlow中的创新应用与实战案例 AGI大模型老王人工智能 DeepSeek 产品经理学习 AI 大模型大模型教学
在RagFlow的最新版本中（0.19.0）中，为了提升对文档中各类图片的解析效果，也尝试引入了多模态模型（image2text）对图片内容进行增强解析。我们来详细分析一下相关的过程。首先需要在当前租户下配置一个image2text的模型（这里有个坑，后面会讲到），在RagFlow的文档解析过程中主要有三个场景使用到这个image2text模型，我们一一来看下：PDF文档内容提取如果配置了imag
探索 Golang 与 Docker 集成的无限可能 Golang编程笔记 golang docker 开发语言 ai
探索Golang与Docker集成的无限可能关键词：Golang、Docker、容器化、微服务、云原生、镜像优化、CI/CD摘要：本文将带你走进Golang与Docker集成的奇妙世界。我们会从“为什么需要这对组合”讲起，用生活故事类比核心概念，拆解Go静态编译与Docker容器化的“天作之合”，通过实战案例演示如何用Docker高效打包Go应用，并探讨它们在云原生时代的无限可能。无论你是Go开发
网络安全核心技术解析：权限提升（Privilege Escalation）攻防全景
引言在网络安全攻防对抗中，权限提升（PrivilegeEscalation）是攻击链条中关键的「破局点」。攻击者通过突破系统权限壁垒，往往能以有限权限为跳板，最终掌控整个系统控制权。本文将从攻击原理、技术路径、实战案例到防御体系，全方位解析这一网络空间的「钥匙窃取」艺术。一、权限提升的本质与分类1.1核心定义权限提升指攻击者通过技术手段，将当前运行进程或用户的权限等级突破系统预设的访问控制机制，获
安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
95%程序员不知道的JVM调优技巧：让GC时间从2秒降到50ms的实战案例小筱在线 jvm 测试工具
前言：为什么JVM调优如此重要？在现代Java应用开发中，JVM调优是提升应用性能的关键环节。一个经过精心调优的JVM可以显著减少垃圾回收(GC)停顿时间，提高吞吐量，从而为用户提供更流畅的体验。本文将分享一个真实案例，展示如何通过系统化的调优方法，将GC时间从2秒降低到50ms，提升近40倍的性能表现。第一章：理解JVM内存结构与GC机制1.1JVM内存结构详解（JDK1.8）Java虚拟机内存
深入浅出 Python Asynchronous I/O：从 asyncio 入门到实战
在现代软件开发中，性能是一个永恒的话题。特别是在处理网络请求、文件读写等I/O密集型任务时，传统的同步编程模型可能会因为等待而浪费大量时间。为了解决这个问题，异步编程应运而生。Python通过内置的asyncio库，为开发者提供了强大而优雅的异步编程能力。[1][2]本文将带你从零开始，逐步深入asyncio的世界，理解其核心概念，并最终通过实战案例掌握其用法。1.什么是异步编程？为什么要用它？想
HarmonyOS从入门到精通：动画设计与实现之二 - 属性动画深度实践与场景落地
属性动画作为鸿蒙系统中最基础也最常用的动画类型，其核心价值在于通过属性值的渐进式变化实现流畅的视觉过渡。相比其他动画类型，属性动画具有接入成本低、适用范围广、与业务逻辑耦合度低等优势，是开发者打造生动界面的首选工具。本文将从基础原理出发，通过实战案例详解属性动画的进阶用法、性能优化及典型场景落地，帮助开发者掌握属性动画的核心技巧。一、属性动画的工作原理与核心特性属性动画的本质是**“数据驱动视觉变
万字长文详解YOLOv8 yaml 文件，结合模型输出的网络结构图分析Parameters /backbone/head以及三者的数学关联 YOLO大师 YOLO 论文阅读
YOLO目标检测创新改进与实战案例专栏专栏目录：YOLO有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLO基础解析+创新改进+实战案例之前写过一篇YOLOv8yaml配置文件逐层的解析：结合YOLOv8源码逐层解读yaml文件的配置，本文主要从整体的角度去解析yaml。YOLOv8模型YOLOv8提供了非常多的模型，详见：https:
Java编程从入门到精通：全栈学习路径与实战案例指南 AI编程员 001AI传统＆编程语言 002AI编程工具汇总 003AI编程作品汇总人工智能深度学习 AI编程知识图谱需求分析
Java编程从入门到精通：全栈学习路径与实战案例指南一、入门基础：环境搭建与核心语法1.1开发环境配置（2025最新版）JDK17LTS：长期支持版本，提供模块化系统（JPMS）和文本块等新特性开发工具：IntelliJIDEA（智能代码补全）或VSCode+Java扩展包环境验证：java-version#输出：openjdk17.0.101.2基础语法精要数据类型与运算符：//文本块（Java
Python协程深度解析：与生成器的差异与实战应用清水白石008 Python题库 python 开发语言 python 服务器前端
Python协程深度解析：与生成器的差异与实战应用一、引言在Python编程领域，协程（Coroutines）和生成器（Generators）是两个非常重要的概念。虽然它们在某些方面相似，但各自拥有独特的用途和特性。本文将深入探讨Python协程的基本概念、特性以及它们与生成器之间的区别，并通过实战案例展示协程的实用性。二、协程的概念与特性2.1协程的定义协程是一种用户态的轻量级线程，它允许程序在
用Python的Chartify库，商业数据可视化效率提升13倍！忆愿 Python编程的脉动之声 python opencv 人工智能计算机视觉深度学习神经网络机器学习
文章目录为啥要用Chartify？安装那些事儿从零开始画图基础柱状图进阶折线图散点图与气泡图专业数据分析必备技能多维度分析时间序列分析高级可视化技巧自定义主题交互式特性批量图表生成性能优化技巧大数据集处理内存优化实战案例：销售数据分析系统数据可视化这事儿，搞过的都知道有多费劲。用matplotlib画个图要调半天参数，才能让图表看起来稍微顺眼一点；seaborn虽然画出来的图确实好看，但是配置项太
HarmonyOS UIAbility组件间交互：解锁鸿蒙应用开发的秘密通道大雨淅淅 #HarmonyOS开发 harmonyos 交互华为
目录一、引言：HarmonyOS的奇妙世界二、UIAbility组件：基础入门（一）什么是UIAbility组件（二）UIAbility组件的结构与特点三、交互方式大揭秘（一）应用内UIAbility的启动与参数传递（二）启动并获取返回结果（三）不同模块UIAbility的拉起（四）通过EventHub实现交互（HarmonyOSNEXT）四、实战案例：打造支付功能（一）场景设定（二）具体实现步骤
量化价值投资中的深度学习技术：TensorFlow实战
量化价值投资中的深度学习技术：TensorFlow实战关键词：量化价值投资,深度学习,TensorFlow,股票预测,因子模型,LSTM神经网络,量化策略摘要：本文将带你走进"量化价值投资"与"深度学习"的交叉地带，用小学生都能听懂的语言解释复杂概念，再通过手把手的TensorFlow实战案例，教你如何用AI技术挖掘股票市场中的价值宝藏。我们会从传统价值投资的痛点出发，揭示深度学习如何像"超级分析
Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
心理健康语音分析AI模型：开启心理评估新时代 AI大模型应用实战人工智能语音识别 ai
心理健康语音分析AI模型：开启心理评估新时代关键词：心理健康评估、语音信号处理、情感计算、AI模型、多模态融合摘要：传统心理评估依赖量表问卷和人工观察，存在主观性强、效率低、难以实时监测等局限。本文将带您走进“心理健康语音分析AI模型”的世界，从基础概念到核心技术，从算法原理到实战案例，揭秘AI如何通过“听声音”读懂心理状态，开启心理评估的智能化新时代。背景介绍目的和范围心理健康问题已成为全球公共
Python 领域 pytest 的测试用例的可维护性设计
Python领域pytest的测试用例的可维护性设计关键词：pytest、测试用例、可维护性、测试框架、自动化测试、测试设计模式、重构摘要：本文深入探讨了如何在Python测试框架pytest中设计可维护的测试用例。我们将从测试用例可维护性的核心原则出发，分析pytest的特性和最佳实践，介绍多种提高测试代码可维护性的设计模式和技巧。文章包含实际代码示例、项目实战案例以及可维护性评估指标，帮助开发
深入企业内部的MCP知识（二）：FastMCP客户端三大核心能力深度解析：资源、工具与提示的全场景实践炼丹上岸大模型 #MCP microsoft 人工智能 python 交互 mcp
引言：MCP协议交互的“三驾马车”在ModelContextProtocol（MCP）的技术生态中，资源（Resources）、工具（Tools）与提示（Prompts）构成了客户端与服务器交互的核心支柱。FastMCP通过统一的API设计，将这三者转化为可直接调用的编程接口，既隐藏了底层协议的复杂性，又保留了高度的灵活性。本文将从技术原理、实战案例到性能优化，系统拆解这三大能力的使用方法与协同逻
Multisim示波器使用指南：从入门到精通（电路调试必看） matrixmind8 其他
文章目录前言一、示波器位置速查二、基础操作四步法1.设备连接（关键！）2.参数设置（图解版）3.运行秘籍4.波形测量（必杀技）三、实战案例：RC滤波电路调试调试步骤：实测数据对比表：四、高手都在用的隐藏功能避坑指南结语前言作为电子仿真界的扛把子（划重点），Multisim里的虚拟示波器简直是调试电路的灵魂伴侣！但很多萌新第一次打开软件时，看着满屏的按钮和波形图直接懵圈（别问我怎么知道的）。今天我们
基于python的api扫描器系统的设计与实现
博主介绍：✌在职Java研发工程师、专注于程序设计、源码分享、技术交流、专注于Java技术领域和毕业设计✌温馨提示：文末有CSDN平台官方提供的老师Wechat/QQ名片:)Java精品实战案例《700套》2025最新毕业设计选题推荐：最热的500个选题o(￣▽￣)ｄ介绍在当今数字化社会，网络安全问题日益突出，为了有效识别和防范网络威胁，开发一款全面的Web应用渗透测试系统至关重要。本研究基于Py
嵌入式C语言中void*的妙用与实战隐身模式 C/C++c语言开发语言
嵌入式C语言中void*的工程应用详解在嵌入式开发中，void*指针无处不在，理解它的使用场景和注意事项，是写好通用接口和系统模块的关键。目录嵌入式C语言中`void*`的工程应用详解✳️一、什么是`void*`二、典型应用场景1.通用参数传递2.通用回调机制3.通用数据结构（链表、队列）4.封装模块接口（如SDK、HAL）⚠️三、使用`void*`的注意事项✅建议实践：四、实战案例：事件处理机制
Docker快速构建Hive测试环境静谧星光 docker hive 容器编程
Docker是一种流行的容器化平台，可以帮助我们快速构建和管理应用程序的环境。在本文中，我们将学习如何使用Docker快速构建Hive测试环境。Hive是一个基于Hadoop的数据仓库基础设施，它提供了一种类似于SQL的查询语言，用于分析和处理大规模数据集。步骤1：安装Docker和DockerCompose首先，我们需要安装Docker和DockerCompose。您可以根据您的操作系统类型，从
HDFS 伪分布模式搭建与使用全攻略（适合初学者 & 开发测试环境） huihui450 hdfs hadoop 大数据
HDFS（HadoopDistributedFileSystem）作为Hadoop生态系统的核心组件，广泛应用于海量数据的分布式存储场景。对于开发者而言，伪分布模式提供了一种低成本、高还原度的学习与测试方式。本文将详细介绍如何在本地搭建并使用HDFS的伪分布模式，包括环境准备、配置过程、常用命令及常见问题排查，帮助你快速入门Hadoop分布式文件系统的实践操作。一、什么是伪分布模式？Hadoop有
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，

实战演习（二）——网站点击流数据分析

网站点击流数据分析，业务知识，推荐书籍：

1.1 什么是点击流数据

1.1.1 WEB访问日志

1.1.2 点击流数据模型

1.2网站流量数据分析的意义

1.3 如何进行网站流量分析

1.3.1 流量分析模型举例

1.3.2 流量分析常见指标

2 整体技术流程及架构

2.1 数据处理流程

2.2 项目结构

2.3 数据展现

3 模块开发——数据采集

3.1 需求

3.2 技术选型

3.3 Flume日志采集系统搭建

4 模块开发——数据预处理

4.1 主要目的：

4.2 实现方式：

4.3 点击流模型数据梳理

4.3.1 点击流模型pageviews表

4.3.2 点击流模型visit信息表

5 模块开发——数据仓库设计

5.1 事实表

5.2 维度表

6 模块开发——ETL

6.1创建原始数据表

6.2导入数据

6.3 生成ODS层明细宽表

6.3.1 需求概述

6.3.2 ETL实现

7 模块开发——统计分析

1.1 多维度统计PV总量

1.2 人均浏览页数

1.3 按referer维度统计pv总量

1.4 统计pv总量最大的来源TOPN

3.1 独立访客

3.2 每日新访客

4.2 回头/单次访客统计

4.3 人均访问频次

5. Visit分析另一种实现方式

5.1 mr程序识别出访客的每次访问

5.2 将mr结果导入访客访问信息表 "t_display_access_info"

5.3 回头/单次访客统计

5.4 人均访问频度

6.1 需求分析

6.2 模型设计

6.3 开发实现

8 模块开发——结果导出

9 模块开发——工作流调度

工作流定义示例

1、日志预处理mr程序工作流定义

2、数据加载etl工作流定义：

3、数据加载工作流所用hive脚本：

工作流单元测试

1、工作流定义配置上传

2、工作流单元提交启动

3、工作流coordinator配置（片段）

10 模块开发——数据展示

Web程序工程结构

Web程序的实现代码

Web程序的展现效果

网站概况

流量分析

来源分析

访客分析

你可能感兴趣的:(实战案例,网站分析,hadoop,网站分析)