《大数据之路》阅读笔记--数据采集

数据采集

浏览器页面日志采集

浏览器页面采集主要包括页面浏览日志采集以及页面交互日志采集两部分。页面浏览日志主要包括:页面浏览量( Page View, PV )和访客数( Unique Visitors, UV )。

页面浏览日志采集流程

基本思路是在html文档内适当位置增加一个日志采集节点,当浏览器解析到这个节点时,将自动触发一个特定的http请求到日志采集服务器。

页面交互日志采集

主要流程如下:

1、业务方在元数据管理页面依次注册需要采集交互日志的业务、场景以及采集点的位置,系统会生成代码模板。

2、业务方将代码植入目标页面并与交互行为绑定

3、当用户产生相应行为则触发植入的代码

4、采集代码会将相应日志发送至日志服务器,日志服务器做持久化存储。

日志服务器端清洗和预处理

日志服务器记录的数据需要做预处理才能提供给下游:

1、识别流量攻击、网络爬虫和流量作弊。主要方式可采取算法进行识别,归纳过滤规则进行过滤。

2、需要对一些公用切重要的数据项做取值归一、标准化或反向补正。反向补正指用后面采集的数据回补或修订之前的数据,比如用户登录后对登录前的日志补充身份信息。

3、无效数据剔除。主要是业务变更或配置不当产生的无意义、失效或冗余的数据项。

4、日志隔离开发。某些日志在进入公共数据环境前需要做隔离。

无线客户端日志采集

页面事件

页面事件包含三类信息:1、设备及用户的基本信息。2、被访问页面的信息。3、访问基本路径。

页面事件的采集简单来说需要在用户进入页面时开始记录信息,然后离开页面时发送记录的日志信息。

控件点击及其他事件

控件点击事件除了记录基本的页面信息外,还记录了页面名称、控件名称、业务参数等信息。

H5和Native日志统一

APP主要分为Native APP以及带h5页面的Hybrid APP。其中H5页面一般采用浏览器页面的方式进行日志采集。

日志传输

客户端的日志并不是一条一条的上传到服务器的,而是先存储在客户端,然后伺机上传。日志切分的维度一般是天,如果日志数量比较大,还会考虑对日志进行分流。日志到下游是采用的消息队列进行传输。

你可能感兴趣的:(大数据,数据仓库,大数据,big,data)