电商大数据分析模块的设计和概念

一、架构选型

    a. 数据量多少
    b. 业务对统计结果反馈时间是否严格 时效性是否非常高

二、离线数据分析范围

    适用于对统计过反馈时间不是那么严格的场景 eg:网站的运营数据指标
    技术类型
        a. 早期 主要编写hadoop的mapreduce
        b. 现在 感觉采用基于mapreduce实现的hive 进行分析
        c. 目前也开始采用基于内存的技术框架spark(spark core spark sql)

三、实时数据分析范围

  适用于数据时效短、要求结果立即反馈的场景,尤其是那种能够立即反映到业务系统
  eg:推荐系统
      技术类型:
        a. 主流基于storm 实现的数据分析平台
        b. 后起基于spark streaming(Flink) 实现微实时数据分析平台

四、离线分析和实时分析到底有什么关系

   离线数据分析 一般都是将数据汇总然后进行分析(先有大量的数据 然后才能分析)
   实时数据分析 数据产生 就进行分析
   eg:
     交通违章检测(智慧交通)
     摄像头每拍摄一次,后台数据分析系统就会处理一次
     一旦检测有违章行为,就会将相应的车辆信息发送到报警系统
     报警系统进行罚单发送
    离线数据分析与实时数据分析两者相结合 
    实时分析立即反馈结果
    离线分析对时间跨度较大或者数据量较大的数据进行分析 进而校正实时分析结果

五、电商项目数据分析平台

   针对用户人群:
   电商用户
目标:
   a.为leader 提供数据 来了解网站运营情况
   b.为 PM 提供修改网站的数据参考
   c.为 运营人员提供潜在的促销商机
数据来源:
    服务器数据
        日志数据
            业务先关的日志数据
                ==> 用户操作行为记录 eg:浏览 点击 放入购物车
                ==> 用户画像 用户基本属性 + 用户操作行为记录(行为方式)
            业务系统运行情况信息 CPU 使用率 内存使用
                ==> 运维部分 系统优化
    业务数据
    用户行为数据
    爬虫数据
    购买外部数据(不涉及违法)

六、整体流程

  数据采集--->数据存储--->数据清洗与过滤(数据整合 非常耗时)-->数据分析处理--->数据可视化&结果展示(

七、大数据的应用

https://www.talkingdata.com
百度统计,由盟统计

适合行业:
 电商、旅游 游戏 金融 等依赖用户行为

市场产品:
    百度统计、友盟统计

搭建大数据平台好处与优势:
    a. 避免数据泄露风险
    b. 容易扩展后期的业务 用户画像 用户推荐
    c. 定制化开发

八、主要概念

电商模块核心关注点
    a.购买率
    b.订单数量
    c.会员数量
    d.用户数量
用户:
    访问网站的非登录客户
    区分用户方式
    PC端/web移动端:
        1)、采用IP地址来区分用户
            问题: 由于会由于一些技术代理等问题导致多个用户共用一个IP地址?
        2)、采用客户端种植cookie 方式
            用户第一次访问网站的时候 产生一个UUID存放到cookie 中 
            更加细化 对于数据的准确性和精准性更加有效,增加数据收集的复杂性

    移动端:
        1)、采用手机固定的机器码识别码 由于刷机  wifi 未使用导致未空或者多个用户对应一个值
        2)、同上面cookie

会员:
  就是指业务系统注册的用户 也就是已经登录的用户(访客),此时用业务系统生成唯一的UMID 来表标识

会话:
 用户进入系统到用户完全离开系统这段时间被称为一次会话
 这个过程中所花费的时间长度就是会话时长 
 定义会话范围:
     PC端/web移动端
         最大的时间间隔为6分钟 超过6分钟就算一个新的会员

     移动端:
         根据 android、ios 的等移动端APP的 session 来定义
     涉及的分析指标/分析项
 会话次数:      计算sessionId的个数
 会员时长:   相同的session 最大的访问时间--最小的访问时间
 会话跳出率: 一次会话过程中只访问一次的会话占会话总数量的比率

 跳出率: 离开系统的行为
     a.会话跳出率
         在一个会话中只进行一个用户动作的会话数量占总会话的百分率
         一般作为一个系统的整体跳出率展示 用来判断系统整体的用户友好性
     b.页面跳出率
     从该页面离开的用数量占访问页面数量的总百分比
     有的时候会将多个页面作为一组页面来计算 一般用来判断系统具体页面的用户友好性
网站常见分析指标:
PV(page view):
    网页浏览数 用户每次对网站的每个页面的访问 均被记录一次 (访问次数累加)
UV(unique view):
    一个用户的多次访问 操作记录只算作一次
独立IP:
    访问系统的IP数量数量辅助 UV 来进行数据展示
    为什么要选择UV 而不选择独立IP数量?
    UV更加能够反映网站的访问情况
    IP地址在某些情况下 会出现多个用户共享一个IP地址的情况 比如NAT 代理访问 拨号上网等 
    一般而言 IP数量 < UV数量
DV(depth view):
    用户访问深度:
        一般统计各个不同深度的用户数量、会话数量、会话长度指标
        反映一个网站是否对用户有吸引力 是否有用户的关注内容 
        提供DV的值能够提高用户访问网站的粘性,结合页面跳出率 
        能够更好的提升用户系统的友好性
外链:
    当用户通过第三方的外部系统进入到我们的系统 此时称第三方的外部系统为外链
    涉及分析指标/分析项:
        1)、外链带来的访客数量
        2)、外链带来的会话数量
        3)、外链带来的新访客转化会员率
        4)、外链跳出率

以上都是我们数据分析的指标  只有结合维度信息才更加有意义
=======================================================
分析维度:
    时间维度: 年、月、日、时、分、秒、周、季度
    平台维度: PC端、android端、iOS 端、后台系统等
    渠道维度: PC端访问来源 、 移动端网络运营商
    浏览器维度:    浏览器类型 & 浏览器版本
    操作系统维度:   操作系统类型 & 操作系统版本
    地域维度: 国家、省份、市(物流 物流本地化:基于地域维度分析用户的购买情况,预测不同地域的商品未来的销售情况,根据预测情况提前将货物发到对应的区域)
    系统版本: 比如V1,V2等等 一般用于版本之间的效果比对
==================================================================
最终功能构成:
  离线数据分析平台
      1、用户基本分析模块(基于时间和平台分析)
      2、浏览器分析模块(基于时间 平台 浏览器)
      3、地域分析模块
      4、外链分析模块
      5、用户浏览深度分析模块
      6、站内搜索事件分析 
          eg:
           下订单事件
           浏览点击商店--->放入购物车--->结算--->订单支付
      7、订单分析模块(hourly 分析 以小时为时间维度 分析 每个用户数量、会员数量等)

你可能感兴趣的:(云计算/大数据)