大数据应用概览(林子雨慕课课程)

文章目录

      • 14 大数据应用概览
        • 14.1 大数据应用概览
        • 14.2 大数据在互联网的应用—推荐系统
          • 14.2.1 推荐系统概述
          • 14.2.2 基于用户的协同过滤算法(UserCF)
          • 14.2.3 基于物品的协同过滤(ItemCF)
          • 14.2.4 UserCF算法和ItemCF算法的对比
        • 14.3 基于大数据的综合健康服务平台

14 大数据应用概览

14.1 大数据应用概览
  • 大数据的主要应用领域

    大数据应用概览(林子雨慕课课程)_第1张图片

    • 互联网:推荐系统
    • 生物医学领域:流行病预测、智慧医疗、生物信息学
    • 物流:智能物流、中国智能物流骨干网—菜鸟
    • 城市管理:智能交通、环保检测、城市规划、安防领域
    • 金融行业:高频交易、市场情绪分析、信贷风险分析
    • 汽车行业:无人驾驶汽车
    • 零售行业:发现关联购买行为、客户群体细分
    • 餐饮行业:餐饮O2O
    • 电信行业:电信客户离网分析
    • 能源行业:智能电网
    • 体育娱乐行业:投拍影视作品,训练球队、预测比赛结果
    • 安全领域:防御网络攻击、预防罪犯
    • 政府领域:选择
14.2 大数据在互联网的应用—推荐系统
14.2.1 推荐系统概述
  • 什么是推荐系统?

    大数据应用概览(林子雨慕课课程)_第2张图片

  • 推荐系统可以创造全新的商业和经济模式,帮助实现长尾商品的销售

    • 长尾理论:冷门商品累计的总销售额也许会超过热门商品

      大数据应用概览(林子雨慕课课程)_第3张图片

  • 推荐方法

    • 专家推荐
    • 基于统计的推荐
    • 基于内容的推荐
    • 协同过滤推荐:通过与用户A相似的用户B对商品的评价,从而推导出用户A是否喜欢这个商品
    • 混合推荐:多种推荐算法组合
  • 推荐系统模型

    大数据应用概览(林子雨慕课课程)_第4张图片

  • 推荐系统的应用

    大数据应用概览(林子雨慕课课程)_第5张图片

14.2.2 基于用户的协同过滤算法(UserCF)
  • 协同过滤分类

    大数据应用概览(林子雨慕课课程)_第6张图片

  • 基于用户的协同过滤算法

    大数据应用概览(林子雨慕课课程)_第7张图片

  • UserCF算法实现主要包括两个步骤

    • 找到和目标用户兴趣相似的用户集合

    • 找到该集合中的用户所喜欢的、且目标用户没有听说过的物品推荐给目标用户

      大数据应用概览(林子雨慕课课程)_第8张图片

  • 衡量不同用户相似的算法

    • 泊松相关系数

    • 余弦相似度

      大数据应用概览(林子雨慕课课程)_第9张图片

      • 由于很多用户相互之间并没有对同样的物品产生过行为,因此相似度公式的分子为0,相似度也为0

      • 因此利用用户倒排表可以只对有交集的用户进行计算

        根据图b,可以获得图c的相似度矩阵,若a和c喜欢相同的物品A和C,就在a和c对应的相似度矩阵上+2,(a,c)=(c,a)=2

        大数据应用概览(林子雨慕课课程)_第10张图片

    • 调整余弦相似度

  • 得到相似度后,计算用户u对用物品i的兴趣程度

    大数据应用概览(林子雨慕课课程)_第11张图片

    大数据应用概览(林子雨慕课课程)_第12张图片

14.2.3 基于物品的协同过滤(ItemCF)
  • 基于物品的协同过滤算法

    大数据应用概览(林子雨慕课课程)_第13张图片

  • 基于物品的协同过滤算法步骤

    • 计算物品之间的相似度
    • 根据物品的相似度和用户的历史行为,给用户生成推荐列表

    大数据应用概览(林子雨慕课课程)_第14张图片

  • 如何计算物品之间的相似度?

    • (b)物品相似度矩阵:每个用户对于其购买的商品都生成了一个相似度矩阵,因此有3个矩阵,分表表示a,b,c三个用户
    • 将b中的三个相似度矩阵累加,得到图c的相似度矩阵

    大数据应用概览(林子雨慕课课程)_第15张图片

  • 如何求用户u对物品j的兴趣程度?

    大数据应用概览(林子雨慕课课程)_第16张图片

14.2.4 UserCF算法和ItemCF算法的对比

大数据应用概览(林子雨慕课课程)_第17张图片

  • UserCF算法:适合应用于新闻推荐、微博话题推荐等应用场景,其推荐结果在新颖性方面有一定的优势
    • 缺点:随着用户数目的增大,用户相似度计算复杂度越来越高。而且UserCf推荐结果相关性较弱,难以对推荐结果作出解释,容易受大众影响而推荐热门物品
  • ItemCF算法:适合应用于电子商务、电影、图书等应用场景,可以利用用户的历史行为给推荐结果作出解释、让用户更为信服推荐的结果
    • 缺点:倾向于推荐与用户已购买商品相似的商品,往往会出现多样性不足,推荐新颖度低的问题
14.3 基于大数据的综合健康服务平台
  • 目标

    大数据应用概览(林子雨慕课课程)_第18张图片

  • 整体结构

    大数据应用概览(林子雨慕课课程)_第19张图片

  • 大数据在物流方面的应用

    大数据应用概览(林子雨慕课课程)_第20张图片

    大数据应用概览(林子雨慕课课程)_第21张图片

    • 阿里物流体系

      大数据应用概览(林子雨慕课课程)_第22张图片

你可能感兴趣的:(大数据应用,hadoop,大数据)