关联分析

商品间相关性分析

三个关键性指标:支持度(Support)、置信度(Confidence)、提高度(Lift)
在进行研究时,以支持度、置信度作为主要商品相关性分析指标,以提高度来说明关联关系。

  • 支持度
    支持某一事件发生的概率,表示商品A和商品B同时出现在购物篮中的概率
    S(A->B) = N(A & B) / N
    N为发生总次数
  • 置信度
    特定命题令人信服的水平,条件概率
    C(A->B) = N(A & B) / N(A)
    商品A对商品B的置信度
    如果商品A对商品B的置信度水平高,代表购买商品A的顾客很可能会再购买B商品这种特定事件出现的可能性就很高。
  • 提高度
    表征商品之间的亲密关系,也称兴趣度,反映了商品A的出现对于商品B被购买的影响程度。
    L(A->B) = C(A->B) / S(B)
    = P(A&B) / [P(A) * P(B)]
    如果A对B的提高率等于1,则说明顾客对于商品A和商品B的购买行为是完全独立的。
    如果A对B的提高率大于1,则表明商品A和商品B的购买行为之间是正相关的,数值越大,关联性越强。
    如果A对B的提高率小于1,则表明商品A和商品B的购买行为之间是互斥关系,即购买商品A会减弱购买商品B的意愿。

推荐算法

推荐系统的任务就在于联系用户和信息,一方面帮助用户发现对自己有价值的信息,而另一方面让信息能够展现在对它感兴趣的人群中,从而实现信息提供商和用户的双赢。

  • 基于人口统计学的推荐算法
    只是简单地根据系统用户的基本信息发现用户的相关程度,然后将相似用户喜爱的其它物品推荐给当前用户。
  • 基于内容的推荐 Contented-based
    建立在项目的内容信息上做出推荐,更多地运用机器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。
    基于内容的推荐和基于人口统计学的推荐有类似的地方,只不过系统评估的中心转到了物品本身,使用物品本身的相似度而不是用户的相似度来进行推荐。
  • 基于协同过滤的推荐 Collaborative Filtering
    一般采用最近邻技术,利用用户的历史喜好信息计算用户之间的距离,然后利用目标用户的最近邻居用户对商品的评价的加权评价值来预测目标用户对商品的喜好程度,从而根据这一喜好程度对目标用户进行推荐。
  • 基于关联规则的推荐 Association Rule-based
    以关联规则为基础,把已购商品作为规则头,推荐对象作为规则体。关联规则挖掘可以发现不同商品在销售过程中相关性。

标签的运用

标签可以理解为一种无层次化结构的、用来描述信息的关键词,它可以用来准确描述物品的语义。
标签的作用就是可以让人们对某一条目进行标注,如添加词语以及短语。CiteULike是一个著名的论文书签网站,它允许研究人员提交或者收藏他们感兴趣的论文,并给论文打标签,从而帮助用户更好地发现和自己研究领域相关的优秀论文。

你可能感兴趣的:(关联分析)