在分析客户数据之前,我们需要描述客户。 客户的描述性功能通常围绕三类:收入、人口统计和行为。 虽然收入和人口统计数据很容易量化,但客户行为很难定义,因此也很难量化。
客户行为在很大程度上取决于业务类型。 能源使用行为与报纸阅读行为需要不同的指标。 基于订阅的企业与传统零售商店中对企业忠诚度的衡量方式有所不同。 当涉及到在线购物时, 建议用来衡量用户行为的指标数量实在是压倒性的。
我们最终决定购买产品需要多长时间? 我们阅读产品说明需要多长时间? 我们有多少次回到同一个页面以寻找令人信服的购买理由? 我们还探索其他几个产品页面进行比较?
在购买方面,我们并不尽相同。 有冲动的买主,需要在购买前进行深刻思考的买主,需要进行比较以说服的买主,等等。 我们每个人都遵循自己的购买路径,在进行在线购物时更是如此。
点击次数、访问时间、购买次数和相关操作均记录在所有网站上。 如果您只是一个客人,您的行为将被匿名记录。 如果您是已知客户,则会将您的操作与您的用户ID一起记录下来。 无论匿名与否,我们所有人在单击页面之间的方式时都会留下痕迹。
点击流分析是数据科学的一个分支,与收集、汇总和分析来自网站访问者的大量数据有关。 有了这些知识,在线商店可以优化其服务,包括临时广告、有针对性的产品建议、更好的网页布局以及改进的导航选项。
请注意,基于点击流数据聚合的建议和预测取决于购物者的数量,并且无法跟踪单个购物者的行为。 与当前用户(客户)共享类似行为的大量用户(客户)为优化当前用户的体验提供了必要的信息。
在本文中,我们根据已知和匿名客户在网上商店进行的网络访问数据集描述了一些经典的点击流指标,并从这些行为特征中得出了一些结论。
点击流分析背后的整个应用程序都是使用KNIME Analytics Platform实施的。 要开始使用KNIME,请参阅“ 如何将KNIME用于数据科学” 。
图1:用于量化和描述网站客户的功能。通常,网站日志文件包含有关访问日期和时间戳、访问的URL、用户IP地址、用户位置以及可选的用户ID的信息。 对于注册用户,数据将通过个人信息来丰富,例如年龄、性别、位置、家庭状况和兴趣。
在此项目中,我们使用了Hortonworks提供的点击流数据 ,其中包含存储在三个文件中的在线商店网站访问示例。
总而言之,在原始数据中,我们具有用户ID、年龄和性别、页面元数据、时间戳和后续点击。 我们如何使用这些数据来描述访客?
最简单的指标始终是计数:用户总数和对该网站的访问总数。 这些总数是衡量网站受欢迎程度的简便方法。 但是,他们本身并没有告诉我们太多有关客户的信息。
为了进一步了解客户群,我们可以按性别和年龄细分客户。 一般来说,我们网站的访问者几岁? 尤其是某个年龄段的人多久访问一次该网站? 该网站吸引的女性人数多于男性吗? 女人回国的频率比男人高吗?
第二组常用指标围绕时间而变化。 在一天中的特定时间或一周中的某一天,访问次数是否更频繁? 在移至下一页之前,我们要盯着页面多长时间? 在此,按一天中的时间或一周中的某天的平均访问持续时间和访问频率是两个常用指标。
另一组指标与页面内容有关。 使用页面元数据,尤其是它们的分类,某些页面的访问量是否比其他页面更多? 访客在阅读某些页面上花费的时间是否比其他页面多? 是否有没有人访问过的死页? 让我们为单个页面类别自定义以前的基于时间的指标。 平均访问持续时间和按页面类别的访问频率是其他常用指标。 另外,特定页面类别的点击次数是对内容产生的参与度的度量。
最后,导致购买的点击顺序是每个网店所有者都想知道的。 大多数购买者都遵循特殊的点击顺序吗? 非购买者是否有一系列点击? 我可以在网站上走多少路才能到达购买页面?
可以实施许多其他指标来更好地了解您的在线商店的工作方式以及客户群如何发展您的业务。 在本文中,我们将仅引用下表中提到的那些指标。
用户数 |
访问次数 |
时标 |
点击次数 |
|
年龄 |
#个用户 |
#次造访 |
||
性别 |
#个用户 |
#次造访 |
||
页面类别 |
按工作日的#次点击 |
|||
平均造访时间 #按工作日访问 |
||||
购买(是/否) |
#按工作日访问 #按一天中的时间访问 |
点击顺序 过渡概率 |
第一个问题总是关于人口统计的。 人们访问该网页的年龄是多少岁? 该网页吸引的女性人数多于男性吗?
我们定义了四个年龄段:Z世代(24岁或以下)、Y世代(25至39岁)、X世代(40至59岁),最后是婴儿潮一代(55岁以上)。 让我们按年龄段统计用户和访问的数量(图2)。
在四个年龄段中,用户数量和访问数量遵循相似的模式。 客户群主要由Z世代和Y世代组成,这两个群体约占所有访客和所有访问的四分之三。 这反映出总体趋势,即年轻人口人群更倾向于互联网购物。
现在让我们按性别检查相同的指标(图2)。 由于该网站的访问量受到男女的平等访问,并且访问次数方面、男女同等活跃,因此该结果有些无意义。 从这些饼图中,没有暗示针对女性与男性的可能的营销行动。
图2:根据年龄段和性别可视化访问者数量和对网站的访问次数。
现在我们知道,大多数用户年龄都在40岁以下,男女同等活跃。 接下来,我们想探索网页内容对访问者的重要性。 让我们考虑页面类别图中定义的网页类别:
与网页类别一起考虑的另一个参数是星期几。 访客是否在一周中的某些天而不是其他时间更活跃于特定页面? 周末而非工作日在推荐和评论页面上的访问量是否更多?
让我们从图3左侧的图开始,该图显示根据星期几和页面类别的平均访问时间(以分钟为单位)。 在那里,我们看到周末在网站上花费的时间略有增加,这无疑是由于人们在周末有更多时间来收集购买信息。 但是,对于客户评论、视频评论和名人推荐页面、工作日和周末之间的差异最为明显。
图3右侧的堆积面积图显示了按工作日在属于给定类别的页面上的点击次数。 所有页面类别的星期一高峰都很明显。 访客似乎整个星期都在阅读,主要是在周末,而在星期一继续进行更多的探索,甚至购买。
图3:可视化平均访问持续时间(以分钟为单位)以及根据星期几和页面类别的访问次数。与平均访问时长相似,此处最受欢迎的页面是首页和各种产品页面,而最受欢迎的类别是名人推荐。 显然,大多数人并不关心名人在购物时的想法。
到目前为止,我们所知道的是,某些类别比其他类别更受欢迎,并且某些日子的访问量比其他类别更多。 大多数用户年龄不到40岁,男女访问网站的人数相同。 如果我们将其与购买信息相结合,则该信息将为我们提供更多帮助。 访问次数与购买次数相关吗? 还是在不受欢迎的时间访问网站表明购物是“有目的的”?
让我们查看图4中的图表,这些图表显示了按一天中的时间、一周中的某天以及会话购买所得出的绝对和标准化的访问次数。 在此,购买信息定义了颜色:蓝色代表进行购买的访问,橙色代表不进行购买的访问。
图4:根据一天中的时间、一周中的某天以及购买或不购买来可视化访问次数。
在这里,每天和一天中每个时间有购买和没有购买的访问次数通过同一天或同一天的访问总数进行标准化。 在左侧的线条图中,我们看到在工作日中大约有60%的访问产生了购买,而在周末,则有40%到50%产生了购买。
在右侧的线图中,我们看到购买交易的访问百分比在晚上和晚上都有所下降。 最高的购买百分比发生在下午和晚上。
我们选择通过条形图表示绝对购买数量。 星期一是迄今为止访问量最繁忙的一天,两次访问都以购买结束,而没有访问的访问都结束了。 这与我们在图3中所有页面类别中的点击次数发现的相似。
同样,最受欢迎的游览时间是下午和晚上。 早上的游客购买的可能性最小。 尽管晚上很少有游客来,但实际上有50%的人会购物。
让我们继续进行更详细的介绍。 用户从哪个页面开始? 我们可以检测到常见的点击顺序吗? 主页将访问者重定向到产品页面的效果如何? 在这里,我们检查两个功能:单击顺序和从一页到下一页的可能性。
我们决定用森伯斯特图表来表示至少发生两次的点击序列(图5)。 颜色与不同的页面类别相关联。 最初的喀哒声是最内圈。 进一步的咔嗒声包括外圈。 选择一个外部环中的区域会在森伯斯特图上方产生单击序列图形,如图5所示。
绿色和黄色部分几乎构成了最里面的环中点击次数的75%。 这意味着几乎四分之三的访问都是从主页或产品页面开始的,与图3中的折线图中的访问次数相似。绿色和黄色部分分为两个部分,其中一个部分具有进一步的点击和没有一部分。 显然,大约有一半的访问者在主页或产品页面上停止了点击顺序。
图5右侧的热图显示了两个页面类别之间的转换概率。 在y轴上,我们具有第一次单击的页面类别,在x轴上,我们具有下次单击的页面类别。 配色方案从紫色(低可能性)过渡到橙色(高可能性)。
下一个最可能的类别是所有页面类别的主页和产品页面。 对于所有类别、名人推荐和视频评论代表的下一次点击可能性最小,这也与图3中的线条图一致。
图5:可视化典型的单击序列和两个页面类别之间的转换概率。
原文链接: https://www.infoworld.com/article/3390981/machine-learning-and-data-visualization-for-clickstream-analysis.html