Predicting Users’ Motivations behind Location Check-Ins and Utility Implications of Privacy Protection Mechanisms(2015)理解与总结

背景问题

位置签到(check-in)包含位置和语义信息,user在签到的同时,可能泄漏远远超出他们想象的个人信息。

以前研究的不足

utility:可理解为用户体验。

以前有量化用户隐私的,但很少有研究关注用户体验utility的损失。

本文贡献

1. 研究位置签到背后的user动机,基于此,首次提出预测user动机的机器学习方法;

2. 设计了一个utility loss函数,可作为隐私保护方法设计的一个基础;

3. 基于Foursquare用户调查结果,研究了utility和隐私之间的平衡。

原理

在 Foursquare 认真选了 77个用户参与调研。

定义了四种混淆等级:


Predicting Users’ Motivations behind Location Check-Ins and Utility Implications of Privacy Protection Mechanisms(2015)理解与总结_第1张图片
用户签到的动机占比

将utility分级,1-5,1 为“一点也不”,5为“叵费(完美)”。

调研utility情况:

Predicting Users’ Motivations behind Location Check-Ins and Utility Implications of Privacy Protection Mechanisms(2015)理解与总结_第2张图片
不同混淆级别的utility值

特别的,签到目的影响不小,对于2种混淆对应的utility。

基于签到目的的自动utility预测模型:

Predicting Users’ Motivations behind Location Check-Ins and Utility Implications of Privacy Protection Mechanisms(2015)理解与总结_第3张图片
工作流程

特征提取:

1. 结构化的地点信息:用 Foursquare API;

2. 非结构化的文本描述信息: 用 Python NLP toolkit (NLTK 3.0) 提取低级文本特征,朴素贝叶斯分类器通过低级文本特征提取高级文本特征(i.e. 心情)。

3. 混合类型特征:为提取地点信息和文本信息之间的相关性,计算了最长子字符串和Levenshtein距离。

机器学习推测签到目的: 得到签到的特征向量后,用多类(multi-classes)分类器进行分类。经过多重分类器实验,本文选用于本文数据集效果最好的随机森林进行分类。

基于签到目的的utility模型:

定义  utility u = f(m, o, k)∈ [1, 5];

13种签到目的 m ∈ {1, . . . , 13};

混淆 o = (os, og),其中 os, og ∈ {1, 2}(1为low,2为high);

k = (k1, . . . , kn) 是地点特征和用户特征。

首先,使用真实的用户目的,研究utility、混淆和动机的关系;然后,用上述的推测目的,研究三者关系。以此,验证自动推测方法的效果。

Predicting Users’ Motivations behind Location Check-Ins and Utility Implications of Privacy Protection Mechanisms(2015)理解与总结_第4张图片
utility的线性回归方程

同时,也将上线性回归方程与一个非线性模型作对比。(M5P model tree technique [34], by using the WEKA toolkit).

Predicting Users’ Motivations behind Location Check-Ins and Utility Implications of Privacy Protection Mechanisms(2015)理解与总结_第5张图片
可被混淆的比例,横轴为utility值

测试结果,详情分析略。

你可能感兴趣的:(Predicting Users’ Motivations behind Location Check-Ins and Utility Implications of Privacy Protection Mechanisms(2015)理解与总结)