The Paradigm-Shift of Social Spambots:Evidence, Theories, and Tools for the Arms Race阅读笔记

The Paradigm-Shift of Social Spambots:Evidence, Theories, and Tools for the Arms Race阅读笔记

Abstract:

  1. 社交垃圾邮件机器人——传统垃圾邮件机器人
  2. 作者通过实验发现传统的检测方法无法检测出现在的社交垃圾邮件机器人,所以作者提出了新的检测方法?(并没有)

Keywords:

  1. Social Spambots (社交垃圾邮件机器人)
  2. traditional spambots (传统垃圾邮件机器人)
  3. Social networks securit(社交网络安全)
  4. Twitter(推特)
  5. OSN(在线社交网络)

Contributions:

  1. 证实了一些之前未被证实的新颖的Twitter垃圾邮件
  2. 评估了已存在的先进检测程序是否能检测出该垃圾邮件。
  3. 提出了新的检测规则。
  4. 提供了垃圾邮件的数据集。

Datasets:

The Paradigm-Shift of Social Spambots:Evidence, Theories, and Tools for the Arms Race阅读笔记_第1张图片
The Paradigm-Shift of Social Spambots:Evidence, Theories, and Tools for the Arms Race阅读笔记_第2张图片

  1. 表一是作者发现的各种社交网站上的机器人数据。
  2. 表二是有关真实帐户和恶意帐户不同组的活动帐户,已删除帐户和已暂停帐户的统计信息
  3. 发布那些垃圾邮件的自动账户与真实账户非常的相似。他们伪造了自己的个人信息,还伪造的非常详细。
  4. 这些账户平时也会有真实账户的发推行为,以掩饰自己的身份。
  5. 每当这些账户服务的老板发了推文时,他们就会第一时间转发,以提高改推文的曝光率。
  6. 这些账户会经常发一些正常的推文,然后在正常的推文里面去夹杂一些恶意的垃圾推文。
  7. 假粉丝。
  8. 作者研究了多个方面的推特安全问题:(i)伪造的追随者欺诈,(ii)转推欺诈,(iii)标签推广,(iv)URL垃圾邮件,(v)普通信息的垃圾邮件。

Twitter monitoring(推特监控)

  1. 评估推特检测并删除垃圾邮件程序的能力。(监控推特里的一些假用户,然后观察推特多长时间能够检测出这些假账户)

  2. API(Application Programming Interface,应用程序接口)是一些预先定义的函数,或指软件系统不同组成部分衔接的约定。用来提供应用程序与开发人员基于某软件或硬件得以访问的一组例程,而又无需访问源码,或理解内部工作机制的细节。

  3. 作者通过API的响应机制来判断账户状态。(判断该账户是自己注销还是被推特官方给删除)
    The Paradigm-Shift of Social Spambots:Evidence, Theories, and Tools for the Arms Race阅读笔记_第3张图片

  4. 上图一表示了不同账户的存活率。

  5. 推特对于上述几种恶意账号的检测效果很差。

The Paradigm-Shift of Social Spambots:Evidence, Theories, and Tools for the Arms Race阅读笔记_第4张图片

  1. 表三表示了至今存在的、被删除以及被暂时停用的垃圾邮件账户与普通账户的比率。这里应该是恶意账户与正常账户的比率。可以看出社交垃圾邮件机器人与正常账户之间的差别很小( ± \pm ± 3%)
  2. chi-square test:卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
  3. 从图一可以总结出,账户的检测和暂封更多的是取决于账户的类型,设计和行为,而跟账户的存在时间关系不大。
  4. social spambots 比 traditional spambots更像普通用户。

Crowdsourcing: tasks and results

The Paradigm-Shift of Social Spambots:Evidence, Theories, and Tools for the Arms Race阅读笔记_第5张图片

  1. 问题二:人们是否可以自行分辨出social spambots
  2. 问题三:用户是否能分辨出traditional spambots、social spambots和genuine accounts。
  3. 图二显示了研究者从第二节的数据集中获得的用于本次众包实验的4,428个帐户的分布。

The Paradigm-Shift of Social Spambots:Evidence, Theories, and Tools for the Arms Race阅读笔记_第6张图片

  1. 表四展示了众包服务活动的设置。
    - accounts to classify: 总共需要被分类的账户
    - accounts to classify: 每个账户需要三个志愿者来进行投票分类,以保证准确性。
    - test questions: 有标准答案的测试题,用于检测志愿者的可信度。
    - answers per contributor: 每个志愿者需要回答一百个问题。
    - accuracy threshold: 作者设置了一些有标准答案的额题目,期望通过这些题目来判别志愿者回答问题的可信性,对有这些题目回答的准确率达到百分之七十以上的志愿者的全部答案才会予以采纳。

  2. 表五展示的是志愿者队我们这个活动的评价。

  3. 实验招募志愿者对作者他们所搜集的账户进行分类。

  4. 受保护的账户:那些推文和时间表未公开显示的账户。The Paradigm-Shift of Social Spambots:Evidence, Theories, and Tools for the Arms Race阅读笔记_第7张图片
    The Paradigm-Shift of Social Spambots:Evidence, Theories, and Tools for the Arms Race阅读笔记_第8张图片

  5. 图三(a)表示了以国家对各个志愿者进行分类,从而统计每个国家的答案分布情况。(b)表示了每个贡献者的答案分布。

  6. CrowdFlower: 作者招募志愿者的网站。

  7. 实验结果表明,人们对social spambots的判别准确率很低,而对 traditional spambots和genuine accounts判断准确率高。

The Paradigm-Shift of Social Spambots:Evidence, Theories, and Tools for the Arms Race阅读笔记_第9张图片

  1. 图6展示了众包活动在垃圾邮件检测上的结果。
  2. Fleiss’ kappa:Kappa系数和Fleiss Kappa系数是检验实验标注结果数据一致性比较重要的两个参数,其中Kappa系数一般用于两份标注结果之间的比较,Fleiss Kappa则可以用于多份标注结果的一致性检测。
  3. 在实验中,志愿者对真实账户的分类展现出较好的一致性,对traditional spambots的分类具有较差的一致性。意外的是,对social spambots检测的一致性比traditional spambots更高一点。
  4. 志愿者在对social spambots分类失败的错误更加的一致,比对traditional spambots分类正确的一致性更高。

ESTABLISHED TECHNIQUES(现有技术)

  • 论文前面的内容已经证明了推特的检测程序和人类用户们都没有办法准确的检测出新的社交垃圾邮键机器人。后面作者去验证了现有的技术方法能不能检测出这个social spambots。
  • 问题四:最先进的科学应用和技术能够检测出社交垃圾吗?
    1. BotOrNot:这是一个公开的服务,它用于评估推特账户和已知的垃圾邮件机器人的特征相似性()也就是用于检测垃圾邮件机器人)。作者在这里通过实验评估了BotOrNot的性能
      The Paradigm-Shift of Social Spambots:Evidence, Theories, and Tools for the Arms Race阅读笔记_第10张图片
  1. 图七是本研究中调查的垃圾邮件程序检测技术,工具和算法之间的比较。对于每个测试集,每个评估指标中的最大值以粗体显示。
  2. 聚类算法分为两类:向量聚类和图聚类,而马尔科夫就是属于图聚类算法。

EMERGING TRENDS(新趋势)

  • 问题五:是否能找到新的维度去打击和克服新的社交垃圾邮件程序?

New knowledge And Summary

  • DenStream: DenStream可以说是针对Clustream的缺陷进行改进的,通过引入CMC(核心微簇),PMC(潜在核心微簇)以及OMC(离群微簇)以及时间衰减函数f(t)=2-λ来对不同时间的数据点的重要性进行加权。对微簇micro-cluster的定义也加入了时间权重。
  • Markov cluster algorithm (MCL): 聚类算法分为两类:向量聚类和图聚类,而马尔科夫就是属于图聚类算法。
  • StreamKM++: StreamKM++算法是一种用树结构和桶结构的数据流聚类方法,该算法将数据点不断放入桶中,当两个桶满时,通过调用Coreset树将桶合并,以此类推,最后将得到的数据点使用StreamKM++算法合并成簇中心。
  • 自我总结: 该论文先证明了,推特公司和正常的推特用户很难分辨出Social Spambots,然后再使用现有的检测技术对Social Spambots进行检测,以此来评估已有技术对Social Spambots的检测能力。提出问题供后人解决。

你可能感兴趣的:(论文阅读笔记,信息安全)