【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记(5. 社交媒体安全)

【相关链接】

【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记(1. 绪论)

【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记(2. 信息隐藏与数字水印)

【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记(3. 文本安全)

【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记(4. 多媒体安全)

【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记(6. 大数据安全)

【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记(7. 网络信息内容监控)

5. 社交媒体安全

5.1. 社交媒体基本概念

  1. 图的表示: G(N, E)
  2. 邻接矩阵: 关于主对角线对称
  3. 平均路径长度
    1. 两节点间的距离: 连接两者的最短路径的边的数目
    2. 网络的直径: 任意两点间的最大距离
    3. 网络的平均路径长度l: 则是所有节点对之间距离的平均值
  4. 小世界效应: 绝大多数大规模真实网络的平均路径长度比想象的小得多
    1. 具体地说,一个网络称为是具有小世界效应的,如果对于恒定的网络节点平均度,平均路径长度L的增加速度至多与网络规模N的对数成正比
  5. 聚类系数
    1. Ci=2Ei/(Ki(Ki-1))
    2. 整个网络的聚类系数C就是所有节点i的聚类系数Ci的平均值
  6. 社交网络模型
    1. 规则网络
    2. 复杂网络
      1. 小世界网络
        1. 兼具小世界性和高聚集性的网络模型: 较小的平均路径长度和较大的聚集系数
        2. 通过将规则网络中的每条边以概率 p 随机连接到网络中的一个新节点上, 构造出一种介于规则网络和随机网络之间的网络

5.2. 舆情分析

  1. 舆情分析技术架构: P25

    1. 舆情规划: 将不同信息进行管理: 关键词管理, URL管理
    2. 舆情采集: 使用舆情采集技术(正文抽取, 自然语言处理, 关键词抽取), 通过关键词, URL到搜索引擎, 各大论坛搜集数据
    3. 舆情数据: 将采集后的数据进行存储
    4. 舆情展示: 舆情报告, 舆情分析
  2. 功能架构

    1. 从下往上看
    2. 数据: HTML数据等等
    3. 互联网舆情管理系统: 搜索引擎, 检索, 文本挖掘等技术采集数据.
    4. 网络舆情采集, 加工(过滤,转码, 分类,摘要), 分析(热词分析, 舆情走势分析), 检索(简单检索, 高级检索, 热点词检索)系统: 将采集的数据进行…
    5. 分析出来的结果用于常规检测, 突发事件应急响应, 舆论导向指导
  3. 核心技术

    1. 采集(爬虫, 元数据搜索, 信息智能提取)->处理(自然语言处理, 自动分词, 自动分类)->检索(智能检索)
    2. 【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记(5. 社交媒体安全)_第1张图片
  4. 舆情分析建设思路

    1. 技术和内容的结合
      1. 技术: 文本分类等等
      2. 内容: 语料库
    2. 专家和系统
      1. 人机结合

5.3. 隐私保护

  1. 数据使用方式

    1. 真实数据: 要求最高
    2. 脱敏数据: 我们只需使用经过处理后的数据
    3. 非敏数据: 我们只需使用不太牵扯到隐私的数据
  2. 社交网络隐私攻击方式(PPT上没有, 不知道老师怎么讲的)

    1. 节点及节点间关系识别攻击
    2. 隶属关系攻击
    3. 概率攻击
  3. 隐私保护方式

    1. 基于泛化和隐匿技术
      1. K匿名
        1. 链式攻击: 数据库里两张表通过主键关联,得到更多的信息
        2. k -匿名通过概括和隐匿技术,发布精度较低的数据,使得每条记录至少与数据表中其他k-1 条记录具有完全相同的准标识符属性值,从而减少链接攻击所导致的隐私泄露
        3. 一些概念
          1. 属性: 表中的某些列
          2. 显示标志(EID): 可以唯一确定一个人身份的标志
          3. 准标志(QID): 可以潜在标志身份: 性别, 年龄
          4. 隐私: 敏感属性: 爱好, 社会关系
          5. 非隐
      2. L多样化
        1. 为了抵制同质性攻击和背景知识攻击
        2. 要求每个等价类敏感属性值都必须包含l个不同的元素
        3. 定义
          1. L-多样化: 直观理解就是 表中的某个属性是敏感属性, 这个敏感属性至少有L个取值
          2. 匿名化: 就是对表进行变换, 使得这个表满足匿名规则AR
  4. 匿名算法: 匿名化主要有泛化和隐匿、划分、聚类等思想方法实现

    1. 聚类K匿名

      1. K-匿名问题: 聚类问题: 将数据分为若干簇, 同一簇中的对象具有很高的相似度, 不同簇中的对象之间具有高度相异性

      2. 定义1

        1. 将一共n条记录划分为一系列簇, 每个簇至少包含k条记录, 簇内间距总和最小.
        2. 四个条件:
          1. e表示簇, 不同簇之间没有相同元素
          2. 所有簇包含所有所有对象(这两条保证簇是S的一个"划分")
          3. 一个簇中包含的对象个数大于K
          4. Σ (第L个簇中对象个数 * 这个簇中最大数据点距离) 是最小的
      3. 定义2(数值型数据间的距离)

        1. 某两个数据间的距离 / 最大距离
      4. 定义3(分类型数据间的距离)

        1. 两个元素最小公共祖先为根的子树的高度 / 树的高度
      5. 定义4(记录间的距离)

        1. 准标志(QID): 可以潜在标志身份: 性别, 年龄
        2. r1, r2两条记录之间的距离 = r1r2数值型属性的距离之和 + r1r2分类型属性的距离之和
      6. 定义5(信息损失)

        1. MaxNi - MINNi = 某个簇中数值型属性Ni的最大值最小值之差
        2. |Ni|为所有数值的最大值最小值之差
        3. 尖(Ci)就是某个簇的分类型属性的最小公共祖先为根的子树
        4. TCj是总高度
      7. 定义6(总计信息损失): 对所有簇的信息损失求和

      8. (L,K)匿名聚类算法

        1. 定义:

          1. 每条记录至少与数据表中其他k-1 条记录具有完全相同的准标识符属性值
          2. 每个等价类敏感属性值都必须包含l个不同的元素
        2. 算法原理:

          1. if(|S| <= K)
            	return S
            end if
            
            r = 随机从S中取出一个记录
            while(|S| >= K)
            	r = 选取S中的一个最远记录r #最远意味着信息损失小
            	S = S - {r}
            	c = {r}
            	while(|C| < K)	#找到与r最为相近的K个元素, 形成C
            		#与C最为接近的记录
            		r = 找到最佳记录(S, C)
            		S = S - {r}
            		C = C 并 {r}
            	end while
            	result = result 并 {C}
            end while
            
            #集合中还有元素, 且元素不足K个, 将这些元素放到最佳簇中
            while(|S| != 0)
            	r = 随机选取一个S中记录
            	S = S-{r}
            	C = 找到最佳簇(result, r)#分别计算r与每个聚类的信息损失, 找到最小的那个
            	C = C 并 {r}
            end while
            
            return result
            
          2. P53: 两种对于准标识符属性泛化的方法:

            1. 对于分类属性, 将一个簇的取值泛化为这个簇的共同祖先
            2. 对于数值属性, 泛化为一个区间[簇中最小值, 簇中最大值]
            3. 对于P52中的邮编继承分类树, 满足2-多样性泛化属性值: 也就是说, 对于邮编这个准标志符有2个不同取值
      9. 空间匿名

        1. 将一个准确位置泛化为一个区域
        2. 采用K匿名思想, 这个区域包含其他K-1个移动用户, 攻击者无法确定具体位置
      10. 时空匿名

        1. 延迟响应时间, 在这段时间中可以出现更多用户, 提出更多查询
      11. 示例

        1. 返回概率
      12. 位置K匿名模型

        1. 描述: 把某一用户的真实位置点扩大为一个模糊的位置范围,使得该范围覆盖k个用户的位置,此时无法将该用户与其他(k-1)个用户相区别,称此位置满足位置k-匿名

5.3.1. 差分隐私算法

  1. 差分隐私攻击: 医院发布信息有10个人患AIDS,现在攻击者知道其中9个人的信息,通过和医院发布的信息进行比对就可以知道最后一个人是否患AIDS
  2. 差分隐私保护: 如果查询9个人的信息和查询10个人的信息结果一致,那么攻击者就没有办法确定第10个人的信息
  3. 集中式差分隐私保护:
    1. 定义: 对于只有一条记录差别的两个数据集,如果查询它们的概率非常非常的接近,那么它们满足差分隐私保护
    2. 在攻击者向可信第三方查询的时候, 这个中心节点将数据加入拉普拉斯噪声, 然后返回给攻击者, 攻击者不能实现差分攻击
    3. 相关资料
      1. 有两个数据集分别为D和D’,D和D’之间只有一条记录是不同的,其他记录都是相同的。数学描述为|D△D’|=1。使用差分隐私技术,即向D和D’中添加符合拉普拉斯分布的噪声。然后对D和D’两个数据集进行查询操作,比如操作1为查询D中99个用户的记录,操作2为查询D’中100个用户的记录,如果操作1返回的结果和操作2返回的结果一模一样(一模一样是理想状态,实际上只要接近就好,具体实施的时候会有一个隐私预算,只要低于某个阈值就ok),那么就是完美的保护了用户隐私。这句话的意思其实是说,既然查询99个人的记录和查询100个人的记录返回的结果一致,那么第100个人就很乐意的奉献自己的隐私数据,反正有我没我攻击者查询得到的结果都是一样的。这里还需要注意的是,一般查询返回的结果都是统计查询,比如查询99个人的年龄总和,查询100个人的年龄总和等。如果不进行差分隐私保护的,那么攻击者只要对两次查询做减法,就知道第100个人的具体年龄,这就是差分攻击
  4. 本地差分隐私保护:
    1. 就是数据收集者直接从用户端收集数据, 攻击者不能进行差分攻击

你可能感兴趣的:(安全,媒体)