【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记(6. 大数据安全)

【相关链接】

【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记(1. 绪论)

【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记(2. 信息隐藏与数字水印)

【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记(3. 文本安全)

【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记(4. 多媒体安全)

【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记(5. 社交媒体安全)

【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记(7. 网络信息内容监控)

6. 大数据安全

6.1. 大数据安全问题

  1. 大数据的概念
    1. 指的是所涉及的资料量规模巨大到无法通过目前主流软件工具在合理时间内处理的数据
  2. 大数据给信息安全带来新的挑战
    1. 大数据加大隐私泄露风险(知识图谱): 传感器、社交网络、记录存档、电子邮件等多种大量数据聚集更容易导致链接攻击
  3. 大数据安全策略
    1. 基于云计算架构的大数据存储安全: 采用虚拟化海量存储技术来存储数据资源
    2. 面向云数据的隐私保护: 差分隐私算法保护用户隐私数据

6.2. 知识图谱

  1. 概念:什么是知识图谱,知识抽取(实体抽取,关系抽取,属性抽取),抽取方法,知识融合

  2. 知识图谱概念

    1. 本质是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述
    2. 现在的知识图谱已被用来泛指各种大规模的知识库
    3. 采集数据(爬虫)–>知识抽取(实体抽取, 关系抽取, 概念抽取)–>知识集成–>存储(基于云的图数据管理系统)–>应用(知识查询, 文本展示, 舆情分析)
  3. 核心技术:知识抽取

    1. 通过自动化的技术抽取出可用的知识单元,知识单元主要包括实体、关系以及属性3个知识要素,并以此为基础,形成一系列高质量的事实表达,为上层模式层的构建奠定基础

    2. 实体抽取

      1. 定义:命名实体识别: 包括实体的检测和分类 具体理解就是:从文本中自动识别出命名实体
      2. 实体是知识图谱中的最基本元素
      3. 方法
        1. 基于规则与词典的方法: 使用已定义规则抽取, 大量人力
        2. 基于统计机器学习的方法: 监督学习算法与规则相互结合
        3. 面向开放域的抽取方法: 基于已知实体的语义特征去搜索日志中识别出命名的实体
    3. 关系抽取:

      1. 含义: 抽取出实体之间的关系, 通常是以三元组形式出现, 一个谓词(关系), 两个形参(实体)
      2. 三元组(triple) 抽取,一个谓词(predicate)带 2 个形参(argument),如 Founding-location(IBM,New York)
      3. 方法:
        1. 有监督的实体关系抽取: 基于规则, 特征
        2. 半监督的实体关系抽取: bootstrapping算法,即从包含关系种子的上下文中总结出实体关系序列模式,然后利用关系序列模式去发现更多的关系种子实例,形成新的关系种子集合
        3. 无监督的实体关系抽取: 关系实例聚类 关系类型词选择
        4. 开放式实体关系抽取:
    4. 知识融合

      1. 合并两个知识图谱(本体),基本的问题都是研究怎样将来自多个来源的关于同一个实体或概念的描述信息融合起来

      2. 属性相似度: 综合单个属性相似度得到属性相似度向量

        实体相似度: 根据属性相似度向量得到一个实体的相似度

      3. o实体对齐(entity alignment)

        1. 对于相同或不同的知识库,判断两个实体是否指向同一个物理对象,然后合并相同的实体
      4. 实体消歧:根据上下文判断

    5. 知识更新:

      1. 模式层的更新: 影响范围大
      2. 数据层更新: 更新影响较小
    6. 知识推理

      1. 在已有的知识库基础上进一步挖掘隐含的知识,通过各种方法获取新的知识或者结论,这些知识和结论满足语义
      2. 基于关联规则推理

6.3. 云安全

  1. 云计算简介
    1. 云计算(cloud computing)是分布式计算的一种,指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序,然后,通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户
  2. 基本架构: 基础设施即服务(数据库, 共享硬件), 平台即服务(数据管理引擎, 安全及用户管理服务), 软件即服务(高性能计算, 分析, 金融)
  3. 云安全需求
    1. 建立以数据安全和隐私保护为主要目标的云安全技术框架
    2. 建立以安全目标验证、安全服务等级测评为核心的云计算安全标准及其测评体系
  4. 云用户安全目标
    1. 数据安全: 保护涉及用户数据生命周期中创建、存储、使用、共享、归档、销毁等各个阶段, 同时涉及到所有参与服务的各层次云服务提供商
    2. 隐私保护: 防止云服务商恶意泄露或出卖用户隐私信息,或者对用户数据进行搜集和分析,挖掘出用户隐私数据
  5. 云安全关键技术
    1. 可信访问控制: 通过非传统访问控制类手段实施数据对象的访问控制
    2. 密文检索与处理
    3. 数据存在与可使用性证明
      1. 由于大规模数据所导致的巨大通信代价,用户不可能将数据下载后再验证其正确性。因此,云用户需在取回很少数据的情况下,通过某种知识证明协议或概率分析手段,以高置信概率判断远端数据是否完整
    4. 数据隐私保护
      1. 云中数据隐私保护涉及数据生命周期的每一个阶段
    5. 虚拟安全技术
      1. 虚拟技术是实现云计算的关键技术。使用虚拟技术的云架构提供者必须向其客户提供安全性和隔离保证
    6. 云资源访问控制
      1. 在云计算环境中,各个云应用属于不同的安全管理域,每个安全域都管理着本地的资源和用户
      2. 当用户跨域访问资源时,需在域边界设置认证服务,对访问共享资源的用户进行统一的身份认证管理
    7. 可信云计算
      1. 将可信计算技术融入云计算环境
  6. 云数据中心安全框架
    1. 法律法规: 内容监管
    2. 物理安全: 门禁
    3. 基础设备: 系统完整性保护, 安全补丁, 病毒防护
    4. 网络安全: 防火墙…
    5. 管理安全: 多因素接入认证, 集中日志审计
    6. 虚拟化: 虚拟机隔离,
    7. 数据: 数据隔离, 数据访问控制, …
  7. 基础设施安全
    1. 系统加固
      1. 怎样保证系统安全:最小化裁剪, 安全配置, 安全测试, 完整性保护, 补丁管理
      2. 安全加固实现方式:裁剪不必要组件, 使用加固工具实现安全配置, 使用测试扫描工具进行安全测试, 完整性校验工具实现审查, 补丁管理机制保证系统完善
    2. 集中补丁管理:
      1. 补丁服务器分发补丁, 各节点安装补丁, 安全补丁按严重程度等级管理
    3. 防病毒总体解决方案
      1. 计算节点: 系统加固 高度定制化
      2. 存储节点: 与外界隔离, 系统加固, 高度定制化
      3. 管理节点:管理节点:linux病毒防护, 管理终端:windows病毒防护
  8. 网络安全
    1. 二层网络安全和隔离
      1. 通过划分不同Vlan, 将计算, 管理, 存储三个平面进行隔离
  9. 管理安全
    1. 集中日志管理: 准确掌握云平台动态并即时响应, 满足审计和系统恢复要求
  10. 虚拟化安全
    1. VM资源隔离: 虚拟机各种资源的隔离, 有效保护不同虚拟机用户的数据安全性
    2. VM安全组隔离 : 为用户提供安全可靠的隔离策略, 确保只有授权的访问才被接受
    3. 虚拟防火墙 : 进一步防范外来网络攻击, 过滤有害流量
  11. 数据安全
    1. 块存储数据安全 : 通过VM用户数据隔离, 设定访问权限, 清零被释放的数据, 用户的存储数据可以得到保护
    2. 对象存储数据存储安全 : 通过实现数据完整性和机密性, 设定访问权限和身份认证, 用户的对象存储数据可以得到完整保护

你可能感兴趣的:(安全,知识图谱,人工智能)