数据挖掘期末6

大数据分析及挖掘

  1. 大数据分析及挖掘:哈希技术

  2. 哈希的作用:

    1. 解决 高位诅咒问题、存储问题、检索速度问题
  3. 最小哈希(可选,近似):定义:首次出现1的行号,怎么计算签名矩阵

    1. 计算签名矩阵
    2. 通过签名矩阵寻找相似的签名
    3. 检测签名相似的是否真的相似(可选)
    4. 最小哈希定义:首次出现1的行号
    5. 主要思想:把每一列转换成一个更小的签名矩阵C,让C足够小能放到内存里面,让C1和C2能表征原式数据的相似性,相似性用雅各比距离来表征:a/a+b+c a为两者都是1,b和c表示一个0一个1
  4. 局部敏感哈希(LSH):基本策略:把列分为多个band进行哈希,放入不同桶中,但会有误差,时 间复杂度为O(1);

    1. 原因:想要比较两个文档,一一校对是非常困难的,提出LSH
    2. 哈希的思想:[Algorithm] 局部敏感哈希算法(Locality Sensitive Hashing) - Poll的笔记 - 博客园 (cnblogs.com)
      1. 不一一匹配,把数据放在桶中,每个桶里面的东西都非常相似
      2. 将列向量划分为b块,对每一块进行映射,如果是相似的,那么至少有一块会映射到一个桶子中
      3. 将签名矩阵划分为几块,对每一块进行映射。候选对是至少散列到一个桶的对
      4. 概率随着比例变化
      5. 将某一列划分为b个bands,然后每个bands分别放到桶里
      6. 如果相似性很大(超过0.5),至少有一个band全部放到一个桶里,就可以放到一起
  5. 数据流挖掘:什么是数据流,数据流挖掘挑战:概念漂移

    1. 什么是数据流:数据流,是持续的依次到达的对象,无穷长,有概念漂移(模式在发生漂移)
    2. 数据流挖掘的挑战:单程处理 内存限制 低时间复杂度 概念漂移
    3. 概念漂移:在预测分析和机器学习中,概念漂移意味着模型试图预测的目标统计特性随着时间以不可遇见的方式改变,即条件概率发生变化
  6. 怎么做概念漂移检测:

    1. 使用分布:用于检测突变的概念漂移,对于相同时间间隔(窗口)检测P(C|X),如果检测到变化说明发生了
    2. ADWIM:处理当前数据,发生显著性变化就用新的代替的老的
  7. 检测方法:基于分布(有4个缺点),基于错误率的方法(有缺点)

    1. 基于分布:问题:窗口大小不好确定,学习漂移慢,虚假的概念漂移
    2. 基于错误:缺点:对噪声敏感,对缓慢变化的数据难以处理,取决于学习模型的健壮性
  8. 数据流分类:

    1. 传统静态不适用,每一次输入一个数据后快速进行分类
    2. 方法:快速决策树(VFDT)
    3. 动态构造决策树,利用小部分数据构造
    4. 算法:假如新来的数据满足关系,那么久划分一次;如果错误变多了,那么可以认为是发生了概念漂移,使用新的节点
  9. 数据流聚类:线上和线下 线上:数据抽象压缩:簇特征,属性,可加可减性。 线下:DBscan或者kmeans。

    1. 数据流抽象,分为线上和线下
    2. 线上:把数据用合适的数据结构处理,数据抽象压缩
    3. 线下“用传统方式进行聚类:DBScan或者KMeans
    4. 簇特征:CF=(N,LS,SS),N是点的个数,LS是横坐标之和,SS是横坐标平方和;属性:可加可减性
    5. 为什么这样处理?
      1. 可以计算这些点的中心和半径
      2. 可以支持动态增量式计算
      3. 因为数据连续不断的进入,只需增加新增点的数据就可以(可加性、可减性
  10. hadoop:什么是hadoop,是一个软件集合,hadoop设计的理念:并行化 进行容错及恢复 mapreduce

    1. 什么是Hadoop:Hadoop是一个软件框架,用于跨大型计算机集群对大型数据集进行分布式处理TB PB级别

    2. Hadoop设计准则:

      1. 需要处理大量数据、需要跨数千个节点并行计算,大量廉价机器并行计算
      2. 分而治之
      3. 自动并行化、容错和自动恢复、给用户提供接口
  11. Hadoop生态:HDFS(负责存储)。

    1. MapReduce(计算)
    2. HDFS(存储)
    3. ZooKeeper用来协调
  12. HDFS:nameNode-存储元数据 dataNode–实际数据

    1. 分而治之,分为很多块
    2. nameNode 窜发那个哪一块放到哪个机器里面,存储数据原信息
    3. DateNode存储实际数据,文件被存放到各个节点里,拥有时钟机制,每隔几秒发送一次汇报工作,如果过了很久还没发送,那么默认你已经挂掉,重新创建节点存储被挂掉节点存储的数据
    4. 可以存储大数据
  13. mapreduce(计算):优点:擅长一轮计算 缺点,不擅长多轮计算,没有很好的共享机制

    1. MapReduce适用于一次操作,对多次操作不适用,共享机制落后,花费大量时间IO
    2. Spark用于推广reduce去支持统一引擎的新应用,拥有RDD支持内存计算,提供多种API
  14. spark:什么是spark RDD(弹性式分布数据)

    1. 什么是Spark:一个统一的完整的引擎
    2. 什么是spark RDD(弹性分布式数据集)
      1. 只读,便于内存计算
      2. 操作方式:
        • Transformation:它从现有数据集创建一个新数据集,所有操作都是懒惰的
        • Action:它在对数据集运行计算之后向驱动程序返回一个值
  15. spark优点:擅长多轮计算,提供了很多api

你可能感兴趣的:(数据挖掘,数据挖掘,算法,人工智能)