数据科学导论 考试有感 2019 山东大学

数据科学导论 考试有感 2019 山东大学

    • 数据科学导论

数据科学导论

平时分50分 有4个实验 两个人一组
爬虫、实体融合、twitter、MapReduce

3道题

  • 简答:各种距离
  • 设计:MapReduce
  • 算法:PersonalRank

如果是非数据科学方向的同学,一定慎重,复习就像开天辟地。我们本学期是计算机网络考完后隔一天考数据科学导论,时间比较紧,大致整理如下。具体内容我有上传word资源。

数据科学导论 考试有感 2019 山东大学_第1张图片
数据科学导论 考试有感 2019 山东大学_第2张图片
数据科学导论 考试有感 2019 山东大学_第3张图片数据科学导论 考试有感 2019 山东大学_第4张图片

  • 大数据
  • 云计算
  • 文本分析
    • 文本特征提取
    • 输入单词、id,输出词袋向量
    • 理解词袋的表示方式,优缺点
    • 输入句子,给出N-Gram表示
  • 数据科学有什么难点
  • 数据科学解决问题的步骤
  • 数据质量如何评估
  • 数据质量评估存在的问题
  • 脏数据以及处理
    • ETL(数据仓库技术)
    • 数据清洗和集成流程
      • 数据清洗
      • 数据集成
  • 探索性分析方法
  • 众包
  • 数据分析
    • 流程
    • Apriori/无监督学习
    • 数据分析算法类型(关联/分类/聚类)
    • 关联分析
    • 你知道的数据分析算法
    • 支持度、置信度、提升度的计算
  • Hadoop
    • 特性
    • 与Spark比较
  • 分布式存储
    • 与集中式存储比较
    • 结构
    • 设计需求
    • GFS
    • HDFS
      • 优缺点
      • 相关概念
      • HDFS
      • NAMENODE和DATANODE
      • 体系结构
      • 概述
      • 命名空间管理
      • 通信协议
      • 客户端
      • 局限性
      • 存储
      • 冗余数据保存
      • 数据存取策略
      • 错误与恢复
      • 读、写
      • 从HDFS读取内容
  • MapReduce
    • 概述
    • 分布式并行编程
    • 简介
    • 工作过程
      • 概述
      • 各执行阶段
      • Combine
      • Shuffle详解
      • MapReduce与Spark处理速度比较
      • 归纳
  • PersonalRank
  • PageRank
    • “反复改进原理”(迭代)是基本手段
    • 中枢值与权威值及其计算(HITS算法)
    • PageRank含义及其计算
    • PageRank的同比缩减与统一补偿规则
  • 结构化数据、半结构化数据、非结构化数据
  • 测量距离
    • 欧氏距离(Euclidean Distance)
    • 曼哈顿距离(Manhattan Distance)
    • 编辑距离(Levenshtein)
    • 切比雪夫距离
    • 海明距离
    • 马氏距离
  • ML
    • KNN
    • k-means/聚类
    • Choosing clustering dimension
    • Linear-Regression
    • 最小二乘法
    • 损失函数
    • 检测模型质量
    • 过拟合/over-fitting
    • 交叉验证
  • 无监督学习/监督学习

你可能感兴趣的:(数据科学导论 考试有感 2019 山东大学)