行业大数据期末复习

2022期末考试用,如有问题欢迎指正!
本文参考:https://blog.csdn.net/qq_44616044/article/details/118434965

题型:选择判断简答案例分析

行业大数据

  • 第一章 绪论
  • 第二章 数据采集与治理
  • 第三章 Python数据分析概述

第一章 绪论

1. 数据:所有能输入到计算机并被计算机程序处理的符号的总称

2. 数据的分类 (会列举)

  • 结构化数据:包括预定义的数据类型、格式和结构的数据。例如关系数据库和CSV文档
  • 半结构化数据:具有可识别的模式并可以解析的文本数据文件。例如JSON以及XML
  • 非结构化数据:没有固定结构的数据,通常保存为不同格式的文件。例如文本文档,声音,视频
  • 半结构化和非结构化数据只有转换成结构化数据才可以让机器学习。

3. 大数据4V特征

  • 规模大(Volume):数据的采集,计算,存储量都非常的庞大。
  • 变化快(Velocity):数据增长速度快,处理速度也快,获取数据的速度也要快。
  • 种类杂(Variety):种类和来源多样化。种类有结构化、半结构化、非结构化数据等,常见的来源有:网络日志、音频、视频、图片等等。
  • 价值密度低 (Value):数据价值密度相对较低,犹如浪里淘金,我们需要对一系列价值密度低的数据进行分析处理,才能获取大量信息中所蕴含的部分有价值信息。

4 . 数据处理的一般过程(要答出细化的)

  • 数据获取
    数据获取后,需要对数据进行变换、清洗等预处理,输出满足数据应用要求的数据
  • 数据管理
    对数据进行分类、编码、存储、索引和查询
  • 数据分析
    描述性分析、诊断性分析、预测性分析和规范性分析
  • 数据可视化与交互分析
    帮助业务人员而非数据处理专家更好的理解数据分析的结果

第二章 数据采集与治理

1. 大数据的来源

  • 对现实世界的测量:通过感知设备获得数据
  • 人类的记录:由人录入计算机形成数据
  • 计算机生成的数据:计算机通过现实世界模拟等程序生成的数据

2. 数据质量的评估标准

  • 完整性:数据信息是否缺失
  • 一致性:数据是否遵循了统一的规范,逻辑关系是否正确和完整
  • 准确性:数据是否存在异常或错误
  • 及时性:数据从产生到可以查看的时间间隔

3
4.分箱法(考计算)

  • 等深分箱法:每箱具有相同的记录数,每个箱子的记录数成为箱子的深度。
  • 等宽分箱法:在整个数据值的区间上平均分割,使得每个箱子的区间相等,这个区间被称为箱子的宽度。
  • 用户自定义分箱法:根据用户自定义的规则进行分箱处理。

以下是客户收入属性的取值,请按照上述三种方案进行分箱处理 800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000

行业大数据期末复习_第1张图片5.平滑处理(看看看看看看)
行业大数据期末复习_第2张图片

  • 处理噪声数据(分箱,平滑,聚类和回归)

6.聚类
将数据集合分组为若干簇,在簇外的值即为孤立点,这些孤立点就是噪声数据,对这些孤立点进行删除或替换操作。相似或相邻近的数据聚合在一起形成各个聚类集合,在这些聚类集合之外的数据即为异常数据。
行业大数据期末复习_第3张图片

7.回归
通过发现两个相关的变量之间相关关系,构造一个回归函数使得该函数能够最大程度地满足两个变量之间的关系,使用这个函数来平滑数据。

8.处理冗余数据(简答)冗余数据概念背背背背背
行业大数据期末复习_第4张图片
9.数据变换行业大数据期末复习_第5张图片

10.数据质量的影响因素(简答哦哦哦哦哦)

  • 信息因素:数据源规格不统一
  • 技术因素:技术处理的异常
  • 流程因素:流程设置不当
  • 管理因素:人员素质和管理机制问题

10.缺失值填充

  • 删除:直接删除相应的属性或者样本
  • 统计填充:使用所有样本关于这一维的统计值进行填充,如平均数、中位数、众数、最大值最小值等。
  • 统一填充:将所有的缺失值统一填充为自定义值,如”空“、”0“、”正无穷“、”负无穷等。
  • 预测填充:通过预测模型利用存在的属性值预测缺失值。
    类别属性:用分类方法填充(如朴素贝叶斯方法)
    数值属性:用回归方法填充

最笨的方法就是统一填充

第三章 Python数据分析概述

1.数据分析

  • 狭义的数据分析是指根据分析目的,采用对比分析、分组分析、交叉分析和回归分析等分析方法,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用,得到一个特征统计量结果的过程。
  • 数据挖掘则是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,通过应用聚类、分类、回归和关联规则等技术,挖掘潜在价值的过程。

你可能感兴趣的:(计算机期末复习,大数据,数据挖掘,数据分析,beautifulsoup)