大数据工程专业技术证书考试-数据分析与应用

大数据职称考试知识大纲–数据分析与应用(初级)

第一部分 基础知识模块

一、大数据法律法规、相关标准及职业道德

1.1 法律法规

1.1.1 《中华人民共和国民法典》中华人民共和国主席令第四十五号

(1)、了解隐私权和个人信息保护有关内容

  • 第一千零三十二条 自然人享有隐私权。任何组织或者个人不得以刺探、侵扰、泄露、公开等方式侵害他人的隐私权。

隐私是自然人的私人生活安宁和不愿为他人知晓的私密空间、私密活动、私密信息。

  • 第一千零三十三条 除法律另有规定或者权利人明确同意外,任何组织或者个人不得实施下列行为:

    • (一)以电话、短信、即时通讯工具、电子邮件、传单等方式侵扰他人的私人生活安宁;
    • (二)进入、拍摄、窥视他人的住宅、宾馆房间等私密空间;
    • (三)拍摄、窥视、窃听、公开他人的私密活动;
    • (四)拍摄、窥视他人身体的私密部位;
    • (五)处理他人的私密信息;
    • (六)以其他方式侵害他人的隐私权。
  • 第一千零三十四条 自然人的个人信息受法律保护。

    个人信息是以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人的各种信息,包括自然人的姓名、出生日期、身份证件号码、生物识别信息、住址、电话号码、电子邮箱、健康信息、行踪信息等。

    个人信息中的私密信息,适用有关隐私权的规定;没有规定的,适用有关个人信息保护的规定。

  • 第一千零三十五条 处理个人信息的,应当遵循合法、正当、必要原则,不得过度处理,并符合下列条件:

    • (一)征得该自然人或者其监护人同意,但是法律、行政法规另有规定的除外;
    • (二)公开处理信息的规则;
    • (三)明示处理信息的目的、方式和范围;
    • (四)不违反法律、行政法规的规定和双方的约定。

    个人信息的处理包括个人信息的收集、存储、使用、加工、传输、提供、公开等。

  • 第一千零三十六条 处理个人信息,有下列情形之一的,行为人不承担民事责任:

    • (一)在该自然人或者其监护人同意的范围内合理实施的行为;
    • (二)合理处理该自然人自行公开的或者其他已经合法公开的信息,但是该自然人明确拒绝或者处理该信息侵害其重大利益的除外;
    • (三)为维护公共利益或者该自然人合法权益,合理实施的其他行为。
  • 第一千零三十七条 自然人可以依法向信息处理者查阅或者复制其个人信息;发现信息有错误的,有权提出异议并请求及时采取更正等必要措施。

自然人发现信息处理者违反法律、行政法规的规定或者双方的约定处理其个人信息的,有权请求信息处理者及时删除。

  • 第一千零三十八条 信息处理者不得泄露或者篡改其收集、存储的个人信息;未经自然人同意,不得向他人非法提供其个人信息,但是经过加工无法识别特定个人且不能复原的除外。

    信息处理者应当采取技术措施和其他必要措施,确保其收集、存储的个人信息安全,防止信息泄露、篡改、丢失;发生或者可能发生个人信息泄露、篡改、丢失的,应当及时采取补救措施,按照规定告知自然人并向有关主管部门报告。

  • 第一千零三十九条 国家机关、承担行政职能的法定机构及其工作人员对于履行职责过程中知悉的自然人的隐私和个人信息,应当予以保密,不得泄露或者向他人非法提供。

1.1.2 《中华人民共和国数据安全法》中华人民共和国主席令第八十四号

(1)了解数据安全制度、数据安全保护义务、政务数据安全与开放等相关内容

  • 数据安全制度:

    国家建立数据分类分级保护制度,根据数据在经济社会发展中的重要程度,以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成的危害程度,对数据实行分类分级保护。

  • 数据安全保护义务:

    开展数据处理活动应当按照法律、法规的规定,建立健全全流程数据安全管理制度,组织开展数据安全教育培训,采取相应的技术措施和其他必要措施,保障数据安全。利用互联网等信息网络开展数据处理活动,应当在网络安全等级保护制度的基础上,履行上述数据安全保护义务。

  • 政务数据安全与开放:

    国家机关应当依照法律、行政法规的规定,建立健全数据安全管理制度,落实数据安全保护责任,保障政务服务的安全。国家机关应当遵循公平、公正、便民的原则,按照规定及时、准确地公开政务数据,依法不予以公开的除外。

1.1.3 《中华人民共和国网络安全法》中华人民共和国主席令第五十三号

(1)了解数据分类、重要数据备份和加密等措施

??????

1.1.4 《中华人民共和国电子签名法(2019 版)》中华人民共和国主席令第二十 九号

(1)了解电子签名、数据电文基本概念

  • 电子签名:

    数据电文中以电子形式所含、所附用于识别签名人身份并表明签名人认可其中内容的数据。

  • 数据电文:

    指以电子、光学、磁或者类似手段生成、发送、接收或者存储的信息。

1.1.5 《中华人民共和国密码法》中华人民共和国主席令第三十五号

(1)了解核心密码、普通密码、商用密码之间的区别

核心密码、普通密码属于国家机密。核心密码、普通密码用于保护国家秘密信息,核心密码保护的信息的最高级别是绝密级,普通密码保护信息的最高级别是机密级。商用密码用于保护不属于国家秘密的信息

1.2 相关标准

1.2.1 GB/T 35295-2017 信息技术 大数据 术语

GB/T 35295-2017标准链接:http://c.gb688.cn/bzgk/gb/showGb?type=online&hcno=8B5E9AC58EDB0B0E6434A7A06A0093D1

(1)了解本标准的范围、术语和定义,以及密切相关的通用术语。

范围

  1. 界定了信息技术大数据领域中的常用术语和定义
  2. 本标准适用于大数据领域的科研、教学和应用

大数据:具有体量巨大、来源多样、生成极快、且多变等特征并且难以用传统数据体系结构有效处理的包含大量数据集的数据。

大数据特征四个特征:

  1. 体量 volume:构成大数据的数据集的规模
  2. 速度 velocity:单位时间的数据流量
  3. 多样性 variety:数据可能来自多个数据仓库、数据领域或者多种数据类型
  4. 多变性 variability:大数据其他特征,即体量、速度、多样性等特征都处于多变状态

相关术语

  • 数据生存周期 data lifecycle:将原始数据转化为可用于行动的知识的一组过程

​ (1)了解本标准的范围、术语和定义,了解大数据参考架构的目的、目标, 了解大数据参考架构及其各组成部分

  • 大数据参考体系结构 big data reference architecture

    一种用作工具以便于对大数据内在的要求、设计结构和运行进行开放性探讨的高层概念模型。

    体系一般包括:系统协调者、数据提供者、大数据应用提供者、大数据框架提供者和数据消费者五大逻辑功能构件。

  • 系统协调者 system orchestrator

    定义所需的数据应用活动并将它们整合到可运行的垂直系统中。

    Ps:系统协调者可以是人、软件或者这两者

    系统协调者一般包括:业务领导者、咨询师、数据科学家、信息体系结构设计师、软件体系结构设计师、安全体系结构设计师、个人信息保护体系结构设计师和网络体系结构设计师

  • 数据提供者 data provider

    将新的数据或者信息引入到大数据系统

    Ps:数据提供者一般包括:企业、公共机构、科学家、调研人员、从事数据搜索的工程师、网络应用软件、网络运营商和末端用户

  • 大数据应用提供者 big data application provider

    执行数据生存周期操作,以满足系统协调者定义的需求以及安全和隐私保护需求

    大数据应用提供者一般包括:应用领域专家、平台领域专家、咨询师

  • 大数据框架提供者 big data framework provider

    它建立一种计算框架,在此框架中执行转换应用,同时保护数据完整性和隐私

    一般包括:内嵌数据集集群、数据中心和云提供者

  • 大数据生存周期模型 lifecycle model for big data

    用于描述大数据的“数据-信息-知识-价值”生存周期和指导大数据相关活动的模型,这些活动主要由收集、准备、分析和行动等阶段覆盖

    • 收集阶段:采集原始数据并按原来数据形式存储
    • 准备阶段:将原始数据转化为干净的、有组织的信息
    • 分析阶段:利用有组织的信息生产合成的知识
    • 行动阶段:运用合成的知识为组织生成价值

水平扩展:将集成的一群个体资源作为一个单系统使用的过程;

垂直扩展:为提高性能而提高处理速度、存储和内存等系统参数;

大数据生命周期模型:用于描述大数据的”数据-信息-知识-价值”生存周期和指导大数据相关活动的模型,这些活动由收集、准备、分析、行动等阶段覆盖

1.2.2 GB/T 35589-2017 信息技术 大数据 技术参考模型

GB/T 35589-2017 标准链接

(1)了解本标准的范围、术语和定义,了解大数据参考架构的目的、目标, 了解大数据参考架构及其各组成部分

  • 范围:

    本标准描述了大数据的参考架构,包括角色、活动、和功能组件以及它们之间的关系

    本标准适用于对大数据复杂操作的理解,可为大数据系列标准的制定提供基础

1.2.3 GB/T 37973-2019 信息安全技术 大数据安全管理指南

GB/T 37973-2019 标准链接:

(1)了解本标准的范围、术语和定义,了解大数据安全需求、大数据分类 分级、大数据活动及安全要求、大数据安全风险评估等方面的内容

  • 大数据安全需求:保密性、完整性、可用性、其他需求
  • 数据分类分级:
    • 原则:科学性、稳定性、实用性、扩展性

    • 流程:大数据工程专业技术证书考试-数据分析与应用_第1张图片

    • 方法:可按照数据主体、主题、业务等不同属性进行分类。参考GB/T 7027-2002第六章

  • 大数据活动及安全要求
    • 主要活动:数据采集、数据存储、数据处理、数据分发、数据删除
  • 大数据安全风险评估:资产识别、威胁识别、脆弱性识别、已有安全措施确认、风险分析

1.3 职业道德

掌握专业技术人员职业道德的基本要求

1.作为道德原则的集体主义中的“集体”—社会整体

2.健全民主监督,要坚持以党内民主带动人民民主,进一步健全民主制度,延伸权力监督,不断扩大公民有序的政治参与。

3.职业道德信念是职业道德认识和职业道德情感的统一。

4.为人民服务是职业道德的根本,是社会主义道德的显著标志和本质特点。

5.职业纪律是指从事不同的单位、部门要求从业人员必须遵守的带有强制性的条例、章程、制度和规定

6.职业工作者要做到敬业,首先要树立正确的职业观,无论从事什么职业,都是社会的分工不同,无贵贱之分。

7.加强职业道德是市场经济道德文化建设的统一原则。

8.知识分子是科学文化知识的创造者和传播者,也是思想建设的重要力量。

9.建立和谐文化的核心问题是培育人的和谐文化精神。

10.市场经济的一大优势就在于通过市场、通过竞争能够实现对企业的优胜劣汰

11.加强社会主义荣辱观教育,是当前思想道德建设的首要任务。

12.职业道德的最基本要求是奉献社会

13.积极参加职业实践是职业道德修养的根本途径。

二、计算机基础知识

2.1 面向对象技术

2.1.1 了解面向对象的发展历史,为什么引入面向对象

(1)面向对象的发展历史

雏形阶段:

20世纪60年代挪威计算中心发布的simula语言,首次引入了类的概念和继承机制,该语言的诞生是面向对象发展历史上的第一个里程碑。

70年代CLU、并发Pascal、Ada和Modula-2等语言对抽象数据类型理论的发展起到重要作用(支持数据和操作封装)。
犹他大学的博士生Alan Kay设计了一个实验性的语言Flex,该语言从Simula 67中借鉴了许多概念,如类、对象和继承等。

1972年Palo Alno研究中心(PARC)发布了Smalltalk 72,其中正式使用了面向对象这个术语。Smalltalk的问世标志着面向对象程序设计方法的正式形成,但是这个时期的Smalltalk语言还不够完善。

完善阶段:

PARC先后发布了Smalltalk 72,76和78等版本,直至1981年推出该语言完善的版本Smalltalk 80。Small talk 80的问世被认为是面向对象语言发展史上最重要的里程碑。迄今绝大多数面向对象的基本概念及其支持机制在Small talk 80中都已具备。他是第一个完善的、能够实际应用的面向对象语言。但是随后的Small talk的应用并不广泛。

繁荣阶段:

从20世纪80年代中期到90年代,是面向对象语言走向繁荣的阶段。面向对象方法也从编程发展到设计、分析,进而发展到整个软件生命周期。

(2)为什么引入面向对象

面向对象是为了解决系统的可维护性,可扩展性,可重用性

然而人们追求的系统可维护性,可扩展性,可重用性又是怎么在面向对象中体现出来的呢?

首先看看面向对象的三大特征:

  • 封装:找到变化并且把它封装起来,你就可以在不影响其它部分的情况下修改或扩展被封装的变化部分,这是所有设计模式的基础,就是封装变化,因此封装的作用,就解决了程序的可扩展性

  • 继承:子类继承父类,可以继承父类的方法及属性,实现了多态以及代码的重用,因此也解决了系统的重用性和扩展性。但是继承破坏了封装,因为他是对子类开放的,修改父类会导致所有子类的改变,因此继承一定程度上又破坏了系统的可扩展性,所以继承需要慎用。只有明确的IS-A关系才能使用,同时继承在在程序开发过程中重构得到的,而不是程序设计之初就使用继承,很多面向对象开发者滥用继承,结果造成后期的代码解决不了需求的变化了。因此优先使用组合,而不是继承,是面向对象开发中一个重要的经验。

  • 多态:接口的多种不同的实现方式即为多态。接口是对行为的抽象,刚才在封装提到,找到变化部分并封装起来,但是封装起来后,怎么适应接下来的变化?这正是接口的作用,接口的主要目的是为不相关的类提供通用的处理服务,我们可以想象一下。比如鸟会飞,但是超人也会飞,通过飞这个接口,我们可以让鸟和超人,都实现这个接口,这就实现了系统的可维护性,可扩展性。

2.1.2 掌握面向对象与非面向对象编程的优缺点
  • 面向过程

    • 优点:性能比面向对象高,因为类调用时需要实例化,开销比较大,比较消耗资源,比如单片机、嵌入式开发、Linux/Unix等一般采用面向过程开发,性能是最重要的因素。

    • 缺点:没有面向对象易维护、易复用、易扩展

  • 面向对象

    • 优点:易维护、易复用、易扩展,由于面向对象有封装、继承、多态性的特性,可以设计出低耦合的系统,使系统更加灵活、更加易于维护

    • 缺点:性能比面向过程低

2.1.3 掌握抽象的 5 个层次,抽象形式

面向对象领域,抽象的主要作用是划分类别,抽象是面向对象领域里面发现类的主要方法

大数据工程专业技术证书考试-数据分析与应用_第2张图片

  • 抽象的五个层次:①. 变量和函数 ②. 接口 ③. 消息传递 ④. 对象集单元 ⑤. 设计模式
  • 抽象形式:
2.1.4 了解类和方法

类是面向对象语言中最常用的元素,在一个类文件中允许 编写多个方法,用户最熟悉的方法是 Main 方法.

Ps:方法是对象的行为

  • 构造方法

    java中默认的有一个构造方法,构造方法的使用与否全看你自己的操作需求,但是一旦你创建了构造方法,java虚拟机将不再采用默认的无参的构造方法,而使用你定义的构造方法。

  • 继承和替换

    继承*:子类所具有的数据和行为总是作为与其相关的父类的属性的扩展(即更大的集合)。子类具有父类所有的属性及其他属性。继承总是可以传递的,这样 类就可以继承各个级别的父类特征。

  • 面向对象的设计原则

    • 开放-封闭原则

    • 单一职责原则

    • 依赖倒转原则

    • 迪米特法则(也称为最小知识原则)

    • 接口隔离原则

    • 合成/聚合复用原则

    • 里氏代换原则

  • 面向对象设计模式

    • 创建型模式,共五种:工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。
    • 结构型模式,共七种:适配器模式、装饰器模式、代理模式、外观模式、桥接模式、组合模式、享元模式。
    • 行为型模式,共十一种:策略模式、模板方法模式、观察者模式、迭代子模式、责任链模式、命令模式、备忘录模式、状态模式、访问者模式、中介者模式、解释器模式。
2.1.5 了解消息、实例和初始化

文章链接

  • 消息:对象间相互请求或相互协作的途径

  • 类的实例:

    • 属于某个类的对象称为该类的一个实例(instance)
    • 对象和类间具有instance-of关系
    • 一个实例是从一个类创建而来的对象
    • 类描述了这个实例的行为(方法)及结构(属性)

2.2 数据结构和算法

2.2.1 掌握程序性能分析的概念和方法,包括时间复杂性与空间复杂性分析
  • 空间复杂度

    空间复杂度主要考虑的是运行代码所占用的空间。其中,空间可大致分为:指令空间 (instruction space),数据空间 (data space),和环境栈空间 (enviroment stack space) 。指令空间是指编译之后程序代码所需要的存储空间,数据空间是指变量和变量值所需要的存储空间,环境栈用来保存暂停的函数和方法在恢复运行时所需要的信息(可以联想递归的过程进行记忆)。

  • 时间复杂度

    一个程序 P 所需要的时间是编译时间和运行时间之和。因为一个编译过的程序可以运行若干次而不用进行重新编译,因此我们一般只关注于程序的运行时间。

    在统计时间复杂度的时候,可以通过 步数(step-count)方法来进行统计。每一步即一个程序步,可以大概地定义为一个语法或定义上的程序片段,该片段的执行时间独立于实例特征。

    对于个人来说,在时间复杂度这个相关知识点中,比较重要的就是理解并且记住各个排序算法(如插入排序,合并排序,冒泡排序等)最好、最坏情况下的时间复杂度(或称作为 BIG O)。此部分内容会在下文出现。

性能分析:时间复杂度+空间复杂度

分析方法:性能分析+性能测量

  • 时间复杂度:分别计算程序的每条语句需要计算的次数(频度),再将次数进行相加得到程序的运行时间。

    在数据结构中,频度表达式可以这样简化:

​ 去掉频度表达式中,所有的加法常数式子。例如 2n2+2n+1 简化为 2n2+2n ;

​ 如果表达式有多项含有无限大变量的式子,只保留一个拥有指数最高的变量的式子。例如 2n2+2n 简化为 2n2;

​ 如果最高项存在系数,且不为 1,直接去掉系数。例如 2n2 系数为 2,直接简化为 n2 ;

PS:事实上,对于一个算法(或者一段程序)来说,其最简频度往往就是最深层次的循环结构中某一条语句的执行次数。

​ O(1)常数阶 < O(logn)对数阶 < O(n)线性阶 < O(n2)平方阶 < O(n3)(立方阶) < O(2n) (指数阶)

  • 空间复杂度:

​ 如果程序所占用的存储空间和输入值无关,则该程序的空间复杂度就为 O(1);反之,如果有关,则需要进一步判断它们之间的关系:

​ 如果随着输入值 n 的增大,程序申请的临时空间成线性增长,则程序的空间复杂度用 O(n) 表示;

​ 如果随着输入值 n 的增大,程序申请的临时空间成 n2 关系增长,则程序的空间复杂度用 O(n2) 表示;

​ 如果随着输入值 n 的增大,程序申请的临时空间成 n3 关系增长,则程序的空间复杂度用 O(n3) 表示;

2.2.2 掌握线性表的概念,掌握堆栈、队列、跳表和散列的描述方法与应用
  • 线性表概念

    一个线性表由有限个类型相同的数据元素组成。在这有限个数据元素中,数据元素构成一个有序的序列,除了第一个和最后一个元素外,每一个元素都有唯一的前驱元素和唯一的后继元素。

  • 堆栈

    栈(Stack)又名堆栈,作为一个先进后出的数据结构。(注意:这里的堆栈本身就是栈,只是换了个抽象的名字。)

    它是一种运算受限的线性表。其限制是仅允许在表的一端进行插入和删除运算。这一端被称为栈顶,相对地,把另一端称为栈底。向一个栈插入新元素又称作进栈、入栈或压栈,它是把新元素放到栈顶元素的上面,使之成为新的栈顶元素;从一个栈删除元素又称作出栈或退栈,它是把栈顶元素删除掉,使其相邻的元素成为新的栈顶元素。

  • 堆栈的应用:

    括号匹配、表达式求值、汉诺塔、迷宫搜索、字符串反转、函数调用、前缀_中缀_后缀表达式

  • 队列

    队列是一种特殊的线性表,特殊之处在于它只允许在表的前端(front)进行删除操作,而在表的后端(rear)进行插入操作,和栈一样,队列是一种操作受限制的线性表。进行插入操作的端称为队尾,进行删除操作的端称为队头。队列中没有元素时,称为空队列。队列采用 先进先出 FIFO(first in first out),新元素(等待进入队列的元素)总是被插入到链表的尾部,而读取的时候总是从链表的头部开始读取。每次读取一个元素,释放一个元素。所谓的动态创建,动态释放。因而也不存在溢出等问题。由于链表由结构体间接而成,遍历也方便。

  • 队列的应用

    迷宫问题、java线程池TreadPoolExecutor、kafka等消息队列

  • 散列(hash):

    散列方法的主要思想是根据结点的关键码值来确定其存储地址:以关键码值K为自变量,通过一定的函数关系h(K)(称为散列函数),计算出对应的函数值来,把这个值解释为结点的存储地址,将结点存入到此存储单元中。检索时,用同样的方法计算地址,然后到相应的单元里去取要找的结点。通过散列方法可以对结点进行快速检索。散列(hash,也称“哈希”)是一种重要的存储方式,也是一种常见的检索方法

按照散列存储方式构造的存储结构称为散列表。散列表中的一个位置称为槽(slot)。

散列技术的核心是散列函数,散列函数的值h(K)就是X在散列表上的存储位置。

  • 应用:

    完整性检测

  • 跳表

    跳表是基于链表实现的

    跳表中查找一个元素的时间复杂度为:O(logn)

    空间复杂度是 O(n)

    应用:redis、Hbase

2.2.3 了解树的描述方法与应用
  • 树的概念

    树(英文:Tree)是一种抽象数据类型(ADT),用来模拟具有树状结构性质的数据集合。它是由 n nn ( n > = 1 ) ( n >=1 )(n>=1) 个有限节点组成的一个具有层次关系的集合。之所以称为“树”是因为它看起来像一棵倒挂的树,也就是它是根朝上,而叶朝下的。它具有以下的特点:

    • 每个节点有零个或多个子节点;
    • 没有父节点的节点称为根节点;
    • 每一个非根节点有且只有一个父节点;
    • 除了根节点外,每个子节点可以分为多个不相交的子树。
  • 顺序存储:将数据结构存储在固定的数组中,然在遍历速度上有一定的优势,但因所占空间比较大,是非主流二叉树。二叉树通常以链式存储

  • 树的应用场景

    1. xml,html等,那么编写这些东西的解析器的时候,不可避免用到树
    2. 路由协议就是使用了树的算法
    3. mysql数据库索引
    4. 文件系统的目录结构
    5. 所以很多经典的AI算法其实都是树搜索,此外机器学习中的decision tree也是树结构
2.2.4 了解图的描述方法与应用

图是一种数据结构,其中结点可以具有零个或多个相邻元素。两个结点之间的连接称为边。 结点也可以称为顶点

  • 概念:

    • 顶点(vertex):A,B,C,D,E

    • 边(edge): 顶点之间的连接线

    • 路径

    • 无向图大数据工程专业技术证书考试-数据分析与应用_第3张图片

  • 图的表示方式:二维数组表示(邻接矩阵);链表示(邻接表)

  • 所谓图的遍历,即是对结点(顶点)的访问。一个图有那么多个结点,如何遍历这些结点,需要特定策略,一般有两种访问策略: (1)深度优先遍历 (2)广度优先遍历

2.3 操作系统

2.3.1 掌握操作系统的概念和操作系统结构。
  • 定义:控制和管理计算系统内各个硬件和软件资源,并且组织多道程序运行的系统软件,是用户和计算机之间的接口

  • 操作系统有三个特征:并发,共享,不确定性。
      并发是指两个或者两个以上的活动在同一给定时间间隔进行。这里注意和并行的区别。系统中有多道程序在内存中,在单cpu环境下这些程序交替地在CPU中执行,从一个时间段来看,各个程序都向前执行了。为此操作系统就必须具备控制和管理各种并发活动的能力,建立活动实体,并且分配必须的资源。
      共享是指计算机系统中资源被多个进程所共用。例如多个进程同时占用内存,从而对内存共享,并发执行时对CPU共享等等
      不确定性是指系统中各个时间发生的顺序的不可预测性。

  • 操作系统结构文章链接:链接

    1、操作系统的重要原则:机制决定如何做,策略决定做什么。一个策略可以调用不同的机制来实现自己。
    2、简单结构:没有很好地区分接口和功能层次,应用程序能访问基本的I/O子程序,由内核和系统程序两个独立部分组成。
    3、分层方法:将操作系统分成若干层,最底层(0)为硬件,最高层为用户接口。优点在于构造和调试的简单化,每层只能利用较低层(严格来讲只能下一层)的功能和服务。主要问题是设计对层的详细定义,效率低,开销大。
    4、微内核:将所有非基本部分从内核中移走,并将他们时限为系统程序或用户程序。主要功能是使用户程序和运行在用户空间的各种服务之间的通信以信息传递的形式提供。好处在于便于维护操作系统,容易从一种硬件平台转移到另一种硬件平台,有更好的安全性和可靠性。缺点是必须忍受由于系统功能总开销的增加而导致系统性能下降。
    5、模块化结构:内核有一组核心部件,以及在启动或运行时对外附加服务的动态链接,使用动态加载模块,由七个可加载内核模块围绕一个核心内核组成。允许内核提供核心服务,能动态地实现特定的功能每一内核部分都有被定义和维护的接口。任一模块都能调用其他模块,不需调用信息传递来通信。
    6、混合结构:用分层方法,其中一层为微内核式结构

2.3.2 掌握操作系统的进程管理,包括进程概念、进程调度、同步及死锁处理。

文章链接:

  • 进程管理概念

    进程是系统进行资源分配和调度的基本单位
    进程作为程序独立运行的载体保障程序正常执行。
    进程的存在使得操作系统资源的利用率大幅提升

  • 进程和线程:线程是操作系统进行运行调度的最小单位线程包含在进程中是进程中实际运行工作的单位一个进程可以并发多个线程,每个线程执行不同的任务。进程的线程共享进程的资源

  • 进程调度:

    作业是用户向计算机提交任务的任务实体。一个作业可由多个进程组成,且必须至少由一个进程组成,反过来则不成立。作业的概念主要用在批处理系统中。
    进程调度是指计算机通过决策决定哪个就绪进程可以获得CPU的使用权。

  • 死锁概念

    死锁是指两个或者两个以上的进程在执行过程中,由于竞争资源或者由于彼此通信而造成的一种阻塞的现象,若无外力作用,它们都将无法推进下去。此时称系统处于死锁状态或系统产生了死锁,这些永远在互相等待的进程称为死锁进程。

  • 死锁的产生:

    • 竞争资源
    • 进程调度顺序不当
2.3.3 了解内存管理,包括内存管理策略和虚拟内存管理。
  • 内存管理

    操作系统的内存管理主要负责内存的分配与回收(malloc 函数:申请内存,free 函数:释放内存),另外地址转换也就是将逻辑地址转换成相应的物理地址等功能也是操作系统内存管理做的事情

  • 虚拟内存

    • 让每个进程拥有一篇连续完整的虚拟内存空间,提高内存管理效率。
    • 把内存扩展到硬盘空间,让程序可以拥有超过系统物理内存大小的可用内存空间,利于大程序的编写。
2.3.4 了解存储管理,包括文件系统、文件系统实现、大容量存储结构和 I/O 系统。
2.3.5 了解系统保护与安全。

2.4 计算机网络

2.4.1 了解计算机网络在信息时代的核心作用以及计算机网络的发展历史;理解计算机网络的分类,网络标准化,网络参考模型,网络体系结构
  • 计算机网络是指将地理位置不同的具有独立功能的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统,网络管理软件及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。 计算机网络也称计算机通信网。关于计算机网络的最简单定义是:一些相互连接的、以共享资源为目的的、自治的计算机的集合

  • 从逻辑功能上看,计算机网络是以传输信息为基础目的,用通信线路将多个计算机连接起来的计算机系统的集合,一个计算机网络组成包括传输介质和通信设备。

  • 从用户角度看,计算机网络是这样定义的:存在着一个能为用户自动管理的网络操作系统。由它调用完成用户所调用的资源,而整个网络像一个大的计算机系统一样,对用户是透明的。

  • 核心作用:数据通信、资源共享、集中管理、分布式处理、均衡负荷、可靠性高、中和信息服务

  • 计算机网络的发展历史

    • 网络雏形阶段。从20世纪50年代中期开始,以单个计算机为中心的远程联机系统,构成面向终端的计算机网络,称为第一代计算机网络。
    • 网络初级阶段。从20世纪60年代中期开始进行主机互联,多个独立的主计算机通过线路互联构成计算机网络,无网络操作系统,只是通信网。60年代后期,ARPANET网出现,称为第二代计算机网络。
    • 20世纪70年代至80年代中期,以太网产生,ISO制定了网络互连标准OSI,世界上具有统一的网络体系结构,遵循国际标准化协议的计算机网络迅猛发展,这阶段的计算机网络称为第三代计算机网络。
    • 从20世纪90年代中期开始,计算机网络向综合化高速化发展,同时出现了多媒体智能化网络,发展到现在,已经是第四代了。局域网技术发展成熟。第四代计算机网络就是以千兆位传输速率为主的多媒体智能化网络。
  • 大数据工程专业技术证书考试-数据分析与应用_第4张图片

2.4.2 掌握物理层的基本概念,理解信道极限容量的概念以及信道最大传输速 率的公式,模拟传输和数字化传输的物理层标准

文章链接:

  • 物理层概念 : 各种计算机通过 传输媒体 连接 , 物理层 负责 解决在 传输媒体 上 传输数据比特流 ;

    • 传输媒体 : 传输介质 , 光纤 , 电缆 , 双绞线 等 ;
    • 与具体的传输媒体无关 : 不关心 传输媒体的厂家 , 规格 等 , 只关注物理层本层次的内容 , 以及与上层的接口服务 ;
  • 物理层主要任务 : 定义标准 , 定义 传输媒体 接口 的相关特性 ;

  • 信道极限容量概念:

  • 1984年,香农 (Shannon) 用信息论的理论推导出了带宽受限且有高斯白噪声干扰的信道的极限、无差错的信息传输速率(香农公式)。

    信道的极限信息传输速率

                 C 可表达为: C = W log2(1+S/N)  (bit/s)
    

    其中:W 为信道的带宽(以 Hz 为单位); S 为信道内所传信号的平均功率; N 为信道内部的高斯噪声功率。

    香农公式表明 :信道的带宽或信道中的信噪比越大,则信息的极限传输速率就越高。只要信息传输速率低于信道的极限信息传输速率, 就一定可以找到某种办法来实现无差错的传输。

  • 大数据工程专业技术证书考试-数据分析与应用_第5张图片

  • 大数据工程专业技术证书考试-数据分析与应用_第6张图片

  • 模拟传输:模拟数据是连续变化的。例如,当我们说话时,声音大小是连续变化的,因此运送话音信息的声波就是模拟数据,电话线上的话音信号是模拟信号。(正弦波,余弦波)

  • 数字数据 数字数据的取值仅允许为有限的几个离散数值(例如0、1)。例如,计算机上的网卡发送的0100110形式的数据是数字数据, 其对应的在电缆上传递的信号是数字信号。

2.4.3 掌握数据链路层的基本概念,理解停等协议和连续 ARQ 协议,滑动窗口 协议,检错和纠错机制
  • 基本概念

    • 链路是从一个节点到相邻节点的一段物理线路,中间没有任何其他的交换节点
    • 数据链路是除了一条物理线路之外,还必须有一些必要的通信协议来控制这些数据的传输。也就是说数据链路等于链路加上实现这些协议的硬件和软件。比如网络适配器(既有硬件,也有软件)。
  • 停止等待协议
    停止等待协议是tcp保证传输可靠的重要途径,”停止等待”就是指发送完一个分组就停止发送,等待对方的确认,只有对方确认过,才发送下一个分组.

    停止等待协议的优点是简单,但是缺点是信道的利用率太低,一次发送一条消息,使得信道的大部分时间内都是空闲的

  • 连续ARQ协议:它是指发送方维护着一个窗口,这个窗口中不止一个分组,有好几个分组,窗口的大小是由接收方返回的win值决定的,所以窗口的大小是动态变化的,只要在窗口中的分组都可以被发送,这就使得TCP一次不是只发送一个分组了,从而大大提高了信道的利用率.并且它采用累积确认的方式,对于按序到达的最后一个分组发送确认.

  • 滑动窗口协议:之所以叫滑动窗口协议,是因为窗口是不断向前走的,该协议允许发送方在停止并等待确认前发送多个数据分组。由于发送方不必每发一个分组就停下来等待确认,因此该协议可以加速数据的传输,还可以控制流量的问题.

  • 累积确认:如果发送方发送了5个分组,接收方只收到了1,2,4,5,没有收到3分组,那么我的确认信息只会说我期望下一个收到的分组是第三个,此时发送方会将3,4,5,全部重发一次,当通信质量不是很好的时候,连续ARQ还是会带来负面影响.

2.4.4 掌握介质访问控制子层的基本概念,理解动态多路访问控制协议,以太网,无线局域网,数据链路层的交换技术

文章:

  • 介质访问控制子层

    在多路访问链路中多个站点同时发送数据会造成冲突,因此OSI(开放式系统互联通信参考模型)为解决冲突问题,专门在数据链路层划分出一个子层:介质访问控制子层,以控制和协调所有站点对共享介质的访问,避免或减少冲突。即MAC层定义了主机何时以及如何访问共享介质

  • 以太网

    以太网属于OSI参考模型的数据链路层,是为了实现局域网通信而设计的一种技术,它规定了包括物理层的连线、电子信号和介质访问层协议,是目前应用最普遍的局域网技术

  • 在数据链路层中,存在两种链路点对点链路和广播式链路

    点对点链路:相邻两结点之间通过一个链路相连,没有第三者
    应用:PPP协议,常用于广域网

    广播式链路:所有主机共享通信介质
    应用:早期的总线以太网,HFC的上行链路,802.11无线局域网

  • 多路访问控制协议(multiple access control protocol),采用分布式算法决定结点如何共享信道,即决策结点何时可以传输数据,必须基于信道本身,通信信道共享协调信息

    理想MAC协议
    给定: 速率为R bps的广播信道
    期望:
    1.当只有一个结点希望传输数据时,它可以以速率 R发送.

    1. 当有M个结点期望发送数据时,每个节点平均发送数据的平均速率是R/M
    2. 完全分散控制: 无需特定结点协调,无需时钟、时隙同步
2.4.5 了解网络层的基本概念,了解路由协议,拥塞控制算法,服务质量,网 络互连,IP 协议,子网掩码
2.4.6 了解传输层的基本概念,了解传输层路由协议,TCP,UDP,拥塞控制算 法。 7、了解应用层的基本概念,了解 DNS,邮件系统,www,流音频与视频

三、信息化基础知识

3.1 电子政务

3.1.1 电子政务的概念、内容和技术形式

(1)了解电子政务的概念
电子政务是指国家机关在政务活动中,全面应用现代信息技术、网络技术以及办公自动化技术等进行办公、管理和为社会提供公共服务的一种全新的管理模式。广义电子政务的范畴,应包括所有国家机构在内; 而狭义的电子政务主要包括直接承担管理国家公共事务、社会事务的各级行政机关。

(2)了解电子政务的内容
1.政府从网上获取信息,推进网络信息化
2.加强政府的信息服务,在网上设有政府自己的网站和主页,向公众提供可能的信息服务,实现政务公开
3.建立网上服务体系,使政务在网上与公众互动处理,即“电子政务”
4.将电子商业用于政府,即“政府采购电子化”。
5. 充分利用政务网络,实现政府“无纸化办公”。
6. 政府知识库。

(3)了解电子政务的技术形式
电子政务是政府部门/机构利用现代信息科技和网络技术,实现高效、透明,规范的电子化内部办公,协同办公和对外服务的程序、系统、过程和界面。与传统政府的公共服务相比,电子政务除了具有公共物品属性,如广泛性、公开性、非排他性等本质属性外,还具有直接性、便捷性、低成本性以及更好的平等性等特征

3.2.2 中国政府信息化的策略和历程
3.2.3 电子政务应用模式

(1)了解政府对政府(G2G)模式
G2G的全称是Government to Government,又写作G to G;又称A2A,即行政机关到行政机关。G2G是一种政府对政府的电子政务应用模式,是电子政务的基础性应用。G2G是指政府(Government)与政府(Government )之间的电子政务,即上下级政府、不同地方政府和不同政府部门之间实现的电子政务活动。如下载政府机关经常使用的各种表格,报销出差费用等,以节省时间和费用,提高工作效率

(2)了解政府对企业(G2B)模式
G2B电子政务。指政府(Government )与企业(Business)之间的电子政务,也是G2G、G2B和G2C电子政务模式的基础。G2B电子政务主要是利用Intranet建立起有效的行政办公和企业管理体系,为提高政府工作效率。

(3)了解政府对公众(G2C)模式
g2c是G2C电子政务的简称,是指政府( Government)与公众(Citizen)之间的电子政务。是政府通过电子网络系统为公民提供各种服务。G2C电子政务所包含的内容十分广泛,主要的应用包括:公众信息服务、电子身份认证、电子税务、电子社会保障服务、电子民主管理、电子医疗服务、电子就业服务、电子教育、培训服务、电子交通管理等。G2C电子政务的目的是除了政府给公众提供方便、快捷、高质量的服务外,更重要的是可以开辟公众参政、议政的渠道,畅通公众的利益表达机制,建立政府与公众的良性互动平台。

(4)了解政府对公务员(G2E)模式
G2E电子政务。指政府(Government )与政府公务员即政府雇员(Employee)之间的电子政务,也有学者把它称之为内部效率效能(IEE)电子政务模式

3.2 电子商务

3.2.1 电子商务的概念及基本特征

(1)了解电子商务的概念
电子商务是以信息网络技术为手段,以商品交换为中心的商务活动。“电子商务”,“电子”是一种技术,是一种手段,而“商务”才是最核心的目的,一切的手段都是为了达成目的而产生的。而电子商务师就是利用计算机的技术、网络技术等现代信息技术来进行相关工作的人员。

广义的电子商务定义为,使用各种电子工具从事商务活动;狭义电子商务定义为,主要利用Internet从事商务或活动。无论是广义的还是狭义的电子商务的概念,电子商务都涵盖了两个方面:一是离不开互联网这个平台,没有了网络,就称不上为电子商务;二是通过互联网完成的是一种商务活动。

(2)了解电子商务的基本特征
从电子商务的含义及发展历程可以看出电子商务具有如下基本特征:
普遍性
电子商务作为一种新型的交易方式,将生产企业、流通企业以及消费者和政府带入了一个网络经济、数字化生存的新天地。
方便性
在电子商务环境中,人们不再受地域的限制,客户能以非常简捷的方式完成过去较为繁杂的商业活动。如通过网络银行能够全天候地存取账户资金、查询信息等,同时使企业对客户的服务质量得以大大提高。在电子商务商业活动中,有大量的人脉资源开发和沟通,从业时间灵活,完成公司要求,有钱有闲。
整体性
电子商务能够规范事务处理的工作流程,将人工操作和电子信息处理集成为一个不可分割的整体,这样不仅能提高人力和物力的利用率,也可以提高系统运行的严密性。
安全性
在电子商务中,安全性是一个至关重要的核心问题,它要求网络能提供一种端到端的安全解决方案,如加密机制、签名机制、安全管理、存取控制、防火墙、防病毒保护等等,这与传统的商务活动有着很大的不同。
协调性
商业活动本身是一种协调过程,它需要客户与公司内部、生产商、批发商、零售商间的协调。在电子商务环境中,它更要求银行、配送中心、通信部门、技术服务等多个部门的通力协作,电子商务的全过程往往是一气呵成的。
各项功能
电子商务可提供网上交易和管理等全过程的服务。因此,它具有广告宣传、咨询洽谈、网上定购、网上支付、电子账户、服务传递、意见征询、交易管理等各项功能。
广告宣传
电子商务可凭借企业的Web服务器和客户的浏览,在Internet上发布各类商业信息。客户可借助网上的检索工具迅速地找到所需商品信息,而商家可利用网上主页和电子邮件在全球范围内作广告宣传。与以往的各类广告相比,网上的广告成本最为低廉,而给顾客的信息量却最为丰富。
咨询洽谈
电子商务可借助非实时的电子邮件,新闻组和实时的讨论组来了解市场和商品信息、洽谈交易事务,如有进一步的需求,还可用网上的白板会议(Whiteboard Conference)来交流即时的图形信息。网上的咨询和洽谈能超越人们面对面洽谈的限制、提供多种方便的异地交谈形式。
网上订购
电子商务可借助Web中的邮件交互传送实现网上的订购。网上的订购通常都是在产品介绍的页面上提供十分友好的订购提示信息和订购交互格式框。当客户填完订购单后,通常系统会回复确认信息单来保证订购信息的收悉。订购信息也可采用加密的方式使客户和商家的商业信息不会泄漏。
网上支付
电子商务要成为一个完整的过程。网上支付是重要的环节。客户和商家之间可采用信用卡账号实施支付。在网上直接采用电子支付手段将可省略交易中很多人员的开销。网上支付将需要更为可靠的信息传输安全性控制以防止欺骗、窃听、冒用等非法行为。
电子账户
网上的支付必须有电子金融来支持,即银行或信用卡公司及保险公司等金融单位要为金融服务提供网上操作的服务。而电子账户管理是其基本的组成部分。信用卡号或银行账号都是电子账户的一种标志。而其可信度需配以必要技术措施来保证,如数字凭证、数字签名、加密等,这些手段的应用提供了电子账户操作的安全性。
服务传递
对于已付了款的客户应将其订购的货物尽快地传递到他们的手中。而有些货物在本地,有些货物在异地,电子邮件将能在网络中进行物流的调配。而最适合在网上直接传递的货物是信息产品。如软件、电子读物、信息服务等。它能直接从电子仓库中将货物发到用户端。
意见征询
电子商务能十分方便地采用网页上的“选择”、“填空”等格式文件来收集用户对销售服务的反馈意见。这样使企业的市场运营能形成一个封闭的回路。客户的反馈意见不仅能提高售后服务的水平,更使企业获得改进产品、发现市场的商业机会。
交易管理
整个交易的管理将涉及人、财、物多个方面,企业和企业、企业和客户及企业内部等各方面的协调和管理。因此,交易管理是涉及商务活动全过程的管理。电子商务的发展,将会提供一个良好的交易管理的网络环境及多种多样的应用服务系统。这样,能保障电子商务获得更广泛的应用。

3.2.2 电子商务的类型

(1)了解企业与企业之间的电子商务(B2B)模式。
文章
(2)了解商业企业与消费者之间的电子商务(B2C)模式。
文章
(3)了解消费者与消费者之间的电子商务(C2C)模式。
文章
(4)了解电子商务与线下实体店有机结合向消费者提供商品和服务(O2O)
文章

3.3 新一代信息技术

3.3.1 物联网

(1)了解物联网的概念

(2)了解物联网架构

(3)了解物联网技术的应用

3.3.2 云计算

(1)了解云计算的概念

(2)了解云计算的架构及关键技术

(3)了解云计算服务的类型

(4)了解发展云计算的主要任务

3.3.3 移动互联网

(1)了解移动互联网的概念

(2)了解移动互联网的特点

(3)了解移动互联网技术的应用

3.3.4 人工智能

(1)了解人工智能的概念

(2)了解人工智能研究范畴

(3)了解人工智能实际应用

3.3.5 区块链

(1)了解区块链的概念

(2)了解区块链的系统架构

(3)了解区块链的分类

(4)了解区块链的应用

3.3.6 量子技术

(1)了解量子技术的概念

(2)了解量子技术的特点

(3)了解量子技术的应用

四、大数据安全

4.1 网络安全

4.1.1 熟悉网络安全的一些基本概念、基本属性及网络安全模型等

[文章链接:](https://blog.csdn.net/qq_44096670/article/details/122557360

https://zhuanlan.zhihu.com/p/443015758)

4.1.2 了解网络安全体系的安全服务、安全机制、安全服务配置和安全管理等
4.1.3 熟悉各种网络安全技术的概念,了解物理安全、网络安全设备、系统安 全、应用安全的基本知识
4.1.4了解网络安全运维与保障的框架、基本原理等知识

4.2 数据安全

详情参考国家标准内容

4.2.1 了解大数据安全管理及安全需求的原则,掌握数据安全分类、定级的原则
4.2.2 了解数据采集、存储、处理、分发、删除等活动的概念,了解相关安全 技术与安全要求
4.2.3 熟悉云存储安全体系、数据生命周期中的安全风险、保障云存储安全的 原则及云计算边界安全相关的概念
4.2.4 了解大数据安全与防护保障机制。

第二部分 专业知识

五、数据库系统(SQL+NoSQL)

5.1 掌握关系模型概念和 SQL 语言

  • 关系模型:用二维表格表示实体集,用关键码(key)表示实体之间联系的数据模型称为关系模型。即若干关系的集合,也就是一个数据库。

    PS:关键码由一个或者多个属性组成

  • 超键(super key): 在关系中能唯一标识元组的属性集称为关系模式的超键

  • 候选键(candidate key): 不含有多余属性的超键称为候选键。也就是在候选键中,若再删除属性,就不是键了!

  • 主键(primary key): 用户选作元组标识的一个候选键程序主键

  • 外键(foreign key):如果关系模式R中属性K是其它模式的主键,那么k在模式R中称为外键。

关系模型的存取路径对用户透明,即存取路径对用户是隐蔽的,用户看不到关系模型的存取路径(这里的透明不是传统意义上的透明)。

在关系模型中,字段称为属性,字段值为属性值,记录类型称为关系模式。记录称为元组,元组的集合称为关系或者实例。

PS:关系:若干元组的集合,说白了就是指数据库表

  • 元组为行(Row)——一条数据库记录,属性为列(column)

  • 域:属性的取值范围,如性别属性(字段),取值范围为{男,女}

  • **关系模式:**关系模式是对关系的描述,关系中有哪些属性,属性之间的依赖关系如何。模式的一个具体值称为模式的一个实例。模式反应的是数据的结构及其联系,是型,是相对稳定的;实例反应的是关系某一个时刻的状态,是值,是相对变动的。

  • 查看模型:desc table student;

  • 查看实例:select * from student;

  • **SQL语言:structured query language 结构化查询语言,**是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。

5.2 掌握关系数据库设计方法

基于E-R模型的关系型数据库设计方法

E-R模型即实体-联系模型。

实体:凡是可以被识别的事、物概念等均可称为实体。在一个单位中,具有共性的实体可以划分为一个实体集,例如学生a,学生b都是实体,所有的学生就是实体集,每个学生都是实体集中的成员。

联系:实体之间会存在各种各样的联系,例如领导和雇员之间的关系,这种关系叫做联系。

5.3 了解关系数据库事务概念和事务调度方法

事务:将一组读写操作组合在一起形成一个逻辑单元。这些操作要么全部执行成功提交(commit),要么全部中止失败(abort,rollback),不会留下一个中间状态的烂摊子。所以,失败后程序可以安全的重试,分析原因等。 相反,如果没有对事务的支持,数据库可能持久化很多中间状态,留下无法解释的业务,开发人员处理起来也很麻烦。所以,事务是为了简化编程,提供数据安全/正确性/一致性。

ACID****特性

原子性(Atomicity),一致性(Consistency),隔离性(Isolation),持久性 (Durability)

关系型数据库事务一:概念 - Ricky~~ - 博客园 (cnblogs.com)

事务调度方法:

事务调度的本质是锁调度。锁获取的顺序决定事务执行的顺序。

串行调度

并发调度

并发调度的正确性:当且仅当在这个并发调度下所得到的新数据库结果与分别串行地运行这些事务所得的新数据库完全一致,则说调度是正确的

5.4 了解数据库并发控制技术

需要保证调度结果的正确性,并且保证并发操作调度的可串行性

并发控制的单位——事务。

并发控制:封闭方法、悲观并发控制(数据争夺激烈的情况下)、乐观并发控制(数据争夺少的环境中)、时标并发控制

5.5了解非关系数据库背景、特点和分类

  • 背景:NoSQL 的产生并不是要彻底否定 关系型数据库,而是作为传统数据库的一个有效补充。NoSQL 数据库在特定的场景下可以发挥难以想象的高效率和高性能。

​ 非关系型数据库存储不需要固定的表结构,通常也不存在连续操作。

  • 读写性能:NoSQL数据库不需要sql层的解析,读写性能高;NoSQL数据库将数据存储到缓存中,而SQL数据库将数据存储到硬盘中,NoSQL比SQL的查询速度快

  • 扩展能力:NoSQL数据库存储数据是以键值对的形式 (key,value)、文档形式、图片形式等。所以NoSQL可以存储基础数据、对象、集合等格式的数据。扩展能力强

  • **成本:**NoSQL数据库简单易部署,基本上都是开源的软件,相较关系型数据库价格便宜。

  • PS:缺点——①学习门槛高②NoSQL的数据结构较为复杂,对复杂的查询方面稍微欠缺③不提供关系型数据库对事务的处理。

  • 分类

​ 常见的NoSQL数据库:

​ Redis :key-value数据库,主要用于热点数据的缓存,限时业务的运用、计数器、分布式锁、延时操作等。

​ MemCache:分布式的高速缓存系统,主要适用于提高网站的访问速度。

​ MongoDB:分布式文件存储数据库,界于关系型数据库和非关系型数据库之间的产品。支持的查询语言非常强大

  • 非关系型数据库应用场景

​ ①海量数据存储。

​ ②多格式的数据存储。

​ ③对查询速度要求快的数据存储。

六、数据仓库

6.1 了解数据挖掘的定义、功能、常用方法

  • 数据挖掘

    数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD) ,是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策

  • 常用方法:利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等, 它们分别从不同的角度对数据进行挖掘。

    分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。

    回归分析。回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。

    聚类。聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。

    关联规则。关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据。

    特征。特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。如营销人员通过对客户流失因素的特征提取,可以得到导致客户流失的一系列原因和主要特征,利用这些特征可以有效地预防客户的流失。

    变化和偏差分析。偏差包括很大一类潜在有趣的知识,如分类中的反常实例,模式的例外,观察结果对期望的偏差等,其目的是寻找观察结果与参照量之间有意义的差别。在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。

    Web页挖掘。随着Internet的迅速发展及Web 的全球普及, 使得Web上的信息量无比丰富,通过对Web的挖掘,可以利用Web 的海量数据进行分析,收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息,并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆,对这些信息进行分析和处理,以便识别、分析、评价和管理危机。

  • 功能:数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。

    1、自动预测趋势和行为

    数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。

    2、关联分析

    数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。

    3、聚类

    数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年代初,Mchalski提出了概念聚类技术牞其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。

    4、概念描述

    概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。

    5、偏差检测

    数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。

6.2 了解数据仓库的产生与发展,掌握数据仓库的定义

文章链接

6.3 了解数据仓库与数据挖掘的联系与区别

联系:

(1) 数据仓库为数据挖掘提供了更好的、更广泛的数据源。

(2) 数据仓库为数据挖掘提供了新的支持平台。

(3) 数据仓库为更好地使用数据挖掘这个工具提供了方便。

(4) 数据挖掘为数据仓库提供了更好的决策支持。

(5) 数据挖掘对数据仓库的数据组织提出了更高的要求。

(6) 数据挖掘还为数据仓库提供了广泛的技术支持。

数据仓库与数据挖掘的差别:

(1) 数据仓库是一种数据存储和数据组织技术, 提供数据源。

(2) 数据挖掘是一种数据分析技术, 可针对数据仓库中的数据进行分析。

6.4 了解常用数据挖掘工具

数据挖掘工具 link

6.5 了解联机分析处理技术(OLAP)的概念、特征

联机分析处理技术

  • 概念

    联机分析处理OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。它具有FASMI(Fast Analysis of Shared Multidimensional Information),即共享多维信息的快速分析的特征。其中F是快速性(Fast),指系统能在数秒内对用户的多数分析要求做出反应;A是可分析性(Analysis),指用户无需编程就可以定义新的专门计算,将其作为分析的一部 分,并以用户所希望的方式给出报告;M是多维性(Multi—dimensional),指提供对数据分析的多维视图和分析;I是信息性(Information),指能及时获得信息,并且管理大容量信息

6.6 了解 OLAP 中的多维分析操作,包括钻取、切片和切块、旋转

文章连接

6.7 了解数据预处理的原因、数据预处理的方法

文章连接

文章连接

6.8 了解数据清洗、数据集成和变换、数据归约的概念与方法,具有应用上 述方法进行数据清洗的能力

文章连接

七、大数据技术与应用

7.1 数据可视化

7.1.1 了解常见可视化图形(散点图、折线图、饼图、环图、柱状图)的概念, 具有初步的可视化图形展示数据的能力。

文章链接

7.2 大数据处理技术

7.2.1 掌握云计算的概念、云计算的特征、云计算的三层 SPI 模型(IaaS、PaaS、 SaaS)
  • 云计算的概念

    云计算是一种以服务为特征的计算模式,它通过对所有的资源进行抽象后以新的业务模式提供高性能、低成本的持续计算、存储空间和各种软件服务,支撑各类信息化应用。这种新型服务最大的优势在于能够合理配置计算资源,提高计算资源的利用率,降低成本,促进节能减排,真正实现绿色计算

  • 云计算的特征

    • 按需自助服务

    • 宽带网络连接

    • 信息无关资源池

    • 快速伸缩能力

    • 可被测量的服务

  • 云计算的三层SPI模型 Iaas Pass Sass

    Iaas:基础设施即服务 infrastructure as a service

    Pass:平台即服务 platform as a service

    Saas:软件即服务 software as a service

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zK0onNZ6-1661769006945)(C:\Users\22025221\Desktop\山东大数据工程专业技术证书考试.assets\image-20220828082151299.png)]

7.2.2 了解虚拟化技术的概念、常用虚拟化方法,了解常用虚拟化软件
  • 虚拟化技术是一套解决方案。完整的情况需要CPU、主板芯片组、BIOS和软件的支持,例如VMM(Virtual Machine Monitor,虚拟机监视器)软件或者某些操作系统本身

  • 虚拟化技术主要分为以下几个大类 :

    平台虚拟化(Platform Virtualization),针对计算机和操作系统的虚拟化。

    资源虚拟化(Resource Virtualization),针对特定的系统资源的虚拟化,比如内存、存储、网络资源等。

    应用程序虚拟化(Application Virtualization),包括仿真、模拟、解释技术等。

    ps:常说的虚拟化技术是平台虚拟化

  • 虚拟化软件:VMware,Citrix和Microsoft

7.2.3 具有应用虚拟化技术搭建虚拟化平台的能力
7.2.4 了解分布式计算、高性能计算、边缘计算的概念
7.2.5 了解数据集市、数据仓库、数据中台、数据平台的概念
  • 数据挖掘的定义、常用方法、功能

    数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。

    利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等, 它们分别从不同的角度对数据进行挖掘。

    Ps:分类方法有决策树、KNN法(K-Nearest Neighbor)、SVM法、VSM法、Bayes法、神经网络

  • 数仓 data Warehouse DW/DWH

    数据仓库就是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决策制定过程

  • 数仓和数据挖掘的联系和区别

    • 联系:

      数据仓库和数据挖掘都是决策支持新技术。但他们有着完全不同的辅助决策方式。数据仓库中存储着大量辅助决策的数据,它为不同的用户随时提供各种辅助决策的随机查询、综合信息或趋势分析信息。数据挖掘是利用一系列算法挖掘数据中隐含的信息和知识,让用户在进行决策中使用。总之,数据仓库是为了数据挖掘做预准备,数据挖掘可建立在数据仓库之上,而且两者最终目的都为了提升企业的信息化竞争能力。

    • 区别:

      1、作用不同:

      数据仓库是为了支持复杂的分析和决策,数据挖掘是为了在海量的数据里面发掘出预测性的、分析性的信息,多用来预测

      2、发展不同:

      数据仓库是数据挖掘的先期步骤,通过数据仓库的构建,提高了数据挖掘的效率和能力,保证了数据挖掘中的数据的宽广性和完整性。

      3、操作不同:

      数据仓库一般称为联机分析处理OLAP,是针对某些主题的历史数据进行分析,支持管理决策。数据挖掘是基于数据仓库和多维数据库中的数据,找到数据的潜在模式进行预测,它可以对数据进行复杂处理。大多数情况下,数据挖掘是让数据从数据仓库到数据挖掘数据库中。

      PS:“数据挖掘是从巨大的数据仓库中找出有用信息的一种过程与技术”。

7.2.6 了解数据采集与预处理过程,掌握数据采集、数据清洗、数据转换、数 据脱敏的方法
7.2.7 了解大数据处理环节的主要思想:大数据采集、大数据预处理、大数据 存储及管理、大数据分析及挖掘、大数据展现和应用(包括大数据检索、大数据 可视化、大数据应用、大数据安全等)
7.2.8 了解大数据处理与分析的代表性流行产品

八、大数据分析模型

8.1 了解常用的大数据分析模型,例如行为事件分析模型、点击分析模型、 用户行为路径分析模型、用户分群分析模型等,具有应用大数据技术参与大数据分析的能力

文章链接

行为事件分析模型

用户行为数据分析中,事件是指用户操作产品的某个行为,即用户在产品内做了什么事,转为描述性语言就是“操作+对象”
事件类型包括:浏览页面,点击元素,浏览元素,修改文本框等。一个完整的事件应该包含以下几个方面:

  • 用户信息:描述用户的信息,例如用户访问或登入的id
  • 时间信息:事件发生的时间
  • 行为信息:用户做了什么行为
  • 行为对象信息:用户的行为作用在哪些方面,例如:点击了a,浏览了b,修改了c,那么abc就是用户行为作用的对象

事件分析事所有数据分析模型中最基础的一种,指对用户行为事件的指标进行统计、纬度细分、筛选等分析操作。例如,对于“点击加入购物车按钮”这个事件,我们可以用“点击次数”或者“点击人数”来度量,对应的的指标分别是“点击加入购物车按钮的次数”和“点击加入购物车按钮的人数”

漏斗分析

漏斗分析是一套流程式的数据分析模型,通过将用户行为为起始的各个行为节点作为分析模型节点,来衡量每个节点的转化效果,一般通过横线柱状图呈现。漏斗分析能帮助我们清晰的地了解在一个多步骤的过程中,每一步的转化与流失情况,从错角度剖析对比,找出流失原因,提升转化表现。

漏斗与事件分析不同的地方在于,漏斗分析是基于用户(也就是基于人)来统计某一批用户所发生的行为,不会收到历史浏览页面用户的事件影响,可以更加准确地显示出某一时间段产品存在的问题。

在漏斗分析中我们需要清晰以下3个基本概念:

  • 步骤:这里是指用户行为,由事件加筛选条件组成
  • 时间范围:指漏斗第一步发生的时间范围
  • 转化周期:指用户完成漏斗的时间限制,漏斗分析只统计在这个时间范围内,用户从第一步到最后一步的转化
    以某产品的注册转化漏斗为例,漏斗模型可以度量每一步的抓册转化率和整体注册转化率。

从“开始注册”到“注册第三步完成”,每一步的转化率分别为55.8%、18.5%、92.5%,整理注册转化率为9.54%。我们可以很明显地看出,“注册第一步完成”的转化率明显低于其他两个步骤。

除了看到每个步骤及总的转化情况,还可以按照时间维度,来监考每一步和总转化率的趋势。通过漏斗分析趋势图,我们可以发现,“第一步转化率”在4月8日有明显的下跌,而该步骤对应的是“填写手机验证码”。

经调查后发现,下跌的原因在于短信验证服务欠费而被代理商自动停止。于是,及时充值恢复短信验证服务后,转化率回到正常水平。

在这个案例中,通过建立注册转化漏斗,度量每一步的转化率和整理的转化率,再通过时间维度来监控每一步的整体转化率的趋势,可以帮助我们及时发现问题、及时止损,避免造成更大范围的影响。

用户留存分析模型

留存分析是衡量产品是否对用户有持续吸引力及用户黏性的重要数据分析模型,可以通过表格和线图呈现。留存表格展示了目标用户的留存详情,而通过留存线图可以观测到随着时间推移,用户留存率的衰减情况。在留存分析中我们要明晰以下三个基本概念:

  • 留存用户:如果用户发生起始行为一段时间后,又发生了目标行为,即认定该用户为留存用户。
  • 留存行为:某个目标用户完成了起始行为之后,在后续日期完成了特定的留存行为,则留存人数+1。留存行为一般与我们的目标有强相关性,我们在进行留存分析时,一定要根据自身业务的实际需要,确定高价值的留存行为,才能对产品的优化提供指导性建议。
  • 留存率:是指“留存行为用户”占“起始行为用户”的比例,常见指标有次日留存率、7日留存率、次月留存率等。
用户分群分析模型

用户分群分析是指针对拥有某种特定行为或背景信息的用户,进行归类处理。通过用户分群分析可以帮助我们找到相应的用户群体,帮助我们知道他们是谁,做了哪些行为,进而进行有针对性的运营和产品优化工作。

用户分群分析常用的方法包括以下是三种:

  • 找到做过某些事情的人群,比如,过去7天完成过3次购物的人群
  • 找到有某些特定属性的人群,比如,年龄在25岁以下的男性
  • 找到在转化过程中流失的人群,比如,提交了订单但没有付款的用户

通过用户分群分析,可以回答“用户参加哪些活动后在产品内的活跃度更高”“用户之前活跃最近却沉寂的原因是什么”“每次走到最后一步就放弃注册的人群的共性特征有哪些”等各种以用户群体为对象的共性的问题。

同时,用户分群分析也是精细化运营的基础。当用户分群分析结合行为数据与业务结果数据后,运营人员可以通过RFM模型等经典的用户分层模型,实现精细化运营。

分布分析

产品的优化和运营是一个动态过程,我们需要不断监测数据,调整产品设计或运营方法,然后继续监测效果。分布分析主要用来了解不同区间时间的发生频次、不同事件计算变量的加和,以及不同页面浏览时长等区间的用户数量分布。

作为UE、产品想要集中优化最重要的页面,需要知道关键页面浏览量的频次分布,找到对用户影响最大的页面;作为运营人员,无差别的用户运营会让人精疲力竭,需要知道贡献值靠前的用户分群,集中资源用于中重点用户。

分布分析不仅能洞察用户行为分布规律,还能作为事件分析、用户分群等功能的重要补充。例如,电商场景中的业务模型一般为:

收入=访问用户数 x 转化率 x 订单金额 x 复购率

要想提升成交总额,要从这些指标入手进行优化。

九、数据科学

9.1 概率统计与统计推断

9.1.1 掌握概率、条件概率的概念,并会计算简单的概率、条件概率。

**概率(probability)**是一个事件将会发生的可能性的数值度量,用来描述事件的不确定程度。

事件的概率总是介于0 到 1 之间;若事件的概率接近0,则代表事件几乎不可能发生;

若事件的概率接近1,则表明事件几乎肯定要发生

条件概率在一个事件B已经发生的前提下,事件A发生的概率。A和B之间不必存在因果关系,并且它们也不必同时发生。

9.1.2 理解随机事件的独立性和随机变量的独立性。

随机事件的独立

随机变量的独立性:

定义3.2.1:设imgimgimg分别是二维随机变量img的分布函数和两个边缘分布函数,若对任意实数x,y,有img则称X与Y相互独立

9.1.3 掌握乘法公式、全概率公式,并会简单应用。

文章链接

文章链接

9.1.4 掌握随机变量分布函数的概念,掌握连续型随机变量的密度函数和离散 型随机变量的分布列。

文章链接

9.1.5 掌握常见分布(两点分布、二项分布、泊松分布、均匀分布、正态分布、 指数分布)及其简单性质。

文章链接

9.1.6 理解数学期望、方差(标准差)、相关系数的概念,并会简单计算。

文章链接

9.1.7 理解统计量的概念,理解样本均值、样本方差(标准差)的概念,并会 简单计算。

文章链接

9.1.8 了解点估计的概念。

文章链接

9.1.9 了解线性回归的基本概念。

文章链接

9.2 统计学习与数据挖掘

9.2.1 掌握感知机的定义和基本原理。

文章链接

9.2.2 掌握 Logistic 回归算法原理与特点,能够使用 Logistic 回归进行数据 的分类建模与参数解释。

文章链接

9.2.3 掌握朴素贝叶斯算法的定义与基本原理。

文章链接

9.2.4 掌握 k 近邻算法算法定义与原理。

文章链接

9.2.5 掌握支持向量机(SVM)算法的思想与原理。

文章链接

9.2.6 掌握决策树的算法的定义与原理,了解决策树的剪枝理论。

文章链接

9.2.7 了解常见集成方法如 boosting、bagging 等。

文章链接

9.2.8 掌握聚类分析的相关概念。

文章链接

9.2.9 掌握主成分分析的原理。

文章链接

9.2.10 了解生成式半监督学习方法、半监督 SVM、图半监督学习方法的思想与 原理。

文章链接

9.3 深度学习与强化学习

9.3.1 掌握全连接网络(MLP)的定义与算法原理、并能够应用。

文章链接

9.3.2 掌握卷积神经网络(CNN)基本概念,了解几种经典的卷积神经网络,如 AlexNet、VGG、GoogLeNet、ResNet。

文章链接

9.3.3 掌握循环神经网络(RNN)原理与基本概念,了解几种常见的模型,如长 短期记忆网络 LSTM、GRU。

文章链接

9.3.4 掌握生成对抗网络(GAN、WGAN)的基本定义与原理,能够完成基本应用

文章链接

9.3.5 掌握马尔可夫决策过程的定义,了解其算法应用范围,并能够实际应用

文章链接

9.3.6 掌握经典强化学习算法(Q-learning、SARMA)的定义与原理。

文章链接

你可能感兴趣的:(大数据)