CDA LevelⅠ→Part 1 数据分析概述与职业操守

PART 1  数据分析概述与职业操守(3%)

a. 数据分析概念、方法论、角色(1%)

【数据分析的基本概念(数据分析、数据挖掘、大数据),数据分析目的及其意,数据分析方法与流程,数据分析的不同角色与职责】

  • 第一类:数据分析
    • 利用数据来理性思考和决策的过程。
    • 以数据为分析对象,以探索数据内的有用信息为主要途径,以解决业务需求为最终目标。数据分为分类数据(定类型如男女;定序型如本科硕士生博士生)和数值数据(定距型如体温血压这种可加减不能乘除;定比型如重量高度有绝对零值,可加减乘除)
  • 第二类:数据挖掘
    • 用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程。偏重预测。
  • 第三类:大数据
  • EDIT 数字化模型
    • 业务运行探索(Exploration)→指标体系 注意!不是Experience
      • 探索关注企业各项业务的运行状态、各项指标是否合规以及各项业务的具体数据情况等等。
    • 问题根原因诊断(Diagnosis)→性质分析法,数量分析法
      • 当业务指标偏离正常值时,采用定性和定量相结合的方式,在中、微观层面定位和分析问题。
    • 业务策略指导(Instruction)→知识库,策略库,流程模板
      • 在确定获客群体后,我们就需要考虑下如何制定业务策略指导。根据知识库、策略库、流程模版可以便捷地制定优化策略。
    • 智能算法工具(Tool)→数据模型,算法模型
      • 算法架构是 EDIT 数字化模型的发动机,服务于价值经营、客群运营、全面质量管理、全面风险管理等各个方面。

b. 数据分析师职业道德与行为准则(1%)

【职业道德操守,专业行为准则】

  • 职业道德与行为准则的区别在哪里呢?
    • 职业道德–应该不应该:不宽恕或帮助他人参与违法行为。
    • 行为准则–怎么做
      • 1.全面了解业务背景、痛点、需求,做出分析建议,与团队充分沟通,确定合理的业务指标,获取符合要求的源数据。
      • 2.保持工具与算法的前沿性、适用性、高效性。根据业务需要,选择合理的工具、平台、系统及算法。
      • 3.不断迭代并优化业务指标与数据模型。
      • 4.撰写专业可视化报告,逻辑清晰展示项目成果,并做出具有商业价值的建议。
      • 5.尊重契约,按时按质完整交付工作成果,并对相关数据、代码、结果进行保密。
      • 6.履行后期义务与责任。完整交付结果后,对客户须进行后期解答、咨询、维护等服务;对机构业务须进行后期跟进、优化、指导建议等工作。

c. 大数据立法、安全、隐私(1%)

【国外隐私相关法律要求,国内大数据理发的历程和展望,欧盟《通用数据保护条例》中企业和个人的数据使用权限】

  • 隐私是一种个人权利,安全是一种机制。首先明确个人权利,然后设置机制去保护权利。
  • 欧盟《通用数据保护条例》(简称 GDPR)
    • 核心目标——将个人数据保护深度嵌入组织运营。
  • 企业在收集用户的个人信息之前,必须向用户说明:将收集用户的哪些信息、收集到的信息将如何进行存储、存储的信息会如如何使用、企业的联系方式。
  • 用户享有的权利有:
    • 数据访问权/被遗忘权(如果一个人想被世界遗忘,相关主体应该删除有关此人在网上的个人信息)/限制处理权/数据携带权
  • 我国的法律
    • 保护公民个人数据信息安全已写入刑法。
    • 《中华人民共和国网络安全法》
      • 网络运营者收集使用个人信息必须符合合法、正当、必要原则。
      • 网络运营者收集使用公民个人信息的目的明确原则和知情同意原则。
      • 公民个人信息的删除权和更正权制度。
    • 2020.6.28-30《中华人民共和国数据安全法》迎来初次审议。
  • 数据安全相关答题原则:问题存在,逐步推进解决。

习题整理

  • 1.以下行为中不触犯职业道德操守的是?
    • A.因工作需要将客户数据备份到个人 U 盘
    • B.从第三方企业购买竞争对手机密数据
    • C.适度美化分析结果让报告更加好看
    • D.在获得客户允许后,将数据脱敏,并隐藏能够特定客户信息的内容后,可将客户案例用作自己企业宣传资料使用
    • 答案:D。数据分析师需要保持真实性、保密性、安全性。
  • 2.作为运营商,以下做法正确的是?
    • A. 将客户的消费记录出售牟利
    • B. 将公民身份信息加密保存
    • C. 为防泄密,企业负责人应将客户信息存入 U 盘并随身携带
    • D. 将客户信息直接交给合作方,以加快市场步伐。
    • 答案:B。注意,C 将U盘随身携带更容易丢失。
  • 3.以下不属于现阶段大数据法治问题的是?
    • A. 信息安全有待加强
    • B. 数据立法有待推进
    • C. 政府数据开放与共享仍待推进
    • D. 算法技术仍需提高
    • 答案:D。算法技术与大数据法治问题无关。
  • 4.EDIT 数字化模型是企业在实现数字化工作的落地模板,以下关于数据分析 EDIT 模型描述错误的是?
    • A.E 指的是 Exploration、探索
    • B.D 指的是 Data、数据
    • C.I 指的是 Instruction、指导
    • D.T 指的是 Tool,工具
    • 答案:B。D 是 Diagnosis 诊断的意思。
  • 5.数据分析由许多关键的阶段性步骤构成,以下不属于数据分析步骤的是?
    • A.业务理解
    • B.数据获取
    • C.数据处理
    • D.制定决策方案
    • 答案:D。数据分析步骤包含:业务理解(明确分析目的和内容)–数据收集–数据预处理–数据分析–数据可视化(数据展现)–报告撰写。制定决策方案非数据分析要做的事。
  • 6.数据安全是从事数据分析工作人员必须要严格保障的事项,以下对于保护数据信息安全不利的错误做法是?
    • A.将机密数据 U 盘随身携带
    • B.对机密数据载体进行加密保存
    • C.不在咖啡厅等公共场所使用机密数据电脑办公
    • D.不使用能够连入外网的电脑处理企业机密数据
    • 答案:A。
  • 7.数据分析方法论为分析项目提供了基础框架,以下不属于数据分析方法论的选项是?
    • A.CRISP-DM
    • B.SEMMA
    • C.AB 测试
    • D.UML
    • 答案:D。
      • A.CRISP-DM (cross-industry standard process for data mining), 即为"跨行业数据挖掘标准流程"。CRISP-DM 为一个 KDD 工程或者说是一个数据挖掘项目提供了一个完整的过程描述。它把这个过程定义为六个标准阶段,分别是商业理解、数据理解、数据准备、建立模型、模型评估和模型发布。
      • B.SEMMA 数据挖掘方法论,基本思想是从样本数据开始,通过统计分析与可视化技术,发现并转换最有价值的预测变量,根据变量进行构建模型,并检验模型的可用性和准确性。Sample 抽样-Explore 探索-Modify 修订-Model 建模-Assess 评估
      • C.A/B 测试是为 WEB 或 APP 界面或流程制作两个(A/B)或多个(A/B/n)版本,在同一时间维度,分别让组成成分相同(相似)的访客群组(目标人群)随机的访问这些版本,收集各群组的用户体验数据和业务数据,最后分析、评估出最好版本,正式采用。
      • D.UML(Unified Modeling Language)是统一建模语言,用于需求分析,不属于数据分析范畴。
  • 8.(多选)CRISP-DM模型是应用最广泛的KDD过程模型,属于CRISP-DM模型的阶段有?
    • A.业务理解
    • B.数据理解
    • C.数据准备、建模、模型评估
    • D.模型发布
    • 答案:ABCD。CRISP-DM 模型的 6 个不同的阶段:商业理解(业务理解)、数据理解、数据准备、建模、模型评估、模型部署(发布)。
      • 商业理解:其目的是要了解企业的整个运作过程。商业理解的作用主要是定题目,即通过数据挖掘想要解决什么问题。
      • 数据理解:检查解决问题所需要的数据是否收集齐全,若没有则退回到商业理解。
      • 数据预处理:对收集到的数据进行处理,此阶段耗时最长。
      • 建模:建立模型,若结果不好,则退回到数据预处理这一步,进行相应的调整。
      • 评估:评估结果好就可以实施,评估结果不好就直接退回到商业理解,重新开始。
      • 实施:模型的实际应用。
      • CDA LevelⅠ→Part 1 数据分析概述与职业操守_第1张图片

  • 9.下列有关数据分析说法正确的是?
    • A.数据分析规定其操作流程分为 5 步
    • B.SEMMA 是数据挖掘项目方法论的名称
    • C.数据分析只是针对大数据情形,小数据是没有意义的
    • D.数据分析中模型的精度是第一位的
    • 答案:B。A 没有明确规定的步骤数量;C 大数据小数据各有用处;D 数据分析中要权衡成本、精度和效率。
  • 10.数据分析 8 个层次中的最高层次是?
    • A.预报
    • B.优化
    • C.报警
    • D.统计分析
    • 答案:B。8 大层次:(4 个阶段)描述-诊断-预测-指导
      • CDA LevelⅠ→Part 1 数据分析概述与职业操守_第2张图片

      • 1)标准报表
        • 回答: 发生了什么?什么时候发生的?
        • 示例:月度或季度财务报表
        • 我们都见过报表,它们一般是定期生成,用来回答在某个特定的领域发生了什么。从某种程度上来说它们是有用的,但无法用于制定长期决策。
      • 2)即席查询(描述阶段)
        • 回答:有多少数量?发生了多少次?在哪里?
        • 示例:一周内各天各种门诊的病人数量报告。
        • 即席查询的最大好处是,让你不断提出问题并寻找答案。
      • 3)多维分析
        • 回答:问题到底出在哪里?我该如何寻找答案?
        • 示例:对各种手机类型的用户进行排序,探查他们的呼叫行为。
        • 通过多维分析(OLAP 联机分析处理 On line Transaction Processing)的钻取功能,可以让您有初步的发现。钻取功能如同层层剥笋,发现问题所在。
      • 4)警报
        • 回答:我什么时候该有所反应?现在该做什么?
        • 示例:当销售额落后于目标时,销售总监将收到警报。
        • 警报可以让您知道什么时候出了问题,并当问题再次出现时及时告知您。警报可以通过电子邮件、RSS 订阅、评分卡或仪表盘上的红色信号灯来展示。
      • 5)统计分析
        • 回答:为什么会出现这种情况?我错失了什么机会?
        • 示例:银行可以弄清楚为什么重新申请房贷的客户在增多。
        • 这时您已经可以进行一些复杂的分析,比如频次分析模型或回归分析等等。统计分析是在历史数据中进行统计并总结规律。
      • 6)预报
        • 回答:如果持续这种发展趋势,未来会怎么样?还需要多少?什么时候需要?
        • 示例:零售商可以预计特定商品未来一段时间在各个门店的需求量。
        • 预报可以说是最热门的分析应用之一,各行各业都用得到。特别对于供应商来说,能够准确预报需求,就可以让他们合理安排库存,既不会缺货,也不会积压。
      • 7)预测型建模
        • 回答:接下来会发生什么?它对业务的影响程度如何?
        • 示例:酒店和娱乐行业可以预测哪些 VIP 客户会对特定度假产品有兴趣。
        • 如果您拥有上千万的客户,并希望展开一次市场营销活动,那么哪些人会是最可能响应的客户呢?如何划分出这些客户?哪些客户会流失?预测型建模能给出解答。
      • 8)优化——最高层次
        • 回答:如何把事情做得更好?对于一个复杂问题来说,那种决策是最优的?
        • 示例:在给定了业务上的优先级、资源调配的约束条件以及可用技术的情况下,请您来给出 IT 平台优化的最佳方案,以满足每个用户的需求。
        • 优化带来创新,它同时考虑到资源与需求,帮助您找到实现目标的最佳方式。
  • 11.下列哪项不属于数据分析的基本流程?
    • A.报表绘制
    • B.爬虫
    • C.业务理解
    • D.数据处理
    • 答:B。按理说爬虫属于数据获取部分,但并不是所有的数据分析都需要爬虫。数据分析的基本流程 6 步曲:问题定义、数据获取、数据预处理、数据分析与建模、数据可视化、数据报告的撰写。
  • 12.下列哪类分析对数据的时效性要求最高?
    • A.业务数据分析
    • B.描述性分析
    • C.数据挖掘分析
    • D.大数据分析
    • 答:D。错选为 B。大数据比普通数据特别的地方,不光是体量大,还有两个重要特征:多维度和时效性。比如说,做地图服务的公司,就能实时得到人员流动信息,并且根据流动速度和所在位置,区分步行的人群和汽车,然后提供实时的交通路况信息。
  • 13.以下不属于"数据敏感性"涉及范围的是?
    • A.理解分析结果
    • B.理解问题原因
    • C.理解问题影响
    • D.理解数据结构
    • 答:D。错选 A。D 是数据分析技能,与敏感性无关。
  • 14.下列情境中,数据分析师不正确的做法是?
    • A.客户行为分析中决策数据化均需谨慎
    • B.数据挖掘分析中势必强调模型的精确性,模型都不精确谈何决策支持
    • 答:B。在不同行业中,对精确性的要求不同,此外如果模型精确度不够,但却能发现有用的商业知识也可以接受。
  • 15.某汽车品牌委托某公司即使手机客户在微博上关于该品牌汽车的负面留言,这属于哪类商业智能系统?
    • A.常规报表
    • B.即席查询
    • C.多维分析
    • D.预警
    • 答:D。
  • 16.下列关于数据挖掘说法正确的是?
    • A.数据挖掘更加注重预测
    • B.数据挖掘在方法论上于统计模型没有区别
    • C.数据挖掘更加注重对于前期各种假设的检验
    • D.数据挖掘不属于数据分析范畴
    • 答:A。错选C。数据挖掘偏重预测,统计模型偏重关系发现。
  • 17.根据目前市场就业环境将数据分析划分为三类,下列哪类不属于常见的数据分析类别?
    • A.数据挖掘
    • B.数据产品
    • C.大数据
    • D.业务数据分析
    • 答:B。错选 C。

更多资料付费观看,小偿/含视频资料和个人整理4w字。

你可能感兴趣的:(数据分析,数据挖掘,big,data,cda)