本节书摘来自华章计算机《企业大数据系统构建实战:技术、架构、实施与应用》一书中的第2章,第2.3节,作者 吕兆星 郑传峰 宋天龙 杨晓鹏,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
规范化管理是企业中一项艰巨的且需要持续改进的工作,它是企业各项工作正常有效开展的基础,是企业健康有序发展的有力保障。大数据制度和流程规范作为企业规范化管理的一部分,对于大数据工作的开展至关重要。大数据制度和流程规范建设的意义主要侧重于三个方面:
通俗而言,制度和流程规范不是必须的,或者说不是所有企业都需要严格的制度和流程规范。在实际应用中,制度和流程规范通常适用于大中型企业,为了提高企业运转效率而采取建立现代企业制度的方式;而对于小企业而言,灵活的管理方式、直接高效的沟通机制和更扁平化的直接管理可能更适合真实运营的需要。因此,这里的制度和流程规范的试用对象更多的是针对大中型企业。
制度和流程规范类内容大致可以划分为两类:
大数据制度和流程规范建设涉及大数据工作中的所有环节,从大数据的工作体系看,包含以下几个部分:
基础平台类规范提供服务器测试和正式环境的系统运营、服务维护、应用维护管理的范围、目的、性质和原则,通常以系统运维管理规范或制度的形式存在。该规范适用于开展系统运维护活动涉及的各类组织及其落地操作的工程师。
规范主要涉及的内容包括:
除了基本运维信息涉及的系统软硬件运维管理外,还可能包括权限管理、数据管理、系统监控、系统培训等内容。
基础平台类规范的主要核心是通过各种标准化和流程化规范保证系统的可用性和稳定性,规范中需要兼顾到不同角色的负责人和职能分工、量化的工作标准和响应时间、操作流程和方法、问题沟通工具和流程等。除上述规范性工作流程外,建立针对突发事件应急预案和防护策略也是规范的重要组成和安全的应急保障。
大多数企业中除运维工程师自己发现并解决问题外,其他系统或部门人员也会反映相应的问题,此时通常会通过一个名为“IT工作台”或“IT服务台”的角色对涉及的大数据相关事务进行统一收集、分配、处理和反馈管理。
除CDO(首席数据官)外,数据管理类的主要操作或管理对象是数据,因此本小节主要讨论的内容是有关数据及其数据周边的制度及流程规范。数据管理类规范的主要存在方式为数据库管理规范以及相应的流程规范,它主要针对数据进行管理,降低数据被非法生成、变更、泄露、丢失及破坏的风险。该规范适用于DBA、数据库管理工程师、数据安全管控师等。
规范主要涉及的内容包括:
数据管理类规范是数据安全的必要保障,也是开展所有数据工作的基本前提,因此是每个公司必须具备的一类规范和流程制度。出于数据安全第一的考虑,必要的数据流程和权限申请管理是必不可少的。
大多数企业的数据操作都是针对非生产数据进行的,生产数据都是作为原始数据进行保存,然后将原始数据同步到附属库或丛库的库表中进行操作。保存至少一份原始数据是保证数据在任何时间都处于高可用状态的前提。
技术研发类规范主要用于在团队协作开发的情况下,保证架构、编码、测试等各个研究环节的一致性、可读性、可重用性、程序健壮性、可移植性、可维护性。该规范是提高团队协作开发效率和软件质量的必要保障,也是降低后期维护成本的重要举措。
技术研发类规范从流程上可分为两大类:
(1)文档规范
技术研发过程中,需要根据不同的项目撰写相应的研发文档,包括概要设计文档、详细开发文档、质量校验文档、集成测试文档等,这些文档是日后进行技术研发的基础。文档需要详细记录产品的研发背景、蓝图、目的、原则、阶段、里程碑、排期、内容、约束和前置条件、沟通计划、机会风险等,其阅读对象是项目成员以及相关的研发工程师。该类文档是项目执行的参考,为项目按时交付、项目测试、质量跟踪以及后续开发等提供了书面依据。除了面向技术研发的文档规范外,还有一类面向客户的文档规范,这些信息会在“项目产品类”规范中具体介绍。
(2)代码规范
代码规范是面向技术研发人员在产品或系统开发时具体实施的操作性规范,它涉及开发过程中撰写代码时的各个方面。规范主要涉及的内容包括:
在项目建立之初,通常所有的文档规范就需要制定好,这些规范或材料通常会通过知识中心或知识库作统一管理,这些知识库或知识中心可以集成到SVN、Bug管理工具、Wiki工具、知识管理系统以及其他项目管理工具或公司系统中,以便于知识和制度共享以及信息发布。
项目产品类的规范和制度主要针对项目实施和产品实施的整个项目制定的相关规范。项目产品类的规范和文档的主要对象是项目中不同阶段的参与人员,包括项目、产品、设计、开发、运维等人员。
项目产品类规范和制度涉及每个文档生命周期的始末,从创建、审批、发布、变更、分发、追缴、归档、废止到恢复等。
常见的项目文档通常分为4个阶段分别进行定义:
(1)立项前的市场分析类
立项前的市场分析类文档通常包括市场调研报告、可行性报告、风险评估报告等。这三份报告都是针对市场调查、收集、整理和分析后,结合市场规模、特点、容量等对项目的可行性、前景、利弊、机会进行分析,常用的维度包括宏观环境、竞争对手、自身情况、目标客户等,分析模型包括SWOT、PEST、STP、4P、4C、波士顿矩阵、五力模型、生命周期模型等,分析方法包括系统分析法、结构分析法、演绎分析法、定量与定性分析法、案例分析法、复合分析法等。
(2)立项后的规划分析类
立项后的规划分析类主要指的是在项目立项后,为了整体项目的开展而进行的整体规划和分析工作,通常产出物为项目开发计划文档。项目开发计划中通常涉及对项目前景、主要内容、参与范围和人员、人员角色定位与分工、计划实施分解和进度跟踪、关键里程碑及产出交付物、前置和约束条件、预期和最晚交付时间、验收标准和评审、成本和预算评估、风险评估和控制等。制订开发计划需要不断细化和丰富,开发计划是项目经理管理和跟踪的依据,可起到指导项目组的整体进度调控和日常工作跟踪的作用。当实际开发情况与开发计划偏离较大时,应修正开发计划或实际开发情况。
(3)实施中的开发规范类
项目开发实施过程中,在不同阶段涉及不同的文档和规范,从实施的阶段来划分可分为产品类文档、技术研发类文档、测试类文档三类。
(4)实施后的验收类
项目实施完成,通常需要交付一系列文档,可能包括软件/产品验收报告、项目总结报告、运营管理手册、软件质量保证计划书、用户操作手册、帮助文档和FAQ等。
除此以外,项目进行过程中,会贯穿着多种项目跟踪类报告,包括开发进度月报、阶段性总结报告等,这些报告根据实际排期和里程碑计划情况安排即可。
对于项目文档的管理,可以使用SVN,但通常更多的是使用专门的项目文档管理系统,例如VSS、HFS、TeamOff?ice、SharePoint等。但采用何种工具,具体根据企业需求和实际情况进行选择即可,适合的才是最好的。
数据挖掘、分析和应用类规范是针对开展数据工作中,涉及非技术开发类的数据挖掘、分析和应用类的流程和方法而制定的规范,其目的是保证数据工作的及时性、有效性,以及结果的正确性和可应用性。
按照数据工作的项目流程,通常分为需求沟通、需求提报、商业理解、数据准备、数据挖掘(含分析)、部署实施6个阶段,如图2-6所示。整个过程应该通过一定的工具和流程规范进行控制和集中管理,否则数据工作就会失控并且毫无落地价值可言。
(1)需求沟通
需求沟通已经在数据需求管理中提到,不合理或不可行的需求将被直接驳回。正常情况下,需求沟通当天应该反馈沟通结果。对于需求中由于主客观原因无法实现的、错误的需求,无法落地的需求以及重复需求应该予以驳回。在这个过程中,建议采用数据对接人制度,将不同业务部门负责数据对接工作的人员固定下来。
很多时候业务需求不能落地,例如数据提取工作只是为了验证工作效果,对于此类简单的需求需要通过培训、开放权限等方法让业务自行实现。数据部门不应该把时间浪费在这种价值太低的工作上。
(2)需求提报
在需求提报阶段,不符合公司利益或可能对公司产品产生负面影响的需求也将被驳回。需求提报和审批根据不同企业的流程复杂程度和实际审批效率而定,通常在1~7天之内完成。当续期需求中涉及公司敏感性指标、较高的数据权限、加密和解密处理、外部数据处理请求等特殊内容时,通常需要通过公司内部OA类系统进行申报和审批。
数据需求提报管理是数据需求审核中不可或缺的步骤,在很多大型企业中往往是企业级流程管理的重要部分。需求提报管理过程中,企业领导层从企业全局的角度把控数据需求是否合理,其决策关乎整个公司而非数据部门。
(3)商业理解
商业理解是将业务语言转化为数据语言的过程,目的是确定业务预期效果的维度、范围等,这个阶段通常需要2~3天的工作时间。商业理解阶段包括两部分内容:
本阶段的产出是数据分析和挖掘工作思路,通常以思维导图的形式输入并加以沟通确认。如图2-7所示为渠道画像分析思路。
(4)数据准备
数据准备是对即将进行的分析和挖掘工作进行预处理,包括从数据仓库中取数、验证数据质量、数据特征提取、异常值处理、数据转换和合并等,为后期的数据分析挖掘做准备。这个阶段是费时但非常重要的工作,前期这个工作做不好会直接影响数据质量,从而影响结果的可信度及稳定程度。
该项工作通常需要1~4天的工作时间,根据原始数据质量及数据量级的不同而有所差异。阶段性数据产出结果为数据质量报告以及清洗之后的数据。
数据准备是数据工作中的难点,很多时候由于原始数据质量较差或数据从业者自身工作经验和能力不足,导致大量时间耗费在数据准备和清洗阶段,使得后期数据价值挖掘的投入精力不足,从而影响数据结果和价值产出。因此,这个阶段一定要在保证数据质量的基础上缩减投入时间。
(5)数据挖掘(含分析)
经过前期的各项准备工作,接下来就开始了数据工作的核心环节——专项分析和挖掘工作,包括常用的描述性数据统计方法,LDA、PCA等数据预处理和转换方法,时间序列、分类、聚类、回归、关联和序列关联、规则提取等传统数据挖掘和建模方法,以及协同过滤、神经网络、深度学习、自然语言处理等监督式和非监督式学习算法等,并在专项分析或建模结束后完成模型测试和评估工作,以保持模型的稳定性和最佳拟合度。
本阶段通常需要至少一周的时间,产出结果包括数据挖掘流、数据挖掘报告等。在报告中需要对数据挖掘的背景、数据选取和处理方法、异常值处理措施、数据建模主要流程、数据挖掘结果评估和解读说明等内容进行描述。这也是规范数据挖掘工作的必要措施。
(6)部署实施
部署实施包括数据结果沟通、制定落地方案、业务落地执行、数据再优化四个阶段。
在整个项目结束后通常会进行项目总结,总结内容包括前期需求沟通是否清晰,中期数据处理、分析和挖掘存在哪些可优化点,后期数据落地效果和协作流程改进等。
不是所有的项目都以成功结束,很多时候由于主客观原因导致项目失败。但项目失败也是一种知识成长的过程,此时更应该与业务部门一起深入总结,以避免日后出现类似的失败问题。
本阶段的时间大概为2周左右,具体以业务落地执行时间为主。产出结果包括业务落地计划方案、落地执行结果评估报告等。
由于不同的制度具有不同的内容指向性,因此不同类型的文档规范的内容主题不同。对于不同类型的规范和制度,通常规范会涉及以下几个方面:
页眉信息英语封面(如果有)应与正文部分相同,由公司名称或Logo、制度编号、制度名称及发布日期组成。制作页眉时需要注意以下几点:
页脚信息应与封面、正文部分相同,其内容及形式固定,制度起草部门不应擅自修改,具体内容为页码信息,如“第×页共×页”,为了提高规范或文档的保密性,还可增加一些版权或禁止类信息,例如“内部资料严禁外传”,且其字体格式应该与页眉保持一致。
封面包括标题、文本框及目录三部分内容。制度标题结构为“管理主题管理制度”,后面标注版本号,例如数据库管理制度V1.2。制度名称应明确体现制度规范的主要事项,使之与其他制度相区分,同时应力求简练,不应涉及不必要的细节。
制度名称一栏字体必须具有统一的格式要求,例如“黑体,小四,加粗”。
文本框行和列需要固定,例如可做成两行三列的表格,包括版本号、附件数、密级、撰写人、审核人、审批人六项内容。前四项由制定部门根据实际情况填写,审核人、审批人栏由管理部门在发布制度时填写,审核人根据审批单情况填写,审批人栏填写最高制度审批层电子签名。
目录部分的“目录”两字居中排列,字体应统一,例如“宋体,五号,加粗”;目录正文根据制度正文中的一级标题和二级标题自动生成,字体统一为宋体五号。正文部分进行修改后,应同时更新相应目录。
通过Word中的引用功能来生成目录是一个维护目录和内容一致性的有效方法。
制度正文包含目的、范围、名词解释、职责、管理制度、工作流程、注意事项、附件八部分内容。
正文部分各部分序号使用多级列表形式,一级列表顶格排列,以下一般依次缩进2字节。
正文中一级标题一般设置为“标题1”样式,制度的主要、重点部分的二级标题可以设置为“标题2”样式,以便在目录中引用。正文部分字体需统一(例如统一使用宋体五号字,标题加粗,段落设置段前段后均为0,行间距一律为1.4倍)。
附件应按文中所列顺序置于正文之后,一般情况下各附件独立排列。对于管理制度的附件通常包括管理汇总信息表和新增管理内容表两部分。
其他需要体现在制度中的特定内容或指导信息。