本文是根据DQMIS 2020第四届数据质量管理国际峰会数据质量业务场景应用圆桌论坛现场嘉宾讨论整理而成。
图1.1 数据质量业务场景应用圆桌论坛
(左起:《北大创新评论》执行主编谢艳老师,国家工业信息安全发展研究中心人工智能所数据质量室主任杨柳老师,金域医学信息管理中心总经理丘伟松老师,中国气象中心副总工兼科技委主任沈文海老师,毕马威数据治理主管合伙人陈立节老师,龙石数据总经理练海荣老师)
讨论主题:
跨越数字化周期,数据质量如何影响和驱动业务增长
嘉宾
特邀嘉宾主持:
谢艳-《北大创新评论》执行主编
参与讨论嘉宾:
杨柳-国家工业信息安全发展研究中心人工智能所数据质量室主任
丘伟松-金域医学信息管理中心总经理
沈文海-中国气象信息中心副总工兼科技委主任
陈立节-毕马威数据治理主管合伙人
练海荣-龙石数据总经理
特邀嘉宾主持谢艳-《北大创新评论》执行主编:非常感谢大会的邀请,同时欢迎我们在坐的几位嘉宾。正如上午大会所分享与交流的重要观点,在数字时代的智能世界中,我们新的生产要素“数据”正在发生很大的改变,这是我们运用“云物智”结合算力去改变旧生产形态的基础。
对于企业来说,数据成为了竞争的关键要素,如果我们不能在新的世界当中掌握新生产资料的基本价值就会出现决策失灵、产能失效等问题。同时,进一步提升数据质量,可以直接具象地帮助企业改进工作流程、升级业务市场、监控行业风险。
企业做数据,重要的启动项是解决应用和应用间的信息共享问题,尤其是大的业务域和业务域之间的信息共享,链接搭建最基础的“智能组织”关系。那么在大部分企业经历过数据从采集存储到分析应用的“大数据”胚胎期,我们今天来谈谈在新条件下的数据质量是如何影响和驱动业务增长的。
01
新冠疫情的冲击给各机构业务发展带来什么影响?
特邀嘉宾主持谢艳-《北大创新评论》执行主编:今天下午的圆桌论坛时间有限,建议嘉宾们每个问题言简意赅,直答我们内心的思索。事不宜迟,我们马上进入主题,实际上我们知道今年特殊的情况下,经过疫情,催生了很多信息化和数据化的改革和变革,包括中午我们探讨的时候说互联网医疗终于跟医保接上轨了,但这件事情可能已经经历了5到10年的发展历程。
我的第一个问题是这样的,希望每一位老师用两到三分钟的时间分享一下,在今年疫情之下,中国的经济发展和市场发展都面临不同的挑战,您认为给业务发展或者是研究工作带来了怎样的影响,我们的核心数据质量和数据治理在其中的应对措施是如何的?
杨柳-国家工业信息安全发展研究中心人工智能所数据质量室主任:谢谢主持人,实际上今年疫情给各个行业都带来很大的冲击,大数据的企业在整个疫情当中也面临营收和成本支出的压力,但相较于偏传统制造业、数字化程度相对较低,或者劳动密集型的企业而言,大数据企业受到的影响还是相对较小的。
我们作为工信部下属的事业单位,在疫情防控过程中也是支撑工信部做了有关疫情防控和复工复产、复课的相关优秀案例的征集和评选工作。在这个过程中,地方政府推荐上来1600多个大数据应用和解决方案相关案例,其中我们评选出了94个非常优秀的案例在全国做了应用和推广,所以我们也是充分认识到大数据在整个疫情防控过程中发挥了非常大的作用,尤其是大数据对疫情的态势研判、趋势发展、精准定位、物资调配的重要支撑能力。
总体而言,一方面,在疫情期间,大数据企业或多或少受到了一定的冲击,但另一方面,大数据的重要性也是被提到了一个新高度。各界对数据的意义、价值都是有了新的认识。
事实上,我们在调研评选的过程中,也发现了大数据在支撑疫情防控中存在的一些问题,包括数据治理、数据开放等方面的问题,比方说现在一些信息系统对于疫情数据的采集效率整体还是偏低的,下到一些社区,在数据采集的过程中时常需要依靠一些手工填报的方式,数据格式难以统一,数据质量也很难保证。另外就是跨地区、跨系统间的数据其实是很难打通的,开放共享很难实现。所以,疫情防控的问题很多都是集中在共享、数据的隐私保护,以及高质量应用的问题。大数据以后的发展方向,将围绕数据治理、数据打通共享开展,也是各方企业共同努力的一个方向。谢谢!
丘伟松-金域医学信息管理中心总经理:首先感谢我们这个论坛,感谢谭总,也感谢谢老师给我们这样一个机会。我先做个小广告,金域医学是国内检验龙头企业,上海上市,股票代码603882,大家可以马上关注一下。
谈到疫情,先说说我们公司的愿景,其实跟大数据有关,我们叫金域医学检验集团,主营业务是医学检验服务,但我们公司的愿景是成为国内领先的、世界一流的医学信息和数据服务供应商。检测服务最终的成果是什么?实际上就是信息和数据,我们现在给大家提供的,看起来是打在纸面上的医学检验诊断报告,但是抽象来看就是信息和数据。
这次突发疫情,我们碰到了一个措手不及的“机会”。截止8月底,金域检测了新冠的标本接近2000万,应该占到了全国总检测量的10%。这个规模是怎么实现的呢?首先我们在前几年,在内部已经把我们的信息系统以及我们的数据,整个流程和基础数据完全标准化了,花了大量的力气。
几个大筛查我们都参加了,武汉、北京、新疆的大筛查,给我们提出了两个很大的问题:外部的数据如何进入金域的系统里面,跟我们的系统对接上?在我们检测后,检测结果数据和信息如何进入到各地健康码的系统里面去,跟各地的卫计委打通?
所以,我们面临的问题是数据来源加工标准化的问题,它虽然有标准,但是如何加工的问题,以及我们的数据出去以后,如何给我们的客户应用的问题。
今天早上杨部长提的非常好,如果我们的客户都没有基础的信息化水平,没有这个基础,你给他任何数据,他也不一定能够享受到数据带来的价值。
我估计在座各位有一些经历过,新冠筛查一开始是用手工登记的,拿一个纸在那里登记你的身份证号、电话号码,出现的问题是啥呢?标本进到我们的实验室,6个小时以后结果出来了,结果不知道是谁的,无法发检验报告,因为信息还没有进系统。
我们的解决方案就是往前走,金域开发了多种前端的信息登记系统,我们来提供信息登记系统。在筛查采样点,很简单,身份证一扫,采样管一扫,所有后面的流程都信息化了,全部数据化,6个小时以后查北京的健康宝就能查到了。
这些前端的应用,从技术上来讲很简单,但在新冠筛查期间,使得信息登记的环节效率提高了15倍,整体的生产效率提高了5倍,就是信息化、数字化带来的效率。大家拿核酸检测报告所需时间从24小时提高到只需6小时了。
因此,信息化,数据标准化的东西不能是一个内循环,而是要向前后两端延伸,这是我感触最深的一点。谢谢!
沈文海-中国气象信息中心副总工兼科技委主任:丘总是战斗在抗疫第一线,令人敬佩。气象部门跟丘总所在的部门有所不同,我们是纯粹的业务部门,气象部门是从一开始就具备了数字化企业的所有主要特征的单位,从一开始就是采集数据、分析数据,最后拿数据对社会进行服务。
比较可喜的是进入21世纪之后,气象部门在“十五”和“十一五”这两个五年计划当中实施了大气观测自动化系统建设,这是一个非常了不起的工作。为什么这么说呢?因为气象部门工作数据的主要对象是气象观测数据,在以前基本上都是靠人工观测,特别是地面观测部分。那些不适于人类居住的地方如沙漠、高原、荒岛等等,人工观测是很成问题的。
大气观测自动化以后,不适于人类居住地方的观测问题就基本解决了,比如刚才所说的高原、沙漠、海岛等等,这些地方都可以进行相应的地面观测了。观测的方式大大改变,观测的效率也大大提高。
从2010年起,气象部门又启动了数据质量控制和管理的工作,数据的质量正在逐步或者说很快就受到了从上到下所有人的关注。
至于疫情对于气象部门的业务工作的影响,在我看来影响真的不是很大,因为很大一部分气象观测完全自动化了,数据质量的控制和管理基本上也成型了,而且都成了一个个业务系统,在自动的运行。就气象部门整体而言,绝大部分业务都是以信息业务系统的形式每天24小时自动地运行着。因此疫情对于气象部门的核心业务而言,影响真的不是很大,这也是气象部门有别于其它企业的一个特点之一吧。
陈立节-毕马威数据治理主管合伙人: 疫情对审计和咨询公司影响主要在两大方面。第一方面是在从客户端对我们的业务产生影响。比如说我的客户主要是银行金融机构,在疫情这段期间,许多银行都加快发展线上金融业务,提供非接触式服务。在这个大背景下,很多银行都借这个契机推进数字化转型。我最近拜访了很多家商业银行的董事长、行长,他们都在提要做数字化转型和创新,都在考虑数字化战略。因为刚好赶上“十四五”规划,要考虑未来银行发展的五年战略规划,如何通过数字化来改变银行整个的业务模式,为业务赋能。
这对咨询公司是非常好的契机,我发现疫情来了之后,我们的机会反而变多了。数字化转型、数据治理和应用等成为行业热点,包括今天的会议主题也是数据治理,这带来很多新的咨询机会,我们甚至比原来疫情以前更忙了。
第二个是我们的服务提供形式。以往我们客户基本上都会要求现场办公,但是在疫情期间可能没办法驻场,尤其是金融机构对外部人员入场控制非常严格,现在有很多的工作都是非现场方式提供。比如,利用毕马威自行开发的智能审计系统,可以支持线上访问客户的数据库并开展非现场审计,突破了传统的审计模式,也提高了审计效率。
从这个角度来讲,也要求审计和咨询公司本身也要具备这样的数字化能力,要用我们自己的数字化工具来应对疫情影响,对我们服务形式进行一些创新。
练海荣-龙石数据总经理:因为我们主要服务的是政府部门,其实疫情发生以后,对我们也是带来了蛮多机会的,从疫情中我们观察到,公安部门将过去20多年的信息化过程重新演练了一遍,怎么演练的呢?
疫情刚出现的时候,先拿个纸质表格来登记你是从哪里来的,有没有离开过苏州。后来开发了一个APP,让市民自己填报一下你的行程。再后来我们就连通了公安的人口库数据进行人口实名的登记以及健康码信息的录入和查询。再后来我们就变成人工智能了,通过人脸的识别来将你与数据库里的信息进行比对。
在这个过程当中,我们会发现所有的事情能够推行下去,依据的都是公安的人口库,这里面说明了两点:
第一,如果没有过去十年左右的人口库的数据积累,我们是不可能在这么短的时间里面弄出健康码这样一个东西的。
第二,如果咱们人口库的数据质量没有那么好的话,健康码也是推行不下去的。当然,现在多多少少还是出现一些问题,偶尔还是有些人还是没有办法登录或者有些错误数据等。
所以,经过疫情以后,很多的政府部门都已经认识到了,我们不光要有数据,而且需要高质量的数据。我们过去在做政府项目的时候,政府汇报里面主要的报告内容就是我汇聚了多少维度、多少数据量的数据,现在很明显,我们的政府都开始提出这么一个要求:我们不但要有数据,我们还要有高质量的数据。只有高质量的数据才能支撑数字化转型,才能支撑我们实现数字政府,所以数据质量是迎来了很好的机会。
特邀嘉宾主持谢艳-《北大创新评论》执行主编:谢谢!我相信疫情只是我们现在生活在这个时代当中的很多问题的一个触发点,无论是在数据信息化具有天然优势的金融行业、气象行业,还是其他还未全面数字化转型的行业,我们会发现数据治理对于整个数字中国的智能化发展进程的影响是不可逆的。
今天中午我跟各位嘉宾交流时,我说在小系统当中,我们是不能违背当中的公理的,但是当我们遇到超越了小系统的问题的时候,我们就不能局限于原有的条件,而是要从更大的一个战略性的角度去看数据治理和数据质量的发展问题。
02
数据质量在企业加速数字化发展上的影响与应对措施
特邀嘉宾主持谢艳-《北大创新评论》执行主编:我相信在经过这一轮数字经济的变革,会与以往不同,我们更多的是一盘棋,是一个整体从宏观到中观到微观的总体变化,所以我想请教一下杨老师,您怎么看待目前数字经济的国策:数据作为重要的生产要素的核心命题这个问题?
杨柳-国家工业信息安全发展研究中心人工智能所数据质量室主任:其实数据近两年的发展在国家的战略方面也能体现出来它的发展变化,早在2015年,国家首次提出实施国家大数据战略,自此之后,我们国家大数据产业也是迎来了高速发展时期,无论是产品、技术,还是服务,以及整个产业的生态,其实都迎来了非常好的时期。
近两年数据国家战略方面也是开始逐步聚焦在数据本身,今年的4月份,在党的十九届四中全会上,也是首次把数据增列为生产要素,这其实相当于将数据的重要性提升到国家层面上了。数据与劳动、土地、资本、技术一起成为一种新的经济范式,所以数据的重要性从国家层面到各地方、各个企业都得到了巨大的重视和关注。在响应国家号召的情况下,不管是国家部委,还是各地方政府,在实施数据规划或者是制定相关程序、流程等数据治理工作时,也越来越注重如何去推动数据要素资源的释放,发挥数据的价值。
工信部今年在5月份发布《关于工业大数据发展的指导意见》,其中就提到要推动工业数据的全面采集、高效互通、积极的治理和高质量的汇聚,在这个过程中推动工业数据的流通和利用。
另外工信部今年关于大数据方面另一个重点的工作,就是推动《数据管理能力成熟度评估模型》这个国家标准的惯标和评估工作,其实也就是希望通过国家标准的贯彻帮助企业建立完善数据管理的体系,提升数据管理的能力,更大程度的发挥这个数据的价值,也是帮助企业在数字化转型升级的市场上更大的发挥自己的作用。关于这个话题,我主要说一下国家的战略方面的情况,谢谢。
沈文海-中国气象信息中心副总工兼科技委主任:刚才我大致介绍了一下气象业务和气象数据的关系,气象数据对于气象部门而言,它作为生产要素是不可或缺的,可以说是唯一的生产要素,因为没有气象数据什么都无从谈起。大家也都知道,获取气象观测数据有很多种途径和类型,有地面观测、探空、雷达、卫星遥感,这些观测手段不管它的位置如何,基本上都是为了探测大气的基本数据,以卫星遥感而言,卫星遥感最大的优势就在于它的面非常广,有很多人类无法涉足到的地方,像海洋、沙漠、极地等都可以时刻地来进行观测。
但是大家都知道卫星遥感是通过电子器件进行遥感的,电子器件都有一定的衰变期,所以它所遥感出来的这些电子信号或者数据,必须要和地面的观测数据、海洋浮标观测数据进行校对,之后才能成为真正的遥感数据。这样一来,大家就看出来了:地面观测数据和海洋的浮标观测数据质量显得非常重要,有可能因为一个地面或浮标数据出了问题,对于卫星数据而言,可能整个一片数据就都出问题了。
地面观测数据的数据质量是非常重要的,举一个简单的例子,在90年代,中国气象局为了更好的服务政府,有专线直通中南海,使实况和预报结果能第一时间报告给中央国务院有关部门。结果有一年汛期期间,某天傍晚中南海打来电话,说哪儿哪儿是不是发生了极大的暴雨,你们看一看。我们这边一查,发觉是云南的某个观测站数据出了问题,周围都是一片晴空,但是这个站点数据居然24小时降雨达1000多毫米,超过历史极值多少倍。发现问题后,气象有关部门感到非常惭愧,这么明显的错误数据居然从观测到收集到入库到发送到中南海,各个环节都没有把它发现并过滤掉,而是让它直报给了中南海,据说还是国务院一位领导发现的这个问题,这反过来说明数据,特别是这种地面观测数据的数据质量,对气象部门的业务工作是十分重要的,甚至可以说是生命线。
特邀嘉宾主持谢艳-《北大创新评论》执行主编:我觉得沈老师举的这个例子非常恰当,数据是一个大的命题,它既然作为生产要素,对于各行各业都是不可或缺的,我们今天的数据就是上达天文,下达自身。一个数据的质量是在我们任何一个系统单元当中都可能产生重要影响的,从我们自身,到安全、健康、发展,然后再到大一点的组织关系,到智能组织和未来企业形态等等,都会产生影响。
我刚提到智能组织,怎样才能成为一个智能组织呢?首先在一开始数据的质量和数据的管理上,就必须要解决某些源头上的问题。今天有很多面临数据治理和数据质量问题的从业者们,从各位专家的角度,从实战的角度聊一下数据治理和数据质量的提升怎么能够帮助企业未来的成长呢?
练海荣-龙石数据总经理:我们做业务时有过总结。首先,政务大数据的发展已经进入了一个新的阶段,就像GDP的增长一样,原来咱们对经济的追求一直都是追求产值的快速发展。现在国家要求实现经济的高质量发展,我认为咱们政务大数据发展的形态也是一样的,我们是进入了一个新阶段,我们正逐步从对量的追求过渡到对质的追求的新阶段,我们不再只是追求数量,也要追求质量。
其次,高质量数据是破解数据困境的必然要求,打破部门壁垒不是政务大数据的唯一目的,需要让数据能够为业务部门提供更好的服务和能力支撑,让业务部门不仅在政务大数据建设过程中共享数据,同时也能够拥有获得感,对数据用得放心。之前新闻媒体有过报道,数据质量问题确实造成了一些笑话。比如说食品监管部门发放的食品经营许可证证号的重复,导致企业在美团网上没法注册,说这是个假证,这很影响政府的形象。
第三,高质量数据是实现数字政府的必由之路,政务大数据是实现数字政府、优化营商环境、推动“放管服”改革的重要支撑。实现这一目标,必须坚持质量第一、效果优先、强化责任,建立长效工作机制,不断丰富数据内容和提高数据质量,切实为数字政府建设夯实数据基础。
陈立节-毕马威数据治理主管合伙人:我是从两个层面来考虑数据质量和企业业务发展之间的关系。首先讲宏观层面,然后再讲微观层面。从宏观层面来讲,站在一个企业高管的角度来看,如董事长、总裁,他们如何看待这个问题。我最近也跟很多企业高管做过访谈,问“作为企业的一把手,您怎么看数据质量?对它有什么要求吗?”我记得一家企业的总裁是这么说的“我的要求很简单,我想看到我们公司不同条线的产品,收入是多少,成本是多少,利润是多少,我想看到的精细化的决策分析数据,但是目前的数据质量支持不了这个诉求。”就经营决策这么一个简单的诉求,这家企业现在是满足不了的,为什么呢?
有两个主要的原因,一个是该企业缺乏统一的产品目录和产品标准。不同的部门、不同的业务条线,对产品的划分是不清晰的。比如一个具体的产品,可能同时挂在多个部门之下,导致产品交叉重复统计了。再就是很多明细交易数据的质量非常差,没办法在交易明细层面对应到最细颗粒度的产品品类,往往只能对应到一个产品大类,这是底层数据质量导致顶层难以分类汇总的问题。
正是因为很小的一个问题,导致了管理层掌握不了企业产品品类的成本收入情况。这让管理层怎么去做战略决策?以后重点发展哪个业务条线、产品品类、具或体产品?这是在宏观层面。
微观层面就是企业的日常工作和业务经营,比如说业务营销、风险管控、监测预警等也面临很大的数据质量问题。大家都知道互联网企业会做精准的客户画像,千人千面,但是我们曾经看到一家企业的客户交易信息有重大的质量问题。这还是一家非常领先的互联网公司,我们看到很多的线上交易明细里,交易日期竟出现1900年的,互联网到今年才有多少年,怎么可能有一笔该日期的交易?这些基础的数据质量问题对后续客户营销、风控预警等日常经营管理活动造成很大的影响。
所以,无论是宏观的管理层决策支持,还是微观的日常业务经营管理层面,都是需要借助于高质量的数据才能给企业的长远发展提供保障和支撑的。
丘伟松-金域医学信息管理中心总经理:几位老师讲的比较高屋建瓴,我就从企业面临的实际问题来谈一谈。
金域集团含有一块体检业务,我们内部员工都在自己的体检中心做体检。每年年底各条业务线都要做汇报,去年年底体检中心的老总汇报前说“我先跟各位领导报告一个好消息,我们所有的男领导都没有宫颈问题,我们所有女领导都没有前列腺问题,这是一个好兆头”,当然他是开玩笑。
但开玩笑之外,其实在病理检测时偶尔会出现这样的情况,性别是男,但是发了子宫颈癌病变的报告。在医学领域,数据质量出现问题说老实话是人命关天的,这是很荒谬的,但是这些荒谬问题是怎么发生的,是从数据源头和数据不断产生的过程中出现的。
为了减少这类问题,首先我们自己的内部流程要规范、要核对、要用很多系统来固化规则。金域的系统内部设置了很多自动化、智能化的规则,并通过不同的规则互相校验,通过数据之间的自动校对纠正,发现错误,预警错误。但我们还是要做到源头数据更准确,有一定的标准,这是通过技术来控制我们的数据质量。
但如果我们的技术控制加的太多了,规则太多了,条件太多了,又出现另外一个问题。客户要求的快捷、便利,体验和精准之间如何做平衡的问题。我曾经请教一个头部互联网企业:客户让开发票,你们怎么开?回复是:客户填了什么就开什么,他的单是多少就开多少。他说我能够承受这个损失,要的就是快和客户体验好。但是2B的企业呢,可能非要跟他把这个账对清楚了才会开发票,因为可能会发生税务风险,这是2B企业一惯的做法,这两个之间如何平衡呢?这是我们要考虑的一个问题,在风险管控和便利性方面的考虑。
我们金域实际上一直在走信息化、数字化、智能化的发展道路上。举个例子,我们现在在研发AI宫颈辅助筛查,所有的宫颈片扫到电子里去应该是32秒,比人工提高了接近5倍的时间,32秒就可以基本上给出一个初步辅助筛查结果。那么不同仪器扫进去的片,不同染色工艺扫出来的片,不同的技术人员取材的制作的病理片,会是一样的吗?AI能识别吗?所以数据的质量、数据的标准化一定是我们未来AI发展最基本的东西,如果没有有质量的数据,我们的AI是发展不起来的,不管是非结构化数据还是结构化数据的质量。如果数据的质量不能很好的管理,我们的智能化就是一句空谈,这是我的一个体验,谢谢!
特邀嘉宾主持谢艳-《北大创新评论》执行主编:感谢各位老师,其实我觉得有一个总体的观点,“质量质量”,“质”是“量”的一个基本前提。
数据作为生产要素,它其实是有两个需要强调的重点,其一就是数据在我们的生产生活当中产权的基本关系,其二就是数据在确立产权关系下的未来的交易化和市场化。如果是没有市场的情况下,它又何谈从产权到财权,这是一个基本的方向。
大家对今天的讨论意犹未尽,但是时间有限,我相信各位已经感受到数据质量和数据治理对于我们自身的生存、生活、企业的发展都有非常重要的作用。
今后如果大家有这方面想讨论的、想交流的,都可以请教我们几位老师,谭总创建这么好的一个峰会平台,现在已经发展到第四届了,我们可以在这样一个好的平台上继续进一步去交流,把我们想学习了解的数据治理和数据质量的问题进一步深度探讨,我相信今天只是一个开始,未来希望我们真正实现数据可量化、可确权、可交易,焕发出它的关键价值。
本次的圆桌讨论就告一段落了,下午还有更多嘉宾的精彩分享,不容错过,敬请期待。再次感谢各位老师,谢谢!