【IT168 专访】把数据当成资产,向数据要价值成为当今企业共同的追求,许多企业组织也纷纷踏上了数字化变革的旅程,而推动企业变革的并不是技术。
“技术是企业变革的助力,而不是驱动力。企业变革的主要驱动力是不断发生变化的消费者行为。技术只是在最初引发了消费者行为的改变,但随着改变的发生和发展,之后技术则更多是跟随消费者行为的改变而变化。许多公司遵循趋势对企业业务进行变革,并不是因为技术本身,而是因为所有人都在使用这些技术。”JetBrains产品经理Andrey Cheptsov在接受IT168采访时指出。
▲Maria Khalusova
JetBrains产品经理(Product Manager at JetBrains
▲ Andrey Cheptsov
JetBrains产品经理(Product Manager at JetBrains)
JetBrains是一家总部位于欧洲的软件开发工具提供商,大约20年前,在捷克的布拉格,Sergey Dmitriev、Eugene Belyaev和Valentin Kipiatkov三位程序员要做一个复杂的大型Java项目,为了提高效率和降低难度,需要一个基于Java语言的开发环境,但是当时市面上却没有合适的工具。为了解决自己的问题,他们决定研发一款新的开发工具,创立了JetBrains。JetBrains的开发工具广受欢迎,目前财富100强企业中的95家都是其客户。
近20年来JetBrains见证了技术的发展,如今的数据智能时代,大数据平台、数据湖平台不断发展,数据工程师、数据科学家等新职业层出不穷。变革无处不在,企业应该如何看待大数据技术?数据科学和数据工程有怎样的区别?不同企业对技术的需求有怎样的不同?
带着这些疑问,IT168采访了JetBrains产品经理Maria Khalusova女士和JetBrains产品经理Andrey Cheptsov先生。Maria Khalusova专注于数据科学、数据工程和机器学习。在此之前,她曾担任JetBrains的开发倡导者、产品营销经理等职位,参与IntelliJ IDEA、TeamCity和Upsource等项目。Andrey Cheptsov目前负责帮助JetBrains的IntelliJ IDEA和PyCharm团队为专业数据处理人员(例如数据工程师和数据科学家)构建工具。他参与了与产品相关的所有工作,包括从产品管理、营销以及业务发展。
Maria Khalusova指出在数据资产管理方面,**可以看到近年来从零散的孤立数据存储向数据湖转变。但是她不认为这是数据资产管理的最终发展结果。**随着越来越多的数据可以被利用,将数据从数据源摄取到一个单独的位置当然是有意义的,但是从长远来看,这可能会导致可发现性问题。此外,不断增加的数据实验数量也可能会对现有的集中式数据平台造成压力。也许在不久的将来我们能看到新的数据平台架构。
Maria Khalusova还认为“数据科学家”和“数据工程师”这两种职位角色在行业中还是相当新的,也正因此,通常没有明确的职责划分。
Andrey Cheptsov讲到了大数据平台和JetBrains所提供工具的不同,如果大数据平台通过提供服务器端软件和云基础架构来管理和生产数据,那么JetBrains提供的工具(例如IntelliJ IDEA的大数据工具),则为开发者环境提供了从其IDE高效、便捷地使用这些大数据平台的能力,比如执行查询数据、运行和调试ETL作业、监控作业等任务。
具体内容,请看采访记录。
IT168:企业越来越重视数据,从数据资源到数据资产转化释放价值需要一个过程,您觉得会分为几个阶段?现在到了哪个阶段?
**Andrey Cheptsov:**从JetBrains的角度出发,我们不能说我们知道所有的企业都是如何进行数据处理的,因为我们所掌握的信息仅仅是基于我们自己积累的经验和对市场的洞察,以及从我们的用户和客户那里了解到的信息。以JetBrains为例,我们在工作中会处理和分析大量的数据,其中有些数据会被用于各种专项的运营分析,有些数据被用于探索性分析、建模和培训机器学习(ML)模型。而模型本身也会产生数据,这些数据也同样会被收集、处理和用于评估模型。从我们自身的经验来讲,自动化收集和处理数据的基础架构起到非常关键的作用:它有助于数据扩展、确保数据隐私安全、增强数据有效性,并且还能提供工具来快速、可靠地执行数据操作。
IT168:JetBrains在数据资产转化为价值的过程中扮演着怎样的角色?提供什么帮助?(可否举例说明)
**Maria Khalusova:**企业在寻求将数据资产转化为价值的过程中肯定会遇到许多挑战,这些挑战可能来自技术层面,也可能来自组织结构。当涉及技术部分时,企业会希望确保自己有最好的工具来帮助他们的数据科学家和数据工程师,让他们能富有成效、专注并充满信心的编写的代码。
JetBrains致力让编写代码更加高效和便捷,在此方面有着10多年的经验,对任何编程语言都是如此。无论是Python、R、Scala、SQL语言还是团队用来处理、转换、分析或对数据建模的任何其他语言,JetBrains的IDE都能确保数据团队更快地创建干净的代码。
例如,在大数据世界里,这一点显得更加重要,因为企业的某些ETL或分析代码甚至能以分布式的方式运行数小时,如果在这样的代码中出现错误,可能导致数小时的工作都被浪费掉。除此之外,当工程师开始对问题进行故障排除时,上下文早已不复存在,这无疑将增加故障排除工作的难度和压力。为了帮助数据工程师减少上下文切换,并提高其Spark代码的质量,我们近期推出了Big Data Tools大数据开发工具,它是集成 Spark 且支持编辑和运行 Zeppelin Notebooks 的 IntelliJ IDEA 插件,目前早期预览计划已经发布,它可以为开发者们带来更高效、便捷的大数据处理和开发体验。
IT168:您觉得大数据平台、数据湖(Data Lake)和JetBrains所提供的工具在帮助企业挖掘数据价值的时候是一个怎样的关系?
**Andrey Cheptsov:**这个问题很好。我认为大数据平台与JetBrains提供的工具之间是存在显著区别的。JetBrains提供的大多数工具都是IDE,就是集成开发环境。这些工具主要针对个人开发者,旨在为他们提供符合人体工学的环境以执行他们的开发任务。我们将多种工具集成到一个环境中来,包括编辑器(Editor)、构建工具、代码规范检测工具(Code linters)、数据库客户端(database client)、SSH实用程序(SSH utilities)、Git客户端(Git client)等等。这些工具不一定都由JetBrains构建,但是将它们集成到一个符合人体工学的应用程序中,就形成了IDE。
今天,我们看到软件开发越来越多地涉及到数据。这意味着软件不再仅仅是一组算法,而是一组经过数据训练的模型。收集和处理这些数据,并进行建模和部署机器学习(ML)模型,已成为软件开发的一部分。所有这些(收集、处理、建模和部署)过程都需要专属的工具。这就意味着这些工具也必须被集成到开发环境中,开发环境必须不断发展以适应新的需求。
大数据平台是完全不同的事物,它们提供的是建立和管理数据基础架构本身的解决方案。这其中可能包括用于收集和处理数据、以及部署和监控机器学习(ML)模型的服务器端软件和云基础架构。
概括地说,如果大数据平台通过提供服务器端软件和云基础架构来管理和生产数据,那么JetBrains提供的工具(例如IntelliJ IDEA的大数据工具),则为开发者环境提供了从其IDE高效、便捷地使用这些大数据平台的能力,比如执行查询数据、运行和调试ETL作业、监控作业等任务。
IT168:数据科学家和数据工程师有很长的历史了,您觉得二者在职业定位以及数据工具的需求方面有什么不同吗?一般什么样的公司会设立数据科学家和数据工程师职位?
**Maria Khalusova:**不同于您的看法,我认为“数据科学家”和“数据工程师”这两种职位角色在行业中还是相当新的,也正因此,通常没有明确的职责划分。我们看到在某些公司中由数据科学家承担的职责,在其他公司中这些职责却由数据工程师承担。我们也发现,另一个越来越常见的新角色是机器学习工程师,但也是同样的情况,他们也经常与数据工程发生重叠。
广义地说,数据工程师通常必须熟悉那些为分布式数据处理而设计的工具,例如Apache Spark、Apache Hadoop、Apache Ignite等。他们要具备数据仓库和数据湖方面的经验,因为他们需要能够熟练地使用Java、Scala和Kotlin等JVM语言,并且必须能够创建和维护大多数数据基础架构。
数据科学家则需要了解Python语言、R语言或两者兼具,并且能够获取数据(例如使用SQL或Spark)、整理数据、分析数据、训练预测模型并将数据驱动的洞察提供给利益相关者。他们需要在统计方法和机器学习方法(包括深度学习)方面有扎实的基础。在某些公司中,数据科学家也会参与机器学习模型的部署。
IT168:使用JetBrains的数据工程师多还是数据科学家多一些?数据工程师和数据科学家是向业务线还是IT线汇报工作?
**Andrey Cheptsov:**我目前尚未掌握这两种角色在用户中的比例,所以很难给出一组确切的数字。但根据我的了解,两种职位的比例应该大致相当。
IT168:在您接触的客户中,不同行业对数据科学家或者数据工程师的需求有怎样的不同?因为数据科学家通常被认为是互联网巨头驱动发展的,有的企业还没有引入相关职位,目前哪个行业在数据科学家和数据工程师方面应用的更成熟、需求更多?
**Andrey Cheptsov:**不同的企业对数据科学和数据工程的需求往往因所处行业或公司规模而存在较大差异。例如,大中型科技公司通常更多地依赖开源解决方案,并且不介意根据自身需求投入基础架构的搭建。相反,非技术公司则无力构建自己的基础架构,不得不依靠第三方提供的基础架构解决方案。当然,大型公司通常需要包含所有内容在内的端到端解决方案。
但在某些特定的行业中,安全问题才最为重要,比如银行业、医疗保健行业等。举个例子,有些公司不允许其雇员或其他任何人实际访问到它的数据,有些公司在考量到其关键工作流程的安全性也无法依靠第三方的解决方案为其提供支持。在这种情况下,安全性决定了哪些工具和解决方案可以用,哪些不能用。然而,尽管有这些差异存在,似乎大多数解决方案仍严重依赖于开源解决方案,如Spark、Kafka、Flink、Parquet等。
这就是JetBrains大数据工具首先支持开源技术,然后才能与企业级解决方案集成的原因。JetBrains大数据工具的另一个特性是,它与大数据提供者完全区分开,数据工程师得以从其使用的大数据供应商抽离,进而专注于工作本身,例如是编写ETL作业还是访问数据等。
关于目前不同行业对数据科学家和数据工程师应用的成熟度、需求情况,也很难给出一个确切答案,毕竟我们更多的是依靠在工作中的观察来了解这些情况。当然,我们认为包括大数据和数据科学在内的整个数据行业最初都是由互联网巨头驱动的,并且现在也是如此。诸如Google、Facebook、Twitter之类的公司是首先有所需求、并有能力进行大规模有效处理数据的公司。我认为它们与其他企业之间存在很大差异,它们的主要业务模型从核心上取决于它们处理大规模数据的效率。当然,他们之所以能领先,也是因为有长期积累起来的技能和经验。
由于技术公司蕴含的技术文化,也使他们自然地在数据工程和数据科学方面更加领先。今天,我们看到越来越多的公司开始接受技术文化,因为这已成为竞争优势所在。与此同时,同样的事情也发生在传统产业。今天,各行各业的许多公司都开始尝试将其业务转到互联网上。可以这样说,未来所有公司迟早都会成为互联网公司,也都会更加注重技术文化。
IT168:回到数据资产方面,您觉得现在以及未来企业在数据资产管理和数据价值释放有哪些挑战?
**Maria Khalusova:**成为数据驱动型企业是当前许多企业的目标。对于刚刚开始这个转变进程的企业,可能首先会面临来自组织内部的挑战,他们需要摆脱系统的历史包袱、改变公司文化、在数据专业人才短缺的情况下组建符合需求的团队。
从技术角度来看,数据科学在某些情况下的实践似乎还不如传统软件开发成熟。企业可能会面临以下挑战:建立可重现的机器学习管道,对数据和模型进行版本控制以进行审核,与快速发展的技术保持同步。
数据资产管理方面,近年来,我们看到了从零散的孤立数据存储向数据湖的转变。当然,这种转变使数据科学家可以更轻松地访问和分析各种数据集,但是我不认为这是数据资产管理的最终发展结果。随着越来越多的数据可以被利用,将数据从数据源摄取到一个单独的位置当然是有意义的,但是从长远来看,这可能会导致可发现性问题。此外,不断增加的数据实验数量也可能会对现有的集中式数据平台造成压力。也许在不久的将来我们能看到新的数据平台架构。
IT168:在一个企业里面推行一个新的数据工具或者新的数据技术是否会遇到相应的阻力?企业通常都是怎样解决的?JetBrains会提供怎样的帮助?
**Maria Khalusova:**创建数据驱动的工具和技术会带来各种挑战。例如可能会受到遗留文化的抵制,或因系统的历史包袱造成复杂性影响。从数据专业人员的短缺情况来看,可能导致团队的雇用和组建过程很困难。另外,对于企业的数据可以提供多少价值这个问题,可能也会因不切实际的期望最终导致失望。当然,这种类型的挑战是企业需要自身去解决的,而JetBrains能够从旁提供建立数据驱动性产品上所需要的技术支持。例如,如果需要建立可维护、可重现的代码,需要建立代码级基础架构,需要将工具和框架集成在一起,进而来开发新的数据驱动产品,那么这些都是JetBrains的各种产品可以发挥显著作用的地方。
IT168:新技术层出不穷,也有很多企业高层指出技术的引入对于企业而言只是企业变革的开始,更多挑战是技术之外的其他因素,能否请您谈谈,您认为影响企业变革的技术以及技术之外的因素有哪些?
**Andrey Cheptsov:这是一个哲学问题。在科技行业从业多年,我个人认为技术是企业变革的助力,而不是驱动力。企业变革的主要驱动力是不断发生变化的消费者行为。**技术只是在最初引发了消费者行为的改变,但随着改变的发生和发展,之后技术则更多是跟随消费者行为的改变而变化。许多公司遵循趋势对企业业务进行变革,并不是因为技术本身,而是因为所有人都在使用这些技术。
企业变革的另一个重要驱动因素是市场竞争。一旦消费者的行为和一些公司的业务开始发生变化,其他企业通常会为保持其市场竞争力,也开始采用新技术进行变革。大多数情况下是技术先出现,而后发生变革。有些人认为,在一项技术出现的初期,它们通常尚不成熟。确实如此。唯一能够让这些技术变得成熟的驱动力就是需求的增长,有需求才能推动技术发展。我认为真正推动全球范围内的企业发生变革的是消费者行为的整体变化。