数据科学低代码工具思考--工具起源

        “数据科学低代码”由“数据科学”+“低代码”两部分组成。这意味着我们将主要讨论“低代码”在“数据科学”应用场景中的使用。这将有别于现在流行的以“低代码”方式构建应用程序的讨论。但无论何种“低代码”,其核心都是为了降本增效。其是否能推广普及则主要依赖于“低代码”工具的易用性与成熟度。

什么是数据科学

    “数据科学是一门利用数据来学习和发现知识的学科。 它是使用科学的方法、流程和系统从不同形式的数据中提取知识的多学科领域。 数据科学的目标是通过从数据中提取出有价值的部分来生产数据产品。”

    1962年,数学家 John Tukey 发表了论文《数据分析的未来》(The Future of Data Analysis),预示了这门学科的诞生;1985年,CF Jeff Wu第一次使用术语数据科学作为统计学的替代名称……

        数据科学结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、大数据、机器学习、数据可视化、数据仓库以及高性能计算等。理论上说,万物皆可数据化,因此数据科学将在未来发挥越来越重要的作用。

什么是低代码

        “低代码(Low Code)是一种可视化的应用开发方法,用较少的代码、以较快的速度来交付应用程序。它旨在通过图形化界面和少量的编码来创建软件应用程序,降低编程的门槛,使得非专业开发人员也能参与到软件开发过程中”—阿里千问大模型

        从上面定义我们能看到一些核心词汇,如“可视化”、“应用开发方法”、“较少代码”、“快速交付”、“降低门槛”、“ 非专业开发人员”等。这些词汇帮助我们在脑海中勾勒出一个“低代码”的基本轮廓。

        低代码是一种开发方法,其最大特点是“可视化”,通过可视化的表达,其能降低开发门槛,甚至允许非专业开发人员,仅使用少量的代码就可实现应用的开发。

数据科学低代码工具

        伴随着数据科学的不断发展,支持数据科学发展的数据工程技术与工具也在不断进步。一般而言,数据科学工程包括:数据收集、数据清洗、数据分析、模型评估及模型部署五个阶段。除模型部署外,前四个阶段都充斥着大量的不确定性,需要数据科学家或工程师不断尝试才能获得最佳的效果。这种不确定性,导致了很多重复性的工作,为数据科学工程的落地带来了巨大的成本。

        因此,SAS 软件在上世纪90 年代就提供了 Data Flow Diagram 功能,首次将“低代码”开发理念带入数据科学领域,帮助用户通过拖拽的方式来创建数据处理流程,以提升数据处理的效率及降低数据处理成本。随后,2003年的Kettle、2010年的RapidMiner又进一步完善了数据科学领域的“低代码”理念,逐渐将这种能力扩展到了分析建模阶段。

        如今,在数据科学领域,主要有两大类低代码工具,一类是ETL工具,代表工具有Kettle、StreamSets,用于数据的收集和清洗;一类是分析建模工具,代表工具为SPSS、RapidMiner等,用于数据的分析建模。

        这两类工具的出现,极大的提升了数据科学工程的效率。更是使得没有太多开发基础的业务分析人员有机会即时的处理和分析数据,大大降低了企业的运营成本。        

你可能感兴趣的:(低代码,低代码,数据科学,ETL,数据挖掘)