OpenMLDB 社区新开源了特征平台产品 - FeatInsight(https://github.com/4paradigm/FeatInsight),是一个先进的特征存储(Feature Store)服务,基于 OpenMLDB 数据库实现高效的特征管理和编排功能。FeatInsight 特征平台提供简便易用的 UI 界面,用户可以进行机器学习特征开发的全流程,包括数据的导入、查看、编辑,特征的生成、存储、上线等功能。 针对离线场景中,用户可以选择特征生成离线样本用于后续的机器学习开发;针对在线场景中,用户可以选择特征创建特征服务,实现实时特征计算。
FeatInsight 的主要目的是解决在机器学习项目中常见的问题,包括简便快捷地进行特征提取、转换、组合、选择以及血缘管理,特征的重用和共享,特征服务版本控制,以及确保在训练和推理过程中使用的特征数据的一致和可靠。一些范例应用场景包括:
这里我们将通过一个简单的例子来演示如何简便快速地使用 FeatInsight 特征平台。使用流程大致包括导入数据、创建特征、离线场景的使用,以及在线场景的使用四个步骤。
首先创建数据库test_db
表,和数据表test_table
,可以直接执行 SQL 来创建。
CREATE DATABASE test_db;
CREATE TABLE test_db.test_table (id STRING, trx_time DATE);
也可以在 FeatInsight 的“数据导入”前端页面直接创建。
为了测试方便,我们准备一个 CSV 文件并保存到 /tmp/test_table.csv
。注意,这里本地是 OpenMLDB TaskManager 服务器的本地路径,一般也是 FeatInsight 的服务器路径,需要提前登陆编辑。
id,trx_time
user1,2024-01-01
user2,2024-01-02
user3,2024-01-03
user4,2024-01-04
user5,2024-01-05
user6,2024-01-06
user7,2024-01-07
其中,在线数据可以使用 LOAD DATA
或 INSERT
命令来导入,这里演示通过点击 “使用 CSV 导入” 来执行。
通过前端页面可以预览已导入的在线数据。
离线数据也可以使用 LOAD DATA
命令或前端选择“使用 CSV 导入”来执行。
等待半分钟后导入任务完成,可以查看任务的状态以及日志。
数据导入完成后,可以开始创建特征,本示例使用 SQL 来创建两个基本特征。
SELECT id, dayofweek(trx_time) as trx_day FROM test_table
在“特征”页面选择“创建特征”,填写特征组名称以及 SQL 语句。
创建完成后,可以在“特征”页面查看成功创建的特征。
点击特征名称,进入特征详情页,可以查看特征基础信息,并提供特征预览功能。
在“离线场景”页面,可以选择导出离线样本,只要选择刚创建好的特征和提供导出路径即可,前端还提供了“更多选项”可以选择到处格式、运行参数等。
提交导出任务后,可以在“离线样本”详情页查看导出信息,大概半分钟后成功完成。
在本地即可查看导出的样本文件内容。为了验证 FeatInsight 特征平台提供的在线离线一致性,可记录离线特征结果,并于后面的在线特征计算做比较。
在“特征服务”页面可以选择创建特征服务,同样是只需要选择上线的特征,以及提供特征服务名称和版本即可。
创建成功后,可以在特征服务详情页查看到服务的基本信息,上线包含的特征列表,以及依赖数据表的血缘关系等。
最后通过“请求特征服务”页面,我们可以输入测试数据进行在线特征计算,并且和离线样本的特征结果进行比对。
这就是使用 FeatInsight 特征平台的完整流程,通过编写简单的 SQL 即可实现在线和离线的特征定义,通过选择不同的特征,甚至是组合不同特征组的特征,即可实现快速的特征复用和上线,并且对比离线和在线的计算结果验证了特征计算的一致性。
如果您想进一步了解 FeatInsight 的使用方式及范例场景,可参照应用案例。
除了特征工程的基本功能之外,FeatInsight 特征平台还提供了高级功能以方便用户进行特征工程的开发: