使用 LakeSoul 构建实时机器学习样本库

首先,附上 Github 链接

LakeSoul:https://github.com/meta-soul/LakeSoul,可搜索公众号元灵数智,在底部菜单了解我们 - 用户交流获取官方技术交流群二维码,进群与业内大佬进行技术交流。

在之前的公众号文章《重磅!开源湖仓平台 LakeSoul 设计理念详解》中,我们介绍了 LakeSoul 开源流批一体表存储框架的设计理念和部分实现原理。LakeSoul 设计的初衷,是为了解决在流批一体的业务场景下,传统的 Hive 数仓难以解决的各类问题,包括 Upsert 更新、Merge on Read、并发写等。今天我们以一个典型的应用场景:构建实时机器学习样本库来展示 LakeSoul 的核心功能。

一、业务需求背景

1.1 在线推荐系统

在互联网、金融等行业,很多的业务场景都可以归纳为一个在线个性化推荐系统,包括搜索、广告、推荐、风控等。例如,在电商业务中,通过搭建个性化推荐系统,可以实现千人千面的猜你喜欢推荐,提升用户的点击率、购买率等;在广告业务中,个性化推荐是实现精准定向,提升 ROI 的核心系统;在金融风控领域,需要实现对用户偿还能力、逾期可能性的实时预测,为每个用户提供个性化的信贷额度、还贷周期等。

可以看到,推荐系统在各个行业领域都有着广泛应用。搭建一个工业级在线推荐系统,需要很多的环节和系统相互衔接,有比较大的开发工作量。元灵数智平台研发的 MetaSpore 框架提供了一站式的推荐系统开发解决方案,详细介绍可以看我们之前的公众号文章

你可能感兴趣的:(big,data,大数据,数据仓库,数据库架构,数据库开发)