AI工程化涉及到的开源选型项目(持续更新)

算法落地会涉及到原始数据加工、原始数据采集、工作流调度和缓存等,以下是今年工程化涉及到的一些开源产品、

图数据库:
HugeGraph: 开源分布式图数据存,百度开源,分布式,存储引擎依赖于第三方
dgraph:开源分布式图数据库,存储引擎自身
JanusGraph:开源的分布式图数据库
Neo4j:单机数据库

数据同步:
DataX:离线数据同步工具/平台,基于xxl-job
Canal:实现解析binlog然后同步到其他地方
Otter: 基于数据库增量日志解析,准实时同步到本机房或异地机房的mysql/oracle数据库.
CanalX:基于 `Canal` 的数据感知服务框架. 可用于围绕数据库`Mysql`进行数据相关的各式业务开发, 并建立各式各样的服务平台。最基础的是更新到redis,和相关的业务进行松耦合

大数据相关:
Clickhouse:新崛起的OLAP分析工具
Kylin:开源的OLAP分析工具

Apache Doris  百度贡献的在孵化器的项目

 

向量化产品
Milvus:海量特征向量的近似最近邻搜索(ANNS)
Faiss:facebook向量化解方案

工作流调度引擎:
Oozie: Hadoop工作流调度
xxl-job:成熟的调度工具
easy scheduler:去中心化调用引擎

缓存系统:
pika:360开源兼容redis协议的存储
 

你可能感兴趣的:(大数据架构与服务程序设计,架构,自然语言处理,金融风控,信用评分)