做开源 18 年,他想把中国开源带向世界 | 人物志

做开源 18 年,他想把中国开源带向世界 | 人物志_第1张图片

作者 | 八宝粥

责编 | 唐小引

出品 | CSDN(id:CSDNnews)

本期采访人物:
星爵,LF AI&DATA 基金会主席、Zilliz 的创始人兼CEO,曾长期就职于 Oracle 美国总部,Oracle 12c 多租户数据库奠基人之一。大数据、人工智能和高性能计算领域行业专家。

我们希望把中国的开源项目、基金会带向世界,也把世界的新鲜、成熟的基金会的理念和管理方法带回中国。
——LF AI&DATA 基金会主席、Zilliz 创始人兼 CEO 星爵

越来越多的企业和开源项目选择加入开源软件基金会,LF AI&DATA 基金会作为 Linux 基金会旗下的子基金会,致力于促进机器学习、深度学习等人工智能领域中的开源创新。这次我们专门请到 LF AI&DATA 基金会董事会主席星爵和大家分享他的开源故事,以及基金会在今后的发展方向。

正式的采访之前,记者询问了星爵这个昵称的来由,星爵这样回复:

这是我在开源技术圈子当中喜欢用的名字,他是漫威当中的英雄,也是其中唯一一位以集体形象出现的人物,他让我们看到英雄主义和集体荣誉。希望各位不管是创业还是技术创新,都能不仅仅做到技术独挡一面,也能够联合在一起,成为战无不胜攻无不可的团队。

【重点摘要】

  • LF AI&DATA 董事会主席讲述与开源结缘的故事?
  • 开源软件基金会主要有哪些组织架构,分别有怎样的职能?
  • AI越来越多的拓展到数据管理,有哪些领域值得关注?
  • 一个开源项目入选 LF AI&DATA 总共分几步?中途维持不下去了怎么办?
  • 基金会对于抗击疫情做出了怎样的贡献?
  • 中国的开源生态如何发展,开源基金会将扮演什么角色?

以下为采访全文,在不改变原意的情况下进行了部分编辑:

CSDN: 星爵老师,请谈谈您和开源的故事

星爵:我最初接触开源,是 2002 年读研期间,参与了一个项目中国教育科研网格,就是通过学习一个叫做 Globus 的一个网格计算的中间件来快速实现的。Globus 是芝加哥大学和美国阿贡国家实验室合作研发的,在 2000 年就开源了。从那个时候起,我就是开源的受益者,到后来去美国的求学和研究当中,我又接触到了集群作业提交的工具 Condor,也从一些 C++ 和 Java 的开源项目中学到了很多。

在美国 Oracle 工作的期间,我也会固定参与一些开源项目来做贡献。因为受到硅谷文化的影响,开源对创业公司甚至工业界都是很好的赋能、一种神奇的力量。像 Facebook、Yelp、LinkedIn 这样的公司,早期也靠大量的开源项目来拼建系统,前期只要关注业务就可以了。

像我这样的工程师能够成长起来,从第一天就在开源当中受益,中国大多数工程师也是这样成长起来的,尤其 90 后这一代接触到了更多开源的东西,为他们的学习工作提供便利。现在也是时候引导国内开发者为全球开源社区的发展去做一些贡献。

后来我创立了 Zilliz,同样是基于开源和利他的理念,通过开源构建竞争力的基础软件公司,为开发者和用户创造价值。我相信这种利他主义会越来越多,而且能够真正的改变人类。因为我觉得人一辈子都在利他和利己之间做斗争,只有能够战胜贪婪的人和企业,才能做到真正大的格局。短期来看可能利他主义是利益受损的一方,但是从长远的角度,或许会是最大的获利者。


CSDN: 开源软件基金会对于很多读者来讲还是有些神秘,首先请您介绍一下关于 LF AI &DATA 基金会的组织架构和职能?

星爵:开源项目作为改变世界的理想的体现,带有乌托邦的情怀。然而受到软件复杂程度的影响,开源远不是一人之功,可能还会出现知识产权以及法律上的一些问题。正因如此,开源组织和开源基金会就应运而生了。

基金会职责的首先就是制定治理制度,在法律层面保护旗下项目的知识产权。其次,基金会也有一套完整的资质流程,以保证项目的合规和创新性,并促进项目孵化升级。第三,基金会也会去募集资金和资源,支持项目的发展,培养影响力。

LF AI&DATA下面有两个比较重要的组织架构:一个是管理董事会(Governing Board),负责整个基金会的战略方向,包括年度规划和章程修改等管理细节。另外一个是技术咨询委员会 TAC(Technical Advisory Council),负责对要加入基金会的新项目进行培育和审核。项目加入需要通过答辩,通过答辩之后判断项目等级,对于项目此后的成长也会随时去跟踪进行指导。

CSDN: 基金会此前从 LF Deep Learning 更名 LF AI,今年10月宣布和 ODPI (开放式数据平台倡议 Open data platform Initiative)合并更名为 LF AI&DATA,这两次名称上的改变旨在传递什么信息呢?

星爵:基金会成立的最初是看到深度学习的快速发展,18 年末我们开始筹备更名 LF AI,将关注点从深度学习扩展到人工智能机器学习的开源创新,把更多的机器学习和泛人工智能的项目吸引到里面来。近两年时间内,基金会拓展到了如今了二十几个项目,我们发现 AI 从实验室走向工业界离不开与大数据的结合,人工智能和数据是不可分的。我们也不仅仅是和 ODPI 的一个合并,而是把我们的边界的进一步扩大,打通大数据和人工智能之间的壁垒,顺应这一大趋势,是更名为 LF AI&DATA 的主要原因。

AI 之前的创新研究主要集中在算法,近几年来转向了以数据为核心。全球的人工智能,从算法的创新到数据驱动,在更多的行业里面的智能数据和应用落地,就一定要把数据板块纳入进来,让大数据跟人工智能进行联动。


CSDN: 那么我们主要关注数据的哪些领域呢?

星爵:这个其实是多方面的,在 LF AI&DATA 的官方网站上面有一个 Landscape。你会看到它有几个很大的版块。在版图当中有很多项目,一方面是数据的清洗,合规治理,一方面是数据存储,另外一方面是人工智能产品下面产生了新的数据具体需求,包括新的各种参数、超参数以及元数据处理和存储等新的需求。
做开源 18 年,他想把中国开源带向世界 | 人物志_第2张图片

LF AI&DATA 项目版图

CSDN: 2020 是复杂的一年,全球爆发了新冠疫情,IF AI&DATA 如何应对疫情的影响?对于抗击疫情有没有相关开源项目支持?

星爵:我们基金会每年会有一个面对面的会议,今年我们基本将线下的面对面会议取消了,包括一切峰会也转移到线上。面对面的机会更少了,但是对于我们基金会来讲,还是处于一个比较有效的运营当中,平时我们的成员也是来自世界各地,本身就是分散的,开会就可以在线上进行,影响比较可控,而且一些分会也可以在线上去做。像我国恢复较快,我们也恢复了线下活动,开展了 LF AI &DATA Open Day 等,也有请基金会的董事在线上接入活动。

关于抗击疫情,我们有一个和生物医学组织合作加速病毒检测的项目,基于开源的特征向量相似度搜索引擎 Milvus。新冠病毒检测需要比对 RNA 序列,但是人类的 RNA 很长,进行检测就需要较长时间。我们现在利用深度学习技术,可以把病毒的 RNA 转化为 128 维的向量,迅速判断在两者在维度上是否相似。在全民检测的情况下,阳性患者毕竟还是少数。举个例子,我们要比较两个人是否是同村的,但是两个人都不是一个省的,就直接不用比较了。这样关于阴性的检测,之前需要几个小时,现在几秒钟就能做好。通过提升阴性的吞吐率大大加快了病毒的检测效率。如果结果怀疑是阳性,再去做第二部分的全量检测。这样在节省了计算资源的同时,提升了整个检测的吞吐率,这也是通过我们的开源项目为战胜疫情和控制疾病做出的贡献,源码向中国和世界的医疗机构免费开放。


CSDN: 您作为 LF AI&DATA 基金会主席和 Zilliz 的 CEO ,这两种角色有什么共性和区别呢?

星爵:很幸运的是,Zilliz 是一家真正以开源为使命的科技公司,开源不仅是一个很重要的战略,也是我们对整个开源社区的一个责任。在 Zilliz,我们会把我们所有的核心代码来开源。因此对于我来讲,不论是在基金会里面做主席,还是在创业公司当CEO,这种开源理念和利他精神是一致的。只有在为用户创造价值的前提下,我们才会考虑通过商业化盈利,这并不代表开源和商业化之间存在矛盾。

举个例子,国外有家公司 Databricks ,目前估值六十多亿美金,这个公司的发展就是基于一个叫做 Spark 的开源项目。通过商业化吸引更多的研发力量,他们又向社区贡献了更多的好的项目。比如 Delta lake、ML Flow、Myles Collins 等,形成良性的开源闭环。我相信以后会出现更多成功的开源软件公司,以商业化成功反哺开源社区。

尤其近几年,我们也摸索出一种开源的产业模式,就是云端的托管服务的方式,在代码开源的背景下,云服务上面的源代码和开源代码是一样的,而公司盈利则通过为客户提供在云上的服务、部署、运维等高质量的AI服务。


CSDN: 请问您担任 LF AI 董事会主席之后,对推动中国的开源生态建设有怎样的举措?

星爵:首先,我们需要鼓励更多的项目加入到基金会当中,这会是构建影响力的第一步。今年我们就吸纳了很多新的成员加入,其中还包括一些高校和中国台湾的企业。
其次,我们也应该意识到中国在国际上的开源基金会当中还是新玩家,这个阶段我们更应该积极参与,去拥抱整个开源社区,成为中国开源生态的一部分。今年我们就在积极推动 LF AI&DATA 基金会跟中国的很多组织和机构合作,包括开源社、启智社区、鹏城实验室,开放原子开源基金会。我们希望把中国的开源项目、基金会带向世界,也把世界的新鲜、成熟的基金会的理念和管理方法带回中国。


CSDN: 接下来的一年,LF AI&DATA 对于全球开源生态有怎样的设想和规划呢?

星爵:基金会现在涵盖了 30 多个成员单位和 22 个开源项目,我们期待明年有更多的组织加入我们,包括但不局限于商业化的公司、高校和科研机构。

为了吸引更多的项目加入,基金会的项目生命周期治理会更加精细化。从明年开始,基金会计划升级为三级治理结构,即在原有的 Incubating(孵化中)和 Graduated(毕业)两个阶段之外,增加一个 Sandbox(沙箱)阶段。这样的话,尽管是在早期发展阶段的项目,也可以加入到基金会中来,通过沙箱阶段的观察和孵化,待时机成熟通过项目答辩升级到孵化阶段。

新项目在沙箱的时间一般不超过24个月,也就是说,如果项目做不到持续维护,两年内不能通过考核进入孵化阶段,那么这个项目可能就被用户边缘化了,需要退出。对于每个阶段的项目我们都会有设置退出机制,包括已经毕业的项目,我们在每年也会进行评审,要求例如项目里面必须有五家不同的机构在做贡献者,这个是来衡量项目可用性和活跃程度;另一方面,我们也要求项目需要和基金会里面至少一个项目有协同。我们也会考察包括社区内 Commit 的数量、Star、Issue 等活跃程度指标。

另外一方面,我们也将积极推动项目之间的协作。在人工智能和数据的领域之外,我们还会探索 AI 与 BI (Business Intelligence)领域的合作。随着AI的发展,我们发现线性回归这种简单的数据分析已经难以满足现实的要求。进一步拓展我们整个基金会的边界,我们希望构筑一个更大的生态,为用户和整个开源社区创造更完整的解决的方案。

最后送上两句话,一个是:做开源这件事情,就要把利他主义摆在第一位,通过AI解决现实问题,还原科技真正的价值。另外一句话:开源这个事情其实非常好玩,最好玩的就是你的任何一个贡献都会被记住。今年 GitHub 就做了一件非常酷的事情,把代码埋在冰川下面,也许有一天人类世界也将毁灭,但我们贡献的代码却不会消失。

你可能感兴趣的:(综合资讯,开源)