6 月 26 日,亚马逊云科技 Community Day 在上海举办。亚马逊云科技首席开发者布道师、资深数据科学家、资深应用科学家以及亚马逊云科技 Machine Learning Hero 悉数到场,针对 AI 开源的技术趋势及落地实践项目进行分享和讨论。
1.王宇博:亚马逊在开源机器学习领域的贡献和实践
开源的概念源于上世纪 80 年代,近年来,随着机器学习和云计算的不断发展,开源逐渐成为众多开发者谈论的核心,其重要性显著提升。目前,前五大开源贡献者中,四家是云计算厂商,前十大开源贡献商中,七家是云计算厂商。王宇博表示,云计算是开源背后重要的推手。云计算引领着开源向前,而开源又进一步促进云计算的发展。
亚马逊在开源机器学习领域的贡献与实践——王宇博
作为云计算服务平台,亚马逊本着用户至上的理念,通过提供一系列云端和开源工具的集成与融合,满足开发者利用开源工具在云端进行快速生产实践的需求。此外,当开发者希望通过一些新的工具实现新的想法时,亚马逊也会主动构建并贡献一系列开源代码,帮助开发者实现各种各样的需求。
据王宇博介绍,亚马逊云科技内部的开源贡献者数量及开源项目数量逐年攀升。目前,亚马逊开源仓库达 2500 个以上,涵盖数据、分析、安全、机器学习等众多领域。很多项目围绕着开源进行,例如基于 OpenSearch 构建的开源分析平台;基于容器微服务构建的开源体系架构等。亚马逊坚信云和开源结合在一起,能够更加快速的为开发者赋能,也能够进行更多交流互动,帮助开发者在云上把开源用好。
谈到开源和机器学习领域的结合,王宇博认为,不仅仅要关注到开源如何引领机器学习的发展,更主要的是关注到开发者在实际生产实践中面临的问题,让更多开发者学习掌握开源技术,并快速构建机器学习应用。他分别从产品、研究、赋能、社区四个维度概括了亚马逊在构建开源机器学习生态系统中所做出的努力。
首先是产品,在亚马逊云端有一系列机器学习、人工智能的产品,很多是基于开源项目来进行构建的,亚马逊希望通过这些产品来加速开源的机器学习在生产实践活动中的快速应用。
其次是研究,亚马逊在全球各地都有非常多从事人工智能和机器学习方面研究的科学家,他们不断在学术领域做出贡献,发表了众多前沿论文,亚马逊希望这些研究能与生产实践相结合,快速落地,为开发者构建良好的环境。
第三是赋能,亚马逊认为人工智能、机器学习应该被每位开发者掌握在手中,通过一系列产品和能力帮助大家快速上手、学习,使得每个人都能够在开源和机器学习中获得更多成长机会。
最后是社区,亚马逊通过构建机器学习社区来帮助开发者更深入的了解开源和机器学习,使其更快、更好的向前推进和发展。
针对这四点,王宇博在 Community Day 的现场进行了四位一体的详细介绍。
亚马逊的机器学习产品提供了非常完整的堆栈,从框架,平台到 SaaS 化应用,每个领域都有很多产品和服务,来帮助开发者进行快速构建。所有的机器学习云端服务都基于亚马逊构建的坚实开源基础。
从全球范围看,亚马逊是开发者使用开源框架 TensorFlow 和 PyTorch 构建应用的首选平台。Amazon SageMaker 可以帮助开发者进行机器学习的快速落地。Amazon SageMaker 扩展机器学习有两种方法,分别是自带训练脚本和自带 Docker 容器,两种方式都很简单。Amazon SageMaker 本身运用到很多容器技术,但对于 Amazon SageMaker 用户来讲并不需要特别去了解或者操作底层的架构。开发者可自带训练脚本,使用和本地或其他环境中几乎完全的相同代码,只需要进行参数传递并生成一系列文件,同时从容器的镜像仓库拉取标准的镜像,通过这种方式把自带脚本和容器结合在一起,达到快速良好的训练效果。Amazon SageMaker 也支持自带 Docker 容器,把脚本集成到自建的容器中,同时在容器仓库进行发布,并且进行训练,也可以获得非常良好的效果。目前而言,使用自带脚本是非常简单的方式。开发者可以在本地进行开发和测试,在云端进行分布式的训练和部署,也可以利用云端的功能来快速的进行迭代,从而构建一个更好的机器学习的应用。
另外 SageMaker 本身也自带很多的能力,比如 SageMaker 自动化的调优能力,可以对超参进行快速调整,同时托管的 Spot 方式中可以为开发者极大节省机器学习训练模型的成本。
王宇博也对亚马逊发起的一些开源机器学习项目进行了介绍。
第一是 Gluon,它是开源的深度学习接口,使开发人员能够更轻松、更快的构建机器学习模型,而不会影响性能。亚马逊希望通过工具箱及工具集帮助更多开发者快速使用领先的算法、论文预训练模型。在计算机视觉、自然语言处理等领域,亚马逊的工具包 GluonCV,GluonNLP,GluonTS 都重现了顶级会议上的 SOTA 结果。亚马逊把这些工具包提供给更多客户和开发者使用。
第二个是 Deep Java Library,很多独立的开发者,经常用 Java 来进行深度学习开发的。亚马逊希望通过 Deep Java library,开发者可以便携、高效的使用 Java 语言进行机器学习的训练和部署。目前 Deep Java Library 提供全引擎的支持,同时也提供高达 70 多个预训练模型。
另外,王宇博还从其他几个领域进行了介绍。
第一是 Jupyter,它帮助开发者使用代码和数据进行思考,然后围绕代码和数据构建叙述,将这些代码和数据驱动的见解传达给其他人。亚马逊不断对 jupyter 的使用体验进行优化,如针对企业级开发者提供笔记本共享的功能。同时,亚马逊也在不断向 Jupyter 社区贡献,Jupyter 指导委员会成员目前任职于亚马逊,帮助 Jupyter 在开源和云端进行进一步的整合。
第二是亚马逊 SageMaker Clarify,它基于开源产品进行的构建,为机器学习开发人员提供更深入的训练数据和模型,以便他们能够识别和限制偏差并解释预测。
第三是 Penny Lane,亚马逊去年底开始参与到 Penny Lane 开源项目当中。目前 Penny Lane 在云端的 Amazon Braket 上已经可以运行。亚马逊希望能够通过云端,使得量子计算和机器学习能够有更好的融合。
此外,亚马逊也提供很多寓教于乐的工具和动手实践的工具,用开源解决方案帮助大家开启机器学习之旅。
王宇博说:“动手是对于开发者来说是非常关键的过程,亚马逊通过一系列的技术引领、技术指导和技术讲座来带动整体开发者社区蓬勃向上发展,激起良好的技术讨论氛围,来为开发者提供更多的帮助和影响。”
2.王敏捷:深图在人工智能中的探索和研究
说到深图在人工智能中的探索和研究,首先要明确一个概念——什么是人工智能?王敏捷认为,要实现真正的人工智能有两点非常重要,第一是要理解为什么现在的人工智能算法会犯错,第二是要去探讨人工智能算法与人脑之间结构化的一致性。
深图在人工智能中的探索与研究——王敏捷
“研表究明,汉字序顺并不定一影阅响读。”比如当你看完这句话后,才发这现里的字全是都乱的。人在理解自然语言的时候,并非通过线性的方式去理解,而是成块的去理解文本。而很多模型,是通过线性的方式理解文本。
从图像识别的角度,假如用算法去识别一张印有一只狗坐在摩托车上的图片,只能识别到画面本身是由狗和摩托车构成的,无法获得更多结构化的信息,而人脑是可以感受到画面的趣味性的。
生活中的很多数据以图结构 (Graph) 的形式存在,小到微观分子,大到生产生活,在图上完成机器学习任务是极为常见的需求。
近年来,如何把深度学习算法运用到图数据成为开发者们关注的重点。因此也诞生了图神经网络 Graph Neural Networks (GNNs)。所谓图神经网络是指用于学习点、边或者整张图的向量表示的一类深度神经网络,其核心思想是消息传递。比如,想判断一个人喜欢哪只 NBA 球队,可以通过社交网络上了解他的朋友喜欢哪只球队,如果他 80% 的朋友都喜欢,那么他大概率也会喜欢这只球队。对某个点进行建模的时候,通过其他相邻点去收集信息,这个过程就是信息传递。
把所有相邻节点的信息收集到一起做一个累和,获得了一个加权累和的消息之后,再通过更新函数对所在节点已经有的信息做一个更新。这就是图神经网络最基本的数学建模。
图神经网络在不同领域都有着非常广泛的应用。
分子医药:首先是分子性质预测。其输入数据为分子结构图。之后通过消息传递建模,利用图神经网络获取向量表征,输入到下游的分类器,可以判断化学药品的性质、毒性等。其次是药分子生成,先构建一个编码模型,然后通过图神经网络将其变成向量表示,同时加入一些指导,生成能够符合我们需要性质的分子。第三,是药物重定位,在这方面,亚马逊构建了一个药物知识图谱 DRKG,用于表示药物,疾病蛋白,化合物等对象之间的关系。使用图神经网络对该数据进行建模后,则可以预测药物和疾病蛋白节点之间的连接关系,从而预测治疗新型疾病的潜在药物。目前,通过图神经网络建模所推荐的 41 种药物当中,有 11 种已经被应用于临床。
知识图谱:在知识图谱中可以使用图神经网络完成很多下游任务。如知识补全、任务节点分类等。
推荐系统:主流的推荐系统主要基于用户和商品之间的交互数据。假如 A 用户购买某个商品,系统留下购买记录,通过数据分析,如果发现 B 用户的购买记录与 A 用户相似,那么,大概率 A 用户购买的商品,B 用户也会感兴趣。目前,基于图神经网络推荐系统已实现商业落地。
计算机视觉:输入场景图,通过图神经网络建模,在结尾时加入图片生成器,通过这张场景图可以反向去生成更好的图片。
自然语言处理:在自然语言处理中图的结构也无处不在。比如 TreeLSTM,句子本身不是线性结构,它有语法结构,利用句子语法树结构进行训练,得到更好的分析模型。此外,现在比较火热的是“变形金刚”(Transformer),也是深图的变种。
图神经网络不管是在学界还是业界,都有了一些非常好的落地方案。但也有很多问题亟待解决。如规模越来越大,如何去建模?如何把非结构化数据中的结构化数据抽取处理?这就需要好的工具去开发模型。
使用传统深度学习框架(TensorFlow/Pytorch/MXNet 等)编写图神经网络并非易事。消息传递计算是一种细粒度计算,而张量编程接口则需要定义粗粒度计算,粗粒度和细粒度的差异,使得图神经网络的书写非常困难。亚马逊针对这一挑战开发了作为桥梁的 DGL。王敏捷从编程接口设计、底层系统优化、开源社区建设三个方向介绍了 DGL。
首先是编程接口设计。用图的概念做编程,核心理念是以图为本。王敏捷认为,开发者首先应了解,图是图神经网络的“一等公民”。所谓“一等公民”是指所有 DGL 的函数和 NN 模块都可以接受和返回图对象,其中也包括核心的消息传递 API。
其次是底层系统的设计优化。其他的图神经网络框架(比如 PyTorch Geometric, PYG)往往使用 gather/scatter 原语来支持消息传递计算,计算过程中产生大量冗余的消息对象,占用大量内存带宽。而 DGL 使用高效稀疏算子加速图神经网络,比 PYG 快 2~64 倍,并能节省 6.3 倍的内存,且对巨图非常友好。
最后,王敏捷就开源社区建设方面的经验进行了分享。他主要分享了以下几点经验。
第一,代码并不是唯一重要的东西,文档在开源项目中也占有半壁江山。亚马逊设计了不同层级的文档。针对新手,有 120 分钟上手 DGL,只需下载运行,便可手把手学会如何训练。对于进阶用户,有用户指南,其中涵盖设计概念,有 DGL 接口手册,通过阶梯式的方式,让用户从新手成长为专家。
第二,开源社区需要有丰富的 GNN 模型样例。社区发展的非常快,反应速度要想跟上社区发展,就需要 GNN 有很多不同的应用场景,通过模型把它们涵盖在一起。目前 DGL 大概有 70 多个经典的 GNN 模型样例,涵盖各个领域和研究方向。
第三,需要注重社区交互。亚马逊设置了很多社区活动,组织开发者们相互交流,如定期举办 GNN 用户群的分享会,邀请学界和业界前沿的学者或者开发人员分享 GNN 领域的成果等。另外,用户论坛、Slack、微信群,也为大家提供不同渠道的沟通平台。
3.吴磊:大规模机器学习在计算广告中的应用与落地
作为一家为数以千计客户提供广告投放服务的公司,FreeWheel 致力于打造融合买卖双方的统一交易平台,在连接媒体和广告主的同时,提供全方位、品效一体的、跨屏的计算广告服务。
大规模机器学习在计算广告中的应用与落地——吴磊
从营销诉求和目的的角度,计算广告分为品牌广告和效果广告。在品牌广告领域,FreeWheel 会利用机器学习进行计算广告的库存预测和库存推荐。在效果广告领域,当 FreeWheel 以 SSP 流量主的角色参与市场的时候,会利用机器学习进行系统优化,而当 FreeWheel 以 DSP 广告主的角色参与市场的时候,则会结合历史竞价记录,用机器学习构建预测模型,该模型可根据价格判断赢率,或者给定赢率,从而推荐相应的价格。结合广告库存预测,根据市场上流量和价格的波动,可以很灵活地博取流量采买最大的 ROI。
库存预测在计算广告领域有着举足轻重的作用,不论是品牌广告、还是效果广告,库存预测为供需规划、出价策略奠定了坚实基础。所谓库存预测,是指在不同的定向条件上,预测未来一段时间广告库存的存量。对广告主来说,最大的诉求是用最低的广告预算,触达到最相关的用户。因此,我们需要把不同的定向条件如性别、年龄、地域等维度先做分组,然后进行预测。
在计算广告领域用来刻画流量的定向条件非常多,不同维度的组合就是笛卡尔积,组合的数量会随着维度以及维度本身多样性的增加而呈指数级爆炸。假设有 1 百万种组合,那么就有一百万个时序需要去预测。采用传统方法,比如 ARIMA,那么需要训练并维护百万个 model,这样的工程量显然不现实。另外,在实际场景中,需要以小时为粒度,预测未来 2160 个单元,对于这么长的时间序,要保证它的准确性和预测效率,是一个很大的挑战。因为要预测 2160 时间单元,为了确保准确性,至少需要回溯同样的时间长度,在 FreeWheel,每天新增的广告投放日志在 10 亿这个级别,整体的数据体量是非常大的。
总结来说,吴磊认为库存预测主要面临 4 个方面的挑战,分别是维度爆炸、工程复杂度、超长时间序和海量数据样本。
为了应对这 4 个方面的挑战,FreeWheel 设计、实现了定制化的深度模型。该模型基于 Google 在 2016 提出的 wide and deep 进行设计。
首先,针对维度爆炸和工程复杂度问题,FreeWheel 通过使用 wide 和 deep,分别提取定向条件和与之对应的时序序列,达到用一个模型就可以应对上百万种不同的时序序列,只需训练并维护一个模型也大大降低了工程上的复杂度。
其次,为了应对超长时间序问题,FreeWheel 设计了 element wise 的 loss function,让 2160 个时间单位的反向传播互相独立、互不影响。
最后,针对海量数据的挑战,FreeWheel 选择亚马逊云科技提供的 Amazon SageMaker 服务,并将业务从数据中心全部迁移到亚马逊云科技。相比于独立搭建并维护一套分布式环境,这样做大大节约了时间和精力,吴磊说:这符合 FreeWheel 一贯坚持的把专业的事交给专业的人去做的理念。
对于模型的效果来说,模型的设计与调优固然重要,不过对于投入到整条流水线的精力和时间来说,基本上符合 2/8 定律,在实际的应用和落地中,往往有 80% 的时间和精力来处理数据、准备特征和训练样本。
FreeWheel 主要用 Apache Spark 来做样本工程和特征工程、以及相关的数据处理,吴磊简要介绍了这一过程。
对于时序问题来说,首先要面对的是样本补齐的问题。用户行为在时间上往往不是连续的,那么体现在一条时序上,就会发现某些时间是缺失的,这时候,就需要进行样本的补齐。针对这一问题 FreeWheel 的解决思路是:首先把所有组合事先准备出来,在所有时段上都把广告曝光置零。然后再从线上日志上汇总不同组合下不同时段下的“正样本”,接下来,只要把这两张表做一个左连接,就能达到想要的业务效果。而把两张表用 Spark 进行连接后,会发现性能非常差,在 10 台 EC2 的 Spark 集群上花了将近 7 个小时。为了把执行时间降低,FreeWheel 团队对 Spark 的性能了调优——使用哈希值,替换庞大而又众多的 join keys。调优之后,在同样的集群规模上,执行时间降低到了 20 分钟以下。
获得时序样本后,需要进行特征工程。特征工程主要分为 2 个部分。第一部分是用 Spark Window 操作把事先按照小时排序的 impression 做一个窗口滑动操作,这样真真正正把时序样本创建出来。第二部分是特征生成,如根据时间戳,生成各式各样的时间特征。因为数据最终是要 feed 给 Tensorflow 深度模型的,因此需要提前把所有的字段做 encoding。
样本准备好后,接下来就是模型训练和推理。首先是训练,为了兼顾模型效果和执行效率,FreeWheel 参考了迁移学习的思路,用大批量数据预先训练模型,保证模型效果,然后每天用增量数据来微调模型参数。其次是推理,因为模型需要服务不同的下游,有些需要批量的预测结果,所以从任务种类来说分成了以下 4 种训练和推理任务。
模型上线之后,从效果能上能够保证最细粒度的 MAPE 控制在 20% 左右,而聚合后的 MAPE,能控制在 10% 以下。在执行效率方面,离线冷启动即预训练模型的时间是 2 个小时,增量训练实际只需要 10 分钟,批量推理 5 分钟就能完成。
4.张建:图神经网络和 DGL 的实际应用
作为亚马逊云科技资深数据科学家,张建博士的一项重要工作是在实际的客户场景中,使用图神经网络和 DGL 作为工具来帮助客户解决核心业务问题、提升业务价值。在本次分享中,他从数据、模型、速度、解释四个方面介绍了在图神经网络和 DGL 在落地项目中的遇到的挑战和对此的思考。
张建-图神经网络和DGL在实际落地项目中的挑战和思考
你的图包含足够的信息吗?
在学术圈中,很多学者会用开放的数据去做模型的构建及算法的增强。在图神经网络研究领域最常用的数据集是 Cora、Citeseer 和 PubMed。这些图通常连接性强,同类别的节点聚集在一起。使用这些图去做模型构建,往往图神经网络的结果表现良好。而实际业务场景中,受限于收集数据的手段、存储数据的方式以及处理数据的能力,构建出的图数据有时会非常稀疏,导致投入很多精力和时间进行模型调优,但效果却不理想。如果客户提供的图连接性太低,使得不管用任何的图神经网络模型,它们最终都退化成了一个常见的 MLP。另外,客户提供的业务图还常出现标签数据特别少的情况,上亿个点的图中,只有十几万个节点有标签,仅有 0.01% 的标签数据。这导致很难通过一个带标签的点找到其他带标签的点构建联系,从而大大降低了图神经网络的有效性。
数据科学家圈有这样一句话:数据特征决定了模型性能的上限,模型只是去无线趋近这个天花板。在模型上再花力气还不如在数据上再想办法。既然说图的信息决定上限?那么什么是图的信息呢?如何衡量“信息”?信息值能指导 GNN 吗?还要不要搞图?这些问题往往是机器学习实践者甚至开发工程师们所要解决的。张建把这些问题提出来,希望大家集思广益去解决它。
什么情况下 GNN 模型更有优势?
“我知道你们的图神经网络有各种各样的模型,你看看我们的图用什么模型合适?”工业界的客户曾经这样问张建博士。而这个问题很难回答。首先,模型的设计空间远远大于选择项,其次,不同的业务场景对应不同的业务需求,业务场景里面的模型设计或者模型选择如何针对具体业务,并不容易判断,另外,DGL 的核心开发模式是消息传递(MP),在图类领域,而有些问题已经可以不用 MP 来实现。我们还看到,在图机器学习领域,至今还未能出现类似 NLP 领域里的 GPT 这样的模型,能够快速解决大部分问题。
张建说,最扎心的还远不止这些,而是客户直接质疑:“张博士,你看我们的 xGboost 等模型比这个 GNN 效果好啊!” 曾经有个金融界的客户,用金融行业的知识图谱获取客户间各种各样的关系之后,直接用 LightGBM,在结合一千多维的特征后,直接秒杀图神经网络模型。虽然后续通过一些技术,图神经网络模型超越了这个客户的 LightGBM 模型,但也留下了很多的思考空间。比如,那么图神经网络模型比传统的机器学习模型好在哪儿?什么情况下更好?
张建认为,传统的机器学习模型绝大多数基于特征,而在现实的业务场景里,并不是每一个点或者每一个特征都能拿到,尤其随着隐私保护条例的增强,大数据监管越来越严格,收集数据也越来越难。但对于图神经网络模型来说,尽管没有特征,依旧能够建立起关联关系,这就是图神经网络模型的优势。
图神经网络模型和传统的机器学习模型,并不是非此即彼的关系,需要根据业务场景和业务问题来决定如何选择,甚至可以组合起来解决问题。不同 GNN 模型的适用性是什么?点 / 边的特征怎么用?是不是一定要用 GNN ?如何组合 GNN 和其他模型?张建将这些问题留给大家去思考。
图模型能做实时推断?
在模型有了效果后,是否能上线进行实时推断又成了客户经常询问的问题?这个问题涉及两个层面。在图结构里面存在着数据之间的关联性。因此和传统的 CV 和 NLP 相比,数据点不是独立同分布的。在做图数据推断时,有两种模式,分别是 Transductive 模式和 Inductive 模式。Transductive 模式下,在训练阶段,要被预测的节点 / 边已经存在于图中,训练的节点可以“看到”这些节点 / 边,这个模式的问题在于,当需要做预测的时候这些点必须已经存在,图已经构建出来了,几乎没有办法做到实时。因为要想做到实时,模型必须要去应对未来的点。在 Inductive 模式下,需要预测的节点在训练阶段并不在图中,是看不见的,只有做推断时候,再去运用到一张图上,才能看到这个点。用 Inductive 模式做看不见点的推断,会有两种情况。第一种是做批次预测,比如进行反欺诈,用过去七天的数据构建出一个图数据训练模型,在对明天发生的用户行为做检测时,需要把明天的数据和前七天的数据组合起来做成一张图,然后用训练好的模型进行推断。这就是批次推断,它并非实时推断。真正要做到实时推断,需要实时将需要预测节点 / 边加入已经存在的图,并抽取出以它 N 跳子图交给训练好的模型用于推断。
据张建介绍,不光是图社区,整个机器学习社区,包括大数据社区,都还没有为图设计出实时 (比如流式) 的图数据的存储、抽取、查询的方法。目前已有的图数据库往往在进行增和查的时候还不够快,特别是把一个点 / 边作为中心点 / 边进行采样的时候,图数据库的采样的速度还跟不上需要实时推断的速度。对于实时推断的系统架构,业界也暂时没有特别成熟的方法,这是目前需要解决的问题,对于开发者来说,也是个非常大的机会点。
图模型结果怎么解释?
模型上线之后,面临的一个问题是怎么去解释模型的结果?这个问题在学术圈可以看到一些研究结果,但在工业界却很少能看到这类讨论。
比如,利用图模型得到一个节点的预测后,业务人员问为什么?告诉他因为跟它相邻的“邻居”对它的影响最大,业务人员肯定没办法接受。
另外,图神经网络模型,虽然可以通过图结构去识别一些模式,但是其中的点都是带有特征的,这个特征最后是一些实数,通过一系列线性变换和非线性变化后,它们间的关系已经大大超出人类对于因果的认知。如何对图模型的结果进行解释?对于开发者而言任重而道远。
图神经网络的落地面临多方面的挑战,张建说,这些挑战就像是支撑一个登月火箭。数据相当于燃料,模型相当于发动机,所有数据管道和实施架构的问题是整体的火箭设计,而模型的解释,就像需要一个飞控中心。只有把这四个层面的问题都解决好,火箭才能真正飞向月球。
5.写在最后
多年来,亚马逊在人工智能领域积累了众多项目及实践经验,并一直致力于与全球开发者共创,希望为人工智能领域带来新的活力。2021 亚马逊云科技中国峰会上海站将在 7 月 21 日正式开启,大会将以“构建新格局,重塑云时代”为题,携手云计算行业领先的技术践行者,共同分享云时代重塑和构建的故事。同时,上海站也只是本次峰会的先锋官,在 8 月的北京,9 月的深圳,亚马逊云科技中国峰会还将继续开启。
该峰会覆盖一百多个技术专场,设有人工智能领域技术分论坛,将围绕构建数据库、大数据与智能图仓等领域为大家带来上手实操、技术架构等方面的内容,同时会针对一些客户案例和实践为大家带来技术解读。此外,现场还设有专门的开源分论坛,将邀请众多大咖为大家带来精彩的分享。扫描文章下方二维码,可了解峰会更多精彩信息!