6月15日,备受瞩目的第27届ACM SIGMOD国际数据管理学术会议在美国休斯顿落下帷幕,在SIGMOD 2018现场,阿里巴巴举办了主题为“数据驱动及机器学习赋能的自治数据库系统”的Workshop,四支技术团队联袂为100余位国际同仁展示了“阿里数据平台”的能力。
本次专题研讨会由集团数据库事业部高级研究员飞刀主持,内容分为两部分,第一部分由阿里集团和阿里云的瑞萍,鸣嵩,德迈、历下分别介绍了阿里巴巴AnalyticDB/Data Lake Analytics, PolarDB, X-DB Engine,计算平台(包括MaxCompute,PAI,Blink和MaxGraph)等产品,如何依靠创新来解决阿里巴巴业务场景中传统数据库及数据处理技术难以克服的挑战。
第二部分是邀请五位学术界知名教授作为panel discussion嘉宾,各自分享了他们在“AI+数据库”领域的工作以及对这个领域的一些看法,这五位教授分别是:
Gustavo Alonso, Professor and ACM/IEEE Fellow, ETH Zurich
AdityaParameswaran, Assistant Professor, University of Illinois Urbana-Champaign
IhabIlyas, Professor and ACM SIGMOD Vice Chair, University of Waterloo
Tim Kraska, Associate Professor, Massachusetts Institute of Technology
Andy Pavlo, Assistant Professor, Carnegie Mellon University
Gustavo Alonso教授在其分享中特别提出Autonomy through Hardware的观点,认为自治数据库需要是模块化的,且需要应用新硬件技术来更精细化地监控和优化整个系统,例如使用FPGA技术来监控机器学习,做安全检查,并提控系统控制等。他还分享了基于这些技术所构建的原型系统。
AdityaParameswaran教授则风趣地以改编肯尼迪总统讲话来做开篇:“Ask not what ML can do for you, but what you can do for ML.”他指出其实机器学习的处理流程是一个“很痛苦”的迭代过程,这个过程需要人工参与其中。这中间每次迭代计算的时间消耗都很大,可以通过caching和reuse部分之前的中间结果来缩减这部分消耗。同时还需要更好的技术来帮助这个流程中的用户来理解和调整每次迭代计算。最后,他指出在AI Winter is coming之际,学术界应该考虑如何应对。
IhabIlyas教授分享了在Data Cleaning and Integration领域应用机器学习的洞见和成果。他特别指出,数据科学家在对数据做机器学习计算前,需要花费大量的时间精力来对数据做预处理,包括transformation, ETL, joining, changing formats等等。其中涉及到data curation的问题则是更具挑战的难题,而在这些领域应用了机器学习反过来可以对机器学习的处理流程带来巨大帮助。
TimKraska教授则提出了System for Machine Learning的观点。如何建立一个完整的系统环境来帮助数据科学家更高效地分析处理数据是他的一个主要研究方向,包括借鉴数据库的查询优化器来帮助机器学习的任务找到最优的处理pipeline。另一方面,他也提出要把机器学习更深入地推到数据库系统中来,包括之前广受关注的其Learned Index工作在内,也将是他认为的一个主要研究方向。
Andy Pavlo教授携去年提出的自动驾驶数据库(Self-driving Database)研究成果,在本场研讨会上更近一步阐述和明确了其Self-driving Database的涵义。不同于传统的Auto Admin只是提供半自动化建议,真正的自治数据库一定是一个“预测-计划-实施-观测-反馈再预测”的完整闭环系统。其中action实施的工程化将是重要一环。
在回答与会者的提问中,几位教授还特别指出,数据库和机器学习领域可以相互帮助,如数据库可以帮助机器学习专家来完成复杂的线性代数运算,部署Machine Learning pipeline等。但同时不要试图去强制改变现有的机器学习pipeline,而是可以在机器学习处理流程的优化和调优上提供帮助。数据库领域的专家学者们可以借鉴大数据生态的演进发展,逐步把数据库技术带入机器学习中而不是强求打造一个“全能的”数据库。最后几位教授也对阿里巴巴在此领域的继续贡献充满期盼。
此次的Workshop是集团几个数据库团队和计算平台第一次携手共同发出声音,不仅全面展现了阿里巴巴数据平台能力,而且通过与学术专家的深入交流,能够让阿里巴巴更全面的看清数据库领域未来发展方向,提前进行技术储备及布局。
最后,附上几张现场照片,让更多同学感受下现场氛围。