曹长树:江湖小虾米的侠客行——我的大数据能力修炼得道之路 | 提升之路系列...

导读

 

为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。

至今,已有来自全校45个院系的2657名同学参加大数据能力提升项目,其中445位同学通过课程学习和实践获得由清华大学研究生院颁发的“清华大学大数据能力提升项目证书”。

 

谈起最大的收获,同学们表示无论是自身的数据思维还是本专业与大数据技术相结合的科研能力以及实践经验等方面均得到了很大的提升。清华的数据科学人才培养究竟有什么特别之处?让我们一起通过他们的故事,揭秘各院系清华学子的大数据能力提升之路吧!

曹长树:江湖小虾米的侠客行——我的大数据能力修炼得道之路 | 提升之路系列..._第1张图片

清华大学化学学院博士生曹长树(化名)

研究方向:理论与计算化学

“学武初心” 

 

有别于化学系的大部分方向,我们没有实验室,也接触不到烧杯试管和各种瓶瓶罐罐,理论与计算化学旨在利用计算机从理论的角度利用数值方法对化学世界进行建模与分析。2017 年 9 月,我无意间在微信中看到了“大数据提升项目”的相关介绍,依稀记得其中“培养数据思维”和“鼓励学科交叉融合”等几个关键词戳中了我。 首先说说“数据思维”,目前的计算化学,主要基于量子力学的物理学原理,在一系列数学近似之后,对化学微观系统进行建模,求解薛定谔方程。但这条路已经越来越崎岖,一方面,相关的物理学理论成熟于上个世纪三四十年代,但短期来看,很难从物理理论方面产生巨大的突破。而数据科学也许能提供另一个解决问题的视角, 通过数据驱动,也许能绕开某些障碍,取得出人意料的成果。而“学科交叉融合” 则意味着通过该项目,不同背景不同专业的老师和学生,也许能碰撞出火花。此外,灵活自由的课程设计,线上线下的有机结合,都有效地降低了学习的门槛。

 

“嵩山学艺”

 

“大数据提升项目”的招生信息点燃了我的热情,说干就干,我怀着憧憬与期待报了名。在一年级我选修了朱文武老师和崔鹏老师主讲的《大数据分析(B)》。这门课程可以说是大数据方向的武学总览。两位老师介绍了大数据的概念,相关的数学基础、大数据的智能处理方法、大数据的分布式处理/并行计算以及大数据的多领域应用等,带领我们一窥信息时代五光十色光怪陆离的大数据世界。我仍然能回忆起课上留的两个编程作业,一道方差分析题和一道推荐算法的题目,没有什么基础的我在课后稍加努力也能够成功完成,这在学习伊始给我树立了一些信心。 除此之外,我还选修了自动化系张长水老师开设的《模式识别》,软件学院龙明盛老师开设的《深度学习》这两门课程。如果说《大数据分析(B)》给我的感受是风轻云淡,那么《模式识别》则是风雨交加,充满挑战。这门课程系统且清晰地讲解了贝叶斯决策、混合高斯模型、线性判别函数、支持向量机、决策树学习、聚类、深度学习等机器学习领域的各个分支,颇具挑战但也收获满满。龙老师的《深度学习》 则详细介绍了以感知机/神经网络为核心的深度学习相关知识,从反向传播算法,卷积神经网络(CNN),循环神经网络(RNN)的原理与实现,到最新的技术进展,主讲老师都深入浅出地给我们娓娓道来。同时,结课时我们小组以天池-端到端网络图像文 本识别赛题作为期末作业,这也是我第一次接触大数据,人工智能相关的比赛。通过几门大数据课程的学习,我对大数据相关知识有了基础的了解,并且对于机器学习有了系统的学习,练就了扎实的内功,掌握了扎实的理论知识与原理。

 

小试牛刀 

 

在修完所有理论课程之后,项目的实践课程也给我们提供了宝贵的机会一展所学。大数据实践课程使我们得以接触真实的数据,解决实际的需求。在 2020 年暑期,我与其他几位学员以小组的形式,参与了对接百望股份有限公司的实践项目。百望股份有限公司主营电子发票相关业务,致力于打造中国最大的发票云生态企业,是国内领先的“互联网+税务”促进者和先驱。我们在公司项目负责人的指导下,利用无监督学习的方法,建立税收风险监控模型取得了较好的效果,最终我们团队也获得了“优秀团队奖”。

除此之外,我还作为队长,和课题组的一位师兄组队参加了 2020 中国高校计算机大赛·华为云大数据挑战赛。一路磕磕绊绊,我们发现粗粒化的方法可以有效提升预测效果,并且最终进入决赛,获得二等奖。如果说大数据相关的理论课程帮助我们打好了内功基础,那么数据院提供的实践机会就帮助我们获得了实战经验,在大数据的现实场景下,演练了精妙的”剑招”, 将理论与实践完美地结合了起来。

 

初入江湖 

 

在经过大数据项目的相关理论学习后,使我不断思考如何与本专业结合起来,相互提供助力。2019 年暑期,我申请了华为 2012 实验室-数据中心技术实验室的量子计算项目,致力于量子计算机对化学系统模拟的算法研究,在这里我的化学+大数据的背景得到了用武之地,在部门主管和同事们的帮助下,我们提出了一种新的高效的量子线路生成算法,并申请了专利。同时,我的博士研究课题之一是利用遗传算法搜索高压下晶体结构,受益于大数据项目的学习经历,目前研究也在稳步推进中。

 

结语

 一入江湖岁月催,不知不觉我已不再是当初那个懵懂的菜鸟小虾米,而是学到了三两招派的上用场的“拳脚功夫”,未来可期,只愿不负韶华,一展拳脚,融汇多领域知识,成为“π 型人才”。

 

你可能感兴趣的:(算法,神经网络,大数据,人工智能,机器学习)