党政信息
实习四年发表国际核心论文3篇,山西姑娘韩淑捷变身“硬盘医生”
发布日期:2022-08-01 14:01    点击次数:177
 

3月8日消息,阿里巴巴集团公布2022“研究型实习生”计划,面向海内外高校学生开放200多个科研选题,入选者将与达摩院、阿里云等团队合作探索前沿技术。阿里为大家提供场景、资源、补助等支持,优秀实习生有望获得阿里巴巴集团首席技术官(CTO)程立的推荐信。

研究型实习生项目始创于2017年,旨在将产业界的场景和资源化作象牙塔外的另一处科研土壤,帮助青年学子开拓科研视野、实现学术目标。目前,全球已有200多所高校的1000多名学生参与该项目,他们绝大部分来自计算机相关领域,博士生占比超7成。

山西姑娘韩淑捷,2021年在香港中文大学计算机科学与工程系获得博士学位,现在在北京大学计算机学院从事博雅博士后研究。2018年6月到阿里实习,可能是阿里最资深的实习生,也是优秀实习生中为数不多的女性。实习选题是“大规模数据中心存储系统硬盘故障分析和预测”,实习期间发表国际核心会议论文3篇,两篇一作分别被存储系统领域排名第一的顶会FAST’21和ICDCS'20接收,一篇通讯作者被DSN'21接收。

做“硬盘医生”,根据“临终”状态判断它什么时候挂

韩淑捷说,2018年6月开始实习,当时我还是博士一年级生,现在已经博士毕业,在北大做博后了。我的博士研究方向是智能运维,实习期分了一期二期三期,每年的选题都有变化。第一年来产业界时,我本科刚毕业,升了直博,正在寻找博士研究方向。第一年实习比较辛苦,经历了和团队的磨合,也沉淀了科研经验。到第二年就上正轨了。

最终,我确定了研究方向:数据中心存储系统智能运维。在部署了超百万机械硬盘和固态硬盘的阿里云数据中心,开展这个研究再合适合适,这里有学术界所没有的真实场景,有大量来自现实的问题和需求。

关于我的领域,这么解释吧:阿里云提供遍布全球的云服务,云服务的背后是位于全球多个位置的超大规模数据中心,我们研究数据中心的存储系统,比如硬盘、内存等等。以前,这些存储介质都靠人工维护,如果一个盘坏了,就要找到盘所在的位置,把它换掉。今天数据中心规模这么庞大, 黑龙江省工业设计协会靠人肯定是不行了,成本太高了。所以几年前我们开始探索用智能化手段来分析预测硬盘故障。

做故障预测,首先要分析硬盘的特性,在硬盘初步显露“病症”时就识别出问题。硬盘濒临损坏时,跟人快生病的状态差不多,硬盘彻底坏掉就相当于人快要挂掉的状态。我们要从硬盘的运行数据中判断它会不会生病,也就是发现故障前征兆,比如小的扇区出现的小错误,并且从硬盘的“临终”前状态判断它什么时候挂。

我们通过采集存储介质的状态数据,搭建机器学习算法,对全球数据中心硬盘的运行状态进行监测,让机器自动寻找故障前征兆。一旦预测到哪些硬盘会坏,就提前做好数据搬运和硬盘替换。

愿意踩没人踩过的坑,“干一行爱一行”

研究智能运维,既要懂存储,也要懂AI算法,这是个交叉学科。韩淑捷读博期间,学校的实验室是做存储系统研究的,但那以前只研究传统方法。智能运维是她的博导和阿里团队一起想到的方向,在学校实验室,党政信息没人有这方面的研究经验,换句话说,没人开过这坑。

导师问韩淑捷,对机器学习算法感不感兴趣?有个比较交叉的领域,愿不愿意试试?她隐约感觉到这是有价值的,当时正好处在选课题的时机。于是参与了这个项目,从一开始做到现在,就算在阿里团队,她也是工龄最久的成员之一了。

“科研不会一帆风顺,要学会适当地放弃”

科研道路从来不会一帆风顺,韩淑捷说,比如我第一年投论文,有一篇跟团队同事合作的文章,投了三次都被拒,那个阶段非常痛苦。后来我想明白了,屡投不中说明文章有硬伤,该放弃还是要放弃。世上无难事,只要肯放弃。我从失败过程中学到很多东西,一是适当地放弃,还有一个是失败之后的反思,如果痛苦不能带来反思,就很难留下经验。做学术,论文被拒很正常,就跟人平常走路会摔跤一样。在问一件事情的结果前,应该先问过程,如果过程都不行,结果就别问了,肯定是不好的。

如果不来产业界,我绝对不可能做出现在的成果。但是未来,我还是想到学术界工作,我是一个被KPI逼死也不一定能出结果的人,我想要学术界的自由,虽然真的做起学问来,学术界的工作强度超出很多人的想象,我们的状态其实是“不加班,但也不下班”,但不管怎样,我享受那种专注的状态。

阿里巴巴开放200多个科研选题

今年,阿里计划开放200多个科研选题,如“量子算法”、“量子器件测量”、“用于公开道路自动驾驶的离线强化学习算法”、“基于多模态大模型的泛内容理解”、“亚运智慧交通预约出行优化与碳足迹计算”等,研究领域涵盖量子计算、自动驾驶、人工智能、网络安全等数十个方向。

不同于“前互联网时代”的传统科学,计算机是一门实践学科,很多学术问题发端于产业实践和社会需求,研究者既需要校园内的“实验室”,也需要产业界的“试验田”。

计算机科研非常消耗算力资源,研究视频理解问题的博士生黄子渊刚有两篇论文被计算机视觉顶会CVPR2022收录,他说,AI研究需要反复训练和测试模型,写论文、做实验调用十几块GPU是常事。这对高校实验室来说是很大的负担,但在产业界基本能够实现“算力自由”。

阿里CTO程立与优秀实习生沟通

“我们非常乐意为大家创造产学研结合的科研环境,除了最基本的‘算力自由’,还希望提供有价值的问题、科研成果转化的机会,以及与产业界优秀人才合作的机会。”阿里巴巴集团CTO程立表示,在阿里,研究型实习生是一支特别的科研力量,他们好奇、敏锐、充满奇思妙想,与内部团队一起攻克了很多难题。阿里希望帮助大家在科研道路上走得更远,他本人将为有需要的优秀实习生准备推荐信,不论大家今后去往学界还是业界。