中国科学院上海高等研究院感知与计算实验室研究员祝永新研究员告诉记者,“中国天眼”的日常运行,也有上海科研人员的贡献。“我们的工作就是让FAST的数据传输得更快,计算得更高效,让它在发现科学目标时能更fast(快)!
贵州省黔南州平塘县大窝凼,被称为“中国天眼”的500米口径球面射电望远镜静卧其中。当中国天眼凝望深空时,每秒产生的数据量达38GB,塞满目前最大容量512G手机,仅需不到14秒。FAST一个机时至少是观测2小时,由此产生的数据之大可想而知。要开展研究,第一步就是对海量数据的有效预处理。
“如果越堆越多的数据得不到及时处理,就不得不将装置停下来处理,下一个观测任务就需要漫长的等待。”祝永新解释。他领衔的中科院上海高研院课题组与英国皇家工程院院士陆永青教授所在的帝国理工大学紧密合作,在定制计算的软硬件协同设计、科学大数据流处理框架等方面取得了不少突破。
利用这些技术,通过对天眼获取的毫秒级脉冲星数据的有效预处理,能将数据无损压缩到三分之一,有效地减缓了从FAST天线向数据中心的数据传输和存储的压力。
传输效率提高后,课题组紧接着把目光瞄向了FAST的计算速度。“我们使用异构加速部件,针对感知的数据进行定制化计算,使得部分关键算法的效率提高了5到10倍。”
过去,FAST天文学家每天需要看近万张图谱,寻找可能的脉冲星等天文目标。上海科研人员在基于深度神经网络的恒星/星系识别方法的基础上,与FAST研究人员开发新的脉冲星等天文目标的机器学习方法,自动筛选掉无效的FAST图谱,让天文学家们每天只需要关注百余张有效图谱。他特别提到,自己领衔的课题组更偏工程应用,不少技术迭代想法的出现,是和天文学家的头脑风暴,两者的碰撞,发挥出了1+1大于2的效果。
说到这儿,或许有人会将这项工作和人工智能帮影像科医生读片做类比。在祝永新看来,两者有类似也有不同。“两者都用到了人工智能等方法来过滤筛选,提高工作效率;不过,在医院需要识别的是图像,而在FAST的应用里是识别图谱。”
在数据“快递”的过程中,遇到丢包怎么办?祝永新课题组还初步完成了单脉冲星相干消色散原型机的设计,利用这一技术,“防丢包能力”将提升两个数量级。
记者了解到,作为平方公里阵列射电望远镜(SKA)的先导项目,团队在“中国天眼”数据处理上取得的成果有望应用于2023年开始建设的SKA项目。