火热的人工智能技术,是攻破强对流天气预报难题的希望。为了让AI更好地预报强对流天气,国家气象信息中心研发了“最强”训练数据集。
这几年来,人工智能的应用,已经从热门新闻,变成了常识。
在天气领域,AI一样十分火热。在气象数据分析处理、 预报预测、 数值预报模式能力增强等方面,AI的应用已表现出强大潜力。
不过,最让人心动的,可能是利用AI预报强对流天气。
强对流天气 世界级的预报难题
狂风暴雨、昏天黑地、雷鸣电闪、冰雹袭击……类似这样暴烈的天气体验,多半都是出自强对流天气的影响。
在天气系统家族中,强对流天气以“个头小、寿命短、性子烈”著称。
也正因为这些特点,强对流天气成了预报员心中的痛。
如今的数值天气预报系统,对于尺度较大的天气系统能够作出很好的预判。
典型的例子如台风,虽然威力、影响巨大,但我们绝不会漏掉它的发生、发展、移动、影响。
而强对流天气正相反,尺度很小,大约十几公里至二三百公里,更有甚者,只有几十米至十几公里。生命史短暂,约为一小时至十几小时,较短的仅有几分钟至一小时。
突然发生、迅速发展、快速消亡。
这样的特点决定了它们难于被发现,更难以预测。
5月21日下午,北京突然出现“白昼如夜”景观,正是由于强对流天气的影响。雨水降下后不久,天空重新变得明亮。
AI预报强对流 训练数据集最重要
要让AI干活,有三个条件。
第一是算法,也就是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。
满足这个条件并不难,AI技术发展这些年,很多优秀的算法已经开源。适用于各种用途、各种场合的算法琳琅满目。
第二是算力,也就是提供计算资源的硬件条件。
这个也不难满足,超级计算机运行速度飞速发展,算力完全跟得上需求。
第三,也是最重要的,就是数据驱动能力。
满足这个就不容易了。AI要能用、好用,离不开大量的训练。
举例来说,给AI一个杯子的图片,让它记住这是一个杯子,它只能识别出这张图片对应着杯子。而给AI足够多张杯子的图片,AI就能识别出这些图片中属于“杯子”的共性,进而遇到没见过的杯子图片时,也能够识别。
最著名的AI识图训练数据集ImageNet,就在这方面做了大量工作。
著名的深度学习数据集ImageNet,手动注释了1400多万张图像。ImageNet包含2万多个典型类别,例如“气球”或“草莓”,每一类包含数百张图像。
毫无疑问,训练数据集是AI进步最重要的驱动力。
而国家气象信息中心研发的强对流天气AI应用训练基础数据集,就是给AI预测强对流天气提供了这样一个驱动力。
为了做到这一点,从2018年开始,技术团队搜集整理了自2012年至2018年我国发生的雷暴、短时强降水、雷暴大风、冰雹和龙卷5类强对流天气过程个例共计166295个,并收集了每个个例对应的地面、探空、天气雷达、闪电、卫星、数值模式资料,基于气象大数据云平台“天擎”存储管理。
不夸张地说,比这再全的资料,很难找到了。
赋能AI研发 提供高质量数据支撑
虽然已经有了如此庞大的数据量,但据技术团队表示,这才是第一步。
下一步,技术团队将针对每一次天气过程发生时,各种气象要素的状态一一进行对应标注,以便机器理解数据与天气过程之间的对应关系。
到今年年底,团队计划完成雷暴大风和短时强降水的标注工作。
这是一项艰巨的工作,仅雷暴大风就对应着40个变量,短时强降水稍少一些,也有37个变量。
团队研发了相关算法,利用程序自动打标签+人工核对的方式,提高工作效率。
当数据集制作完成,将会开放给气象部门获取、应用。
届时,相信更优秀的强对流天气人工智能预报解决方案,将在更科学的训练中诞生。