强对流天气AI应用数据集研发完成
AI应用训练数据集取得进展
近日,国家气象信息中心面向基于人工智能(AI)技术的强对流天气识别及预报预警需求,组织开展的强对流天气AI应用训练数据集建设取得阶段性进展,可直接用于分钟尺度的短时强降水和雷暴大风AI识别和预报模型训练的专项数据集研发完成并通过专家评审。经试用,基于该数据集的深度网络模型估测地面降水精度远优于基于雷达的业务降水估算产品。
国家气象信息中心首席熊安元介绍,AI应用训练数据集的质量,在机器学习特别是深度学习中举足轻重,是AI训练能否成功的决定性因素。此次通过评审的数据集基于去年7月推出的AI应用训练基础数据集研发完成,由高时空分辨率的雷达特征参量、天气背景特征参量和标签数据组成,包含超过23万个短时强降水样本,超过1万个雷暴大风样本。
在训练数据集的研发过程中,从基础数据集提炼出能够直接提供给AI训练使用的应用数据集,是一项艰巨的工作。
提炼应用数据集
这一过程可以比作种植水稻,经历整地、育苗、插秧、浇水、施肥、除虫等一系列工作后,才能最终提供给用户优质的大米——应用数据集。
技术团队利用自主研发的算法,在一年多的时间里以“程序自动打标签+人工核对”的方式完成制作。
目前,AI应用数据集基于气象大数据云平台“天擎”提供数据服务,可为强对流天气智能识别和预报应用提供高质量数据支撑。
后续,国家气象信息中心将持续推进AI应用数据集在国家级业务单位和省级气象局应用,不断提升数据集质量,研发针对各种典型应用场景的训练数据集,提高AI技术应用的数据支撑能力。