English 联系我们
中国气象数据网APP
微信
中国气象数据网
微信号
扫一扫,立刻关注
我的数据筐 
站内信
开通PLUS会员
PLUS会员是为用户打造的增值服务,满足用户高需求。开通PLUS会员后,用户可享有如下功能和特权,如想了解更多PLUS会员服务内容,请点击PLUS会员首页(http://data.cma.cn/plus/index.html
注册登录
自记纸上,也能读出标准化气象数据?



"老旧”的自记纸
怎样与气象大数据
融为一体?


自记纸

一张密布格子的长方形纸张,画着纤细曲折的笔迹。一直到20世纪90年代,它还是气象观测必不可少的道具,曾在“老资格”的基层气象人心中,留下不可磨灭的印记。

小小自记纸 牵动气候研究神经 /

1.jpg

一张记录着1939年2月13日至14日风速和风向的达因风自记纸。

这样小小一张纸,密密麻麻的曲线,能够记录24个小时的风向、风速变化。

不仅仅是风速,气温、气压、湿度……自记纸上,记录着各类气象要素的点滴变化。

2.jpg

湿度自记纸

这些记录,远可以追溯到19世纪下半叶英国人在各个海关建立测候所,近则一直延续到20世纪90年代,记录了上百年的风风雨雨。

对于需要长期观测资料来进行的气候研究而言,这些“故纸堆”中的曲线,毫无疑问是不折不扣的宝贵资料。

问题来了,气候研究要通过模式大量运算,需要标准化的气象数据,显然无法直接读取自记纸。怎样才能将这些曲线,转化成格式标准、质量可控、适合模式使用的“数据”呢?

从线条到数据 人工智能来帮忙 /

从图像到数据,需要的自然是图像识别技术。而这项技术,一直是人工智能的主场,近年来更是取得重大进步。在军事、刑侦、医学等多个领域,人工智能图像识别早已发挥巨大作用。

从事珍贵档案数字化工作的国家气象信息中心资料室,自然也把目光聚焦到人工智能这一工具上。

机器如何理解一张自记纸呢?其实原理说来也简单。

第一步:定义网格

3.png

这是一张达因风自记纸的局部。我们可以看到,它所记载的数据是由坐标规定的网格定义的,无论是上半部分的风速,还是下半部分的风向,线条上每个点所在位

都指向由纵横坐标确定的某个数值,并随着时间推移组成一条线。

既然如此,人工智能就要先把作为背景板的网格识别出来。

4.png

如图所示,计算机将背景的网格读取出来,并用红线标出,锁定其对应的数据。

当这一步完成后,“捉住”这条曲线就有了依据。下一步,人工智能需要“像素级”识别出曲线的具体走向。

第二步:识别迹线

自记纸上这条曲线,用专业名词叫做“迹线”。过去,观测员要用肉眼去网格一一对应,记录下数据。今天,人工智能可以更精确快速地完成这项工作。

5.png

绿线圈住的部分,代表人工智能识别到的迹线走过的位置。有了这个数据,结合第一步中得到的背景网格数据,就能重现出迹线的真实含义。

这一步的识别并没有看上去那么简单。很多时候,自记纸上会有额外的墨迹,以及当年观测员的笔迹,都会对机器的识别产生干扰,往往需要人工排除。

6.png

识别出现误差的迹线

此外,在迹线的“细枝末节”处,机器的识别也不是尽善尽美,同样会出现误差,需要人工修正。

第三步:计算结果

图像处理完毕,终于到了激动人心的时刻——计算得出数据。


7.png

在这一步中,技术人员会录入当年观测员留下的记录,作为对照,与由人工智能计算得出的数据比较。如果出现较大误差,还要去寻找原因、一一修正。

/ 挖掘故纸堆”要做的还有更多 /

到了这一步,一张自记纸,已经变成了一行行数据。但档案数字化的工作,还远远没有完成。

一方面,人工智能可以经过训练提高水平。技术人员会将修正完毕的数据与图片作为人工智能的学习资料,进行模型训练,减少未来识别过程中出现错误的几率。

另一方面,自记纸观测年代跨度久远,由于其中还包含英、俄、日等国设立的观测站录得的数据,标准更是各异,识别出的数据还要经过严格的质量检测、质量控制和评估,才能得以利用。


8.jpg
9.jpg

技术人员搜集的不同年代的观测标准

为了控制数据质量,技术人员找出了许多不同年代的观测标准,古今中外,一应俱全。因为只有将观测数据对应到当年的观测标准,以及观测站的所处环境中,才能对数据进行均一化处理,形成适用于气候研究的长序列曲线。

几年来,国家气象信息中心与全国各省气象部门联合,利用图像处理技术完成了降水自记纸的数据还原与处理,又利用人工智能图像识别技术识别提取了风向风速的自记纸迹线。目前,气温、气压、湿度自记纸也完成了扫描,十四五期间将进一步处理。

2019年,EL型风向速自记纸数据提取软件已经业务应用。今年4月,各类自记纸中最复杂、最难识别的达因风向风速自记纸的数据提取软件,也已通过验收并向全国推广应用。

不远的将来,这些从“故纸堆”中拯救出来的数据,或许将成为应对气候变化研究重要的助力。



 

 

 

 

 

Copyright 2005-2017 国家气象信息中心(中国气象局气象数据中心)
地址:北京海淀区中关村南大街46号 邮编:100081  E_mail : datacenter@cma.gov.cn
扫码登录
账户登录
二维码失效
点击刷新
登录手机中国气象数据网扫描二维码
立即注册 更快 更安全
第三方登录
我的订单
我的数据筐
我的收藏
用户反馈
在线客服
返回顶部