自记纸
一张密布格子的长方形纸张,画着纤细曲折的笔迹。一直到20世纪90年代,它还是气象观测必不可少的道具,曾在“老资格”的基层气象人心中,留下不可磨灭的印记。
一张记录着1939年2月13日至14日风速和风向的达因风自记纸。
这样小小一张纸,密密麻麻的曲线,能够记录24个小时的风向、风速变化。
不仅仅是风速,气温、气压、湿度……自记纸上,记录着各类气象要素的点滴变化。
湿度自记纸
这些记录,远可以追溯到19世纪下半叶英国人在各个海关建立测候所,近则一直延续到20世纪90年代,记录了上百年的风风雨雨。
对于需要长期观测资料来进行的气候研究而言,这些“故纸堆”中的曲线,毫无疑问是不折不扣的宝贵资料。
问题来了,气候研究要通过模式大量运算,需要标准化的气象数据,显然无法直接读取自记纸。怎样才能将这些曲线,转化成格式标准、质量可控、适合模式使用的“数据”呢?
/ 从线条到数据 人工智能来帮忙 /
从图像到数据,需要的自然是图像识别技术。而这项技术,一直是人工智能的主场,近年来更是取得重大进步。在军事、刑侦、医学等多个领域,人工智能图像识别早已发挥巨大作用。
从事珍贵档案数字化工作的国家气象信息中心资料室,自然也把目光聚焦到人工智能这一工具上。
机器如何理解一张自记纸呢?其实原理说来也简单。
第一步:定义网格
这是一张达因风自记纸的局部。我们可以看到,它所记载的数据是由坐标规定的网格定义的,无论是上半部分的风速,还是下半部分的风向,线条上每个点所在位
都指向由纵横坐标确定的某个数值,并随着时间推移组成一条线。
既然如此,人工智能就要先把作为背景板的网格识别出来。
如图所示,计算机将背景的网格读取出来,并用红线标出,锁定其对应的数据。
当这一步完成后,“捉住”这条曲线就有了依据。下一步,人工智能需要“像素级”识别出曲线的具体走向。
第二步:识别迹线
自记纸上这条曲线,用专业名词叫做“迹线”。过去,观测员要用肉眼去网格一一对应,记录下数据。今天,人工智能可以更精确快速地完成这项工作。
绿线圈住的部分,代表人工智能识别到的迹线走过的位置。有了这个数据,结合第一步中得到的背景网格数据,就能重现出迹线的真实含义。
这一步的识别并没有看上去那么简单。很多时候,自记纸上会有额外的墨迹,以及当年观测员的笔迹,都会对机器的识别产生干扰,往往需要人工排除。
识别出现误差的迹线
此外,在迹线的“细枝末节”处,机器的识别也不是尽善尽美,同样会出现误差,需要人工修正。
第三步:计算结果
图像处理完毕,终于到了激动人心的时刻——计算得出数据。
在这一步中,技术人员会录入当年观测员留下的记录,作为对照,与由人工智能计算得出的数据比较。如果出现较大误差,还要去寻找原因、一一修正。
/ 挖掘“故纸堆”要做的还有更多 /
到了这一步,一张自记纸,已经变成了一行行数据。但档案数字化的工作,还远远没有完成。
一方面,人工智能可以经过训练提高水平。技术人员会将修正完毕的数据与图片作为人工智能的学习资料,进行模型训练,减少未来识别过程中出现错误的几率。
另一方面,自记纸观测年代跨度久远,由于其中还包含英、俄、日等国设立的观测站录得的数据,标准更是各异,识别出的数据还要经过严格的质量检测、质量控制和评估,才能得以利用。
技术人员搜集的不同年代的观测标准
为了控制数据质量,技术人员找出了许多不同年代的观测标准,古今中外,一应俱全。因为只有将观测数据对应到当年的观测标准,以及观测站的所处环境中,才能对数据进行均一化处理,形成适用于气候研究的长序列曲线。
几年来,国家气象信息中心与全国各省气象部门联合,利用图像处理技术完成了降水自记纸的数据还原与处理,又利用人工智能图像识别技术识别提取了风向风速的自记纸迹线。目前,气温、气压、湿度自记纸也完成了扫描,十四五期间将进一步处理。
2019年,EL型风向速自记纸数据提取软件已经业务应用。今年4月,各类自记纸中最复杂、最难识别的达因风向风速自记纸的数据提取软件,也已通过验收并向全国推广应用。
不远的将来,这些从“故纸堆”中拯救出来的数据,或许将成为应对气候变化研究重要的助力。