谷歌用文字定性信息构建定量数据集

吉拉·洛伊克带着谷歌的研究团队，把Gemini大语言模型训练成了一个“文字情报员”。这一回，他们没去搞那些复杂的气象卫星数据，而是直接盯上了全世界铺天盖地的新闻报道。500万篇新闻被迅速过了一遍，里面涉及洪水的事件记录被筛选了出来，一共有260万次。这些信息被揉进了一个新的数据集里，罗森伯格给它起名叫“Groundsource”。这是一种带地理标记的时序数据，专门用来弥补气象观测的短板。比如在南部非洲，应急官员安东尼奥·何塞·贝莱扎就觉得这种新方法很实用，因为它能更快地帮着应对洪水。谷歌把“Groundsource”当作了真实场景的标准。研究人员用LSTM神经网络做模型，结合全球的天气预报数据，算出了特定区域发生山洪的概率。目前这个平台已经向150个国家的城市发布了风险等级，还会和全球的应急机构共享情报。不过话说回来，这个模型还存在一些弱点。分辨率方面只能覆盖20平方公里的范围，精度也比不上美国国家气象局的系统。莫滕奥特觉得，问题主要是因为谷歌没接入本地的雷达数据。但这事儿的意义在于给那些缺资源的地方提供了帮助。IT行业的Upstream Tech首席执行官马歇尔·莫滕奥特就提到，自家公司之前也用深度学习帮水电企业预测过流量。他认为谷歌这种通过文字定性信息构建定量数据集的路子很有创意。数据匮乏一直是地球物理学里最大的难题之一。在数据过剩的时候想找真实情况来校验反而变得很困难。好在吉拉·洛伊克带着团队找到了新的突破口，让深度学习气象模型有了更好的“粮草”供应。现在谷歌的目标不仅仅是洪水了。据了解，未来他们可能会把这套技术用到热浪或者泥石流等灾害的预测上。尽管精度还有待提高，但这次尝试确实给行业带来了不少启示。