谷歌用文字定性信息构建定量数据集

吉拉·洛伊克带着谷歌的研究团队,把Gemini大语言模型训练成了一个“文字情报员”。这一回,他们没去搞那些复杂的气象卫星数据,而是直接盯上了全世界铺天盖地的新闻报道。500万篇新闻被迅速过了一遍,里面涉及洪水的事件记录被筛选了出来,一共有260万次。 这些信息被揉进了一个新的数据集里,罗森伯格给它起名叫“Groundsource”。这是一种带地理标记的时序数据,专门用来弥补气象观测的短板。比如在南部非洲,应急官员安东尼奥·何塞·贝莱扎就觉得这种新方法很实用,因为它能更快地帮着应对洪水。 谷歌把“Groundsource”当作了真实场景的标准。研究人员用LSTM神经网络做模型,结合全球的天气预报数据,算出了特定区域发生山洪的概率。目前这个平台已经向150个国家的城市发布了风险等级,还会和全球的应急机构共享情报。 不过话说回来,这个模型还存在一些弱点。分辨率方面只能覆盖20平方公里的范围,精度也比不上美国国家气象局的系统。莫滕奥特觉得,问题主要是因为谷歌没接入本地的雷达数据。 但这事儿的意义在于给那些缺资源的地方提供了帮助。IT行业的Upstream Tech首席执行官马歇尔·莫滕奥特就提到,自家公司之前也用深度学习帮水电企业预测过流量。他认为谷歌这种通过文字定性信息构建定量数据集的路子很有创意。 数据匮乏一直是地球物理学里最大的难题之一。在数据过剩的时候想找真实情况来校验反而变得很困难。好在吉拉·洛伊克带着团队找到了新的突破口,让深度学习气象模型有了更好的“粮草”供应。 现在谷歌的目标不仅仅是洪水了。据了解,未来他们可能会把这套技术用到热浪或者泥石流等灾害的预测上。尽管精度还有待提高,但这次尝试确实给行业带来了不少启示。