Раптові повені є одними з найнебезпечніших погодних явищ у світі, щорічно забираючи життя понад 5000 людей. Вони також є одними з найскладніших для прогнозування. Але Google вважає, що знайшов несподіване рішення цієї проблеми — читаючи новини.
Хоча люди зібрали велику кількість даних про погоду, раптові повені є надто короткотривалими та локалізованими, щоб їх можна було виміряти комплексно, як це робиться з температурою або навіть річковими потоками протягом тривалого часу. Ця прогалина в даних означає, що моделі глибокого навчання, які все більше здатні прогнозувати погоду, не можуть передбачити раптові повені.
Щоб вирішити цю проблему, дослідники Google використовували Gemini — велику мовну модель Google — для сортування 5 мільйонів новинних статей з усього світу, виділивши повідомлення про 2,6 мільйона різних повеней і перетворивши ці повідомлення на геотеговані часові ряди під назвою «Groundsource». За словами Гіли Лойке, менеджера з продуктів Google Research, це перший випадок, коли компанія використовує мовні моделі для такого роду роботи. Дослідження та набір даних були оприлюднені в четвер вранці.
Використовуючи Groundsource як реальну базу даних, дослідники навчили модель, побудовану на нейронній мережі Long Short-Term Memory (LSTM), обробляти глобальні прогнози погоди та генерувати ймовірність раптових повеней у певній місцевості.
Модель прогнозування раптових повеней від Google зараз висвітлює ризики для міських територій у 150 країнах на платформі Flood Hub компанії та ділиться своїми даними з агентствами з реагування на надзвичайні ситуації по всьому світу. Антоніо Жозе Белеза, співробітник служби реагування на надзвичайні ситуації Південноафриканського співтовариства з розвитку, який випробував модель прогнозування разом з Google, сказав, що вона допомогла його організації швидше реагувати на повені.
Модель все ще має певні обмеження. По-перше, вона має досить низьку роздільну здатність, визначаючи ризик на території площею 20 квадратних кілометрів. По-друге, вона не така точна, як система попередження про повені Національної метеорологічної служби США, частково тому, що модель Google не враховує дані місцевих радарів, які дозволяють відстежувати опади в режимі реального часу.
Однак частина суті полягає в тому, що проект був розроблений для роботи в місцях, де місцеві органи влади не можуть дозволити собі інвестувати в дорогу інфраструктуру для спостереження за погодою або не мають великих обсягів метеорологічних даних.
«Оскільки ми збираємо мільйони звітів, набір даних Groundsource фактично допомагає збалансувати карту», — заявила журналістам цього тижня Джульєт Ротенберг, менеджерка програми в команді Google Resilience. «Це дозволяє нам екстраполювати дані на інші регіони, де інформації не так багато».
Ротенберг зазначила, що команда сподівається, що використання LLM для розробки наборів кількісних даних з письмових, якісних джерел можна буде застосувати для створення наборів даних про інші короткочасні, але важливі для прогнозування явища, такі як спекотні хвилі та зсуви.
Маршалл Мутено, генеральний директор Upstream Tech, компанії, яка використовує подібні моделі глибокого навчання для прогнозування річкового стоку для таких клієнтів, як гідроенергетичні компанії, сказав, що внесок Google є частиною зростаючих зусиль зі збору даних для моделей прогнозування погоди на основі глибокого навчання. Мутено є співзасновником dynamical.org, групи, яка курує колекцію даних про погоду, готових для машинного навчання, для дослідників і стартапів.
«Нестача даних є однією з найскладніших проблем у геофізиці», — сказав Мутено. «Одночасно існує занадто багато даних про Землю, а коли ви хочете оцінити їх на основі істини, їх недостатньо. Це був дійсно креативний підхід до отримання цих даних».










