Наука о данных в мире после COVID

Источник · Перевод автора

Меня часто спрашивают о состоянии науки о данных и о том, где мы сейчас находимся с точки зрения зрелости. Ответ довольно интересен, особенно сейчас, когда прошло больше года с тех пор, как COVID-19 сделал большинство моделей науки о данных бесполезными – по крайней мере, на какое-то время.

COVID заставил компании совершить полный модельный скачок, чтобы соответствовать драматическим изменениям в повседневной жизни. Модели пришлось быстро переобучать и повторно использовать, чтобы попытаться понять мир, который изменился в одночасье. Многие организации столкнулись с препятствием, но другие смогли создать новые процессы обработки данных, которые можно было внедрить в производство намного быстрее и проще, чем те, которые у них были раньше. С этой точки зрения процессы обработки данных стали более гибкими.

Теперь возникла новая проблема: жизнь после пандемии. Люди во всем мире верят, что конец пандемии близок. Но маловероятно, что мы все просто волшебным образом вернемся к нашему допандемическому поведению и распорядкам. Вместо этого у нас будет переходный период, который потребует долгого, медленного изменения, чтобы установить базовый уровень или новый набор норм. Во время этого перехода нашим моделям данных потребуется почти постоянный мониторинг, в отличие от массового скачка, запрашиваемого COVID. Специалисты по анализу данных никогда не сталкивались с чем-то похожим на то, что нам следовало бы ожидать в ближайшие месяцы.

Наклонить чашу весов

Если спросить, чего нам больше всего не хватает в жизни до пандемии, многие из нас скажут что-нибудь вроде путешествий, ужина в ресторане, возможно, походов по магазинам. На все, что было потеряно, существует огромный отложенный спрос.

Есть большая группа людей, на которых пандемия не нанесла финансового ущерба. Поскольку у них не было возможности преследовать свои обычные интересы, у них, вероятно, есть довольно много денег в их распоряжении. Тем не менее, нынешние модели науки о данных, которые отслеживают расходование располагаемого дохода, вероятно, не готовы к резкому росту, который, вероятно, превысит уровень расходов до пандемии.

Модели ценообразования предназначены для оптимизации того, сколько люди готовы платить за определенные виды поездок, ночлег в отелях, питание, товары и т. д. Прекрасным примером являются авиакомпании. До COVID-19 механизмы прогнозирования цен на авиабилеты предполагали всевозможные оптимизации. У них была встроенная сезонность, а также определенные периоды, такие как отпуск или весенние каникулы, что привело к еще большему росту цен. Они построили различные тарифные классы и многое другое. Они реализовали очень сложные, часто создаваемые вручную схемы оптимизации, которые были достаточно точными до тех пор, пока их не взорвала пандемия.

Но на протяжении всей жизни после COVID авиакомпаниям приходится выходить за рамки обычных категорий, чтобы удовлетворить интенсивный потребительский спрос. Вместо того, чтобы возвращаться к своим старым моделям, им следует задавать вопросы вроде «Могу ли я получить больше денег за определенные виды поездок и все же продать самолет?» Если авиакомпании будут постоянно использовать модели для ответов на эти и другие вопросы, мы увидим рост цен на определенные маршруты. Это будет продолжаться в течение некоторого времени, прежде чем мы увидим, что потребители снова постепенно начнут самостоятельно регулировать свои расходы. В какой-то момент у людей больше не останется накопленных денег. Что нам действительно нужно, так это модели, которые определяют, когда происходят такие сдвиги, и постоянно адаптируются.

С другой стороны, есть еще один сегмент населения, который испытал (и продолжает испытывать) экономические трудности в результате пандемии. Они не могут сходить с ума со своими расходами, потому что им нечего или мало тратить. Может, им еще нужно найти работу. Это также искажает экономику, поскольку миллионы людей пытаются подняться до уровня, на котором они были до COVID. Люди, которые раньше играли значительную роль в экономических моделях, на время фактически удалены из уравнения.

Модельный дрейф

COVID стал большим взрывом, когда все изменилось. Это было легко обнаружить, но этот странный период, который мы сейчас будем перемещать – к некой новой норме – будет гораздо труднее интерпретировать. Это случай дрейфа модели, когда реальность меняется медленно.

Если организации просто снова начнут развертывать свои модели, предшествующие COVID, или будут придерживаться того, что они разработали во время пандемии, их модели не дадут им правильных ответов. Например, многие сотрудники готовы вернуться в офис, но по-прежнему могут работать из дома несколько дней в неделю. Это, казалось бы, незначительное решение влияет на все, от схемы движения (меньше автомобилей на дороге в пиковые периоды) до использования воды и электричества (люди принимают душ в разное время и используют больше электроэнергии для питания своих домашних офисов). Кроме того, есть рестораны и продуктовые продажи – с меньшим количеством сотрудников в офисе, обеды с обслуживанием и обеды с коллегами снижаются по сравнению с уровнем до пандемии, в то время как продажи продуктов должны учитывать обед дома. И здесь мы смотрим только на эффекты одного поведения (переход к частичной работе из дома). Подумайте о волновых эффектах изменений всех других форм поведения, которые проявились во время пандемии.

Медленный марш к норме

Создавая среду для решения этой беспрецедентной проблемы, организациям необходимо объединить целые группы по анализу данных, а не только инженеров по машинному обучению. Наука о данных – это не только обучение новой модели искусственного интеллекта или машинного обучения; это также касается изучения различных типов данных, а также новых источников данных. А это означает приглашение к процессу руководителей бизнеса и других сотрудников. Каждый участник играет свою роль благодаря своей механике.

Этим командам следует изучить закономерности, возникающие в регионах, которые вновь открылись после COVID. Все ли работает на полную мощность? Как дела? Существует довольно много данных, которые можно использовать, но они поступают по частям. Если мы объединим эти знания с тем, что мы видели до и во время COVID, чтобы переобучить наши модели, а также задать новые вопросы, тогда мы получим очень ценные науки о данных со смешанными моделями, которые учитывают колебания в практиках и действиях.

Крайне важно, чтобы команды постоянно отслеживали модели – что они делают, как они работают – чтобы определять, когда они не соответствуют действительности. Это выходит далеко за рамки классического A / B-тестирования, а также включает модели претендентов и смешивание моделей до COVID с более новыми. Попробуйте другие гипотезы и добавьте новые предположения. Организации могут быть удивлены, увидев, что вдруг работает намного лучше, чем раньше, а затем увидят, что эти допущения модели в конечном итоге снова не сработают.

Организациям следует подготовиться, внедрив гибкую функцию науки о данных, которая может непрерывно создавать, обновлять и развертывать модели, отражающие постоянно меняющуюся реальность.