Как построить дорожную карту науки о данных и машинного обучения в 2022 году

Как построить дорожную карту науки о данных и машинного обучения в 2022 году

Источник · Перевод автора

Преодоление разрыва между решением их организаций инвестировать в стратегию обработки данных и машинного обучения (DSML) и потребностями бизнес-подразделений в достижении результатов будет доминировать в приоритетах лидеров данных и аналитики в 2022 году. Несмотря на растущий энтузиазм в отношении основных технологий DSML, получение результатов от своих стратегий труднодостижимо для предприятий.

Рыночные прогнозы отражают ранний оптимизм предприятий в отношении DSML. По оценкам IDC, мировые доходы от рынка искусственного интеллекта (ИИ), включая программное обеспечение, оборудование и услуги, вырастут на 15,2% в годовом исчислении в 2021 году до 341,8 млрд долларов и еще больше увеличатся в 2022 году с ростом на 18,8%, достигнув 500 млрд долларов к 2024 году. По данным McKinsey, 56 % руководителей глобальных предприятий заявили, что их внедрение DSML и ИИ растет по сравнению с 50 % в 2020 году.

Gartner отмечает, что организации, реализующие инициативы DSML, полагаются на недорогие предложения поставщиков общедоступных облачных услуг с открытым исходным кодом для накопления своих знаний, опыта и тестовых вариантов использования. Проблема остается в том, как лучше всего реализовать модели для развертывания и управления в масштабе.

Сегодня DSML приносит предприятиям неравномерную пользу

Команды специалистов по данным в сфере финансовых услуг, здравоохранения и производства говорят VentureBeat, что стратегии DSML их предприятий наиболее эффективны, когда они прогнозируют и планируют неравномерные первоначальные результаты по бизнес-подразделениям. Команды также говорят, что масштабное производство моделей с использованием MLOps принципиально отличается от создания основных внутренних приложений с помощью DevOps. Они добавляют, что чем сложнее операционная модель бизнес-подразделения, тем круче кривая обучения MLOps. Вклад DSML в бизнес-подразделения зависит от наличия надежных данных и четкости постановки задач.

О’Рейли обнаружил, что «корпоративный ИИ не станет зрелым до тех пор, пока группы разработки и эксплуатации не смогут применять такие методы, как непрерывное развертывание, до тех пор, пока результаты не станут воспроизводимыми (по крайней мере, в статистическом смысле), и пока этика, безопасность, конфиденциальность и защита не станут приоритетными». а не второстепенные заботы.

Kaggle указал, что 80,3% респондентов используют алгоритмы линейной или логистической регрессии, за которыми следуют деревья решений и случайные леса (74,1%) и машины повышения градиента (59,5%). Предприятия только начинают осваивать потенциал DSML, внедрение которого замедляется из-за нескольких факторов, которые необходимо улучшить в 2022 году.

Как и где DSML улучшится в 2022 году

Правильное использование основных элементов платформы DSML повышает точность, скорость и качество принятия решений. Как показывает последний магический квадрант Gartner, поставщики платформ DSML добиваются успехов в предоставлении более гибких, масштабируемых инфраструктур с управлением, предназначенным для поддержки потребностей нескольких пользователей в масштабе в сочетании с расширяемостью. Предприятия, которые McKinsey считает «высокоэффективными», используют облачную инфраструктуру гораздо чаще, чем их коллеги: 64% их рабочих нагрузок ИИ выполняются в общедоступном или гибридном облаке по сравнению с 44% их коллег. Кроме того, McKinsey отмечает, что эта группа использует общедоступную облачную инфраструктуру для доступа к более широкому спектру возможностей и методов ИИ.

В 2022 году стратегии DSML получат все большее распространение в организациях, и ниже перечислены области, в которых организации и поставщики платформ могут работать вместе для улучшения результатов, включив эти области в свои дорожные карты на 2022 год:

  • Адаптивное машинное обучение демонстрирует потенциал для улучшения кибербезопасности, безопасности удаленных объектов, управления качеством на производстве и тонкой настройки систем промышленной робототехники.

Ищите Adaptive ML, чтобы найти более широкое распространение в спектре вариантов использования, определяемых тем, насколько быстро меняются их контекстные данные, условия и действия. Например, объединение оценок киберриска и оценки рисков удаленных площадок в адаптивной модели машинного обучения – это вариант использования, который сегодня используют коммунальные предприятия в производстве. Наибольшие выгоды от адаптивного машинного обучения могут быть получены в производстве, где объединение данных телеметрии от визуальных датчиков IoT с приложениями на основе адаптивного машинного обучения может немедленно выявлять дефектные продукты и снимать их с производственной линии. Избавление клиентов от проблем с возвратом дефектных продуктов может повысить лояльность клиентов при одновременном снижении затрат. Учитывая хроническую нехватку рабочей силы, с которой сталкиваются производители, сочетание методов адаптивного машинного обучения с робототехникой может помочь производителям по-прежнему последовательно удовлетворять потребности клиентов в продуктах. Адаптивное машинное обучение также является основой автономных систем беспилотных транспортных средств и совместных интеллектуальных роботов, которые быстро учатся совместно выполнять простые задачи посредством итерации. Поставщики платформ DSML, известные своим опытом, включают Cogitai, Google, Guavus, IBM, Microsoft, SAS, Tazi и другие.

  • Поддержка совместных рабочих процессов на платформах DSML становится основным конкурентным преимуществом на рынке.

Специалисты по данным сообщают VentureBeat, что обходные пути для платформ DSML, не предназначенных для гибкости и адаптации рабочих процессов совместной работы к их потребностям, могут стоить недель времени на разработку модели. Инструменты и рабочие процессы для совместной работы должны выходить за рамки простых форумов вопросов и ответов и предоставлять более эффективные кросс-модальные хранилища данных и кода, которые каждый сотрудник может безопасно использовать на предприятии. Также должна быть поддержка визуализации данных и моделей и возможность экспорта моделей. Обязательные элементы совместной работы для удовлетворения требований специалистов по обработке и анализу данных включают в себя обмен информацией и совместное использование кода на каждом этапе процесса моделирования, отслеживание происхождения данных и моделей, а также контроль версий и анализ происхождения моделей. Поставщики платформ DSML, предлагающие поддержку совместных рабочих процессов, включают Domino, Dataiku, Google, Microsoft, SAS, TIBCO, RapidMiner и другие.

  • У MLOps будет год прорыва, поскольку организации приобретают больше опыта в масштабировании моделей для более быстрого развертывания, отслеживая бизнес-результаты для достижения более высоких результатов.

Сокращение времени цикла создания и запуска новых моделей – один из ключевых показателей оценки проектов DSML на предприятиях сегодня. Каждый поставщик платформы DSML предлагает свою версию поддержки MLOps. Предприятия, рассматривающие стратегию DSML, должны проанализировать, как каждая интересующая платформа обрабатывает создание моделей, управление, обслуживание, повторное использование моделей и кода, обновления и управление. Ожидайте от каждого поставщика платформы DSML продолжения тонкой настройки того, как они изменяют MLOps, чтобы обеспечить большую масштабируемость и безопасность модели в 2022 году. Поставщики платформы DSML будут полагаться на отличительные черты MLOps, включая таксономии моделей, контроль версий, обслуживание моделей, мониторинг, а также код и модель. повторное использование. Лучшие платформы DSML также гарантируют, что их рабочие процессы MLOps имеют возможность привязки к измерению бизнес-результатов с использованием метрик и ключевых показателей эффективности (KPI), важных для лиц, принимающих финансовые решения, и владельцев линейного бизнеса.

  • Соображения конфиденциальности заставят каждую организацию, создающую продукты, подключенные к датчикам, и поддерживающие их услуги использовать синтетические данные для создания, тестирования и уточнения моделей.

Текущее и следующее поколения подключенных устройств со встроенными датчиками для сбора биометрических данных являются одними из самых сложных моделей машинного обучения, которые можно создать сегодня. Стартапы, создающие системы безопасности работников на основе ИИ, считают необходимым создавать и настраивать синтетические данные, чтобы они могли прогнозировать, например, когда, где и как потенциально могут произойти несчастные случаи. The Wall Street Journal дает захватывающий взгляд на то, насколько эффективны синтетические данные и насколько они распространены в разработке моделей искусственного интеллекта и машинного обучения. В статье объясняется, как American Express улучшает свои модели прогнозирования мошенничества с помощью генеративно-состязательных сетей – широко используемого метода создания синтетических данных рандомизированных шаблонов мошенничества. Автономные транспортные компании также полагаются на синтетические данные для обучения своих моделей, включая Aurora, Cruise и Waymo, которые используют синтетические данные для обучения систем восприятия, управляющих их автомобилями.

  • Поставщикам платформ DSML необходимо масштабировать и автоматизировать весь рабочий процесс машинного обучения в нужном масштабе.

У поставщиков есть несколько поколений инструментов разработки моделей, и их опыт показывает зрелость рабочих процессов, которые они могут поддерживать. Цель на 2022 год – улучшить развертывание моделей и управление ими, а также интегрировать нулевой уровень доверия в рабочие процессы MLOps, сохранив при этом гибкость настройки рабочих процессов. AutoML получит более широкое распространение, поскольку предприятия стремятся ускорить свои рабочие процессы ML, а специалисты по данным, обладающие большим спросом на его методы, пользуются большим спросом. Автоматизация рабочих процессов машинного обучения обеспечит большую возможность повторного использования компонентов кода машинного обучения, уменьшит время цикла для тестирования и проверки моделей, а также повысит производительность групп специалистов по обработке и анализу данных.

  • Трансферное обучение будет быстро внедряться на предприятиях со стратегиями DSML, которые сегодня работают в масштабе и в производстве.

Суть трансферного обучения заключается в повторном использовании существующих обученных моделей машинного обучения, чтобы получить преимущество при разработке новых моделей. Это особенно полезно для групп специалистов по обработке и анализу данных, работающих с контролируемыми алгоритмами машинного обучения, которым требуются помеченные наборы данных для проведения точного анализа. Вместо того чтобы начинать новую модель машинного обучения под наблюдением, специалисты по данным могут использовать выравнивание передачи для быстрой настройки моделей для заданной бизнес-цели. Кроме того, модули трансферного обучения становятся все более актуальными в отраслях, ориентированных на процессы, которые полагаются на компьютерное зрение, из-за масштаба, который оно обеспечивает для помеченных данных. К ведущим поставщикам платформ DSML, предлагающим трансферное обучение, относятся Alteryx, Google, IBM, SAS, TIBCO и другие.

  • Организации должны в первую очередь сосредоточиться на вариантах использования и метриках и понимать, что исключительная точность модели может не принести пользы для бизнеса.

Одной из наиболее распространенных проблем при построении моделей машинного обучения с учителем, особенно при наличии большого количества телеметрических данных с датчиков и конечных точек, является тенденция постоянно настраивать модели для получения еще одной степени точности. Данные телеметрии из производственных цехов могут быть спорадическими и различаться в зависимости от количества циклов, частоты и скорости конкретной машины, а также многих других факторов. Легко увлечься тем, что данные телеметрии в режиме реального времени из производственного цеха говорят о машинах, но отступить, чтобы увидеть, что данные говорят о производительности цеха и ее влиянии на прибыль, необходимо оставаться в центре внимания в качестве основной цели.

Стратегии DSML должны основываться на бизнес-результатах

Организации, реализующие стратегии DSML, должны вступить в 2022 г. с четкой дорожной картой того, чего они хотят достичь в первую очередь с точки зрения экономического обоснования, основанного на измеримых результатах для клиентов. Скорость и разнообразие инноваций, о которых поставщики платформ DSML планируют объявить в течение следующих двенадцати месяцев, будут связаны с пятью ключевыми областями. К ним относятся демократизация создания моделей машинного обучения, а также предоставление доступа к построению и тонкой настройке моделей большему количеству бизнес-профессионалов. Во-вторых, поддержка нескольких пользователей на платформах DSML улучшится в течение следующих двенадцати месяцев, что будет способствовать дальнейшему более широкому внедрению. В-третьих, сквозная автоматизация рабочих процессов машинного обучения поможет ускорить циклы MLOps в 2022 году, что станет четвертым фактором улучшенной бизнес-отчетности, связанной с производительностью модели. В-пятых, предприятиям требуется гораздо более быстрая окупаемость инвестиций в DSML, а поставщикам платформ DSML необходимо будет количественно оценивать их ценность с большей точностью и анализом в режиме реального времени, чтобы удерживать клиентов и привлекать новых.