Обзор раскрывает динамику решений инфраструктуры аналитики

Источник · Перевод автора

Необходимость анализа данных транзакций по-прежнему является доминирующим вариантом использования, влияющим на выбор одной платформы аналитической инфраструктуры по сравнению с другой, но новый отчет ясно дает понять, что варианты использования, связанные с наукой о данных и видео, начинают играть более важную роль.

Основываясь на опросе, проведенном Dresner Advisory Services с участием 641 лица, принимающего решения, участвующего в выборе аналитических приложений, исследование рынка аналитической инфраструктуры данных 2021 года показало, что более 84% респондентов имеют аналитические рабочие нагрузки и рабочие процессы, основанные на источниках транзакционных данных, за которыми чаще всего следят. по данным Excel / CSV (69%) и метаданным (65%).

В отчете определены критерии, которые организации используют для определения платформы аналитической инфраструктуры для использования на основе сценариев использования, включая отчеты и информационные панели бизнес-пользователей, обнаружение и исследование бизнес-пользователей, науку о данных и встроенную аналитику.

Более трех четвертей респондентов (78%) назвали отчеты и информационные панели бизнес-пользователей наиболее частым вариантом использования аналитической инфраструктуры, за которыми следуют обнаружение и исследование бизнес-пользователей (65%). Наука о данных и встроенная аналитика были названы приоритетными для 49% и 42% респондентов соответственно.

Исследование показывает, что, хотя традиционные варианты использования по-прежнему доминируют в критериях выбора платформы, другие потребности начинают становиться более важным фактором. Отчет показывает, что приоритеты также имеют тенденцию к смещению по мере изменения типа анализируемых данных. В сценариях использования встроенной аналитики более высокий приоритет отдается «текстовым» типам данных, в то время как наука о данных и машинное обучение отдают более высокий приоритет Excel / CSV и метаданным. Также стоит отметить, что данные о машинах и событиях / журналах являются приоритетными для большого количества сценариев использования: 50% респондентов оценивают это как критическое или очень важное. Более 20% респондентов также назвали видео важным вариантом использования.

Менее значимыми факторами в критериях выбора платформы являются соответствие или необходимость придерживаться единого корпоративного стандарта. Рынок платформ аналитической инфраструктуры в целом остается сильно фрагментированным, поскольку бизнес-подразделения в организациях по-прежнему пользуются большой автономией, когда дело доходит до выбора аналитических приложений и платформ, на которых они работают.

«Это неоднородная среда», – сказал Говард Дреснер, основатель и главный научный сотрудник Dresner. «Это не похоже на те времена, когда можно было выбирать из утвержденного списка».

По словам директора по исследованиям Dresner Брайана Вуда, в отсутствие этой стандартизации большинство организаций будут управлять несколькими хранилищами данных либо изолированно, либо путем добавления уровня семантики, с помощью которого запросы могут запускаться на нескольких платформах.

Конечно, ИТ-организации и раньше добавляли слой семантики в несколько баз данных. Разница теперь в том, что существует больше облачных платформ, некоторые из которых – в зависимости от объема и типа данных – могут быть более дорогими, чем локальная платформа, в зависимости от того, как часто осуществляется доступ к данным и нужно ли рассматривать платформу как капитал или операционные расходы, добавил Вуд. «Все сводится к загрузке и объему», – сказал он.

Опрос показал, что облачные сервисы стали предпочтительной моделью развертывания (52%) для использования аналитики, за ними следуют локальные ИТ-среды (40%). Возможности интеграции и управления гибридным облаком или кросс-центром обработки данных были определены как приоритетные только 32% и 26% респондентов соответственно.

Что касается вариантов лицензирования, респонденты отдали небольшое предпочтение ценообразованию для одновременных пользователей (44%), тогда как другие модели, такие как объем данных, подписка и модели для каждого пользователя, варьируются от 39 до 41%. Модели с открытым исходным кодом снизились на 30%.

Все респонденты объединяет то, что производительность влияет на выбор аналитической платформы. Практически все респонденты поставили производительность в качестве главных критериев (83%), за ней следуют безопасность (78%), масштабируемость (73%) и функции (72%). По мере того, как типы рабочих нагрузок, развертываемых на платформах аналитики, развернутых в одной и той же инфраструктуре, становятся все более разнообразными, производительность и масштабируемость для нескольких классов рабочих нагрузок становятся все более серьезными, отметил Дрезнер.

Между тем, наиболее важные возможности, указанные респондентами, – это возможность поддержки агрегирования, статистического анализа и других приложений, основанных на языке программирования R, а также многомерных запросов / запросов OLAP. Самый низкий рейтинг получил анализ тональности и анализ путей / ссылок.

Возможности данных SQL, безусловно, являются наивысшим приоритетом модели данных / управления (82%), за ним следуют формат строки (51%), формат в памяти (51%) и столбчатый формат (32%). Не-SQL и иерархические файлы, такие как Hadoop, имеют высокий приоритет менее чем для 35% респондентов.

Независимо от того, как используются платформы аналитической инфраструктуры, большинство ИТ-организаций могут с уверенностью предположить, что с учетом объема различных типов данных, которые их организации необходимо анализировать, общий процент ИТ-бюджета, потребляемого этими платформами, будет продолжать расти в ближайшие годы.