Apache Software Foundation обновляет Drill для более широких запросов SQL

Apache Software Foundation обновляет Drill для более широких запросов SQL

Источник · Перевод автора

Apache Software Foundation (ASF) на этой неделе обновила инструмент Apache Drill с открытым исходным кодом, который позволяет конечным пользователям запрашивать несколько источников данных с помощью SQL – не дожидаясь, пока ИТ-команды предприятия создадут схемы и настроят конвейеры.

Конечные пользователи могут загрузить Drill 1.19 для запуска запросов к платформам Apache Cassandra, Elasticsearch и Splunk в дополнение к запросам файлов XML и интерфейсов прикладного программирования (API) REST без какой-либо схемы.

Другие возможности включают поддержку подключаемых модулей протокола Avro на основе платформы обмена сообщениями Apache Kafka; ПО Apache Airflow для управления рабочими процессами; интегрированные хранилища паролей для защиты учетных данных; и системы Linux ARM64.

Траектория

Apache Drill впервые появился как механизм запросов на основе SQL, предназначенный для того, чтобы конечные пользователи могли опрашивать данные, хранящиеся на платформах NoSQL Apache Hadoop. С тех пор количество источников данных неуклонно увеличивалось до такой степени, что конечные пользователи используют инструмент для опроса данных, где бы они ни находились, сказал Чарльз Живр (Charles Givre), вице-президент Apache Drill и генеральный директор DataDistillr, поставщика инструментов SQL-запросов на основе Apache Drill.

Это очень важно, потому что организациям сложно объединить все свои данные в едином хранилище данных, добавил Живр. «Практически невозможно собрать все данные в озере данных», – сказал он.

Не менее проблематично то, что обычно существует значительная временная задержка между тем, когда новые данные создаются приложением, и тем, когда эти данные становятся доступными в хранилище данных или озере данных, сказал Живр. Но Apache Drill упрощает запуск SQL-запросов к самому свежему доступному набору данных, независимо от того, где он находится, сказал он.

Он добавил, что в некоторых случаях группы по анализу данных настраивают сложные процессы для анализа наборов данных, когда они могут легче выполнять те же задачи с помощью Apache Drill для объединения двух или более наборов данных без необходимости перемещать какие-либо данные.

Как это работает

Apache Drill разработан для развертывания либо на одном портативном компьютере, либо в кластере из 1000 узлов, который обрабатывает триллионы записей. Он использует форматы JavaScript Object Notation (JSON), чтобы избавиться от необходимости заранее определять схемы или нормализовать данные. Помимо Hadoop, он совместим с Apache HBase, MongoDB, Elasticsearch, Cassandra, REST API, MapR-FS, Amazon S3, Azure Blob Storage, Google Cloud Storage и множеством других форматов сетевых хранилищ (NAS). Apache Drill также разработан для интеграции с такими инструментами бизнес-аналитики, как Apache Superset, Tableau, MicroStrategy, QlikView и Excel.

ИТ-организации в течение некоторого времени пытались найти баланс между централизованным управлением данными и предоставлением конечным пользователям возможности интерактивно запрашивать данные по своему усмотрению. Во многих случаях конечные пользователи обходят ИТ-отделы, настраивая свои собственные платформы и инструменты запросов. Помимо проблем управления, которые могут возникнуть, данные, которые бизнес-подразделение использует для принятия решений, обычно не синхронизированы с данными, на которые полагается остальная часть бизнеса.

Однако у большинства корпоративных ИТ-команд нет политического капитала, необходимого для того, чтобы запретить бизнес-подразделениям использовать тот или иной инструмент. Вместо этого Живр сказал, что им следует сосредоточиться на достижении баланса между потребностью конечных пользователей легко запрашивать данные по мере их появления и необходимостью управлять терабайтами исторических данных, которые могут находиться в хранилище данных.

Независимо от того, какой путь выбирают организации, когда дело доходит до управления данными, количество инструментов и платформ для запросов к данным продолжает расти. Теперь вопрос заключается в том, чтобы определить, в какой степени организации должны ограничивать доступ к инструментам, санкционированным их ИТ-командой.