Коннектор AWS S3 от Airbyte обеспечивает интеграцию данных с открытым исходным кодом в озера данных

Источник · Перевод автора

Платформа интеграции данных с открытым исходным кодом Airbyte объявила о своей первой интеграции с озером данных, позволяющей пользователям реплицировать данные из множества источников в Amazon Simple Storage Service (S3). Стартап из Сан-Франциско сообщил, что в ближайшее время он планирует поддерживать озера данных от «других облачных провайдеров», в том числе от Databricks с открытым исходным кодом Delta Lake.

Компании любого размера имеют обилие данных, разбросанных по множеству инструментов, таких как CRM, маркетинг, поддержка клиентов и аналитика продуктов. Хотя доступ к данным не является проблемой, получение значимой информации из данных, хранящихся в разных местах и ​​в разных форматах, является проблемой, поэтому предприятиям приходится объединять их в централизованном месте и преобразовывать в общий формат, упрощающий анализ.

От ETL к ELT

Исторически сложилось так, что типичный процесс для достижения этого был бы так называемым «извлечением, преобразованием, загрузкой» (ETL), который включает преобразование данных до того, как они поступят в центральное хранилище данных – это имело больше смысла с дорогостоящим локальным хранилищем, даже несмотря на то, что процесс преобразования может быть мучительно медленным, и пользователю часто придется повторно извлекать данные, если его потребности меняются. Современная альтернатива – «извлечь, загрузить, преобразовать» (ELT) – позволяет компаниям преобразовывать необработанные данные по запросу, когда они уже находятся на складе. Это стало возможным благодаря более низким затратам, связанным с современными облачными хранилищами и вычислительными платформами, такими как Databricks, Snowflake, BigQuery от Google и Redshift от Amazon.

Airbyte в основном занимается «EL» частью ELT, хотя он также поддерживает фазу преобразования за счет интеграции со сторонними инструментами, такими как dbt. Недавно компания выпустила свой Connector Development Kit (CDK), чтобы позволить предприятиям создавать свои собственные настраиваемые соединители источников данных, однако она также предлагает десятки готовых соединителей. Это упрощает для компаний создание конвейеров данных и передачу их данных из таких источников, как CRM (например, Salesforce), баз данных (например, MySQL, PostreSQL) и аналитики (например, Amplitude), в места назначения, включая базы данных (например, BigQuery), хранилища данных. (например, Снежинка) и – теперь – озера данных.

Озера данных и хранилища данных служат совершенно разным целям: первые содержат неструктурированные неструктурированные данные, которые являются более гибкими, но требуют больших объемов хранения, а вторые – все о структурированных данных, которые уже были обработаны и отфильтрованы для конкретных случаев использования, как определено Компания. Таким образом, решение Airbyte о поддержке S3 имеет смысл, учитывая, что он должен быть открыт для как можно большего числа потенциальных сценариев интеграции данных.

Открыт для бизнеса

Инструменты интеграции данных с открытым исходным кодом в последнее время стали большой новостью. На прошлой неделе GitLab объявил о развертывании своей платформы ELT (извлечение, загрузка, преобразование) Meltano с открытым исходным кодом в качестве отдельного предприятия, проекта, который стремится достичь чего-то похожего на Airbyte. Более того, в качестве независимого бизнеса Meltano также удалось привлечь некоторых крупных инвесторов, включая GV Alphabet и основателя WordPress Мэтта Мулленвега. В другом месте Dbt Labs (ранее Fishtown Analytics) на прошлой неделе привлекла 150 миллионов долларов при оценке в 1,5 миллиарда долларов для создания своего инструмента преобразования данных dbt с открытым исходным кодом, который Meltano и Airbyte используют в своих соответствующих продуктах.

Airbyte, со своей стороны, привлекла более 31 миллиона долларов за последние несколько месяцев, начав с начального сбора на 5,2 миллиона долларов в марте, за которым последовал раунд серии А на 26 миллионов долларов менее чем через три месяца. Похоже, что индустрия ETL данных с открытым исходным кодом набирает обороты.

На данный момент основным продуктом Airbyte является бесплатная версия для сообщества под лицензией MIT, хотя в конечном итоге она планирует начать коммерческое использование через облачную инкарнацию, а также разрабатывается дополнительное предложение корпоративного уровня.