Инструмент Pinterest для анализа больших данных с открытым исходным кодом Querybook

Источник · Перевод автора

Pinterest сегодня предлагает Querybook с открытым исходным кодом – решение для управления данными для удаленного инженерного сотрудничества в масштабе предприятия. Компания заявляет, что этот инструмент, который используется внутри компании, может помочь инженерам составлять запросы, проводить анализ и сотрудничать друг с другом через интерфейс ноутбука.

Querybook стартовал в 2017 году как стажер в Pinterest. Команда разработчиков на раннем этапе выбрала интерфейс, похожий на документ, где пользователи могли бы писать запросы и анализировать в одном месте, с размещенными метаданными и простотой приложения для создания заметок. Выпущенный внутри компании в марте 2018 года, Querybook стал популярным решением для анализа больших данных в Pinterest. Сейчас в нем в среднем 500 активных пользователей в день и 7000 ежедневных запросов.

«В Querybook инженеры Pinterest объединили мощь метаданных с простотой приложения для создания заметок для лучшего интерфейса запросов, где команды могут составлять запросы и писать анализы в одном месте», – сказал представитель VentureBeat. «Querybook можно настроить и развернуть за считанные минуты».

Каждый запрос, выполняемый в Querybook, анализируется для извлечения метаданных, таких как ссылочные таблицы и средства выполнения запросов. Querybook использует эту информацию для автоматического обновления схемы данных и ранжирования результатов поиска, а также для отображения частых пользователей таблицы и примеров запросов. Чем больше запросов в Querybook, тем лучше документируются таблицы.

Querybook также имеет интерфейс администратора, который позволяет компаниям настраивать механизмы запросов, прием метаданных таблиц и разрешения доступа. Из этого интерфейса администраторы могут вносить изменения в книгу запросов в реальном времени, не просматривая код или файлы конфигурации. И они могут создавать визуализации, включая линии, столбцы, области с накоплением, пироги, пончики, точечные диаграммы и табличные диаграммы.

«Обычной отправной точкой для любого анализа в Pinterest является специальный запрос, который выполняется во внутреннем кластере Hadoop или Presto. Чтобы постоянно вносить эти улучшения, особенно во все более удаленной среде, для команд как никогда важно иметь возможность составлять запросы, проводить анализ и сотрудничать друг с другом», – написал Pinterest в своем блоге. «Мы создали Querybook, чтобы обеспечить гибкий и простой пользовательский веб-интерфейс для такого анализа, чтобы специалисты по обработке данных, менеджеры по продуктам и инженеры могли находить нужные данные, составлять запросы и делиться своими выводами».

Pinterest ранее использовала Teletraan с открытым исходным кодом – инструмент, который может развертывать код на виртуальных машинах, например, доступных из общедоступных облачных сервисов Amazon Web Services. До этого компания выпустила Terrapin, программное обеспечение, предназначенное для более эффективного вытеснения данных из программного обеспечения для работы с большими данными с открытым исходным кодом Hadoop и предоставления его для использования другими системами.