Тенденции баз данных: рост базы данных временных рядов

Источник · Перевод автора

Проблема: ваше мобильное приложение только что стало вирусным, и у вас появилось множество новых пользователей, наводняющих ваши серверы миллиардами пакетов данных. Как вы можете хранить этот пожарный шланг данных датчиков? Есть ли способ принести пользу с помощью статистического анализа? Можете ли вы сделать все это с ограниченным бюджетом с хорошо настроенной базой данных, которая не будет сильно увеличивать стоимость поддержки виджета?

База данных временных рядов (The time-series database, TSDB) предназначена для обработки этих бесконечных потоков, и это одна из самых заметных современных тенденций в технологии баз данных. Это дает разработчикам инструмент для отслеживания битов, поступающих с интерактивных веб-сайтов и устройств, подключенных к Интернету. Он добавляет надежные алгоритмы для быстрых запросов для статистического анализа, что делает его популярным для решения таких проблем, как выбор онлайн-рекламы и поддержка интеллектуальных устройств.

TSDB приобрела популярность в последние годы, и в прошлом году это был самый быстрорастущий тип базы данных на предприятии, в основном из-за растущего числа сценариев ее использования. В конце концов, данные временного ряда – это последовательность точек данных, собранных с течением времени, что дает вам возможность отслеживать изменения за этот период – и это то, что вам нужно делать, если вы выполняете сложные транзакции, такие как реклама, электронная торговля, управление цепочками поставок. , и больше.

Каковы другие основные варианты использования TSDB?

Производители бытовой техники добавляют подключение к Интернету, чтобы добавить немного zip в свои линейки продуктов, и теперь все эти устройства звонят домой, чтобы сообщить данные, чтобы клиенты могли управлять ими со своего телефона в любом месте и в любое время.
Мобильность становится продолжением облака. С помощью поминутной аренды скутеров и платформ для совместного использования можно отслеживать пользователей до, во время и после поездки. Все эти точки данных можно изучить, чтобы повысить производительность и спланировать развертывание с учетом будущих требований.
Многие документы постепенно превращаются из единого блока данных в поток изменений. Текстовые процессоры, которые раньше хранили текущую версию документа, теперь записывают каждое нажатие клавиши и щелчок мышью, вызвавшие их. Это делает редактирование более простым, с бесконечными уровнями «отмены».
Дома становятся все более цифровыми, и многие предметы, которые когда-то были не более чем переключателем (например, термостат, лампа или телевизор), теперь записывают события каждую секунду или даже чаще.

Что делает TSDB сияющим?

Во-первых, наборы данных большие и становятся все больше. Файлы журналов теперь измеряются в петабайтах, и они растут. Количество устройств из так называемого Интернета вещей (IoT) растет, и они часто рассчитаны на использование центральной службы для анализа и представления информации. Например, Sense.com собирает информацию о потреблении электроэнергии в домах миллионы раз в секунду. Когда эти биты сообщаются, центральная база данных Sense.com должна хранить достаточно данных, чтобы быть полезными, но не настолько, чтобы перегружать хранилище.

Наборы данных временных рядов часто имеют меньше связей между записями данных в разных таблицах, которые требуют блокировки на основе транзакций, чтобы избежать несоответствий. Большинство пакетов данных содержат отметку времени, несколько показаний датчиков и не более того.

Это позволяет специальным индексам ускорять запросы, такие как количество событий за день, неделю или другой период времени. Хорошие индексы временных рядов могут предложить быстрые ответы на статистические вопросы об диапазонах данных.

Базы данных также могут предложить некоторую поддержку, поскольку многие операции по обслуживанию выполняются регулярно и легко автоматизируются. Базы данных могут автоматически удалять старые данные, предоставляя только свежую статистику. В то время как стандартные базы данных предназначены для вечного хранения данных, базы данных временных рядов могут быть настроены так, чтобы дать элементам данных определенное время жизни. Другие будут использовать алгоритм циклического перебора для хранения фиксированного набора.

Со временем в базах данных развернуты специальные функции сжатия, которые позволят хранить данные временных рядов в меньшем пространстве. Если показания датчика не меняются с миллисекунды на миллисекунду, нет причин хранить еще одну копию того же значения. Timescale.com, например, может похвастаться 94% -97% экономией хранилища благодаря алгоритмам сжатия, настроенным на обычные шаблоны данных.

Кому больше всего выгодно?

Отслеживание того, как люди, машины и организации ведут себя с течением времени, является ключом к настройке. Базы данных временных рядов, которые оптимизируют сбор и анализ данных временных рядов, открывают возможность предоставлять бизнес-модели, которые корректируют и избегают универсальной стандартизации. Например, алгоритмы, размещающие рекламу, могут отслеживать недавнее поведение. Интеллектуальные устройства, такие как термостаты, могут искать события и понимать, чего хотят люди в разное время дня.

Как к этому подходят старые игроки?

Во всех основных базах данных давно есть поля для хранения даты и времени. Все традиционные запросы для поиска или табулирования данных по-прежнему работают с этими записями. Базы данных Oracle, например, были популярны на Уолл-стрит для хранения регулярных котировок цен. Они не оптимизированы, как новые базы данных, но это не значит, что они не могут ответить на вопросы с немного большей вычислительной мощностью. Иногда дешевле купить машины большего размера, чем перейти на новую базу данных.

Некоторые приложения могут собирать различные значения данных, а некоторые могут лучше всего подходить для стабильности традиционной базы данных. Банковские приложения, например, заполнены транзакциями бухгалтерской книги, которые представляют собой просто таблицы временных рядов общих депозитов. Тем не менее, разработчики банков могут быть одними из самых консервативных людей и могут предпочесть устаревшую базу данных с долгой историей новому инструменту с большей эффективностью.

Иногда традиционные компании выпускают новые конкурирующие модели. Oracle, например, также настраивает свою базу данных NoSQL для поиска и анализа потоков данных временных рядов от датчиков и других источников в реальном времени. API будет поддерживать текущий сбор свежих точек данных и обеспечивать контроль времени жизни над данными, чтобы избежать перегрузки хранилища.

Новые механизмы анализа данных часто включают инструменты, специально созданные для данных временных рядов. Например, инструмент Microsoft Data Mining для своего SQL Server имеет набор функций, которые могут просматривать исторические данные и предсказывать будущие тенденции.

Облачные компании также добавляют услуги хранения данных для этого рынка. AWS, например, запустила сервис Timestream – инструмент, оптимизированный для данных IoT. Он также будет интегрироваться с остальной частью стека AWS через стандартные пути, такие как функции Lambda, а также индивидуальные для вариантов машинного обучения, таких как SageMaker.

Какие новые стартапы появляются?

Страницы: 1 2