Apache Cassandra 4.0 обеспечивает более быстрое масштабирование и пропускную способность

Apache Cassandra 4.0 обеспечивает более быстрое масштабирование и пропускную способность

Источник · Перевод автора

Сопровождающие Apache Cassandra Project с открытым исходным кодом сегодня объявили об обновлении, которое может передавать данные до 5 раз быстрее во время операций масштабирования, обеспечивая при этом до 25% более высокую пропускную способность при чтении и записи. Версия 4.0 базы данных Apache Cassandra также оптимизирована для развертывания в облаке, а также в кластерах Kubernetes, сказала Екатерина Димитрова, инженер-программист компании DataStax, которая предоставляет кураторский экземпляр Cassandra корпоративным ИТ-организациям.

Другие дополнительные возможности включают в себя возможность поддерживать синхронизацию реплик данных для оптимизации инкрементного ремонта, журналы аудита для отслеживания доступа и активности пользователей с минимальным влиянием на производительность рабочей нагрузки, более простые параметры конфигурации, улучшенное сжатие и улучшенную задержку, достигаемую за счет сокращения времени паузы для сборщика мусора. это очищает память.

Наконец, специалисты по сопровождению проекта Apache Cassandra объявили сегодня, что теперь они переходят на годовой цикл выпуска, при этом каждый основной выпуск будет поддерживаться в течение трех лет.

Обновление базы данных Apache Cassandra было давно

Последняя версия баз данных Apache Cassandra находится в разработке более трех лет. По словам Димитровой, цель состоит в том, чтобы упростить процесс миграции, предоставив высокостабильное обновление вместо платформы, которая в противном случае могла бы рассматриваться как незавершенная работа. «Было исправлено более 1000 ошибок», – сказала она.

В рамках этих усилий сообщество Apache Cassandra развернуло несколько проектов и методологий тестирования и обеспечения качества (QA) на этапе тестирования и обеспечения качества, что позволило разработчикам и участникам создавать воспроизводимые реальные рабочие нагрузки, которые можно было протестировать без необходимость приостановить рабочую нагрузку.

Apache Cassandra как база данных NoSQL завоевала популярность как альтернатива реляционным базам данных, которые не были предназначены для обработки огромных объемов неструктурированных данных. Первоначально разработанный Facebook, Cassandra основан на хранилище с широкими столбцами, которое позволяет эффективно обрабатывать огромные объемы неструктурированных данных, охватывающих тысячи операций записи в секунду, без единой точки отказа. Facebook передал базу данных Apache Software Foundation в 2009 году.

Организации, которые сегодня используют Cassandra, включают Apple, которая развернула более 160000 экземпляров, хранящих более 100 ПБ данных в более чем 1000 кластеров, и Netflix, которая развернула более 10000 экземпляров, хранящих 6 ПБ данных в более чем 100 кластерах, которые обрабатывают больше более 1 триллиона запросов в день. Точно так же Bloomberg обслуживает более 20 миллиардов запросов в день в наборе данных размером почти 1 ПБ, охватывающем более 1700 узлов Cassandra.

Другие организации, принявшие Apache Cassandra, включают Activision, Backblaze, BazaarVoice, Best Buy, CERN, Constant Contact, Comcast, DoorDash, eBay, Fidelity, Hulu, ING, Instagram, Intuit, Macy’s, Macquarie Bank, McDonald’s, New York Times, Monzo, Outbrain, Pearson Education, Sky, Spotify, Target, Uber, Walmart и Yelp.

Кривая обучения Cassandra долгая

Проблема, с которой продолжают сталкиваться сторонники Cassandra, заключается в том, что развертывание базы данных Cassandra и управление ею требует значительного опыта. Во многих случаях приложения выходят из базы данных документов с открытым исходным кодом только тогда, когда у них заканчивается запас. Разработчики не всегда знают, в какой степени их приложения однажды могут нуждаться в масштабировании. Многие из них могут настроить базу данных документов без какого-либо вмешательства администратора базы данных (DBA).

Однако в конечном итоге может потребоваться база данных, которая может масштабироваться до петабайт неструктурированных данных. Хорошая новость заключается в том, что после того, как организация сталкивается с этой проблемой в первый раз, более вероятно, что в следующем приложении, которое необходимо будет реорганизовать для работы в базе данных, предназначенной для масштабирования, будет задействован некоторый уровень опыта в Cassandra.