840 просмотров

От 10 октября 2023

О распределении данных между серверами

Что такое шардинг?

Шардинг — прием, который позволяет распределять данные между разными физическими серверами. Процесс шардинга предполагает разнесения данных между отдельными шардами на основе некоего ключа шардинга. Связанные одинаковым значением ключа шардинга сущности группируются в набор данных по заданному ключу, а этот набор хранится в пределах одного физического шарда. Это существенно облегчает обработку данных. Шардинг можно рассматривать как частный случай партиционирования. Партиционирование (partitioning, также секционирование) — это разбиение таблиц, содержащих большое количество записей, на логические части по неким выбранным администратором критериям. Партиционирование таблиц делит весь объем операций по обработке данных на несколько независимых и параллельно выполняющихся потоков, что существенно ускоряет работу СУБД. Для правильного конфигурирования параметров партиционирования необходимо, чтобы в каждом потоке было примерно одинаковое количество записей. Например, на новостных сайтах имеет смысл партиционировать записи по дате публикации, так как свежие новости на несколько порядков более востребованы и чаще требуется работа именно с ними, а не со всех архивом за годы существования новостного ресурса. Самая важная и сложная задача, возникающая при шардинге – поиск и выборка данных. Способ поиска зависит от того, как они шардированы. Наша цель состоит в том, чтобы самые важные и часто встречающиеся запросы затрагивали как можно меньше секций. В этом плане очень важно выбрать ключ (или ключи) секционирования данных. Ключ шардирования определяет, в какую секцию попадает та или иная строка. Если известен ключ шардирования некоторого объекта, то можно ответить на два вопроса: - Где следует сохранить данные? - Где найти запрошенные данные? Запросы к нескольким шардам хуже, чем к одному, но если они затрагивают не слишком много шардов, то все еще не так плохо. Самый худший случай – когда у вас нет ни малейшего представления о том, где находятся данные, и приходится просматривать все шарды без исключения.

Как выбрать ключ шардирования?

Обычно хорошим ключом секционирования является идентификатор какой-нибудь важной сущности в базе данных. Такие сущности называются единицами шардирвания (unit of sharding). Например, если информация секционируется по идентификатору пользователя или клиента, то единицей секционирования является соответственно пользователь или клиент. Если модель данных сложна, то и секционировать ее труднее. Во многих приложениях существует более одного ключа секционирования, особенно если в данных можно выделить несколько важных «измерений». Иными словами, приложение должно иметь возможность эффективно взглянуть на информацию под разными углами зрения и получить целостное представление. Это означает, что некоторые данные придется хранить в двух разных видах.

Расскажите про распределение данных

Существует два основных способа распределения данных по секциям: фиксированное и динамическое. Для обеих стратегий необходима функция секционирования, которая принимает на входе ключ секционирования строки и возвращает номер секции, в которой эта строка находится. Здесь слово «функция» употребляется в математическом смысле как отображение множества входных значений (области определения) во множество выходных значений (область значений), такую функцию можно реализовать разными способами, в том числе с использованием справочной таблицы в базе данных.

Что такое фиксированное распределение данных?

Для фиксированного распределения применяется функция разбиения, которая зависит только от значения ключа секционирования. В качестве примеров можно привести деление по модулю или хеш-функции. Такие функции отображают значения ключей секционирования на конечное число «ячеек» (buckets), в которых хранятся данные. Пусть имеется всего 100 ячеек и требуется найти, в какую из них поместить пользователя 111. С применением деления по модулю ответ ясен: остаток от деления 111 на 100 равен 11, поэтому пользователь должен находиться в секции 11. Однако, у этой стратегии есть и недостатки. - Если секции велики и их немного, то балансировать нагрузку между ними будет сложно. - При фиксированном распределении вы лишены возможности решать, куда помещать конкретную запись, а это важно в приложениях, где нагрузка на единицы секционирования неравномерна. Некоторые части данных используются гораздо чаще, чем остальные, и когда такие обращения по большей части адресуются к одной и той же секции, стратегия фиксированного распределения не позволяет снять нагрузку, переместив часть данных в другую секцию. Эта проблема не так серьезна, если элементы данных малы, но их количество в каждой секции велико; закон больших чисел все расставит по своим местам. - Как правило, изменить алгоритм секционирования сложнее, потому что требуется перераспределить все существующие данные. Например, если секционирование производилось делением по модулю 10, то имеется 10 секций. Когда приложение вырастет, и секции станут слишком большими, возникнет желание увеличить их количество до 20. Но для этого придется перехешировать все заново, обновить очень много данных и перераспределить их по новым секциям.

Что такое динамическое распределение данных?

Альтернативой фиксированному распределению является динамическое распределение, описание которого хранится отдельно в виде отображения единицы секционирования на номер секции. Примером может служить таблица с двумя столбцами: идентификатор пользователя и идентификатор секции: CREATE TABLE user_to_shard ( user_id INT NOT NULL, shard_id INT NOT NULL, PRIMARY KEY (user_id) ); Функцией разбиения служит сама таблица. Зная ключ секционирования (идентификатор пользователя), можно найти соответствующий номер секции. Если подходящей строки не существует, можно выбрать нужную секцию и добавить строку в таб лицу. Впоследствии сопоставление можно будет изменить, потому стратегия и называется динамической. Table functions – это когда у вас просто какой-то config. Использование подходов Table functions к шардингу очень тесно завязано на таком понятии как virtual bucket. Вспомните, у вас есть функция отображения ключа на шард. Представьте себе, что у вас посередине появляется некое промежуточное отображение, т.е. это отображение превращается в два. Сначала вы отображаете ключ на некоторый виртуальный bucket, потом виртуальный bucket – на соответствующую координату в пространстве вашего кластера. Существует не очень много методов это все сделать. А еще мы помним о том, что самое главное – это дать свободу и удобство работы системному администратору. Виртуальные bucket-ы, как правило, выбираются в достаточно большом количестве. Почему они виртуальные? Потому что на самом деле они не отражают реального физического сервера. И используется несколько методов для отображения непосредственно ключа на шард. Один метод – это когда первая часть «key to bucket» function – это просто какой-то хэш или консистентный хэш, т.е. какая-то часть, которая определяется по формуле, а bucket непосредственно на шард отображается через config. Вторая вещь более сложная – когда вы и то и то отображаете через config. Более сложная, потому что вам, условно говоря, для каждого ключа нужно еще помнить, где он лежит. Вы приобретаете возможность передвинуть любой ключ куда угодно, но с другой стороны вы теряете возможность легко и быстро, имея просто маленький config в «bucket to shard», из ключа определить bucket и потом пойти достаточно быстро пойти в нужное место. С динамическим распределением связаны определенные накладные расходы, так как требуется обращение к внешнему ресурсу, например серверу каталогов (узлу, на котором хранится отображение). Для поддержания приемлемой эффективности такая архитектура часто нуждается в дополнительных слоях программного обеспечения. Например, можно использовать распределенную сис тему кэширования, в памяти которой хранятся данные с сервера каталогов, которые на практике изменяются довольно редко. Основное достоинство динамического распределения – более точное управление местом хранения данных. Это упрощает равномерное разделение данных по секциям и позволяет гибко адаптироваться к непредвиденным изменениям. Кроме того, динамическое распределение дает возможность выстраивать многоуровневую стратегию шардировани поверх простого отображения ключей на секции. Например, можно организовать двойное отображение, при котором каждой единице секционирования сопоставляется некоторая группа (например, группа членов клуба книголюбов), а сами группы по возможности размещаются в одной секции. Это позволяет воспользоваться преимуществами близости шардов и избегать межсекционных запросов. Динамическое распределение дает возможность создавать несбалансированные секции. Это полезно, когда не все сервера одинаково мощные или когда некоторые серверы используются еще и для других целей, например для архивирования данных. Если при этом имеется еще и возможность в любой момент перебалансировать шарды, то можно поддерживать взаимно-однозначное соответствие между секциями и узлами, не растрачивая впустую емкость дисков. Некоторым нравится та простота, которая свойственна хранению в каждом узле ровно одной сек ции (но не забывайте, что имеет смысл делать шарды относительно небольшими). Динамическое распределение позволяет организовать стратегию секционирования любой сложности, фиксированное такого богатства выбора не предоставляет.

Авторизуйтесь, чтобы просматривать следующий контент

Расскажите про комбинирование динамического и фиксированного распределений

Авторизуйтесь, чтобы получить доступ

Расскажите про поиск данных методом "умный клиент"

Авторизуйтесь, чтобы получить доступ

Расскажите про поиск данных методом "прокси"

Авторизуйтесь, чтобы получить доступ

Расскажите про поиск данных методом "координатор"

Авторизуйтесь, чтобы получить доступ

Что такое перераспределине данных (решардинг)?

Авторизуйтесь, чтобы получить доступ

Что такое консистентный хэш?

Авторизуйтесь, чтобы получить доступ

Хотите стать частью сообщества Девстанции?

Вступайте в наш чат в Telegram

Также в этой категории

Вопросник

60 вопросов

Топ 60 вопросов про базы данных и SQL

Ответы на вопросы с собеседований по БД и SQL

1461 просмотр

От 4 июня

Вопросник

10 вопросов

Всё о репликации баз данных

Описание понятий и процессов репликации БД

905 просмотров

От 8 октября 2023

Топ тредов

freddypopa: Добавить чекбокс, который отвечает за показ ранее тронутых задач (черновик)

Последнее сообщение:

: Отличная идея! Возьмём её на заметку!

1 сообщение

72 просмотра

Девстанция: Предложите идею и получите спонсорский доступ на месяц

Последнее сообщение:

Borisops: Добавить темную тему) что бы можно было посмотреть сложность алгоритма и добавить тэги.

10 сообщений

307 просмотров

unicozz: Задача в JS под названием "Соревнование" содержит ошибку

Последнее сообщение:

: Привет! В примерах вызова функции действительно была опечатка, исправили. Однако, должен получиться...

2 сообщения

120 просмотров

Теория шардинга баз данных

О распределении данных между серверами

Что такое шардинг?

Как выбрать ключ шардирования?

Расскажите про распределение данных

Что такое фиксированное распределение данных?

Что такое динамическое распределение данных?

Расскажите про комбинирование динамического и фиксированного распределений

Расскажите про поиск данных методом "умный клиент"

Расскажите про поиск данных методом "прокси"

Расскажите про поиск данных методом "координатор"

Что такое перераспределине данных (решардинг)?

Что такое консистентный хэш?

Также в этой категории

Топ 60 вопросов про базы данных и SQL

Всё о репликации баз данных

Вам может быть интересно

Топ 20 задач с собеседований по Go

Общие принципы и понятия ООП

Коллекция полезных команд для Docker

Вопросы с собеседований по DDD

30 вопросов с собеседований по Python

HTTP, SSL, WebSocket и прочее

Топ тредов

freddypopa: Добавить чекбокс, который отвечает за показ ранее тронутых задач (черновик)

Девстанция: Предложите идею и получите спонсорский доступ на месяц

unicozz: Задача в JS под названием "Соревнование" содержит ошибку

Все категории