Конспект - Как кэшировать данные | Теория кэширования

Содержание

Краткое резюме
Что такое кэширование и зачем оно нужно? 🕒⚡
Терминология кэширования 📚
Когда кэширование не нужно ❌
Виды кэширования: внутреннее и внешнее 🏠⚙️
- Внутреннее кэширование
- Внешнее кэширование
Способы взаимодействия приложения с кэшом 🔄
Основные алгоритмы вытеснения из кэша 🗑️
Теоретический оптимальный алгоритм: Belady (Лади) ⚠️
Инвалидация данных в кэше: как не отдавать устаревшую информацию 🧹
Проблема согласованности данных в многотабличных кэшах 📊🔄
Многомерный кэш и уровни хранения 🏗️
Как оценить полезность кэширования? 📈
Итоговые советы и понимание системного дизайна 🧩

Краткое резюме

Кэширование ускоряет доступ к данным, снижая время отклика и нагрузку на базу данных или сторонние сервисы.
Использовать кэш не всегда рационально, особенно когда данные сильно и часто меняются.
Существуют два основных вида кэширования: внутреннее (локальное в приложении) и внешнее (отдельный кэш-сервис).
Важны алгоритмы вытеснения — как выбрать, какой элемент удалить из кэша при нехватке места (LRU, LFU, MRU, Second Chance и др.).
Кэш требует инвалидации — удаления устаревших данных, с паттернами по времени жизни (TTL), по событиям и через версионирование/тегирование.
Многомерный кэш — это каскадная структура с несколькими уровнями кэширования (браузер, прокси, приложение, внешние сервисы, БД), что усложняет согласованность, но значительно повышает эффективность.
Важно понимать стратегии взаимодействия приложения с кэшем и балансировать между скоростью, консистентностью и отказоустойчивостью.
Практика показывает, что для большинства задач достаточно простых алгоритмов вытеснения (например, LRU), продвинутые применяются редко.
Инвалидировать данные в кэше корректно — одна из ключевых проблем, для решения которой применяются блокировки (локы), рандомизация TTL и тегирование.
Непрерывное обучение и системный подход к проектированию распределённых систем (System Design) — важная компетенция для современных разработчиков.

Что такое кэширование и зачем оно нужно? 🕒⚡

Кэширование — это сохранение копий данных в быстро доступном хранилище, чтобы не обращаться к медленным или дорогим внешним сервисам и базам данных повторно. Основные цели:

Сокращение времени ответа (response time). Например, сервис в России обращается к базе данных за рубежом — кэш рядом с приложением сократит задержки.
Снижение нагрузки на базу данных или сторонние сервисы. Особенно актуально, когда базовая система перегружена.
Переиспользование ранее вычисленных данных. Для CPU-bound операций (сложные вычисления) хранение результата в кэше экономит ресурсы.
Стабилизация работы при кратковременных сбоях внешних систем. Пускай даже устаревшие данные лучше, чем ошибки.

Терминология кэширования 📚

Кэш-мисс (Cache Miss) — запрос не нашёлся в кэше, пошли за данными в базу.
Кэш-хит (Cache Hit) — данные найдены в кэше, моментальный ответ.
Hit ratio (коэффициент попадания) — отношение количества хитов к общему числу запросов. Ключевой показатель эффективности.
Горячий ключ (Hot Key) — ключ, по которому приходит подавляющая часть запросов (примеры — популярные пользователи, как Криштиано Роналдо 🤩).
Прогрев кэша (Cache Warming) — начальное наполнение кэша для минимизации промахов.
Инвалидация — удаление устаревших кэшированных данных.

Когда кэширование не нужно ❌

Если данные меняются очень часто (каждую секунду) — кэширование часто становится бессмысленным, т.к. постоянные инвалидации сводят пользу на нет.
Если данные меняются крайне редко (раз в день или месяц) — кэшировать можно спокойно.
Если важна строгая консистентность данных, то стоит тщательно проектировать политику инвалидации.

Также можно кэшировать не только данные, но и отрицательные ответы (например, отсутствие пользователя), чтобы снизить нагрузку на базу при частых запросах по несуществующим ключам.

Виды кэширования: внутреннее и внешнее 🏠⚙️

Внутреннее кэширование

Хранится внутри приложения: структуры данных в памяти (map, hash, unordered_map и пр.).
Плюсы: высокая скорость доступа, отсутствие сетевых запросов.
Минусы: сложное масштабирование (горизонтальное), при падении сервиса весь кэш теряется и нуждается в прогреве.

Внешнее кэширование

Отдельный сервис (Redis, Tarantool и др.).
Плюсы: удобное масштабирование, кэш живёт независимо, потенциально большой объём, централизованное управление инвалидацией.
Минусы: большая задержка за счёт сетевых запросов и маршалинга, сложнее по производительности.

Способы взаимодействия приложения с кэшом 🔄

Cache-aside (Lazy caching)
Запрос сначала идёт в кэш. При промахе - в базу, данные загружаются в кэш.
При записи сначала обновляется база, затем кэш.
Может использовать асинхронное обновление кэша, экономя ресурсы.
Write-through
Приложение пишет и в кэш, и в базу одновременно.
Write-back (Write-behind)
Обновления накапливаются и постепенно записываются в базу.
Read-through
Приложение обращается только к кэшу. Если данных нет — кэш самостоятельно обращается к базе.
Write-around
При записи обновляется база без изменения кэша — потенциальен устаревший кэш.
Preloading / Cache warming
Заполнение кэша заранее, например популярными данными или тестовыми значениями.

Выбор зависит от бизнес-целей, требований к скорости и консистентности.

Основные алгоритмы вытеснения из кэша 🗑️

При ограниченном размере кэша нужно решать, какой элемент удалять при добавлении нового:

Random (Случайный) — простой, редко используется.
FIFO (First-In-First-Out) — выталкивается самый старый элемент по времени добавления.
LIFO / Stack — вытесняется последний добавленный элемент.
LRU (Least Recently Used) — удаляется элемент, к которому дольше всего не обращались. Этот алгоритм — промышленный стандарт для большинства задач.
MRU (Most Recently Used) — удаляется недавно использованный элемент, специфичный кейс.
LFU (Least Frequently Used) — удаляется элемент с наименьшим количеством обращений. Используется при необходимости учитывать популярность.
Second Chance (Clock) — оптимизация LRU с битом использования, часто применяется в системах виртуальной памяти.
Segmented LRU (SLRU) — сочетание нескольких очередь с различными политиками, для более точного управления кэшем.
ARC, LIRS и др. — более сложные, используют гибриды LRU и LFU.

Теоретический оптимальный алгоритм: Belady (Лади) ⚠️

Знает точные времена будущих обращений к элементам и вытесняет тот, который понадобится позже всех.
Нереален в практическом применении, но служит эталоном эффективности.

Инвалидация данных в кэше: как не отдавать устаревшую информацию 🧹

TTL (time to live) — время жизни кэшируемого объекта. Минус: слишком маленький TTL снижает эффективность (много попаданий в кеш-мисс), слишком большой — снижает актуальность.
Чтобы избежать одновременной инвалидизации большого количества элементов ("эффект стаи"), используют рандомизацию TTL.
Инвалидация по событию — при изменении данных в базе исходится событие (через брокер сообщений), кэши получают уведомления и удаляют/обновляют данные.
Версионирование и тегирование — каждому кэшированному объекту присваивается версия или теги; при обновлении версии приложению становится проще понимать, какие элементы нужно считать устаревшими.
Проблема "Стаи" и ШМИ-атаки (cache stampede) — множество одновременных запросов к одному отсутствующему в кэше ключу создаёт большую нагрузку. Решается синхронизацией доступа (локи), либо предварительным прогревом кэша.

Проблема согласованности данных в многотабличных кэшах 📊🔄

При хранении разных типов данных (новости, погода, курс валют) в одном кэше, но в разных разделах, возможна рассинхронизация: новости могут обновиться, а курс валют — нет.

Решение:

Использовать тегирование кэша, связывая данные с тегами, и инвалидиовать по группам тегов.
Применять механизмы версионирования данных.

Многомерный кэш и уровни хранения 🏗️

Кэширование часто организуют на нескольких уровнях:

Браузер (локальный кэш)
Прокси-сервер (NGINX и пр.)
Внутренний кэш приложения (map в памяти)
Внешние кэш-сервисы (Redis, Tarantool)
Кэш СУБД (page cache и т.д.)

Сложность в согласовании данных между уровнями. Нужно аккуратно проектировать инвалидацию, иначе пользователи могут получить устаревшие данные 🧐.

Как оценить полезность кэширования? 📈

Существует формула, позволяющая вычислить эффективность:

Среднее время доступа = (Кэш Мисс Рейт * Время доступа к БД) + (Кэш Хит Рейт * Время доступа к кэшу)

Если этот показатель больше времени прямого обращения к базе данных, значит, кэш неэффективен.

Для оценки нужна метрика времени отклика и частоты промахов.

Итоговые советы и понимание системного дизайна 🧩

Кэширование — мощный инструмент, но требует понимания бизнес-логики и частоты изменений данных.
Выбор конкретного алгоритма и способа хранения должен основываться на характеристиках приложения и нагрузке.
Учиться системному дизайну важно для архитекторов, разработчиков и инженеров, чтобы создавать отказоустойчивые и масштабируемые системы.
Продуманное обучение, практика и обмен опытом в области системного проектирования позволяют успешно решать сложные задачи.

Весь материал дополняется возможностью задавать вопросы и получать практические советы — подход, который помогает не только освоить концепты, но и подготовиться к реальным проектам и собеседованиям по системному дизайну.

Как кэшировать данные | Теория кэширования - System Design