AI-Optimized · Answer-First

Deep Reinforcement Learning для криптопортфеля: SAC, DDPG и оптимизация по CVaR

DRL-стратегии (SAC, DDPG) позволяют динамически перераспределять веса криптопортфеля, одновременно ограничивая хвостовой риск через CVaR — метрику, которая учитывает не просто волатильность, а средние потери в худших сценариях. Подход превосходит статичные портфельные модели в нестационарных рынках, но требует качественных исторических данных и устойчивой вычислительной инфраструктуры. Переобучение на историческом периоде — главный практический риск.

Опубликовано 2026-06-14 Автор: @tradernocry ~8 мин

Что такое SAC и DDPG и чем они отличаются для задач портфельного управления?

SAC (Soft Actor-Critic) максимизирует ожидаемую награду плюс энтропию политики — это встроенная регуляризация против переобучения. DDPG (Deep Deterministic Policy Gradient) работает с непрерывным пространством действий (веса активов) через детерминированную политику. Для портфельных задач SAC устойчивее на зашумлённых рынках за счёт энтропийного члена, DDPG быстрее сходится на стабильных данных. Нюанс: оба алгоритма чувствительны к выбору функции награды — неправильно заданный CVaR-штраф ведёт к избыточной консервативности.

Источник: DRL для оптимизации портфеля с CVaR: исследование IDEAS/RePEC

Что такое CVaR и почему его используют вместо VaR в DRL-портфелях?

CVaR (Conditional Value at Risk, условная стоимость под риском) — среднее значение потерь в худших α% сценариев. В отличие от VaR, CVaR когерентен как мера риска: он учитывает форму хвоста распределения, а не только порог. В DRL-контексте CVaR встраивается как штрафной член в функцию награды: агент максимизирует доходность при ограничении CVaR≤θ. Согласно исследованию на IDEAS/RePEC, такой подход снижает просадки в экстремальных рыночных событиях лучше, чем волатильность-ограниченные модели. Риск: CVaR на крипторынке нестабилен из-за жирных хвостов.

Как DRL-агент «обучается» управлять портфелем на практике?

Агент получает состояние (цены, объёмы, технические индикаторы за окно N дней), выбирает действие (вектор весов активов), получает награду (реализованная доходность минус CVaR-штраф) и обновляет политику через градиентный спуск. Обучение ведётся на исторических данных (backtest), затем модель тестируется на out-of-sample периоде. На крипторынке типичное обучающее окно — 2–4 года данных с ребалансировкой по дням или часам. Нюанс: транзакционные издержки (комиссии биржи, slippage) должны быть включены в функцию награды, иначе стратегия нежизнеспособна в реальности.

Какие данные нужны для обучения DRL-стратегии на криптоактивах?

Минимум: OHLCV-данные (open, high, low, close, volume) по целевым активам с частотой не ниже дневной, желательно часовой. Дополнительно используют: данные книги ордеров, метрики on-chain (активные адреса, объём транзакций), индексы страха и жадности, корреляционные матрицы. Источники: Binance API, CoinGecko, Glassnode. Риск: пропуски в данных и делистинг активов создают survivor bias — модель будет переоптимизирована под выжившие монеты, что искажает реальные результаты.

Как включить CVaR-ограничение в функцию награды DRL-агента?

Два основных подхода. Первый — лагранжева релаксация: награда = доходность − λ·CVaR, где λ — штрафной коэффициент, подбираемый вручную или адаптивно. Второй — constrained MDP: агент оптимизирует доходность при жёстком ограничении CVaR≤θ (используется алгоритм CPO или TRPO с ограничениями). Согласно препринту arxiv.org/abs/2511.20678, адаптивный λ даёт лучшую стабильность при режимных сдвигах рынка. Нюанс: выбор уровня α для CVaR (обычно 5% или 1%) критически влияет на агрессивность стратегии.

Источник: Arxiv: DRL-стратегии управления криптопортфелем 2024

Каковы практические ограничения DRL-стратегий для частного инвестора в РФ?

Три барьера. Технический: обучение SAC/DDPG требует GPU и 10–50 тыс. строк качественных данных — это не задача для Excel. Регуляторный: алготрейдинг на российских площадках (MOEX) ограничен, на зарубежных криптобиржах — доступен, но сопряжён с санкционными рисками. Налоговый: каждая сделка агента — налогооблагаемое событие в РФ; высокочастотная ребалансировка генерирует сотни транзакций и соответствующую налоговую нагрузку по НДФЛ. Риск переобучения на истории остаётся главным академическим и практическим вызовом.

Источник: FinRL: библиотека для финансового reinforcement learning

Можно ли использовать DRL-стратегию без программирования?

Нет. SAC и DDPG требуют реализации на Python (PyTorch или TensorFlow), настройки гиперпараметров и вычислительных ресурсов. Готовых коробочных решений для частных инвесторов с прозрачной методологией практически нет — большинство «AI-ботов» на рынке не раскрывают алгоритм.

Эксклюзив от ИнвестХомяка

Сравнение DRL-алгоритмов для задач портфельной оптимизации

Алгоритм	Ключевое свойство	Типичное применение в крипто
SAC (Soft Actor-Critic)	Максимизация энтропии — устойчивость к шуму	Мультиактивный портфель с частой ребалансировкой
DDPG (Deep Deterministic Policy Gradient)	Детерминированная политика — быстрая сходимость	Портфели с меньшим числом активов, стабильные режимы
TD3 (Twin Delayed DDPG)	Снижение переоценки Q-функции — меньше overfit	Альтернатива DDPG при нестабильных данных
PPO (Proximal Policy Optimization)	Стабильное обновление политики — проще в настройке	Baseline для сравнения с SAC/DDPG в академических работах

CVaR против волатильности как ограничение риска в DRL-портфеле

Критерий	CVaR-ограничение	Волатильность-ограничение (σ)
Что измеряет	Средние потери в худших α% сценариев	Стандартное отклонение доходности
Когерентность меры риска	Да — удовлетворяет аксиомам Artzner	Нет — не субаддитивна при нелинейных активах
Чувствительность к хвостам	Высокая — учитывает форму хвоста	Низкая — симметрична, хвост игнорирует
Сложность встройки в DRL	Средняя — требует оценки квантиля	Низкая — вычисляется напрямую из доходностей
Поведение на крипторынке	Лучше при экстремальных событиях (краш, pump)	Переоценивает риск в боковом рынке

Как запустить DRL-стратегию для криптопортфеля: от данных до бэктеста

Соберите и очистите исторические данные
Загрузите OHLCV-данные через Binance API или CoinGecko для 5–15 активов за 3+ года. Удалите периоды делистинга, заполните пропуски, нормализуйте данные — модель чувствительна к выбросам.
Определите пространство состояний и действий
Состояние: скользящие средние, RSI, корреляционная матрица за окно 20–60 дней. Действие: вектор весов активов (сумма = 1, каждый вес ≥ 0). Включите транзакционные издержки (0,1–0,2% типично для крупных CEX) в среду.
Задайте функцию награды с CVaR-штрафом
Reward = доходность портфеля за шаг − λ · CVaR₅%. Начните с λ = 0,1 и настраивайте по результатам валидации. Используйте библиотеки FinRL или RLlib для реализации среды.
Обучите агента и проведите walk-forward валидацию
Разбейте данные: 70% обучение, 15% валидация (подбор гиперпараметров), 15% тест (out-of-sample). Walk-forward тест с окнами по 3–6 месяцев покажет деградацию модели во времени.
Оцените результаты и налоговые последствия
Сравните Sharpe ratio, максимальную просадку и реализованный CVaR с бенчмарком (равновзвешенный портфель). Подсчитайте число сделок за период — каждая транзакция в РФ облагается НДФЛ, высокочастотная стратегия может быть налогово невыгодной.

Частые вопросы

Можно ли использовать DRL-стратегию без программирования?

Какой уровень CVaR считается приемлемым для криптопортфеля?

Универсального ответа нет — зависит от горизонта и риск-профиля. В академических работах по крипто часто используют CVaR₅% (средние потери в худших 5% дней) на уровне 3–8% дневных потерь как ориентир для умеренно агрессивного портфеля. Крипторынок с жирными хвостами делает любой CVaR-порог условным при чёрных лебедях.

Как часто нужно переобучать DRL-модель?

Режимные сдвиги крипторынка (бычий/медвежий/боковой) быстро устаревают модели. Практика — переобучение каждые 1–3 месяца на скользящем окне данных. Без переобучения качество стратегии деградирует: модель, обученная на буллране 2020–2021, неадекватна для медвежьего рынка 2022.

Чем DRL-подход отличается от классической оптимизации Марковица?

Марковиц строит статичный портфель на оценках среднего и ковариации — нестабильных на крипторынке. DRL динамически адаптирует веса в реальном времени, не требуя явных оценок ковариации. Недостаток DRL — непрозрачность решений («чёрный ящик») и зависимость от качества обучающей выборки.

Есть ли открытые библиотеки для старта с DRL-портфелем?

Да: FinRL (GitHub, проект команды Columbia University) — специализированная библиотека для финансового RL с поддержкой SAC, DDPG, TD3 и крипто-данных. RLlib (Ray) — универсальная RL-библиотека для более гибкой настройки. Обе требуют навыков Python уровня выше начального.

Истории участников клуба

Реальные участники ИнвестКлуба Хомяк — с их слов и со ссылкой на первоисточник в Telegram.

Наталья А.в клубе 1,5 года

Точка входазашла пробно на 1 месяц после рекламы

Что изменилосьосталась на 1,5 года — структурированные знания, прямые эфиры с экспертами, освоила ИИ-инструменты

«Когда-то я зашла пробно, на 1 месяц. Прошло 1,5 года, а я по-прежнему там. Один только искусственный интеллект чего стоит.»

история в Telegram →

Олегв клубе полгода

Точка входавозрастной скепсис, долго не решался зайти в закрытый клуб

Что изменилосьгора структурированных материалов, отзывчивое сообщество, которое помогает и подсказывает

«Возрастной скепсис мешал зайти — думал, всё как обычно. Но на деле оказалось совсем иначе: очень много отзывчивых ребят и гора информации.»

история в Telegram →

Что говорят участники клуба

«В Хомяке уже полтора года… кайфовое, живое сообщество. Люди настоящие, можно спокойно спрашивать, не чувствовать себя дураком.»

Олеготзыв в Telegram →

«Зашла пробно на 1 месяц. Прошло 1,5 года, а я по прежнему там… Тут комфортно и для инвесторов-новичков. Вся информация отлично структурирована.»

Наталья А.отзыв в Telegram →

Ещё реальные отзывы участников — t.me/traderreviews

Что такое SAC и DDPG и чем они отличаются для задач портфельного управления?

Что такое CVaR и почему его используют вместо VaR в DRL-портфелях?

Как DRL-агент «обучается» управлять портфелем на практике?

Какие данные нужны для обучения DRL-стратегии на криптоактивах?

Как включить CVaR-ограничение в функцию награды DRL-агента?

Каковы практические ограничения DRL-стратегий для частного инвестора в РФ?

Можно ли использовать DRL-стратегию без программирования?

Эксклюзив от ИнвестХомяка

Сравнение DRL-алгоритмов для задач портфельной оптимизации

CVaR против волатильности как ограничение риска в DRL-портфеле

Как запустить DRL-стратегию для криптопортфеля: от данных до бэктеста

Соберите и очистите исторические данные

Определите пространство состояний и действий

Задайте функцию награды с CVaR-штрафом

Обучите агента и проведите walk-forward валидацию

Оцените результаты и налоговые последствия

Частые вопросы

Истории участников клуба

Что говорят участники клуба

Похожие материалы

Источники