Что такое SAC и DDPG и чем они отличаются для задач портфельного управления?
SAC (Soft Actor-Critic) максимизирует ожидаемую награду плюс энтропию политики — это встроенная регуляризация против переобучения. DDPG (Deep Deterministic Policy Gradient) работает с непрерывным пространством действий (веса активов) через детерминированную политику. Для портфельных задач SAC устойчивее на зашумлённых рынках за счёт энтропийного члена, DDPG быстрее сходится на стабильных данных. Нюанс: оба алгоритма чувствительны к выбору функции награды — неправильно заданный CVaR-штраф ведёт к избыточной консервативности.