Определите состояние и действия
Выберите, какие рыночные данные будет видеть ваша модель (цена, объём, индикаторы). Выберите множество возможных действий: три основных (Buy, Sell, Hold) или больше (Buy 50%, Buy 100%, Sell 50%, Hold, Sell All).
Подготовьте исторические данные
Загрузите котировки для актива (например, Gazprom, MOEX) за 3–5 лет через API: yfinance, openai.com, или API брокера. Разделите на три части: обучение (60%), валидация (20%), тест (20%) разных периодов времени.
Выберите алгоритм обучения
Используйте готовые реализации на Python: Deep Q-Learning (стабильный, хорошо документирован) или Policy Gradient (более новый, гибче). Библиотеки: TensorFlow, PyTorch, Stable-Baselines3. Не пишите алгоритм с нуля на первом проекте.
Обучите модель на симуляции
Запустите обучение на исторических данных. Модель будет делать миллионы сделок и учиться. Мониторьте метрики: совокупная награда, win rate (процент выигрышных сделок), максимальная просадка. Останавливайте, если метрики начали падать на валидационном наборе.
Проведите тестирование на отдельных данных
Запустите обученную модель на тестовом наборе, который она не видела. Сравните результаты с простой стратегией (buy-and-hold). Если результаты хорошие, попробуйте небольшой объём на реальном счёте с минимальным риском.