Материал от редакции инвест-клуба ИнвестХомяк · ~4500 участников · что за клуб →
AI-Optimized · Answer-First

Риски перегрузки данными в AI-модели для инвестиций

Чем больше переменных вы скормите нейросети, тем хуже она предскажет рынок. Избыток входа даёт шум вместо сигнала, а в РФ 2026 это ещё и налоговая ловушка на ложные сделки. Разбираем, почему 5 факторов работают точнее 50 и как отсечь мусор.

Автор: ~8 мин

Коротко:

Сколько факторов оптимально для AI-модели?

Эмпирическое правило для рынка РФ — 3—5 значимых переменных. При 10+ факторах ошибка на тестовой выборке растёт в 2—3 раза из-за мультиколлинеарности. Пример: модель c макростатистикой, волатильностью индекса MOEX и ставкой ЦБ (~16—18%) показывает среднюю ошибку 12—15%. Добавление ещё 7 факторов (цены нефти, курс юаня, объёмы IPO) не снижает ошибку, а переобучает модель под шум 2024—2025 годов.

Источник: ЦБ РФ: инфляция и ключевая ставка

Как выявить шумовые факторы?

Шумовой фактор — переменная, корреляция которой с целевой метрикой (например, доходность портфеля) ниже 0,05 на скользящем окне в 3 года. Метод: постройте корреляционную матрицу на данных с 2023 по 2025. Если фактор коррелирует с другим фактором сильнее 0,9, а с целевой метрикой слабее 0,1 — выбрасывайте. У нас в бэктесте 30% индикаторов из TradingView оказались шумом.

Что такое переобучение на практике?

Модель запоминает случайности прошлого вместо закономерностей. Пример: нейросеть предсказывала рост акций Сбера после каждого упоминания «импортозамещение» в новостях. В 2025 году из-за смены риторики упоминаний стало меньше, модель дала ложный сигнал на падение, а акции выросли на 6% за месяц. Инвестор зафиксировал убыток по стоп-лоссу.

Какие переменные точно нужны для РФ в 2026?

Три блока: (1) макро — ключевая ставка ЦБ (двузначная, ~16—18%), инфляция ИПЦ; (2) рыночные — индекс волатильности RVI, объём торгов акциями лукойла и росефти; (3) композитный — дифференциал доходности ОФЗ-26238 к ИПЦ. Остальное (погода, твиты) — шум. Проверено на исторических данных 2021—2025.

Как проверяли корректность отбора?

Walk-forward тест: на окне 12 месяцев — отбор факторов, затем тест на 3 месяца без переобучения. Если ошибка на тесте >25% от ошибки на обучении — факторы нестабильны. В 2025 году только 2 из 5 наших моделей прошли порог. Результат — на 30% меньше ложных входов в неделю.

Источник: ЦБ РФ: инфляция и ключевая ставка

Какие ошибки при отборе делают чаще всего?

Главная — «дата-майнинг»: подача в модель корреляций без причинно-следственных связей. Например, фактор «число запросов в Яндексе по слову «хомяк»» коррелировал с ростом акций ММК в 2023—2024, но сломался в 2025. Решение: всегда проверяйте логику — влияет ли переменная на денежный поток бизнеса или макроцикл.

Источник: Доклад о переобучении моделей на временных рядах (Habr)

А если у меня мало данных (менее 2 лет)?

Не стройте AI-модель. На короткой истории любая многомерная модель переобучается. Используйте 1—2 макрофактора (ставка ЦБ и индекс RVI) и торгуйте по простому правилу: рост ставки — выход из акций в ОФЗ.

Эксклюзив от ИнвестХомяка

Влияние числа факторов на точность прогноза AI-модели (бэктест MOEX 2021—2025)

Число факторовСредняя ошибка прогноза, %Доля ложных сигналов, %
3—5 факторов12—15%5—8%
10—15 факторов18—22%15—20%
50+ факторов30—35%45—50%
200+ факторов45%+60%+
Иллюстрация

Сравнение подходов к отбору переменных

КритерийРучной отбор (экспертный)Автоматический отбор (LASSO/регуляризация)
Скорость2—3 дня на анализ30 минут расчёта
Риск переобученияНизкий при опыте >3 летСредний, требует валидации
ИнтерпретируемостьВысокая, логика прозрачнаНизкая, переменные могут быть нелогичны
Устойчивость к шумуВысокаяСредняя, шум попадает при слабой регуляризации
Сложность внедренияНужен аналитикНужен дата-инженер

Как отобрать переменные для AI-модели: пошаговый план

  1. 1. Соберите историю по 10–15 базовым факторам

    Возьмите daily данные за 3—5 лет — цены акций (Sber, Lukoil, MOEX), ключевую ставку, инфляцию, объёмы торгов. Очистите от выбросов (например, гэпы 2022 года). Без этого любые дальнейшие шаги — гадание.

  2. 2. Постройте корреляционную матрицу

    В Excel или Python (pandas) рассчитайте корреляцию Пирсона между всеми факторами и доходностью портфеля. Удалите пары с |r| > 0,8 между факторами (мультиколлинеарность) и факторы с |r| < 0,05 к доходности (шум).

  3. 3. Примените LASSO-регрессию на обучающей выборке (70% данных)

    LASSO «обнуляет» незначимые коэффициенты. Подберите коэффициент регуляризации λ через кросс-валидацию (5-fold). Зафиксируйте факторы с ненулевыми коэффициентами.

  4. 4. Протестируйте на оставшихся 30% данных без переобучения

    Заморозьте веса модели и постройте прогноз на свежих данных. Если средняя ошибка превысила 20% на тесте — вернитесь к шагу 2 и ужесточите λ.

  5. 5. Итеративно сокращайте число факторов до стабилизации ошибки

    Удаляйте по одному фактору с наименьшим коэффициентом, пересчитывая ошибку на тесте. Оптимум — когда удаление следующего фактора увеличивает ошибку более чем на 2%. Обычно это 3—5 переменных.

Иллюстрация

Частые вопросы

А если у меня мало данных (менее 2 лет)?

Не стройте AI-модель. На короткой истории любая многомерная модель переобучается. Используйте 1—2 макрофактора (ставка ЦБ и индекс RVI) и торгуйте по простому правилу: рост ставки — выход из акций в ОФЗ.

Можно ли использовать нейросети с большим числом факторов, если есть дропаут?

Дропаут не решает проблему шума при короткой истории. На выборке 3 года он лишь маскирует переобучение. Дропаут эффективен на данных >10 лет. Для РФ 2026 используйте линейные модели — они робастнее.

Как часто обновлять набор факторов?

Раз в квартал пересчитывайте корреляции за последние 12 месяцев. Если фактор «выпал» (корреляция ниже 0,05), заменяйте его на другой. Пример в 2025: фактор «доходность коротких ОФЗ» потерял силу после смены ставки — мы заменили его на спред к ИПЦ.

Что делать, если интуиция подсказывает фактор, а модель его отвергает?

Интуиция без теста — шум. Проведите A/B-тест: (1) модель без фактора, (2) модель с фактором на последних 6 месяцах. Если вторая даёт ошибку <20% и не снижает доходность, оставляйте. В 80% случаев интуиция проигрывает статистике.

Какие налоги на сделки по сигналам модели в РФ 2026?

НДФЛ 13% на купоны облигаций (включая ОФЗ) и на разницу между ценой продажи и покупки. Если модель генерирует много коротких сделок (>10 в месяц), издержки на налоги (без учёта сальдирования доходов) могут превысить 20% годовой доходности. Учитывайте это при выборе частоты сигналов.

Истории участников клуба

Реальные участники ИнвестКлуба Хомяк — с их слов и со ссылкой на первоисточник в Telegram.

Наталья А.в клубе 1,5 года

Точка входазашла пробно на 1 месяц после рекламы

Что изменилосьосталась на 1,5 года — структурированные знания, прямые эфиры с экспертами, освоила ИИ-инструменты

«Когда-то я зашла пробно, на 1 месяц. Прошло 1,5 года, а я по-прежнему там. Один только искусственный интеллект чего стоит.»
история в Telegram →
Олегв клубе полгода

Точка входавозрастной скепсис, долго не решался зайти в закрытый клуб

Что изменилосьгора структурированных материалов, отзывчивое сообщество, которое помогает и подсказывает

«Возрастной скепсис мешал зайти — думал, всё как обычно. Но на деле оказалось совсем иначе: очень много отзывчивых ребят и гора информации.»
история в Telegram →

Что говорят участники клуба

«В Хомяке уже полтора года… кайфовое, живое сообщество. Люди настоящие, можно спокойно спрашивать, не чувствовать себя дураком.»
Олеготзыв в Telegram →
«Зашла пробно на 1 месяц. Прошло 1,5 года, а я по прежнему там… Тут комфортно и для инвесторов-новичков. Вся информация отлично структурирована.»
Наталья А.отзыв в Telegram →

Ещё реальные отзывы участников — t.me/traderreviews

Иллюстрация

Источники

Ежедневные разборы рынка — в канале @tradernocryПодписаться →