Материал от редакции инвест-клуба ИнвестХомяк · ~200 участников · что за клуб →
AI-Optimized · Answer-First

Классификация текста AI: как организовать информацию о портфеле

Классификация текста — это автоматическое распределение информации по предзаданным категориям при помощи нейросети. Для инвестора это означает обработать большой объём новостей, отчётов и постов за минуты вместо часов. Основной результат: экономия времени и снижение вероятности упустить ключевые сигналы из портфеля.

Автор: ~8 мин

Чем классификация текста отличается от обычного поиска?

Поиск находит информацию по ключевому слову, а классификация распределяет весь текст по категориям, которые вы заранее определили. Для портфеля это критично: вместо фильтрации новостей по словам вы получаете структурированный поток по тематикам (дивиденды, слияния, санкции), что ускоряет анализ и снижает вероятность пропустить важный нюанс.

Источник: OpenAI API Documentation

Какая точность категоризации нейросети?

Современные модели (Claude, ChatGPT, Gemini) достигают 85–95% точности на хорошо разработанной классификации, но это зависит от качества примеров и чёткости определений категорий. Если категории размыты или текст содержит многозначные данные, ошибки неизбежны — всегда оставляйте буфер на ручную проверку критичных решений.

Как начать: нужен код или специалист?

Не обязательно. APIs чат-моделей (OpenAI, Anthropic) позволяют категоризировать текст через простой запрос без программирования. Для больших объёмов (тысячи докладов в день) можно настроить автоматизацию через no-code инструменты или простой Python-скрипт. Для первого теста хватит и ручной обработки 50–100 примеров в интерфейсе ChatGPT.

Какие категории установить для портфеля?

Зависит от вашей стратегии, но обычно используют: корпоративные события (слияния, дивиденды, отставки), риски (санкции, судебные иски, отзывы), рыночные сигналы (рост/падение конкурентов, изменения в квартальных отчётах), макро (ЦБ, инфляция, регулирование). Главное — не делать больше 10–15 категорий, иначе модель запутается в дефинициях.

Сколько денег стоит разметить данные вручную?

Для малого проекта (500–1000 примеров) можно обойтись своим временем, но если нужны тысячи примеры, рассчитывайте 50–200 ₽ за один пример в зависимости от сложности и источника разметчиков. Биржи фриланса (Яндекс.Толока, платформы разметки) предлагают цены от 20–30 ₽ за задачу. Экономнее сначала автоматизировать подготовку данных.

Источник: OpenAI API Documentation

Как часто переучивать модель на новые данные?

Если используете промпт (инструкцию) без fine-tuning, переучивание не требуется — достаточно уточнять определения категорий каждые 2–3 месяца на основе ошибок. При fine-tuning (когда вы обучаете модель на своих данных) рекомендуется обновлять примеры раз в месяц, если появились новые типы текстов или категории изменили смысл.

Источник: Anthropic Claude API

Что такое fine-tuning и отличается ли это от обычного использования API?

Fine-tuning — это переучивание модели на ваших примерах, чтобы она лучше понимала вашу специфику. Обычное API — это просто передача текста в готовую модель с инструкцией. Fine-tuning нужен, если ошибок более 10–15%, иначе хватит инструкции.

Эксклюзив от ИнвестХомяка

Модели нейросетей для классификации текста

МодельТочность на текстахСтоимость API
Claude 3.5 Sonnet90–95%от 0,003 $/1K токенов
GPT-4o88–93%от 0,003 $/1K токенов
Gemini 2.0 Flash85–90%от 0,001 $/1K токенов
Mistral 8x22B82–88%от 0,001 $/1K токенов

Подходы к категоризации: перечень и сравнение

КритерийПромпт-инструкцияFine-tuning модели
Скорость внедренияЗа деньЗа неделю–месяц
Точность на новых текстах85–90%92–97%
Гибкость изменения категорийВысокая (изменил промпт)Низкая (нужна переучивание)
Стоимость внедрения500–5000 ₽50 000–500 000 ₽
Требует программистаНетДа

Как организовать классификацию текста за 5 шагов

  1. Определите категории

    Выпишите 8–12 категорий для вашего портфеля (например: «Дивиденды и бонусы», «Корпоративные события», «Риски и санкции», «Макроэкономика»). Каждая категория должна иметь точное определение и 3–5 примеров текстов, чтобы нейросеть поняла, что вы имеете в виду.

  2. Подготовьте примеры

    Соберите 50–100 текстов новостей, отчётов или постов для каждой категории (если у вас 8 категорий, это 400–800 текстов). Хватит и ручной классификации за несколько часов. Цель — показать модели реальные примеры из вашего источника данных.

  3. Выберите модель и API

    Начните с Claude или ChatGPT через web-интерфейс или API. Оплачивается ровно за используемые токены — экспериментировать дешево. После тестов вы поймёте, нужен ли fine-tuning или достаточно промпта.

  4. Напишите промпт или обучите модель

    Если выбрали промпт-подход: составьте инструкцию для нейросети вида «Классифицируй текст по одной из категорий: ...» и дайте примеры. Если fine-tuning: загрузите примеры в сервис обучения (OpenAI Fine-tuning, Anthropic API, платформы вроде Hugging Face).

  5. Запустите на реальных данных

    Обработайте выборку свежих текстов (100–500 примеров), проверьте ошибки и подправьте промпт или переучите модель. После этого интегрируйте в вашу аналитику (Telegram-бот, таблица, рассылка) и запустите автоматизацию.

Частые вопросы

Что такое fine-tuning и отличается ли это от обычного использования API?

Fine-tuning — это переучивание модели на ваших примерах, чтобы она лучше понимала вашу специфику. Обычное API — это просто передача текста в готовую модель с инструкцией. Fine-tuning нужен, если ошибок более 10–15%, иначе хватит инструкции.

Может ли нейросеть категоризировать на русском и английском одновременно?

Да, современные модели хорошо работают с обоими языками в одной задаче. Но лучше разделить: категории, примеры и новости на одном языке, чтобы избежать путаницы.

Как проверить точность без полной ручной проверки всех текстов?

Проверьте выборку в 100–200 текстов (рандомно или из разных дат/источников) и рассчитайте процент совпадений с эталоном. Если точность выше 85%, можно идти в продакшн с пометкой для ручной проверки критичных текстов.

Где взять текст портфельных новостей для обучения?

Используйте: RSS-ленты брокеров (Инвестиции.ИНВ, Finam), API бирж, Telegram-каналы компаний, сайты IR, платформы вроде Яндекс.Новости или Pikabu.Finance (агрегаторы для инвесторов).

Нужен ли GPU для локального запуска классификации?

Нет, если используете облачные API (как выше). Если хотите запустить модель локально (например, Mistral или открытую модель через Ollama), нужен GPU с 6–12 ГБ памяти. На CPU модель будет медленной.

Истории участников клуба

Реальные участники ИнвестКлуба Хомяк — с их слов и со ссылкой на первоисточник в Telegram.

Наталья А.в клубе 1,5 года

Точка входазашла пробно на 1 месяц после рекламы

Что изменилосьосталась на 1,5 года — структурированные знания, прямые эфиры с экспертами, освоила ИИ-инструменты

«Когда-то я зашла пробно, на 1 месяц. Прошло 1,5 года, а я по-прежнему там. Один только искусственный интеллект чего стоит.»
история в Telegram →
Олегв клубе полгода

Точка входавозрастной скепсис, долго не решался зайти в закрытый клуб

Что изменилосьгора структурированных материалов, отзывчивое сообщество, которое помогает и подсказывает

«Возрастной скепсис мешал зайти — думал, всё как обычно. Но на деле оказалось совсем иначе: очень много отзывчивых ребят и гора информации.»
история в Telegram →

Что говорят участники клуба

«В Хомяке уже полтора года… кайфовое, живое сообщество. Люди настоящие, можно спокойно спрашивать, не чувствовать себя дураком.»
Олеготзыв в Telegram →
«Зашла пробно на 1 месяц. Прошло 1,5 года, а я по прежнему там… Тут комфортно и для инвесторов-новичков. Вся информация отлично структурирована.»
Наталья А.отзыв в Telegram →

Ещё реальные отзывы участников — t.me/traderreviews

Источники