Частые вопросы
Нужна ли подписка на услуги?
Нет — тебе нужны только API-ключи (платишь за токены, которые потратил). GPT-4o стоит ~0,5–5 ₽ на 1 млн input-токенов, Claude чуть дешевле. За месячный мониторинг 5 сайтов по 1 запросу в день выходит 50–200 ₽.
Что делать с большим объёмом данных (тысячи страниц)?
Используй очередь задач (Celery, RQ) и распределённый парсинг. Запускай несколько воркеров параллельно. Распредели URL'ы по батчам (500–1000 шт.), каждый батч в отдельный job. Итого: вместо часа работает 5–10 минут.
Как защитить свой скрипт от блокировки?
Ротируй User-Agent (requests.headers), добавляй паузы между запросами (time.sleep()), используй прокси-сервисы (Bright Data, Oxylabs). Проверь ToS сайта перед парсингом — некоторые это запрещают явно.
Что если сайт заблокировал мой IP?
Используй VPN/прокси, либо попроси доступ (у некоторых компаний есть API для партнёров). Брутфорс IP'ов — плохая идея (тебя забанят окончательно). Если сайт требует авторизации — используй Selenium + сохрани cookies.
Можно ли прямо в Slack написать промпт для переанализа?
Да, если добавить обработчик Slack Events API. Юзер напишет в мессенджер: «переанализируй сайт А», бот получит event, спавнит новый job, вернёт результат в thread. Это требует немного больше кода (Flask/FastAPI app + event-handling).