Частые вопросы
Какой процент точности считается достаточным для боевого использования?
Это зависит от цены ошибки. Для сигналов входа в сделку — 70% и выше, для отсева заведомо плохих идей — 60%. Если неправильный совет потеряет вам 5% портфеля, требуйте 85%+. Помните: модель ошибается, и это нормально; важно знать, насколько часто.
Нужно ли заново валидировать промпт, если я поменял модель (например, с GPT на Claude)?
Да, обязательно. Разные модели по-разному интерпретируют инструкции, работают с контекстом, калибруют уверенность. На Claude промпт может работать лучше или хуже, чем на GPT, даже если сам текст промпта не изменился. Проверьте на 10–20 примерах.
Можно ли использовать одних и тех же примеров для валидации несколько раз?
Нет. После первой валидации эти примеры уже не тестовые, а учебные — они повлияли на ваше решение улучшить промпт. Для честной оценки берите свежие примеры или делите исходный набор на трени и тест 70/30 с самого начала.
Что если промпт даёт разные ответы на один и тот же вопрос?
Это нормально при температуре >0. Запустите промпт 3–5 раз на одном примере и смотрите, насколько часто модель соглашается сама с собой. Если в 80% запусков один и тот же ответ — модель уверена. Если ответы скачут — либо температура слишком высокая, либо промпт недостаточно уточнен.
Зачем нужна лучше формализованная оценка, если я могу просто поговорить с моделью?
Потому что субъективное ощущение «модель мне помогает» не скажет, ошибается ли она на 30% или на 50%. Когда вы инвестируете реальные деньги, чётные числа важнее впечатлений. Кроме того, при частом использовании промпта легко привыкнуть к его слепым пятнам и перестать их замечать.