Фундамент: Эвалюации (Evaluations)
Перед любыми изменениями нужна система оценки. Эвал-сьют должен включать три типа тест-кейсов для объективного измерения влияния изменений.
Три типа тест-кейсов:
- Контрольный случай: Простой, однозначный запрос, который должен всегда проходить.
- Пограничные случаи (Edge cases): Ситуации, где модель ранее ошибалась.
- Проверка границ возможностей: Понимает ли модель, когда нужно передать задачу человеку или отказаться?
Пример из кейса поддержки телеком-компании:
- Контрольный: «Каков лимит данных в базовом тарифе?»
- Пограничный: Расчёт пропорционального счёта при смене тарифа.
- Проверка эскалации: Перевод к специалисту при ошибке в биллинге.
- Проверка утаивания: Не скрывает ли модель информацию, к которой имеет доступ.
Правило: Эвалюация должна быть настолько строгой, что любое улучшение гарантирует реальный прогресс.