Создание собственной эвалюации (Eval)
Публичные бенчмарки (SWE-bench, MMLU) не отражают специфику вашей рабочей нагрузки. Необходимо строить приватные эвалюации.
Эвалюация — это набор задач (atomic unit), каждая из которых содержит:
- Входные данные (input)
- Критерии успеха (success criteria)
Аналогия: Эвалюация как школьный экзамен по математике. Важен не только правильный ответ, но и ход решения. Для агентских задач нужно проверять и конечный результат, и правильность промежуточных шагов.
Способы проверки:
- LLM как судья (judge): Гибкая проверка итогового ответа или корректности шагов (например, SQL-запросов)
- Детерминированные проверки (code-based): Точная проверка обязательных действий (например, вызов конкретного инструмента)
Создание репрезентативного набора тестовых данных — одно из самых эффективных вложений человеческого времени в мире автоматизации с помощью ИИ.