Что такое эвалы?
Эвалы — это систематические тесты, которые измеряют, насколько хорошо AI-система справляется с конкретной задачей или доменом. Они дают информацию о качестве результатов, сильных и слабых сторонах системы и показывают пути для улучшений.
Эвалы состоят из задач, которые моделируют определённые сценарии, и логики оценивания, которая кодирует ожидания от системы. Если эвал падает — вы сразу знаете, что агент ведёт себя не так, как задумано.