Как работают тестовые вычисления
Принцип: Как увеличение вычислительных мощностей при обучении (train time compute) делает модель умнее, увеличение токенов при генерации (test time compute) повышает качество её работы.
Доказательство на графиках: Производительность Claude (Opus, Sonnet, Haiku) на внутренних бенчмарках (кодирование, DeepSeek QA, PhD-экзамены) линейно растёт с увеличением количества использованных токенов.
Пример с моделированием движения машин:
- Низкое усилие (Low Effort): Быстро (~50 сек, ~4600 токенов). Создана простая, но функциональная симуляция. Светофор расположен нелогично.
- Высокое усилие (High Effort): Вдвое больше времени и токенов. Симуляция детальнее, появились разные типы машин, светофор висит над дорогой, водители «умнее».
- Максимальное усилие (Max Effort): В 10 раз больше ресурсов. Наиболее детализированная и реалистичная симуляция с корректной физикой и сложным поведением машин.
Вывод: Больше токенов → больше времени на «размышление» → более качественный и сложный результат.