ИИ-гайды

Тандем AI-моделей: автономная разработка без

Q: Почему одна модель не может быть одновременно разработчиком и тимлидом?

Потому что модель, которая написала код, уже считает его правильным и защищает свои решения. Она не видит собственных ошибок из-за когнитивного смещения. Независимый ревьювер (другая модель) ищет проблемы объективнее.

Q: Какие критерии приёмки нужно ставить?

Критерии должны быть конкретны и проверяемы: наличие UI-элементов, валидность формата данных, обработка edge cases (пустые списки, некорректный ввод), результаты тестов. Не «выглядит хорошо», а измеримые факты.

Q: Экономно ли платить за две подписки?

Да, если цена ошибки высока. Инвестиция в вторую подписку окупается экономией на ручном ревью и уменьшением риска багов. Пример: 100 000 строк кода за <$30 — это рентабельно.

Q: Какую роль играет человек в этом цикле?

Человек несёт окончательную ответственность за результат и определяет критерии приёмки. Но он не делает ручное ревью кода — это перекладывается на AI-тандем. Человек проверяет только финальный результат и бизнес-логику.

Разбор от редакции «ИИ для чайников» · Обновлено 17 июня 2026

💡 О чём гайд
Гайд показывает, как разделить разработку между двумя AI-моделями: одна в роли тимлида планирует и ревьюит, другая пишет код. Такой подход исключает предвзятость одной модели, которая сама всё пишет и проверяет. Результат: автономная разработка, быстрый цикл feedback и доказуемое качество через тесты.

📢 Больше разборов — в канале «ИИ для чайников»

📄 Скачать гайд (PDF) 📢 Канал ИИ для чайников

Одна модель сама пишет и проверяет код — вот корень проблемы предвзятости.

Решение: тимлид (Claude) ревьюит, разработчик (GPT/Cursor) пишет — разные модели от разных компаний.

Критерии приёмки и тесты — объективная база, а не мнение агента.

Цикл: спецификация → имплементация → ревью → верификация → доработка (если нужна).

На практике в реальном проекте написано ~100 000 строк за <$30, используя DeepSeek + Cursor.

Роль человека: нести окончательную ответственность, но не делать ручное ревью.

Почему тандем, а не одна модель?

Главная проблема: одна AI-модель, которая пишет код, уже считает его правильным. Она защищает свои решения, не видит собственных ошибок и пропускает баги, потому что закоснела в своей точке зрения.

Решение — разделение ролей:

Тимлид (Claude Opus): Проектирование, документация, постановка задач, строгое ревью по критериям.
Разработчик (GPT-4o / Cursor): Пишет код по заданию тимлида.

Ключ успеха: разные модели от разных компаний обеспечивают по-настоящему независимый взгляд.

Цикл разработки (Loop Engineering)

Нормальный цикл разработки отличается от наивного «написано — значит готово»:

Спецификация и критерии приёмки: Чёткое описание задачи и условия, при которых она считается выполненной.
Имплементация: Модель-разработчик пишет код.
Ревью и тестирование: Модель-тимлид проверяет code diff, прогоняет тесты, сверяет с критериями.
Верификация:
Основные компоненты
- Если ОК — работа принимается, цикл завершён.
- Если ошибки — отправляется на доработку с конкретными замечаниями.

Роль человека: нести окончательную ответственность за результат, но не делать ручное ревью, особенно в сложных системах.

Практический пример: экспорт лидов в CSV

Задача: Добавить кнопку экспорта лидов в CSV.

Критерии приёмки (для Claude):

Основные компоненты

Есть кнопка в интерфейсе.
CSV-файл содержит нужные поля.
Обрабатывается пустой список без ошибок.
Формат CSV валиден.

Процесс Loop Engineering:

Claude (тимлид) получает промт с задачей и критериями приёмки.
Claude вызывает агента-кодера (Cursor) через команду go в терминале.
Cursor работает в режиме go до выполнения всех условий.
Claude проверяет результат: diff в коде, запускает тесты, ищет нарушения.
Если тесты не проходят — Reject с конкретным списком доработок.
Цикл повторяется, пока все критерии не станут зелёными.

Почему тесты — это всё

Тесты (юнит-, end-to-end, smoke-тесты) — это объективные факты, а не мнение модели.

Пока функционал не подтверждён тестами, всё остальное — лишь предположение о работоспособности.
Тесты дают измеримое доказательство выполнения задачи: скриншоты, логи, отчёты о покрытии.
Это избавляет от необходимости в ручном ревью и спорах о том, работает ли это.

Организация проекта

Для работы тандема используется:

claude.md: Главный файл с описанием проекта, критериями приёмки и явным запретом для Claude писать код самостоятельно.
Skill-файл (например, cursor_teamlead.md): Пошаговое описание цикла Loop Engineering:
- Как делегировать задачи Cursor.
- Как настраивать гейты приёмки (gate) в каждый go prompt.
- Как проводить ревью на предмет «AI slop» (мусора и галлюцинаций в коде).
- Шаблоны промтов и вспомогательные bash-скрипты.

Зачем платить за две подписки?

Использование двух платных моделей увеличивает расходы, но есть аргументы в пользу:

Главные аргументы

Высокая цена ошибки: Если сроки горят и результат должен быть качественным, инвестиция в вторую подписку окупается.
Нехватка компетенций: Человеку может потребоваться неделя разбираться в сложном коде, а модель сделает за минуты.
Объективность: Разные модели — разные взгляды, что снижает риск пропустить баг.

Оптимальный выбор: платить за вторую подписку, чтобы получить эффективный тандем и не тратить время на ручное ревью.

Результаты на практике

На примере большого бизнес-проекта:

Основные компоненты

~100 000 строк кода написано с использованием DeepSeek в роли кодера и Cursor в роли тимлида.
Затраты: менее $30 на всю разработку.

Распределение ролей по моделям:

Claude (Anthropic): Для задач, требующих глубокого анализа и ревью, несмотря на более строгие лимиты токенов.
Cursor / OpenAI: Для ресурсоёмких задач по генерации кода, где важна экономия токенов.

Главный итог: Такой подход позволяет получать качественный результат автономно, с полной доказательной базой (тесты, артефакты), что ускоряет разработку и повышает уверенность в коде.

Разделение ролей между двумя AI-моделями с разными точками зрения — это не способ сэкономить на人力, а инструмент для получения качественного кода автономно. Тесты и критерии приёмки становятся единственным судьёй, что исключает мнение и предвзятость.

Часто задаваемые вопросы

Почему одна модель не может быть одновременно разработчиком и тимлидом?

Потому что модель, которая написала код, уже считает его правильным и защищает свои решения. Она не видит собственных ошибок из-за когнитивного смещения. Независимый ревьювер (другая модель) ищет проблемы объективнее.

Какие критерии приёмки нужно ставить?

Критерии должны быть конкретны и проверяемы: наличие UI-элементов, валидность формата данных, обработка edge cases (пустые списки, некорректный ввод), результаты тестов. Не «выглядит хорошо», а измеримые факты.

Экономно ли платить за две подписки?

Да, если цена ошибки высока. Инвестиция в вторую подписку окупается экономией на ручном ревью и уменьшением риска багов. Пример: 100 000 строк кода за <$30 — это рентабельно.

Какую роль играет человек в этом цикле?

Человек несёт окончательную ответственность за результат и определяет критерии приёмки. Но он не делает ручное ревью кода — это перекладывается на AI-тандем. Человек проверяет только финальный результат и бизнес-логику.