Перейти к основному содержанию
Обложка: Тандем AI-моделей: автономная разработка без
ИИ-гайды

Тандем AI-моделей: автономная разработка без

💡 О чём гайд
Гайд показывает, как разделить разработку между двумя AI-моделями: одна в роли тимлида планирует и ревьюит, другая пишет код. Такой подход исключает предвзятость одной модели, которая сама всё пишет и проверяет. Результат: автономная разработка, быстрый цикл feedback и доказуемое качество через тесты.
📢 Больше разборов — в канале «ИИ для чайников»

Самое большое собрание ИИ-гайдов в рунете

Каждый день — новый разбор. Забирай полностью и применяй.

Одна модель сама пишет и проверяет код — вот корень проблемы предвзятости.
Решение: тимлид (Claude) ревьюит, разработчик (GPT/Cursor) пишет — разные модели от разных компаний.
Критерии приёмки и тесты — объективная база, а не мнение агента.
Цикл: спецификация → имплементация → ревью → верификация → доработка (если нужна).
На практике в реальном проекте написано ~100 000 строк за <$30, используя DeepSeek + Cursor.
Роль человека: нести окончательную ответственность, но не делать ручное ревью.

Почему тандем, а не одна модель?

Главная проблема: одна AI-модель, которая пишет код, уже считает его правильным. Она защищает свои решения, не видит собственных ошибок и пропускает баги, потому что закоснела в своей точке зрения.

Решение — разделение ролей:

  • Тимлид (Claude Opus): Проектирование, документация, постановка задач, строгое ревью по критериям.
  • Разработчик (GPT-4o / Cursor): Пишет код по заданию тимлида.

Ключ успеха: разные модели от разных компаний обеспечивают по-настоящему независимый взгляд.

Цикл разработки (Loop Engineering)

Нормальный цикл разработки отличается от наивного «написано — значит готово»:

  1. Спецификация и критерии приёмки: Чёткое описание задачи и условия, при которых она считается выполненной.
  2. Имплементация: Модель-разработчик пишет код.
  3. Ревью и тестирование: Модель-тимлид проверяет code diff, прогоняет тесты, сверяет с критериями.
  4. Верификация:

    Основные компоненты

    • Если ОК — работа принимается, цикл завершён.
    • Если ошибки — отправляется на доработку с конкретными замечаниями.

Роль человека: нести окончательную ответственность за результат, но не делать ручное ревью, особенно в сложных системах.

Практический пример: экспорт лидов в CSV

Задача: Добавить кнопку экспорта лидов в CSV.

Критерии приёмки (для Claude):

Основные компоненты

  • Есть кнопка в интерфейсе.
  • CSV-файл содержит нужные поля.
  • Обрабатывается пустой список без ошибок.
  • Формат CSV валиден.

Процесс Loop Engineering:

  1. Claude (тимлид) получает промт с задачей и критериями приёмки.
  2. Claude вызывает агента-кодера (Cursor) через команду go в терминале.
  3. Cursor работает в режиме go до выполнения всех условий.
  4. Claude проверяет результат: diff в коде, запускает тесты, ищет нарушения.
  5. Если тесты не проходят — Reject с конкретным списком доработок.
  6. Цикл повторяется, пока все критерии не станут зелёными.

Почему тесты — это всё

Тесты (юнит-, end-to-end, smoke-тесты) — это объективные факты, а не мнение модели.

  • Пока функционал не подтверждён тестами, всё остальное — лишь предположение о работоспособности.
  • Тесты дают измеримое доказательство выполнения задачи: скриншоты, логи, отчёты о покрытии.
  • Это избавляет от необходимости в ручном ревью и спорах о том, работает ли это.

Организация проекта

Для работы тандема используется:

  1. claude.md: Главный файл с описанием проекта, критериями приёмки и явным запретом для Claude писать код самостоятельно.
  2. Skill-файл (например, cursor_teamlead.md): Пошаговое описание цикла Loop Engineering:
    • Как делегировать задачи Cursor.
    • Как настраивать гейты приёмки (gate) в каждый go prompt.
    • Как проводить ревью на предмет «AI slop» (мусора и галлюцинаций в коде).
    • Шаблоны промтов и вспомогательные bash-скрипты.

Зачем платить за две подписки?

Использование двух платных моделей увеличивает расходы, но есть аргументы в пользу:

Главные аргументы

  • Высокая цена ошибки: Если сроки горят и результат должен быть качественным, инвестиция в вторую подписку окупается.
  • Нехватка компетенций: Человеку может потребоваться неделя разбираться в сложном коде, а модель сделает за минуты.
  • Объективность: Разные модели — разные взгляды, что снижает риск пропустить баг.

Оптимальный выбор: платить за вторую подписку, чтобы получить эффективный тандем и не тратить время на ручное ревью.

Результаты на практике

На примере большого бизнес-проекта:

Основные компоненты

  • ~100 000 строк кода написано с использованием DeepSeek в роли кодера и Cursor в роли тимлида.
  • Затраты: менее $30 на всю разработку.

Распределение ролей по моделям:

  • Claude (Anthropic): Для задач, требующих глубокого анализа и ревью, несмотря на более строгие лимиты токенов.
  • Cursor / OpenAI: Для ресурсоёмких задач по генерации кода, где важна экономия токенов.

Главный итог: Такой подход позволяет получать качественный результат автономно, с полной доказательной базой (тесты, артефакты), что ускоряет разработку и повышает уверенность в коде.

Понравился разбор?

В канале «ИИ для чайников» — новый гайд каждый день

Перейти в канал

Разделение ролей между двумя AI-моделями с разными точками зрения — это не способ сэкономить на人力, а инструмент для получения качественного кода автономно. Тесты и критерии приёмки становятся единственным судьёй, что исключает мнение и предвзятость.

Часто задаваемые вопросы

Потому что модель, которая написала код, уже считает его правильным и защищает свои решения. Она не видит собственных ошибок из-за когнитивного смещения. Независимый ревьювер (другая модель) ищет проблемы объективнее.
Критерии должны быть конкретны и проверяемы: наличие UI-элементов, валидность формата данных, обработка edge cases (пустые списки, некорректный ввод), результаты тестов. Не «выглядит хорошо», а измеримые факты.
Да, если цена ошибки высока. Инвестиция в вторую подписку окупается экономией на ручном ревью и уменьшением риска багов. Пример: 100 000 строк кода за <$30 — это рентабельно.
Человек несёт окончательную ответственность за результат и определяет критерии приёмки. Но он не делает ручное ревью кода — это перекладывается на AI-тандем. Человек проверяет только финальный результат и бизнес-логику.

Скачать гайд

Полная версия с примерами и подробными инструкциями.

📢 ИИ для чайников