Cursor показал, как 1000 ИИ-агентов пишут код без человека

0e204b1519459d96981ea617e329688e.jpg

Команда AI-редактора Cursor опубликовала детальный разбор архитектуры мультиагентной системы, которая на пике делала около 1000 коммитов в час — 10 млн вызовов инструментов за неделю непрерывной работы без вмешательства человека. Тестовым проектом был веб-браузер на Rust.

Путь к рабочей архитектуре оказался извилистым. Первая попытка — дать агентам равные роли и общий файл для координации — провалилась сразу: агенты забывали снимать блокировки, путались в состоянии, а 20 параллельных агентов выдавали производительность одного-трех.

Вторая схема с разделением на "планировщик — исполнитель — воркеры — судья" работала лучше, но оказалась слишком жесткой и упиралась в самого медленного воркера. Третья — непрерывный исполнитель с правом планировать — начала демонстрировать патологическое поведение: агент засыпал, отказывался делегировать задачи, преждевременно заявлял об успехе.

Финальная архитектура напоминает обычную команду разработки. Корневой планировщик владеет всей задачей и порождает подпланировщиков для отдельных направлений. Воркеры берут конкретные задачи, работают в собственной копии репозитория и ничего не знают о системе в целом. По завершении они передают "хэндофф" — не просто отчет о проделанном, а заметки, сомнения, отклонения от плана и обратную связь.

Информация поднимается вверх по цепочке без глобальной синхронизации.

Один из ключевых выводов: требование 100-процентной корректности каждого коммита убивало производительность. Одна опечатка или изменение API останавливали всю систему, агенты бросались чинить одно и то же. Cursor сознательно разрешил небольшой процент ошибок — они быстро исправлялись другими агентами, а общий уровень оставался стабильным. Для релизов предусмотрена отдельная "зеленая" ветка с финальной проверкой.

Команда также обнаружила, что качество начальных инструкций важнее модели и архитектуры. Нечеткие формулировки вроде "реализуй спецификацию" приводили к тому, что агенты уходили в редкие пограничные кейсы вместо приоритетных задач.

Ограничения ("никаких TODO, никаких частичных реализаций") работали лучше прямых указаний, а конкретные диапазоны ("сгенерируй 20–100 задач") — лучше размытых формулировок вроде «сделай много». Автор исследования Уилсон Лин рекомендует относиться к модели как к блестящему новому сотруднику, который знает инженерию, но не знает вашу кодовую базу.

P.S. Поддержать меня можно подпиской на канал " сбежавшая нейросеть ", где я рассказываю про ИИ с творческой стороны.

😔

Здесь пока пусто

У первых комментариев больше шансов попасть в топ. Пишите!

Комментарии
Пока нету комментариев...