Harness-инжиниринг как следующая стадия работы с AI-агентами

Или что приходит на смену промпт-инжинирингу и контекст-инжинирингу

Рубрика: статья

Автор: Артем Пичугин

Время чтения: 9 мин

Степень использования AI в создании этого материала: тема и ключевой управленческий фокус заданы человеком; ресерч, структурирование и черновая версия подготовлены с помощью AI; редактура выполнена человеком и AI.

Мы считаем важным открыто информировать о том, в какой степени ИИ использовался в написании материала, поскольку только такой подход способен создавать доверие между нами и читателем.

За последний год язык вокруг прикладной работы с LLM заметно расширился. Сначала рынок обсуждал в основном промпт-инжиниринг: как точнее задать инструкцию. Затем Anthropic в материале о context engineering описал более широкий слой как контекст-инжиниринг: если агент работает в цикле, качество зависит уже от всей конфигурации того, что он видит на каждом шаге, а не только от исходного текста инструкции. Эта логика сочетается и с документацией Anthropic по prompt engineering, где качество инструкции тоже рассматривается как часть более широкого инженерного контура.

В феврале 2026 OpenAI вывел следующий практический слой через термин harness engineering: проектирование среды, в которой агент получает понятную документацию, доступы, инструменты, проверки, review loops и точки человеческого контроля. Тема быстро вышла вперед в тот момент, когда команды начали давать реальные длинные задачи агентам для работы с кодом вроде Codex и Claude Code.

Для больших команд это стало серьезным вызовом, который потребовал новой дисциплины управления. Как только агент становится полноценным участником процесса — от написания кода до его дальнейшего деплоя — компании приходится проектировать одновременно и формат его ответов, и весь рабочий контур, в котором он действует.

Harness engineering полезно понимать как проектирование рабочего контура агента: знаний, прав, проверок и точек человеческого контроля.

Почему prompt engineering уже недостаточно

Промпт-инжиниринг остается важным. Anthropic в Prompt Engineering Overview рекомендует начинать с критериев успеха, тестовых примеров и рабочей версии инструкции. Это полезное напоминание: хороший промпт всегда был и остается важным инженерным артефактом.

OpenAI в Prompt Optimizer идет еще дальше и строит улучшение промпта вокруг датасетов, разметки, грейдеров и ручной проверки результата перед выводов в продакшен. Даже на этом слое зрелая команда работает через цикл измерения и проверки.

Ограничение проявляется тогда, когда агенту дают длинную задачу. Сбой часто связан с тем, какие документы он прочитал, какие инструменты ему доступны, где ему не хватило памяти и был ли предусмотрен stop-gate перед рискованным действием. В такой ситуации дополнительная правка промпта может слегка пригладить симптом, но не исправит контур.

Поэтому промпт-инжиниринг сегодня лучше воспринимать как первый слой. Он отвечает за намерение и рамку задачи, но не закрывает вопрос о том, как агент действует в реальном большом проекте с разросшейся документацией и кодовой базой.

Почему тема резко вышла вперед именно сейчас

Причина проста: агенты стали намного автономнее, а модели, лежащие у них под капотом, умнее. Агенты для работы с кодом уже умеют читать репозиторий, править файлы, запускать тесты, делать несколько итераций и возвращаться с результатом, который выглядит как законченный фрагмент работы, а не как отдельный ответ в чате, который потом приходится вручную дописывать.

OpenAI в материале про harness engineering описывает внутреннюю практику “humans steer, agents execute” (люди управляют, агенты исполняют), где агенты берут на себя длинные исполнительские циклы, а люди задают направление и проверяют ключевые решения. Anthropic в документации по памяти для Claude Code показывает похожую логику: проектные инструкции и накопленная память становятся постоянным рабочим слоем автономного агента.

Как только это происходит в реальной команде на реальном проекте, вопрос быстро становится острым. Ключевыми становятся правила, по которым агент читает проект, какие действия он может делать сам, а где обязан остановиться и как команда увидит ошибку раньше, чем она станет дорогой.

На самом деле такой подход касается не только разработки ПО. При помощи таких агентов можно работать и в других доменах: в аналитике, внутренних операциях, поддержке и редакционных процессах и мн. др. Короткое задание еще можно удержать промптом и настройкой контекста, длинный воркфлоу уже требует управляемого проектного контура.

Что добавил context engineering

Контекст-инжиниринг оказался важным шагом, но тоже промежуточным. В Effective context engineering for AI agents Anthropic пишет, что речь идет об управлении всем набором токенов и состояний, влияющих на поведение модели: системный промпт, инструменты, внешние данные, MCP, история чата и другими слоями контекста.

Это изменило сам объект проектирования. Инженер перестал думать только о формулировке запроса и начал собирать конфигурацию поведения. Отсюда, как показывает Anthropic в том же материале, появляются практики предоставления только нужной информации в моменте, ее поэтапного предоставления, схлопывания контекста и ведения дневника принятых решений: агенту важен своевременно поданный релевантный контекст вместо максимально длинного и широкого.

Документация Claude Code по memory хорошо показывает, как эта логика приземляется в продукте. Файл CLAUDE.md задает постоянные глобальные инструкции по проекту, а так называемое auto memory накапливает рабочие наблюдения и важные факты по ходу выполнения задач. Документация и память начинают жить вместе с агентом, а не отдельно от него. Он начинает участвовать в их создании и накоплении.

Но у этой рамки есть граница. Контекст-инжиниринг отвечает на вопрос, что агент видит и как добирает нужное состояние. Он слабее описывает кто является владельцем правил и имеет право их менять, свежесть документов, политику риска, stop/go-gates и маршрутизацию исключений. Как только именно эти вещи становятся критичными, разговор естественно переходит к harness engineering.

Почему именно harness

Этимологически понятие harness касается различной экипировки для управления лошадьми: лошадь сама по себе сильная, но убежит не туда, если ее не направлять. Для нашей инженерной рамки это хорошая аналогия: harness делает силу агента направляемой и пригодной для работы.

В применении к AI-агентам метафора работает буквально. Модель дает мощность: генерацию, планирование, работу с инструментами. Контекст подает ей нужное состояние и информационный слой. Harness добавляет оснастку вокруг агента: понятный маршрут, границы автономии, правила остановки и критерии того, что считается приемлемым результатом.

OpenAI в своем материале пишет, что раздутый файл AGENTS.md наподобие энциклопедии — плохая практика, а полезным считается короткий входной документ, который ведет агента в структурированную базу знаний. В этот же слой попадают планы проекта как верхнеуровневые документы, правила валидации результата и регулярное причесывание документации, чтобы агент не терялся в сгенерированном им же потоке информации.

Поэтому harness engineering не стоит считать просто новым названием для context engineering. Здесь объект управления шире доступного агенту контекста и включает всю среду исполнения, в которой знания, правила, проверки и контрольные точки собраны в одну рабочую систему. Это больше про процесс и организацию работы.

Что входит в harness engineering

Если собрать практику в один список, она выглядит очень приземленно. В harness входят системные инструкции, проектные документы, файлы памяти, контракты инструментов, права и доступы, алгоритмы исполнения, наборы данных для проверки качества, QA-артефакты, manifest-файлы, правила эскалации решений и точки, когда нужно запросить мнение человека. Именно из этих скучных на вид элементов и складывается управляемость агентной работы.

OpenAI считает глобальный файл AGENTS.md ключевым местом для верхнеуровневых инструкций и рекомендует аналогичные, но более специфичные для проекта, инструкции внутри локальных репозиториев, где ближайший файл AGENTS.md получает приоритет. Так появляется многослойная система с понятным наследованием и владением вместо одного большого плейбука.

Документы, планы и QA-артефакты в такой конфигурации влияют на каждый последующий шаг агента и становятся частью его исполняемой среды.

Как работают большие команды с AI-агентами

В инженерной команде все обычно начинается с того, чтобы все было прозрачным, читабельным и управляемым. Есть короткая верхнеуровневая карта проекта, локальные инструкции по сервисам, гейты тестирования и политики код ревью. Агент получает задачу вместе с маршрутом: что читать сначала, какие команды запускать, какие проверки обязательны и где остановиться при конфликте.

В операционных процессах или процессах работы с текстом или другими артефактами harness выглядит спокойнее, но работает по той же логике. Если агенту поручают собрать пакет для публикации статьи в блоге или аналитический материал, ему нужны бриф, план статьи, проделанные исследования, отчет проверки качества и валидация получаемых результатов. В таком случае агент двигается по четко определенному воркфлоу, где каждый следующий шаг опирается на проверяемый артефакт предыдущего.

На управленческом уровне это уже часть операционной модели. BCG в Enterprise as Code пишет, что компаниям придется фиксировать скрытые правила работы как исполняемую логику, а политики управления и контроля должны встраиваться в нее с самого начала. Для больших команд harness-инжиниринг как раз и становится такой логикой: способом превратить автономного агента в управляемого участника процесса.

Источник: сгенерировано в Nano Banana Pro

Траектория prompt engineering -> context engineering -> harness engineering полезна потому, что она показывает реальный сдвиг единицы проектирования. Сначала мы управляли словами (токенами и семантикой). Затем стали управлять конфигурацией контекста. Теперь все чаще с ростом автономии агента приходится проектировать уже сам рабочий контур агента: его знания, права, проверки и точки человеческого контроля. Промпт и контекст становятся производными.

Зрелость агентного проекта теперь определяется не только моделью и слоем доступа к нужной информации, но и тем, насколько хорошо спроектирован harness вокруг агента. Слабый harness дает впечатляющие демо и хрупкое исполнение. Сильный harness делает агента надежным участником командной работы, которая хорошо организована и не создает лишнего неуправляемого хаоса ни в самих артефактах, ни в документации проекта.

Если вам хочется глубже погрузиться в тему проектирования агентных воркфлоу, проектных инструкций, контуров оценки и управляющего harness вокруг AI-агентов, то мы можем организовать под вас соответствующее обучение. Достаточно позвонить нам или заполнить форму на нашей главной странице, и мы с вами свяжемся.

Также приходите знакомиться лично на наши бесплатные мероприятия.

Другие материалы нашего блога