Ансамбли ИИ-агентов и гибридные системы

Объединяем достоинства всех элементов в единое целое

Рубрика: статья

Автор: Артем Пичугин

Время чтения: 6 мин

Степень использования AI в создании этого материала: текст написан в значительной степени человеком, некоторые отрывки — перевод исходной статьи при помощи AI, текст отредактирован при помощи AI и человека.

Мы считаем важным открыто информировать о том, в какой степени ИИ использовался в написании материала, поскольку только такой подход способен создавать доверие между нами и читателем.
Эта статья написана по мотивам материала McKinsey “One year of agentic AI: Six lessons from the people doing the work”. В ней рассматриваются несколько важных выводов, которые коллеги получили, внедряя ИИ-агентов в промышленную эксплуатацию у себя и своих клиентов. Мы в своем материале хотим сосредоточиться на ключевом выводе и рассмотреть его подробнее — для того, чтобы создать решение высокого качества, необходимо использовать множество разных инструментов, являющихся идеальными для своего ограниченного контекста.
Одного «супер-агента»
недостаточно
Последнее время и на наших мероприятиях, и в разных статьях прослеживается важная идея: ИИ-агент — это не серебряная пуля, важно понимать его ограничения и применять его соответствующим образом. В статье McKinsey развивают эту мысль дальше. В первую очередь важно на секунду вообще забыть об инструментах и посмотреть непосредственно на процесс и тот результат, который этот процесс производит. Их практика показывает, что простое добавление ИИ в существующий процесс скорее всего принесет незначительный эффект, и в идеале лучше спроектировать этот процесс заново, с самого начала держа в голове, что часть функций будет выполнять ИИ в том или ином виде, а какая-то часть функций может остаться за человеком.
Ключевой вопрос: как нам добиться желаемого результата, имея в доступе существующие технологии и ресурсы, включая ИИ?
Ответом является новый процесс, представляющий собой последовательность «работ», которые необходимо выполнить. Понимая, что приходит на вход и что требуется на выходе, мы можем принять решение о выборе инструмента. В статье приводится следующая логика: если входные данные обладают низкой вариативностью, а сама работа представляет собой строго регламентированную последовательность шагов, то недетерминированные LLM-модели скорее привнесут больше хаоса, чем пользы.
Если же, наоборот, входные данные обладают высокой вариабельностью, а сама последовательность шагов не жестко регламентирована, то ИИ-агенты могут в этом случае создать ценность: например, собрать из разных источников многосоставную финансовую информацию и агрегировать ее в таблицу для последующей верификации человеком.
Более подробная инструкция выглядит следующим образом:
  • Если задача строится на правилах и является повторяющейся, со структурированным вводом (например, ввод данных), используйте rule‑based автоматизацию.
  • Если ввод неструктурированный (например, длинные документы), но задача остаётся экстрактивной или генеративной, используйте генеративный ИИ, обработку естественного языка (NLP) или предиктивную аналитику.
  • Если задача включает классификацию или прогнозирование на основе прошлых данных, используйте предиктивную аналитику или генеративный ИИ.
  • Если выход требует синтеза, суждения или творческой интерпретации, используйте генеративный ИИ.
  • Если задача включает целую последовательность принятия решений и имеет длинный хвост сильно вариативных входов и контекстов, используйте ИИ‑агенты.
В качестве примера приводится процесс по расследованию инцидентов в рамках страховой компании.
Таблица представляет собой удобный фреймворк, в котором слева направо есть несколько стадий этого процесса: прием и сортировка, планирование, анализ доказательств и принятие решений, завершение. Под каждой из стадий описано возможное применение к ней одного из инструментов: система на правилах, аналитический ИИ, генеративный ИИ и агентный ИИ. В статье также описывается и человек как один из элементов такой системы. В таком случае таблица может продолжать расширяться вниз, включая как человека, так и, возможно, какие-то иные способы автоматизации процесса и программные модули.
Оценка качества
Мы уже касались этого момента в одной из наших прошлых статей. Однако, в рамках большой системы из многочисленных элементов, оценка качества становится еще более важной. Если в конечном итоге мы получаем неудовлетворительный для нас результат, то на каком этапе и с каким элементом случился сбой? McKinsey дают следующий список различных метрик и подходов, которые могут пригодиться.
  • Успешность задачи (end‑to‑end): доля процессов, завершённых корректно без эскалации и участия человека; отражает реальную полезность.
  • F1, precision, recall: баланс ложных срабатываний и пропусков; подходит для классификации, извлечения и задач принятия решений с чётким бинарным исходом.
  • Точность извлечения (retrieval accuracy): процент корректно найденных документов, фактов и доказательств относительно эталонного набора; критично для RAG‑воркфлоу.
  • Семантическая близость: косинусное сходство эмбеддингов между сгенерированным и референсным ответами; фиксирует совпадение смысла, а не буквальное совпадение слов.
  • LLM‑судья: оценка выводов относительно «золотых» стандартов или предпочтений людей; хорошо масштабируется для субъективных критериев — ясности, полезности, качества рассуждений.
  • Детекция bias (через матрицы ошибок): измеряет систематические различия по группам пользователей, подсвечивая зоны, где проявляется bias (например, диспропорциональные false negative для одной группы).
  • Частота галлюцинаций: доля фактически неверных или неподкреплённых ничем утверждений; отвечает за доверие к выводам агента.
  • Калибровочная ошибка (уверенность vs точность): показывает, совпадают ли заявленные уровни уверенности агента с реальной картиной мира; важно для риск‑чувствительных процессов.
Отдельно отмечается тот факт, что мониторинг необходимо проводить регулярно и непрерывно — подход «запустил и забыл» в этом случае совершенно не подходит.
В качестве примера приводится случай, когда у одного из клиентов система стала показывать резкое падение точности ответов. Поскольку по всей цепочке был настроен мониторинг, то довольно быстро удалось выявить, что это падение связано с тем, что в нескольких пользовательских сегментах на вход стали подавать некачественные данные. В результате команда одновременно внесла коррективы в свою систему, а также передала гайдлайны для пользователей по форматированию документов, чтобы минимизировать эту ошибку. Особенно такой подход становится актуальным, когда у вас в продакшене работает не одна такая система, а множество. Без него можно погрязнуть в бесконечных поисках ошибок и дебаггинге.
Мы можем под ваш запрос организовать образовательный воркшоп по теме проектирования ИИ-агента в продакшен-среде или созданию RAG-решения продвинутого уровня. Для этого достаточно заполнить форму на нашей главной странице, и мы с вами свяжемся.
Другие материалы нашего блога