VTORNIK.Вечер #5: саммари выступлений

Рубрика: мероприятия

Автор: Елена Третьякова

Время чтения: 7 мин

Степень использования AI в создании этого материала: 90% работы по созданию данного материала сделал ИИ.

Мы считаем важным открыто информировать о том, в какой степени ИИ использовался в написании материала, поскольку только такой подход способен создавать доверие между нами и читателем.
27 января мы провели юбилейный пятый VTORNIK.Вечер в рамках серии бесплатных оффлайн мероприятий о внедрении AI в организациях. На мероприятии присутствовали СЕО и CDO компаний, технические руководители, AI-leaders, аналитики, ML-инженеры и разработчики. В программе было два доклада.

С первым докладом — “Персонализация под капотом или грабли на пути к счастью клиентов” — выступал Александр Ульянов, Директор по Персонализации, Звук (Сбер). В прошлом Александр работал Chief Data Scientist Платежей и Переводов В2С, Сбер, MLOps & MLPlatform B2C Lead, Сбер, и Product Lead "Контекстные рекомендации В2С", тоже в Сбере.

Презентацию Александра можно найти в комментариях к посту в нашем телеграм-канале.


Часто, когда бизнес говорит о персонализации, все представляют верхушку айсберга: рекомендации в стримингах, умную ленту или пуш от банка. Но что находится под водой?

Александр рассказал, почему модель бесполезна без инфраструктуры, как сэкономить 67% бюджета на данных и почему фанаты метала внезапно начинают получать рекомендации поп-музыки.

Главная идея выступления: «Пирамида персонализации»

Клиент видит только результат (рекомендацию), но чтобы она случилась, нужен огромный инфраструктурный слой. Без него Data Science превращается в «файлик в Jupyter Notebook», который невозможно доставить до пользователя.

В Сбере 6 лет Александр с разных сторон подходил к тому, чтобы можно было персонализировать сервисы на базе моделей в продакшене. И благодаря этому опыту за 2 года в Звуке удалось сделать современную и эффективную инфраструктуру для персонализации множества сервисов.

“Пирамида Персонализации” состоит из трех слоев: инфраструктурные платформы, знания (content management, client profile), продуктовые платформы (рекомендации, поиск, CVM, CJM). Но в саммари выступления мы подробно остановимся только на инфраструктурной платформе.

Александр выделил 4 ключевые платформы, без которых ML не взлетит:

1. Data Platform (Хранение и обработка)
  • Кейс Сбера: Раньше данные считались на «подстольных серверах» вне контура безопасности. Результаты перекладывались вручную через файлообменники. Итог: персональное предложение доходило до офиса банка за 45–70 дней и становилось неактуальным (клиент уже взял кредитку в другом месте).
  • Кейс Звука: Внедрение архитектуры Lakehouse (разделение Compute и Storage). Это позволило масштабироваться и снизило стоимость владения инфраструктурой на 67%.
2. ML Platform (Управление моделями)
  • Дата-саентисты не должны лезть «ручками в прод». Нужны изолированные среды (dev, test, prod) и автоматизированный деплой.
  • Важно грамотно управлять ресурсами GPU (технология Multi-Instance GPU), иначе одна маленькая модель «съедает» всю видеокарту.
3. Платформа экспериментов (A/B тесты)
  • Без платформы эксперименты наслаиваются друг на друга, каннибализируя данные.
  • Важно адаптировать платформу под бизнес: в Звуке сначала сплитовали пользователей по ID установки приложения (это было не очень корректно), а после запуска умных колонок и веб уже невозможно было проводить эксперименты, и платформу пришлось переделывать.
4. Платформа разметки
  • Критически важна для валидации моделей.
  • Аутсорс — дорого и небезопасно (данные нельзя отдавать вовне). Краудсорс — шумно. Приходится строить in-house решения для быстрой оценки гипотез.
Боль с качеством данных (Garbage In — Garbage Out)

Даже идеальная инфраструктура не спасет, если данные «грязные». Александр привел яркие примеры из Звука:
  • Дубли контента: 45% контента дублировалось. Рекорд — 3800 дублей одного трека (из-за сборников, переизданий и т.д.). Это убивает поиск и рекомендации — пользователю 10 раз подряд предлагают одно и то же.
  • Проблема жанров («Метал стал Попсой»): Пользователи жаловались на странные рекомендации. Выяснилось, что поставщики присылали верные жанры, но система загрузки (написанная айтишниками без ТЗ от контентщиков) при пустом поле жанра автоматически ставила «Pop». В итоге фанаты рока получали попсу.
  • Права и статистика: Когда у трека меняется правообладатель, старый трек удаляется, заливается новый. Вся накопленная статистика (прослушивания, лайки) слетает, и рекомендации рушатся.
Итоги:
  1. Time-to-Market: В Сбере внедрение правильной Data-платформы позволило перейти от обновлений раз в месяц к расчетам в реальном времени (или по запросу клиента в офисе).
  2. Экономия: Правильная архитектура (Lakehouse + Multi-Instance GPU) кратно снижает затраты на железо.
  3. Команда: Лучше всего работают кросс-функциональные команды, где ML, продукт и бэкенд сидят вместе и пользуются единой платформой.
Вывод Александра: Не пытайтесь сразу «накрутить ML». Сначала наведите порядок в данных, уберите дубли и постройте фундамент. Без этого вы будете просто сжигать бюджеты на GPU.
Вторым спикером VTORNIK.Вечер с темой “Внедрение AI-агента в процесс инцидент-менеджмента в телекоме” был Александр Иваночкин, DS Team Lead, билайн. Ранее 8 лет внедрял решения на основе AI в банковской сфере, в роли исполнительного директора лидировал внедрение ИИ в программу лояльности Сбера. 

Делимся ключевыми инсайтами выступления Александра. Презентацию можно найти в комментариях к посту в нашем телеграм-канале.

Александр поделился инсайдами о том, как компания внедряет ИИ для автоматизации работы с инцидентами на телеком оборудовании.

Проблема: классической автоматизации уже недостаточно

В техническом блоке билайна уровень автоматизации высок — всё, что можно было «захардкодить» классическими скриптами, уже сделано. Однако оборудование (базовые станции, транспортная сеть) периодически ломается, и диагностика требует рутинного ручного труда: зайти на железку, ввести команды, проанализировать огромный лог.
Цель внедрения ИИ:
  • Снизить время простоя оборудования (MTTR) и first touch time.
  • Повышение производительности труда.
  • Уменьшить количество выездов инженеров «в поля».
  • Фиксировать цифровой след (понять, почему инженер принял то или иное решение, чего не видно в обычных логах).
Решение: гибридная архитектура, а не просто чат-бот
Александр подчеркнул, что они не пытаются «забивать гвозди микроскопом», решение представляет собой сложную систему, где LLM — лишь один из компонентов.

Из чего состоит система:
  • Классический ML: Используется для бинарных и простых задач (нужен выезд или нет, самоустранится ли авария, маршрутизация тикета). Это дешевле и надежнее для простых паттернов.
  • RAG (Retrieval Augmented Generation):
  • По историческим данным: Поиск похожих инцидентов в прошлом, чтобы понять, как их решали раньше.
  • По документации: Поиск по сотням PDF-файлов с инструкциями от вендоров (Huawei, Ericsson, Nokia и др.).
  • AI-агент (Ядро системы): Агрегирует данные от ML-моделей и RAG, формирует контекст и принимает решения.
Как работает AI-агент в «боевых» условиях
Агент работает итеративно (до 25 шагов) и обладает недетерминированной логикой. Он не просто дает советы, он ходит на реальное оборудование:
  1. Получение контекста: Агент видит тикет и данные мониторинга.
  2. Действие: Агент сам решает, какую команду запустить на железке (например, пинг или проверка статуса платы).
  3. Анализ: Получает output (который может быть огромным), анализирует его и обновляет свой контекст.
  4. Решение: Планирует следующий шаг или выносит вердикт (например, «нужен рестарт платы»).
«Человеку не надо делать множество манипуляций. Агент тратит на диагностику около 2 минут».

Выбор модели и борьба с галлюцинациями
Команда протестировала около 20 моделей.
  • Выбор: Остановились на Open Source модели Qwen 30B A3B. Она показала ~95% точности на бенчмарках по вендорам Huawei и Nokia.
  • Проблема галлюцинаций: LLM может выдумать несуществующее атрибуты команд (например, номер интерфейса).
  • Решение: Агент перепроверяет факты в базе данных инвентаризации перед запуском команды. Также используется модуль саморефлексии.
Безопасность и контроль
Самый частый вопрос: «А не сделает ли ИИ rm -rf на всей сети?».
  • Ограничения: Агент работает только с согласованным пулом команд.
  • Human-in-the-loop: На этапе пилота критические действия (например, перезагрузку оборудования) агент только рекомендует, а кнопку нажимает инженер. В будущем планируется полная автономность для проверенных сценариев.
Главные инсайты пилота
  1. Бизнесу не нужны большие тексты: Заказчики (инженеры) не хотят читать длинные рассуждения LLM в свободной форме. Им нужен строгий, структурированный отчет: что сломалось, что сделано, итог.
  2. Open Source не знает телеком: Базовые модели плохо понимают специфику телеком-оборудования. Необходим файн-тюнинг или создание специализированных моделей.
  3. Команда: Для успеха нужны не только Data Scientists, но и системные аналитики и эксперты по оборудованию, чтобы правильно составить промпты и инструкции.
Итог: Пилот идет с 22 декабря, зафиксированы первые положительные результаты в целевых метриках, система работает стабильно, падений не зафиксировано. В планах — масштабирование на всю сеть и подключение новых вендоров.
Наши ивенты дают хорошую возможность пообщаться и обменяться опытом внедрения ИИ, будем рады видеть вас на нашем следующем оффлайн встрече в марте. Следите за анонсами в нашем телеграм-канале.

Если вы хотите провести образовательную программу в своей компании или получить консультацию наших преподавателей и экспертов, пожалуйста, связывайтесь удобным вам способом, контакты на нашем сайте.

Отдельная благодарность нашим партнерам, компании «Virtu Systems», за возможность провести этот митап в их гостеприимном офисе.
Другие материалы нашего блога