VTORNIK.Вечер #5: саммари выступлений

Рубрика: мероприятия

Автор: Елена Третьякова

Время чтения: 7 мин

Степень использования AI в создании этого материала: 90% работы по созданию данного материала сделал ИИ.

Мы считаем важным открыто информировать о том, в какой степени ИИ использовался в написании материала, поскольку только такой подход способен создавать доверие между нами и читателем.

27 января мы провели юбилейный пятый VTORNIK.Вечер в рамках серии бесплатных оффлайн мероприятий о внедрении AI в организациях. На мероприятии присутствовали СЕО и CDO компаний, технические руководители, AI-leaders, аналитики, ML-инженеры и разработчики. В программе было два доклада.

С первым докладом — “Персонализация под капотом или грабли на пути к счастью клиентов” — выступал Александр Ульянов, Директор по Персонализации, Звук (Сбер). В прошлом Александр работал Chief Data Scientist Платежей и Переводов В2С, Сбер, MLOps & MLPlatform B2C Lead, Сбер, и Product Lead "Контекстные рекомендации В2С", тоже в Сбере.

Презентацию Александра можно найти в комментариях к посту в нашем телеграм-канале.

Часто, когда бизнес говорит о персонализации, все представляют верхушку айсберга: рекомендации в стримингах, умную ленту или пуш от банка. Но что находится под водой?

Александр рассказал, почему модель бесполезна без инфраструктуры, как сэкономить 67% бюджета на данных и почему фанаты метала внезапно начинают получать рекомендации поп-музыки.

Главная идея выступления: «Пирамида персонализации»

Клиент видит только результат (рекомендацию), но чтобы она случилась, нужен огромный инфраструктурный слой. Без него Data Science превращается в «файлик в Jupyter Notebook», который невозможно доставить до пользователя.

В Сбере 6 лет Александр с разных сторон подходил к тому, чтобы можно было персонализировать сервисы на базе моделей в продакшене. И благодаря этому опыту за 2 года в Звуке удалось сделать современную и эффективную инфраструктуру для персонализации множества сервисов.

“Пирамида Персонализации” состоит из трех слоев: инфраструктурные платформы, знания (content management, client profile), продуктовые платформы (рекомендации, поиск, CVM, CJM). Но в саммари выступления мы подробно остановимся только на инфраструктурной платформе.

Александр выделил 4 ключевые платформы, без которых ML не взлетит:

1. Data Platform (Хранение и обработка)

Кейс Сбера: Раньше данные считались на «подстольных серверах» вне контура безопасности. Результаты перекладывались вручную через файлообменники. Итог: персональное предложение доходило до офиса банка за 45–70 дней и становилось неактуальным (клиент уже взял кредитку в другом месте).
Кейс Звука: Внедрение архитектуры Lakehouse (разделение Compute и Storage). Это позволило масштабироваться и снизило стоимость владения инфраструктурой на 67%.

2. ML Platform (Управление моделями)

Дата-саентисты не должны лезть «ручками в прод». Нужны изолированные среды (dev, test, prod) и автоматизированный деплой.
Важно грамотно управлять ресурсами GPU (технология Multi-Instance GPU), иначе одна маленькая модель «съедает» всю видеокарту.

3. Платформа экспериментов (A/B тесты)

Без платформы эксперименты наслаиваются друг на друга, каннибализируя данные.
Важно адаптировать платформу под бизнес: в Звуке сначала сплитовали пользователей по ID установки приложения (это было не очень корректно), а после запуска умных колонок и веб уже невозможно было проводить эксперименты, и платформу пришлось переделывать.

4. Платформа разметки

Критически важна для валидации моделей.
Аутсорс — дорого и небезопасно (данные нельзя отдавать вовне). Краудсорс — шумно. Приходится строить in-house решения для быстрой оценки гипотез.

Боль с качеством данных (Garbage In — Garbage Out)

Даже идеальная инфраструктура не спасет, если данные «грязные». Александр привел яркие примеры из Звука:

Дубли контента: 45% контента дублировалось. Рекорд — 3800 дублей одного трека (из-за сборников, переизданий и т.д.). Это убивает поиск и рекомендации — пользователю 10 раз подряд предлагают одно и то же.
Проблема жанров («Метал стал Попсой»): Пользователи жаловались на странные рекомендации. Выяснилось, что поставщики присылали верные жанры, но система загрузки (написанная айтишниками без ТЗ от контентщиков) при пустом поле жанра автоматически ставила «Pop». В итоге фанаты рока получали попсу.
Права и статистика: Когда у трека меняется правообладатель, старый трек удаляется, заливается новый. Вся накопленная статистика (прослушивания, лайки) слетает, и рекомендации рушатся.

Итоги:

Time-to-Market: В Сбере внедрение правильной Data-платформы позволило перейти от обновлений раз в месяц к расчетам в реальном времени (или по запросу клиента в офисе).
Экономия: Правильная архитектура (Lakehouse + Multi-Instance GPU) кратно снижает затраты на железо.
Команда: Лучше всего работают кросс-функциональные команды, где ML, продукт и бэкенд сидят вместе и пользуются единой платформой.

Вывод Александра: Не пытайтесь сразу «накрутить ML». Сначала наведите порядок в данных, уберите дубли и постройте фундамент. Без этого вы будете просто сжигать бюджеты на GPU.

Вторым спикером VTORNIK.Вечер с темой “Внедрение AI-агента в процесс инцидент-менеджмента в телекоме” был Александр Иваночкин, DS Team Lead, билайн. Ранее 8 лет внедрял решения на основе AI в банковской сфере, в роли исполнительного директора лидировал внедрение ИИ в программу лояльности Сбера.

Делимся ключевыми инсайтами выступления Александра. Презентацию можно найти в комментариях к посту в нашем телеграм-канале.

Александр поделился инсайдами о том, как компания внедряет ИИ для автоматизации работы с инцидентами на телеком оборудовании.

Проблема: классической автоматизации уже недостаточно

В техническом блоке билайна уровень автоматизации высок — всё, что можно было «захардкодить» классическими скриптами, уже сделано. Однако оборудование (базовые станции, транспортная сеть) периодически ломается, и диагностика требует рутинного ручного труда: зайти на железку, ввести команды, проанализировать огромный лог.

Цель внедрения ИИ:

Снизить время простоя оборудования (MTTR) и first touch time.
Повышение производительности труда.
Уменьшить количество выездов инженеров «в поля».
Фиксировать цифровой след (понять, почему инженер принял то или иное решение, чего не видно в обычных логах).

Решение: гибридная архитектура, а не просто чат-бот
Александр подчеркнул, что они не пытаются «забивать гвозди микроскопом», решение представляет собой сложную систему, где LLM — лишь один из компонентов.

Из чего состоит система:

Классический ML: Используется для бинарных и простых задач (нужен выезд или нет, самоустранится ли авария, маршрутизация тикета). Это дешевле и надежнее для простых паттернов.
RAG (Retrieval Augmented Generation):
По историческим данным: Поиск похожих инцидентов в прошлом, чтобы понять, как их решали раньше.
По документации: Поиск по сотням PDF-файлов с инструкциями от вендоров (Huawei, Ericsson, Nokia и др.).
AI-агент (Ядро системы): Агрегирует данные от ML-моделей и RAG, формирует контекст и принимает решения.

Как работает AI-агент в «боевых» условиях
Агент работает итеративно (до 25 шагов) и обладает недетерминированной логикой. Он не просто дает советы, он ходит на реальное оборудование:

Получение контекста: Агент видит тикет и данные мониторинга.
Действие: Агент сам решает, какую команду запустить на железке (например, пинг или проверка статуса платы).
Анализ: Получает output (который может быть огромным), анализирует его и обновляет свой контекст.
Решение: Планирует следующий шаг или выносит вердикт (например, «нужен рестарт платы»).

«Человеку не надо делать множество манипуляций. Агент тратит на диагностику около 2 минут».

Выбор модели и борьба с галлюцинациями
Команда протестировала около 20 моделей.

Выбор: Остановились на Open Source модели Qwen 30B A3B. Она показала ~95% точности на бенчмарках по вендорам Huawei и Nokia.
Проблема галлюцинаций: LLM может выдумать несуществующее атрибуты команд (например, номер интерфейса).
Решение: Агент перепроверяет факты в базе данных инвентаризации перед запуском команды. Также используется модуль саморефлексии.

Безопасность и контроль
Самый частый вопрос: «А не сделает ли ИИ rm -rf на всей сети?».

Ограничения: Агент работает только с согласованным пулом команд.
Human-in-the-loop: На этапе пилота критические действия (например, перезагрузку оборудования) агент только рекомендует, а кнопку нажимает инженер. В будущем планируется полная автономность для проверенных сценариев.

Главные инсайты пилота

Бизнесу не нужны большие тексты: Заказчики (инженеры) не хотят читать длинные рассуждения LLM в свободной форме. Им нужен строгий, структурированный отчет: что сломалось, что сделано, итог.
Open Source не знает телеком: Базовые модели плохо понимают специфику телеком-оборудования. Необходим файн-тюнинг или создание специализированных моделей.
Команда: Для успеха нужны не только Data Scientists, но и системные аналитики и эксперты по оборудованию, чтобы правильно составить промпты и инструкции.

Итог: Пилот идет с 22 декабря, зафиксированы первые положительные результаты в целевых метриках, система работает стабильно, падений не зафиксировано. В планах — масштабирование на всю сеть и подключение новых вендоров.

Наши ивенты дают хорошую возможность пообщаться и обменяться опытом внедрения ИИ, будем рады видеть вас на нашем следующем оффлайн встрече в марте. Следите за анонсами в нашем телеграм-канале.

Если вы хотите провести образовательную программу в своей компании или получить консультацию наших преподавателей и экспертов, пожалуйста, связывайтесь удобным вам способом, контакты на нашем сайте.

Отдельная благодарность нашим партнерам, компании «Virtu Systems», за возможность провести этот митап в их гостеприимном офисе.

Другие материалы нашего блога