Data Governance в эпоху GenAI

Что меняется в управлении данными

Рубрика: статья

Автор: Артем Пичугин

Время чтения: 15 мин

Степень использования AI в создании этого материала: тема и запрос сформулированы человеком, текст написан AI, текст отредактирован при помощи AI и человека.

Мы считаем важным открыто информировать о том, в какой степени ИИ использовался в написании материала, поскольку только такой подход способен создавать доверие между нами и читателем.
Главные изменения в управлении данными в эпоху GenAI связаны с масштабом и скоростью работы с данными. Если раньше аналитические модели строились узкой группой специалистов на ограниченных наборах структурированных данных, то теперь каждый сотрудник потенциально может взаимодействовать с мощной моделью на естественном языке и мгновенно получать результаты, используя при этом любые доступные данные. Такой беспрецедентный охват создает риск хаотичного использования данных без надзора.
Новые риски включают недостаточное качество данных (неточности ведут к «галлюцинациям» модели), непрозрачность происхождения данных (сложнее отследить, на основе каких источников модель делает вывод), отсутствие безопасности (утечки конфиденциальной информации через промпты или обучающие выборки) и доступность (необходимость предоставлять широкому кругу пользователей доступ к надежным данным без потери контроля).
Гибкость и адаптивность
В эпоху GenAI управление данными должно эволюционировать быстрее, чем когда-либо. Если раньше политики обновлялись раз в год и акцент делался на стабильность, теперь требование номер один — уметь быстро подстраивать правила под новые сценарии использования ИИ. Это подтверждают и сами лидеры: по данным Deloitte, компании, внедрившие итеративные модели управления ИИ и данными, в 2,3 раза чаще соблюдают новые регуляции по сравнению с теми, кто цепляется за раз и навсегда установленные регламенты.
Генеративный ИИ постоянно преподносит сюрпризы: появляются новые возможности моделей (например, распространение агентных сценариев, способных автономно выполнять задачи), а вместе с ними и новые риски. Governance-процессы должны пересматриваться по мере эволюции технологий: сегодня в фокусе, например, контроль утечек через промпты, завтра – надзор за решениями автономных AI-агентов.
Организации перестраивают контуры управления данными на принципах agility, используя регулярные аудиты, ретроспективы инцидентов и мониторинг метрик качества, чтобы своевременно обновлять политики. Фактически Data Governance превращается в живой процесс непрерывного улучшения («continuous governance»), а не набор статичных правил.
Единый подход к управлению
данными и ИИ
Появление GenAI заставило компании осознать, что управление данными нельзя рассматривать в отрыве от управления самим ИИ. Раньше Data Governance и AI Governance (этика, риск-модели, валидация моделей) существовали отдельно. Теперь же их границы размываются – данные и модель неразрывно связаны в выдаче результата.
Лучшие практики 2025 года – объединять управление данными и AI в единую функцию или комитет, обеспечивая сквозную ответственность. KPMG в своем обзоре указывает, что идеальная модель управления – это общий “зонт” управления данными и ИИ, который обеспечивает целостный прозрачный контроль над всей информацией, питающей AI-системы, и над самими этими системами. Такой подход ускоряет инновации (нет бюрократии на стыке отделов) и одновременно снижает риски, так как правила единообразно охватывают и данные, и модели.
Практически это выражается в создании межфункциональных советов (AI Councils), куда входят CDO, CIO, специалисты по безопасности, юристы и лидеры AI-направления. Эти советы разрабатывают корпоративные политики использования GenAI, совмещающие требования к данным (качество, приватность, происхождение) и требования к моделям (этические ограничения, верификация качества моделей).
Объединение усилий позволяет, например, встроить контроль качества данных на самых ранних этапах разработки AI-продукта, а не пытаться «прикрутить» его постфактум.
Уже существуют реальные примеры, когда компании внедряют сквозную классификацию данных по уровням приватности и бизнес-ценности прямо в момент их создания, автоматически помечая и ограничивая использование чувствительных данных еще до того, как они попадут в модель. Такой сдвиг в Data Governance – ответ на требования GenAI.
Источник: KPMG, Data Governance in the Age of AI
Новые практики
С распространением GenAI выявились особые уязвимости и проблемы качества данных.
1. Качество данных и риск галлюцинаций. Генеративные модели склонны «галлюцинировать» – т.е. уверенно выдавать неправдивую информацию – особенно когда им не хватает качественного фактического контекста. Если данные, на которых обучена или которыми снабжена модель, содержат ошибки, или они устарели или нерелевантны, риск некорректных ответов резко возрастает. Теперь на первый план выходит глубокая очистка и подготовка данных для GenAI. Компании запускают инициативы Data Quality специально под проекты генеративного ИИ, понимая, что без этого доверие пользователей не завоевать. Один из основных принципов – обеспечивать полноту и целостность данных, на которых основаны выводы модели.
Практически это означает обновление данных перед каждым крупным внедрением AI-инструмента, введение автоматизированных метрик качества, а также расширение понятий качества: помимо корректности и полноты, учитывается предвзятость данных. Согласно опросу IBM, 68% руководителей озабочены проблемой bias в выводах ИИ, однако лишь ~35% компаний имеют процессы для активного обнаружения и смягчения bias. Лучшие компании внедряют проверки выборок на репрезентативность, устраняют дисбаланс (например, в тренировочных данных) и документируют состав датасетов.
Принцип «garbage in – garbage out» сейчас критически важен: GenAI способен усилить шум многократно, поэтому фильтрация «мусора» на входе – первоочередная задача.
2. Происхождение данных и прослеживаемость (lineage). В вопросах доверия и соответствия регуляциям стало ключевым уметь проследить, какие данные легли в основу того или иного вывода модели. В аналитических отчетах прошлого источник каждого показателя был ясен, а в мире GenAI ответ модели может опираться на тысячи фрагментов текста. Без механизмов lineage компании рискуют потерять объяснимость решений ИИ, что неприемлемо, например, в финансовых или медицинских задачах. Однако на практике только 30% организаций сегодня имеют полную видимость своих AI-пайплайнов данных – у большинства нет сквозного учета, какие данные откуда поступили и как трансформировались.
Уже были инциденты: например, финансовая компания не смогла объяснить, почему их AI-модель отклонила заявку на кредит – потом выяснилось, что незаметно был подключен устаревший внешний датасет, исказивший скоринг. Чтобы избежать подобного, внедряются новые инструменты трассировки данных: автоматизированное документирование потоков, версионирование наборов данных, ведение «паспортов» (data sheets) для данных и «Model cards» для моделей. Регуляторы тоже усиливают требования: например, в Европе будущий EU AI Act обяжет обеспечивать надлежащие практики управления обучающими выборками, требуя чтобы датасеты были релевантными, репрезентативными, максимально полными и свободными от ошибок.
Эти критерии качества и полноты по сути делают data lineage обязательным – нужно доказать, что твой обучающий набор соответствовал таким требованиям, а без тотального учета источников это невозможно. В то же время появляются и технические решения: например, в RAG-архитектуре модель возвращает ответ вместе со ссылками на источники, откуда взяты факты. Так достигается прослеживаемость на уровне приложения: пользователь сразу видит, на чем основан ответ AI. Подобные подходы (cite-while-generate) становятся частью практик Data Governance для GenAI.
3. Безопасность и конфиденциальность данных. Массовое использование GenAI создало новый вектор утечек: сотрудники могут неосознанно отправить в промпт модели конфиденциальные сведения, которые затем утекут наружу (например, в облачные сервисы или даже в ответы модели другим пользователям). По оценкам Gartner, до 70% утечек данных, связанных с ИИ, происходят из-за недостаточного контроля доступа и слабых политик разграничения. Компании реагируют введением строгих ограничений и фильтров: многих сотрудников обязали не вводить секретную информацию в публичные AI-сервисы; ряд организаций вовсе временно запрещал ChatGPT, пока не будут настроены безопасные “песочницы”.
Кроме того, на повестке безопасность самих AI-моделей: случаи «prompt injection» атак, когда злоумышленник с помощью специального ввода заставляет модель выдавать скрытые данные или вредоносный контент, показали необходимость новых мер. Лучшие практики включают: шифрование чувствительных данных перед передачей модели; настройку прокси-серверов или API-шлюзов, которые автоматически удаляют или заменяют перс. данные из запросов; ограничения на сохранение логов или специальные средства их обезличивания. Трассировка входов и выходов модели становится обязательной для аудита – кто запросил, какие данные использовал, что получил. Совокупность этих мер отражается в новом понятии AI Data Security.
К нему же относится и защита прав на данные: генеративные модели обучены на массе разнородных данных, и регуляторы требуют убедиться, что обучающие наборы не нарушают авторских прав или GDPR. В июле 2025 Евросоюз выпустил проект гайдов к AI Act, где отдельно оговорено: разработчики генеративных моделей должны публиковать достаточно подробные резюме по использованным данным, включая источники с охраняемым контентом, и внедрить меры предотвращения незаконного генерирования контента. Это фактически новая грань Data Governance – управление правами и лицензиями на данные для ИИ, включая отслеживание, какие данные можно использовать для обучения, а какие нет (например, некоторые компании уже создают реестры “разрешенных” и “запрещенных” источников для обучения своих моделей).
4. Доступность и интеграция данных. GenAI проявил старую проблему новым образом: разрозненность и недоступность данных в организации теперь напрямую влияет на качество AI-решений. Если нужные сведения оказались заперты в каком-то отделе или хранилище, модель либо выдаст неполный ответ, либо сотрудники пойдут за данными в обход правил. Поэтому доступность (availability) стала рассматриваться не просто как uptime систем, но и как организационная доступность данных для AI-приложений. Во многих компаниях проекты GenAI вскрыли, что данные разбросаны по разным системам – CRM отдельно, переписка отдельно, файлы знаний сотрудников еще где-то.
ИИ может раскрыть весь свой потенциал только на интегрированных данных, и компании начинают целенаправленно объединять источники. Например, в одном кейсе ритейлера отсутствие единого доступа к данным общения с клиентами (чаты, email) привело к тому, что модель лояльности пропускала до 40% взаимодействий – просто потому что эти данные жили вне основной CRM-системы. Решение – строить единые “фабрики данных” (data fabric) или data lakes, охватывающие как структурированные, так и неструктурированные данные, с соответствующими правами доступа.
Data Governance при этом должен обеспечить глобальные политики на весь консолидированный массив: единые стандарты качества, единое описание метаданных, централизованные каталоги, где бизнес-пользователи (или их AI-ассистенты) могут найти нужные данные.
Важный аспект – роль data steward’ов расширяется до кросс-функционального уровня: теперь нужны «стюарды» данных, которые смотрят сквозь подразделения, помогая снимать барьеры между силосами.
Таким образом, доступность данных в GenAI-эпоху означает не «открыть всё всем», а обеспечить управляемое распространение данных по всей организации, чтобы ИИ-модели могли черпать информацию из полного спектра корпоративных знаний, но в рамках разрешенных границ.
Технологическое усиление Data Governance
Решая новые задачи, Data Governance сам опирается на технологии нового поколения. Налицо тренд: ИИ помогает управлять данными для ИИ. Несколько примеров:
  • Использование ML-алгоритмов для автоклассификации и обнаружения данных: современные инструменты сканируют корпоративные хранилища, автоматически определяя чувствительность данных, потенциальные связи между наборами, дубликаты. Это существенно снижает ручной труд по инвентаризации данных.
  • Автоматизированное выявление lineage: внедряются решения, которые с помощью AI прослеживают перемещения данных между системами, строят динамические графы lineage и даже предсказывают, какой эффект окажет изменение данных на связанные модели. Теперь инженер данных не вручную рисует схему потоков – система сама поддерживает ее актуальной.
  • Интеллектуальный мониторинг качества: алгоритмы контролируют качество данных в потоковом режиме, обучаясь на типовых ошибках. Например, AI-надстройка может отслеживать аномалии (всплеск пустых значений, резкое изменение распределения) и сразу предпринимать действия – уведомить Steward’а или даже автоматически запустить очистку/трансформацию по заданным правилам. Таким образом, управление качеством становится непрерывным и самоподстраивающимся.
  • NL-интерфейсы (natural language) для доступа к данным: генеративные модели внедряются в инструменты работы с данными – от каталогов до аналитических панелей. Сотрудник может на естественном языке запросить, какие данные есть по теме X, и получить ответ с указанием источников и даже сразу SQL-запросом. Это упрощает доступ к данным (повышает их доступность), одновременно обеспечивая контроль – ведь AI-ассистент знает права доступа пользователя и покажет только разрешенную информацию.
  • AI для соответствия и compliance: новые продукты способны автоматически сопоставлять корпоративные данные с нормативными требованиями – например, находить персональные данные в наборах и проверять, учтены ли требования законодательства, или отслеживать, что все использования данных соответствуют заданным пользовательским соглашениям. По сути, governance эволюционирует из бумажной бюрократии в “continuous intelligence”, когда умные системы сами сигнализируют о рисках до того, как случится нарушение.
Заключение
Генеративный искусственный интеллект оказывает существенное влияние на ту сферу, которая непосредственно влияет на качество AI-решений — data governance. Если у вас есть потребность усилить себя этой экспертизой, достаточно позвонить нам или заполнить форму на нашей главной странице, и мы с вами свяжемся.
Также приходите знакомиться лично на наши бесплатные мероприятия.
Другие материалы нашего блога