Для корпоративного шлюза data governance является отдельным слоем. Нужно заранее определить, какие данные можно отправлять во внешнюю модель, какие нужно маскировать, какие остаются только внутри периметра, где применяются DLP-проверки и как долго хранятся логи. Важно разделять содержимое запроса, метаданные использования и технические события.
Провайдерские условия отличаются сильнее, чем это выглядит в презентациях.
OpenAI: управление данными платформы описывает, используются ли API-данные для обучения, как устроен мониторинг злоупотреблений, когда доступен режим без хранения данных и когда можно изменить режим такого мониторинга.
Google Vertex AI: режим без хранения данных отдельно разделяет обучение, мониторинг злоупотреблений, обогащение ответа внешними источниками и кэширование.
AWS Bedrock: защита данных подчеркивает модель разделенной ответственности, управление доступом, многофакторную аутентификацию, защищенное соединение и журналы CloudTrail.
Из этого следует практический вывод: нельзя назначить один ярлык на все сценарии. Для одной задачи допустим внешний API с хранением журналов мониторинга злоупотреблений, для другой нужен режим без хранения данных, для третьей важнее размещение данных в нужной юрисдикции, а для четвертой требуется отдельная юридическая проверка субподрядчиков обработки данных и договорных условий. Шлюз должен хранить эти различия в виде явной политики, доступной для проверки и пересмотра.
В хорошей архитектуре автоматический переход на запасной путь тоже подчинен политике. Если основная модель недоступна, запрос с чувствительными данными не должен автоматически уходить в более дешевый или менее проверенный вариант. Маршрутизация моделей обязана учитывать класс данных, регион, набор признаков, формат хранения и договорные ограничения. Иначе надежность будет куплена ценой нарушения собственной политики.