Безопасность · Понятие
Диффузный контроль ИИ на нечётких задачах
Система моделирования контроля ИИ как состязательной игры между синей и красной командами для обнаружения тонкого саботажа ИИ, распределённого на длительных горизонтах развёртывания на трудно оцениваемых задачах.
Diffuse control frameworks will be essential for evaluating AI safety in long-horizon research and scientific applications.
Связи
Связи · 3
Как этот узел связан с остальной картой и какие подтверждения стоят за связями.
Методы системной безопасности и фреймворки диффузного контроля ИИ оба направлены на риски саботажа и потери контроля в агентных развёртываниях.
+4 приростСистемы диффузного контроля ИИ непосредственно применимы для обнаружения тонкого саботажа ИИ в долгосрочных задачах разработки программного обеспечения.
+3 приростРешение проблемы диффузного контроля ИИ на нечётких задачах требует системного анализа безопасности, выходящего за рамки оценки на уровне модели.
+3 приростИсточники сигнала
Источники сигнала
Датированные факты из первоисточников по этому направлению.
В июне 2025 года Институт безопасности ИИ США переименован в Центр стандартов и инноваций ИИ (CAISI) с разворотом к безопасности, стандартам и оценке моделей противников.
NIST →Anthropic активировала стандарт развёртывания и безопасности ASL-3 вместе с Claude Opus 4 22 мая 2025 — первое реальное срабатывание ступени ответственного масштабирования, нацеленное на блокировку биорисков.
Anthropic →Международная сеть институтов безопасности ИИ (создана в ноябре 2024) провела третье совместное тестирование, сфокусированное на агентных ИИ-системах по кибер- и мошенническим направлениям.
European Commission — AI Office →