Безопасность · Тренд
Стратегический выбор атак в оценках контроля агентного ИИ
Злоумышленники, стратегически выбирающие момент атаки в агентных системах ИИ, снижают измеренный уровень безопасности до 28 процентных пунктов при бюджете аудита 1%, обнажая пробелы в текущих протоколах оценки контроля ИИ.
AI control evaluation frameworks must incorporate strategic attacker models to produce credible safety guarantees for deployment.
Связи
Связи · 2
Как этот узел связан с остальной картой и какие подтверждения стоят за связями.
Оба исследования изучают состязательную эксплуатацию агентов ИИ; саботаж при написании кода фокусируется на сбоях человеческого надзора, а выбор атаки — на стратегическом выборе времени.
+4 приростФормальная верификация рабочих процессов агентов может ограничить поверхность атаки, используемую при стратегическом выборе атак в агентных системах ИИ.
+3 приростИсточники сигнала
Источники сигнала
Датированные факты из первоисточников по этому направлению.
В июне 2025 года Институт безопасности ИИ США переименован в Центр стандартов и инноваций ИИ (CAISI) с разворотом к безопасности, стандартам и оценке моделей противников.
NIST →Anthropic активировала стандарт развёртывания и безопасности ASL-3 вместе с Claude Opus 4 22 мая 2025 — первое реальное срабатывание ступени ответственного масштабирования, нацеленное на блокировку биорисков.
Anthropic →Международная сеть институтов безопасности ИИ (создана в ноябре 2024) провела третье совместное тестирование, сфокусированное на агентных ИИ-системах по кибер- и мошенническим направлениям.
European Commission — AI Office →