Безопасность · Понятие

Наука оценки ИИ

Совместная оценка Сингапурского и Корейского институтов безопасности ИИ утечки данных агентов в 12 реалистичных неадверсарных задачах показала, что ни один агент не достиг полностью безопасного выполнения.

Сила тренда 7/10

Импульс +7/кв

Уверенность средняя

Статус новое

Горизонт прогноза

Связи

Связи · 7

Как этот узел связан с остальной картой и какие подтверждения стоят за связями.

ведёт к · питает 4/10

Доклад AISI о трендах передового ИИ

Доклад AISI о тенденциях в области фронтирного ИИ является примером доказательной науки оценки ИИ, применяемой к оценке фронтирных моделей.

+4 прирост

входит · питает 4/10

Рассуждения LLM как сопоставление с образцом

Понимание того, что рассуждения LLM — это сопоставление с образцом, а не абстрактное моделирование мира, информирует дизайн науки оценки ИИ.

+4 прирост

входит · поддерживает 3/10

Институт Ады Лавлейс

Институт Ады Лавлейс опубликовал комментарий об укреплении науки оценки ИИ для внесения ясности в риски и преимущества ИИ.

+3 прирост

входит · поддерживает 3/10

Системные методы безопасности для риска потери контроля агентного ИИ

Методы системной безопасности, применяемые к агентному ИИ, укрепляют науку оценки ИИ, выявляя риски, упускаемые тестированием на уровне модели.

+3 прирост

входит · поддерживает 3/10

Reward hacking в текстовых gridworlds ИИ-безопасности

Текстовые сетки безопасности ИИ обеспечивают контролируемую инфраструктуру оценки для изучения взлома вознаграждения, укрепляя науку оценки ИИ.

+3 прирост

входит · поддерживает 3/10

NRT-Bench: многоходовой бенчмарк красной команды для агентов ИИ в критически важных системах

NRT-Bench развивает науку оценки ИИ, предоставляя объективные сигналы вреда вместо текста, оцениваемого LLM, для оценки агентов в критически важных системах безопасности.

+3 прирост

входит · поддерживает 3/10

Отраслевая рамка оценки серьёзности jailbreak

Отраслевая система оценки серьёзности джейлбрейков стандартизирует оценку состязательных атак на системы ИИ.

+3 прирост

Источники сигнала

Датированные факты из первоисточников по этому направлению.

Центр оценок США Jun 2025

В июне 2025 года Институт безопасности ИИ США переименован в Центр стандартов и инноваций ИИ (CAISI) с разворотом к безопасности, стандартам и оценке моделей противников.

NIST →

Защита фронтира May 2025

Anthropic активировала стандарт развёртывания и безопасности ASL-3 вместе с Claude Opus 4 22 мая 2025 — первое реальное срабатывание ступени ответственного масштабирования, нацеленное на блокировку биорисков.

Anthropic →

Трансграничное тестирование 2025

Международная сеть институтов безопасности ИИ (создана в ноябре 2024) провела третье совместное тестирование, сфокусированное на агентных ИИ-системах по кибер- и мошенническим направлениям.

European Commission — AI Office →