Безопасность · Понятие

Атрибуция обучающих данных (TDA) для LLM

Метод двунаправленной оптимизации градиента для атрибуции выходных данных LLM к конкретным обучающим данным, обеспечивающий отслеживание происхождения фактических и стилистических данных для обеспечения подотчётности.

Сила тренда 3/10

Импульс +3/кв

Уверенность низкая

Статус новое

Горизонт прогноза

Связи

Связи · 1

Как этот узел связан с остальной картой и какие подтверждения стоят за связями.

ведёт к · поддерживает 4/10

Система управления рисками ИИ NIST (AI RMF)

Атрибуция обучающих данных повышает интерпретируемость и подотчётность модели — ключевые требования NIST AI RMF.

+4 прирост

Источники сигнала

Датированные факты из первоисточников по этому направлению.

Центр оценок США Jun 2025

В июне 2025 года Институт безопасности ИИ США переименован в Центр стандартов и инноваций ИИ (CAISI) с разворотом к безопасности, стандартам и оценке моделей противников.

NIST →

Защита фронтира May 2025

Anthropic активировала стандарт развёртывания и безопасности ASL-3 вместе с Claude Opus 4 22 мая 2025 — первое реальное срабатывание ступени ответственного масштабирования, нацеленное на блокировку биорисков.

Anthropic →

Трансграничное тестирование 2025

Международная сеть институтов безопасности ИИ (создана в ноябре 2024) провела третье совместное тестирование, сфокусированное на агентных ИИ-системах по кибер- и мошенническим направлениям.

European Commission — AI Office →