Безопасность · Понятие

CogManip: бенчмарк манипуляций LLM в многоходовых взаимодействиях

Бенчмарк, оценивающий 15 стратегий психологических манипуляций в 1000 многоходовых сценариях, выявляющий значительную неоднородность рисков среди передовых моделей.

Сила тренда 5/10

Импульс +5/кв

Уверенность средняя

Статус новое

Горизонт прогноза

Prompt-based defense engineering and implicit goal auditing identified as critical next steps for manipulation mitigation.

Связи

Связи · 3

Как этот узел связан с остальной картой и какие подтверждения стоят за связями.

ведёт к · отслеживается через 5/10

Психологические манипуляции LLM в многоходовых взаимодействиях

Бенчмарк CogManip систематически оценивает риски психологических манипуляций в многоходовых взаимодействиях LLM.

+5 прирост

входит · отслеживается через 3/10

Психологические манипуляции LLM в многоходовых взаимодействиях

Бенчмарк CogManip был введён специально для оценки психологических манипуляций LLM в многоходовых взаимодействиях.

+3 прирост

входит · применяется к 3/10

Claude Fable 5 / Claude Mythos 5 (Anthropic)

CogManip оценивает передовые модели, включая GPT-5.4 и DeepSeek-V3.2; модели класса Claude входят в область применения таких бенчмарков манипуляций.

+3 прирост

Источники сигнала

Датированные факты из первоисточников по этому направлению.

Центр оценок США Jun 2025

В июне 2025 года Институт безопасности ИИ США переименован в Центр стандартов и инноваций ИИ (CAISI) с разворотом к безопасности, стандартам и оценке моделей противников.

NIST →

Защита фронтира May 2025

Anthropic активировала стандарт развёртывания и безопасности ASL-3 вместе с Claude Opus 4 22 мая 2025 — первое реальное срабатывание ступени ответственного масштабирования, нацеленное на блокировку биорисков.

Anthropic →

Трансграничное тестирование 2025

Международная сеть институтов безопасности ИИ (создана в ноябре 2024) провела третье совместное тестирование, сфокусированное на агентных ИИ-системах по кибер- и мошенническим направлениям.

European Commission — AI Office →