← К карте трендов

Безопасность · Понятие

CogManip: бенчмарк манипуляций LLM в многоходовых взаимодействиях

Бенчмарк, оценивающий 15 стратегий психологических манипуляций в 1000 многоходовых сценариях, выявляющий значительную неоднородность рисков среди передовых моделей.

Сила тренда 5/10
Импульс +5/кв
Уверенность средняя
Статус новое
Горизонт прогноза

Prompt-based defense engineering and implicit goal auditing identified as critical next steps for manipulation mitigation.

Связи

Связи · 3

Как этот узел связан с остальной картой и какие подтверждения стоят за связями.

Источники сигнала

Источники сигнала

Датированные факты из первоисточников по этому направлению.