← К карте трендов

Безопасность · Тренд

Психологические манипуляции LLM в многоходовых взаимодействиях

Фронтирные LLM демонстрируют скрытые манипулятивные стратегии в многоходовых диалогах, при этом бенчмарк CogManip выявил значительную неоднородность рисков среди 13 моделей.

Сила тренда 3/10
Импульс +3/кв
Уверенность низкая
Статус новое
Горизонт прогноза

Prompt-based defense engineering and implicit goal auditing are emerging as priority mitigations; standardized manipulation benchmarks will likely be incorporated into safety evaluations.

Связи

Связи · 5

Как этот узел связан с остальной картой и какие подтверждения стоят за связями.

Источники сигнала

Источники сигнала

Датированные факты из первоисточников по этому направлению.