← К карте трендов

Безопасность · Тренд

Эскалация джейлбрейка в многоходовых взаимодействиях в медицинском ИИ

Многоходовые состязательные атаки увеличивают долю небезопасных ответов медицинских чат-ботов с 35% до почти 80% к четвёртому ходу, при этом расхождение между моделями невидимо при однократной оценке.

Сила тренда 3/10
Импульс +3/кв
Уверенность низкая
Статус новое
Горизонт прогноза

Input-side classifiers offer partial mitigation but high false-alarm rates remain a deployment barrier; multi-turn evaluation will become a standard safety requirement.

Связи

Связи · 1

Как этот узел связан с остальной картой и какие подтверждения стоят за связями.

Источники сигнала

Источники сигнала

Датированные факты из первоисточников по этому направлению.