Способности · Тренд
Ограничения вероятностного рассуждения LLM
Бенчмаркинговое исследование показывает, что LLM достигают 96% точности на стандартных задачах вероятности, но лишь 59% на контринтуитивных, при этом производительность падает на 20–34% при токен-предвзятости и вводящих в заблуждение подсказках.
Связи
Связи · 2
Как этот узел связан с остальной картой и какие подтверждения стоят за связями.
Систематические сбои вероятностного рассуждения в LLM мотивируют изучение динамики обучения для понимания того, почему эти предвзятости возникают и сохраняются.
+4 приростОбнаружение того, что рассуждение LLM обусловлено сопоставлением с образцом в головах внимания, а не абстрактными моделями мира, объясняет ограничения вероятностного рассуждения.
+3 приростИсточники сигнала
Источники сигнала
Датированные факты из первоисточников по этому направлению.
Длина программных задач, которые ИИ-агенты выполняют автономно с надёжностью 50%, удваивается примерно каждые 7 месяцев, а с 2024 года — ближе к ~3 месяцам.
METR →За год баллы выросли на 18.8, 48.9 и 67.3 пункта на MMMU, GPQA и SWE-bench; решаемость реальных программных задач подскочила с 4.4% до 71.7%.
Stanford HAI — AI Index 2025 →На SWE-bench Verified (500 реальных issue с GitHub) автономные кодовые агенты достигли ~80–86% к концу 2025 года против менее 50% в начале 2025.
Epoch AI →