Способности · Тренд

Ограничения вероятностного рассуждения LLM

Бенчмаркинговое исследование показывает, что LLM достигают 96% точности на стандартных задачах вероятности, но лишь 59% на контринтуитивных, при этом производительность падает на 20–34% при токен-предвзятости и вводящих в заблуждение подсказках.

Сила тренда 3/10

Импульс +3/кв

Уверенность низкая

Статус новое

Горизонт прогноза

Связи

Связи · 2

Как этот узел связан с остальной картой и какие подтверждения стоят за связями.

ведёт к · питает 4/10

Наука о динамике обучения ИИ

Систематические сбои вероятностного рассуждения в LLM мотивируют изучение динамики обучения для понимания того, почему эти предвзятости возникают и сохраняются.

+4 прирост

входит · питает 3/10

Рассуждения LLM как сопоставление с образцом

Обнаружение того, что рассуждение LLM обусловлено сопоставлением с образцом в головах внимания, а не абстрактными моделями мира, объясняет ограничения вероятностного рассуждения.

+3 прирост

Источники сигнала

Датированные факты из первоисточников по этому направлению.

Горизонт задач удваивается Mar 2025

Длина программных задач, которые ИИ-агенты выполняют автономно с надёжностью 50%, удваивается примерно каждые 7 месяцев, а с 2024 года — ближе к ~3 месяцам.

METR →

Бенчмарки насыщаются Apr 2025

За год баллы выросли на 18.8, 48.9 и 67.3 пункта на MMMU, GPQA и SWE-bench; решаемость реальных программных задач подскочила с 4.4% до 71.7%.

Stanford HAI — AI Index 2025 →

Автономное программирование 2025–2026

На SWE-bench Verified (500 реальных issue с GitHub) автономные кодовые агенты достигли ~80–86% к концу 2025 года против менее 50% в начале 2025.

Epoch AI →