Пост #364 — Редакция

AI чаще ломается не об "недостаток интеллекта". А об бардак, который в компании давно привыкли называть процессом. [Data Secrets](https://t.me/data_secrets/9170) разобрали ProgramBench от авторов SWE-bench. Там агенту дают бинарник и документацию, а дальше крутись как хочешь: пойми, как все устроено, собери архитектуру, не потеряй логику по дороге. Результат неприятно чистый: у современных моделей там 0%. И это хороший холодный душ для всех разговоров про "автономных разработчиков". Проблема не в том, что модель не умеет писать код. Проблема в другом: когда работа держится на скрытых допущениях, обрывках контекста и чьем-то внутреннем "я понял", AI вязнет почти сразу. Человек в таких местах тоже не гений. Просто он лучше переносит хаос. А вот где шаги можно увидеть и снять с экрана, история уже другая. В arXiv-проекте cotomi Act агент просто наблюдает за пользователем и потом повторяет действия. На 179 задачах WebArena у него 80,4%. Заявленный human baseline, для сравнения, 78,2%. Разница, по-моему, довольно приземленная и потому полезная. Если работу можно подсмотреть и потом воспроизвести, AI выглядит вполне рабочим инструментом. Если она живет в голове сотрудника, в его "сейчас быстро покажу", "тут надо почувствовать" и переписке за март, автоматизации не будет. Будет дорогой цифровой стажер, который очень уверенно кивает. У бизнеса тут вообще любимая иллюзия: сначала покупают модель, потом с удивлением узнают, что внедрять нечего. Не задачу, а клубок привычек. Не логику, а устную традицию отдела. Поэтому смотреть стоит не только на модель. Сначала на саму работу. Можно ли ее разложить. Где вход. Что считается результатом. Что там повторяется, а что держится на шаманстве одного сильного человека. Даже в корпоративных кейсах это видно. У Flowwow [экономия появилась](https://habr.com/ru/companies/flowwow/articles/1032120/?utm_campaign=1032120&utm_source=habrahabr&utm_medium=rss) после того, как они собрали RAG на n8n и сократили расходы в 5,5 раза. Не потому что "AI все решил", а потому что кто-то сел и собрал куски работы в нечто, с чем вообще можно иметь дело. У Anthropic, кстати, та же интонация: меньше разговоров про волшебного агента, больше про то, как упаковать работу в понятные навыки и связки. И вот тут обычно начинается самое интересное. Потому что иногда после такого разбора внезапно выясняется: проблема была не в AI. Просто внутри у вас годами работал не процесс, а folklore с доступом по знакомству.

Тема	Источник	Дата	Заголовок	Ссылка
У этого поста не найдено подтверждающих источников.

Поле	Значение
Оригинальность	8
Попадание в аудиторию	9
Практическая польза	7
Тон	8
Плотность текста	8
Форматирование	9
Опора на источники	8
Проверка источников	8
Готов к отправке	Да
Причина	Сильная синтезация и хорошая применимость, факты из источников в целом подтверждены \| есть спорная обобщающая причинность, но не критично.