Пост #364
Полная карточка кейса с текстом, источниками и полями проверки.
Причина
ready:no_visual:none
Полный текст поста
AI чаще ломается не об "недостаток интеллекта". А об бардак, который в компании давно привыкли называть процессом.
[Data Secrets](https://t.me/data_secrets/9170) разобрали ProgramBench от авторов SWE-bench. Там агенту дают бинарник и документацию, а дальше крутись как хочешь: пойми, как все устроено, собери архитектуру, не потеряй логику по дороге. Результат неприятно чистый: у современных моделей там 0%.
И это хороший холодный душ для всех разговоров про "автономных разработчиков".
Проблема не в том, что модель не умеет писать код. Проблема в другом: когда работа держится на скрытых допущениях, обрывках контекста и чьем-то внутреннем "я понял", AI вязнет почти сразу. Человек в таких местах тоже не гений. Просто он лучше переносит хаос.
А вот где шаги можно увидеть и снять с экрана, история уже другая. В arXiv-проекте cotomi Act агент просто наблюдает за пользователем и потом повторяет действия. На 179 задачах WebArena у него 80,4%. Заявленный human baseline, для сравнения, 78,2%.
Разница, по-моему, довольно приземленная и потому полезная.
Если работу можно подсмотреть и потом воспроизвести, AI выглядит вполне рабочим инструментом. Если она живет в голове сотрудника, в его "сейчас быстро покажу", "тут надо почувствовать" и переписке за март, автоматизации не будет. Будет дорогой цифровой стажер, который очень уверенно кивает.
У бизнеса тут вообще любимая иллюзия: сначала покупают модель, потом с удивлением узнают, что внедрять нечего. Не задачу, а клубок привычек. Не логику, а устную традицию отдела.
Поэтому смотреть стоит не только на модель. Сначала на саму работу. Можно ли ее разложить. Где вход. Что считается результатом. Что там повторяется, а что держится на шаманстве одного сильного человека.
Даже в корпоративных кейсах это видно. У Flowwow [экономия появилась](https://habr.com/ru/companies/flowwow/articles/1032120/?utm_campaign=1032120&utm_source=habrahabr&utm_medium=rss) после того, как они собрали RAG на n8n и сократили расходы в 5,5 раза. Не потому что "AI все решил", а потому что кто-то сел и собрал куски работы в нечто, с чем вообще можно иметь дело.
У Anthropic, кстати, та же интонация: меньше разговоров про волшебного агента, больше про то, как упаковать работу в понятные навыки и связки.
И вот тут обычно начинается самое интересное.
Потому что иногда после такого разбора внезапно выясняется: проблема была не в AI. Просто внутри у вас годами работал не процесс, а folklore с доступом по знакомству.
Подтверждающие источники
| Тема | Источник | Дата | Заголовок | Ссылка |
|---|
| У этого поста не найдено подтверждающих источников. |
Поля проверки
| Поле | Значение |
|---|
| Оригинальность | 8 |
| Попадание в аудиторию | 9 |
| Практическая польза | 7 |
| Тон | 8 |
| Плотность текста | 8 |
| Форматирование | 9 |
| Опора на источники | 8 |
| Проверка источников | 8 |
| Готов к отправке | Да |
| Причина | Сильная синтезация и хорошая применимость, факты из источников в целом подтверждены | есть спорная обобщающая причинность, но не критично. |