Пост #367 — Редакция

🤖 Надежность AI ломается не там, где все смотрят. Не на скорости. Не на лимитах. На банальном перефразе. В [arXiv](https://arxiv.org/abs/2605.04665) прогнали 150 запросов через 5 компактных LLM 2025 года и поймали неприятный сбой: смысл запроса тот же, а формулировка чуть другая - и модель перестает держать формат ответа. Вместо bare label или одного токена внезапно выдает разговорный текст. Исследователи назвали это output-mode collapse. Самое неприятное: это проявлялось даже при temperature 0. То есть история не про "модель закреативила". Она просто не удержала контракт. А для автоматизации контракт важнее харизмы. Если у тебя на входе "тот же смысл, другими словами", а на выходе уже плывет формат, значит workflow пока декоративный. Симпатичный. Но декоративный. На этом фоне новость про [Claude Code](https://t.me/ivan_ai_practice/121) звучит почти комично: лимиты для Pro/Max/Team/Enterprise дают в 2 раза больше на 5 часов, плюс для Pro и Max убирают просадку в пиковые часы. Вычислений становится больше, трение по доступу снимают. И это хорошо. Правда. Просто рынок сейчас довольно бодро чинит пропускную способность, а не надежность на уровне формата. Даже в работе про [test-time scaling](https://arxiv.org/abs/2605.01566) акцент ровно на этом: в реальном применении важна не только сама точность, но и вычислительная эффективность. А [data_secrets](https://t.me/data_secrets/9179) про multi-token prediction у Gemma-4 пишет ту же линию с другой стороны: все хотят, чтобы модель отвечала быстрее. Быстрее - да. Стабильнее - не факт. Если у тебя AI сидит в цепочке, где формат ответа потом ест другая система, тест "на перефраз" обязателен. Один смысл. Пять формулировок. И смотришь, держит ли модель форму или срывается в болтовню. Потому что прод обычно ломается не на демо. Он ломается на фразе, которую человек написал чуть не так.

Тема	Источник	Дата	Заголовок	Ссылка
У этого поста не найдено подтверждающих источников.

Поле	Значение
Оригинальность	7
Попадание в аудиторию	8
Практическая польза	7
Тон	8
Плотность текста	8
Форматирование	6
Опора на источники	9
Проверка источников	8
Готов к отправке	Да
Причина	Хороший синтез и опора на источники, но не соблюдено оформление: цифры не выделены жирным \| в остальном пост рабочий.