Пост #367
Полная карточка кейса с текстом, источниками и полями проверки.
Причина
Хороший синтез и опора на источники, но не соблюдено оформление: цифры не выделены жирным | в остальном пост рабочий.
Полный текст поста
🤖 Надежность AI ломается не там, где все смотрят.
Не на скорости.
Не на лимитах.
На банальном перефразе.
В [arXiv](https://arxiv.org/abs/2605.04665) прогнали 150 запросов через 5 компактных LLM 2025 года и поймали неприятный сбой: смысл запроса тот же, а формулировка чуть другая - и модель перестает держать формат ответа. Вместо bare label или одного токена внезапно выдает разговорный текст. Исследователи назвали это output-mode collapse.
Самое неприятное: это проявлялось даже при temperature 0.
То есть история не про "модель закреативила". Она просто не удержала контракт. А для автоматизации контракт важнее харизмы. Если у тебя на входе "тот же смысл, другими словами", а на выходе уже плывет формат, значит workflow пока декоративный. Симпатичный. Но декоративный.
На этом фоне новость про [Claude Code](https://t.me/ivan_ai_practice/121) звучит почти комично: лимиты для Pro/Max/Team/Enterprise дают в 2 раза больше на 5 часов, плюс для Pro и Max убирают просадку в пиковые часы. Вычислений становится больше, трение по доступу снимают.
И это хорошо. Правда.
Просто рынок сейчас довольно бодро чинит пропускную способность, а не надежность на уровне формата. Даже в работе про [test-time scaling](https://arxiv.org/abs/2605.01566) акцент ровно на этом: в реальном применении важна не только сама точность, но и вычислительная эффективность. А [data_secrets](https://t.me/data_secrets/9179) про multi-token prediction у Gemma-4 пишет ту же линию с другой стороны: все хотят, чтобы модель отвечала быстрее.
Быстрее - да.
Стабильнее - не факт.
Если у тебя AI сидит в цепочке, где формат ответа потом ест другая система, тест "на перефраз" обязателен. Один смысл. Пять формулировок. И смотришь, держит ли модель форму или срывается в болтовню.
Потому что прод обычно ломается не на демо.
Он ломается на фразе, которую человек написал чуть не так.
Подтверждающие источники
| Тема | Источник | Дата | Заголовок | Ссылка |
|---|
| У этого поста не найдено подтверждающих источников. |
Поля проверки
| Поле | Значение |
|---|
| Оригинальность | 7 |
| Попадание в аудиторию | 8 |
| Практическая польза | 7 |
| Тон | 8 |
| Плотность текста | 8 |
| Форматирование | 6 |
| Опора на источники | 9 |
| Проверка источников | 8 |
| Готов к отправке | Да |
| Причина | Хороший синтез и опора на источники, но не соблюдено оформление: цифры не выделены жирным | в остальном пост рабочий. |