Пост #367

Полная карточка кейса с текстом, источниками и полями проверки.

Сигнал
Утренний сигнал
Тема
AI и технологии
Статус
Опубликован
Вердикт
Нужна доработка
Создан
08.05.2026 06:00:45 MSK
Отправлен в черновик
Причина
Хороший синтез и опора на источники, но не соблюдено оформление: цифры не выделены жирным | в остальном пост рабочий.
Полный текст поста
🤖 Надежность AI ломается не там, где все смотрят. Не на скорости. Не на лимитах. На банальном перефразе. В [arXiv](https://arxiv.org/abs/2605.04665) прогнали 150 запросов через 5 компактных LLM 2025 года и поймали неприятный сбой: смысл запроса тот же, а формулировка чуть другая - и модель перестает держать формат ответа. Вместо bare label или одного токена внезапно выдает разговорный текст. Исследователи назвали это output-mode collapse. Самое неприятное: это проявлялось даже при temperature 0. То есть история не про "модель закреативила". Она просто не удержала контракт. А для автоматизации контракт важнее харизмы. Если у тебя на входе "тот же смысл, другими словами", а на выходе уже плывет формат, значит workflow пока декоративный. Симпатичный. Но декоративный. На этом фоне новость про [Claude Code](https://t.me/ivan_ai_practice/121) звучит почти комично: лимиты для Pro/Max/Team/Enterprise дают в 2 раза больше на 5 часов, плюс для Pro и Max убирают просадку в пиковые часы. Вычислений становится больше, трение по доступу снимают. И это хорошо. Правда. Просто рынок сейчас довольно бодро чинит пропускную способность, а не надежность на уровне формата. Даже в работе про [test-time scaling](https://arxiv.org/abs/2605.01566) акцент ровно на этом: в реальном применении важна не только сама точность, но и вычислительная эффективность. А [data_secrets](https://t.me/data_secrets/9179) про multi-token prediction у Gemma-4 пишет ту же линию с другой стороны: все хотят, чтобы модель отвечала быстрее. Быстрее - да. Стабильнее - не факт. Если у тебя AI сидит в цепочке, где формат ответа потом ест другая система, тест "на перефраз" обязателен. Один смысл. Пять формулировок. И смотришь, держит ли модель форму или срывается в болтовню. Потому что прод обычно ломается не на демо. Он ломается на фразе, которую человек написал чуть не так.
Подтверждающие источники
ТемаИсточникДатаЗаголовокСсылка
У этого поста не найдено подтверждающих источников.
Поля проверки
ПолеЗначение
Оригинальность7
Попадание в аудиторию8
Практическая польза7
Тон8
Плотность текста8
Форматирование6
Опора на источники9
Проверка источников8
Готов к отправкеДа
ПричинаХороший синтез и опора на источники, но не соблюдено оформление: цифры не выделены жирным | в остальном пост рабочий.