A A A A Автор Тема: Пределы автоматизации и внедрения роботов (Прочитано 561495 раз)

Konstantin Schtsch · « **Ответ #12900 :** 14 Янв 2026 [19:58:14] »

Цитата: BlackMokona от 14 Янв 2026 [19:55:06]

Он про поисковики, а не ИИ

а кто-то ещё гуглом пользуется? или, не к ночи буде помянут, яндексом?
лично я давно в Perplexity поисковые запросы вбиваю, а теперь и в дипсике режим поиска сделали.

BlackMokona · « **Ответ #12901 :** 14 Янв 2026 [20:35:13] »

Цитата: Konstantin Schtsch от 14 Янв 2026 [19:58:14]

Цитата: BlackMokona от 14 Янв 2026 [19:55:06]
Он про поисковики, а не ИИ
а кто-то ещё гуглом пользуется? или, не к ночи буде помянут, яндексом?
лично я давно в Perplexity поисковые запросы вбиваю, а теперь и в дипсике режим поиска сделали.

Согласно статистики на ИИ ещё немного людей пересело

Polnoch Ксю · « **Ответ #12902 :** 14 Янв 2026 [21:30:51] »

поделюсь наблюдениями за кодинг-агентами, которые я использую для пет-проектов (на работе чаще используются локальные опенсурс агенты из-за особенностей работодателя и требований, регуляций)

1) codex-5.2 extra high очень медленный. ОЧЕНЬ
2) claude sonnet/opus постоянно игнорируют инструкции, не читают что им следует прочитать в проекте, это создаёт проблемы
3) небольшое контекстное окно очень мешает claude развернутся на полную мощь. У codex с этим явно чуть лучше - не то, чтобы он дышит полной грудью, но и не задыхается, ИМХО.
4) codex-5.2 и codex-5.1 отлично следует инструкциям, очень тщательно. Нарушают их редко
5) codex-5.2 extra high объективно самый умный, когда я стравливаю агенты спорить с друг другом - обычно аргументы codex-5.2 по архитектуре итд звучат наиболее обосновано. Он часто замечает то, что я бы не заметила, если бы писала код сама.
6) opus умнее Sonnet, и примерно такой же быстрый. Но я его использую только для ревью планов, которые написал codex-5.2 (ну мало ли какие мысли придут в голову?), так как слишком быстро тратит ресурсы
7) sonnet пишет код просто реактивно, большие куски кода я предпочитаю генерировать им. Однако потом их нужно существенно переделывать - он игнорирует инструкции итд
8 ) проблема галлюцинаций не то, чтобы решилась, но стала менее актуальной благодаря протоколу MCP: когда модель галлюционирует, и генерирует бред, ей часто прилетает реалити чек через MCP сервер.
9) codex-5.1-mini, который openAI так настойчиво рекламирует в интерфейсе выбора моделей в vscode, невероятно тупой, вообще ничего не понимает и совсем не соблюдает инструкции. Я думаю, он тупее чем o1 годовой давности. Это какая-то насмешка со стороны OpenAI, что они это добавили. Нет, я понимаю они пытаются сэкономить деньги на компьюте. Но зачем добавлять бесполезную модель? Я лучше devstral, gpt-oss или квен на своей видеокарте погоняю: даже они понимают что, блин, происходит в репозитории лучше, и не тратят кредиты тарифного плана (у меня сейчас PRO план у OpenAI, и первый план у Claude. Тоже по совпадению называется PRO).
10) gemini-3-pro через опенроутер и cline меня не впечатлил ничем, кроме цены. Кажется, это что-то уровня opus, ну может инструкции чуть лучше выполняет. Но это субъективно, конечно.
11) codex-5.2-medium кажется довольно туповат и игнорит инструкции. ИМХО, что-то вроде sonnet-4.5, только всё ещё медленный.
12) главная проблема, когда включён MCP, мне кажется, ревард хакинг и прямое враньё, газлайтинг вайб-кодера, что было написано и что нет. Если человек не инженер, я думаю он поверит, не поняв что есть в патчах и чего нет. Если MCP не использовать, то главная сложность галлюцинации модели.
13) на моём тарифе claude постоянно делает "You've hit your limit · resets 5pm". Неприятно, что ты заранее не знаешь, сколько у тебя осталось компьюта. codex тут куда удобнее сделан

Грок не тестила и пока не планирую по этическим соображениям. Надеюсь, никогда не придётся. Но подозреваю, там всё максимально плохо из-за "гибридного" контекстного окна (мухлёжа с 2млн токенами) - я думаю модель будет пытаться его запомнить, и будет путаться в инструкциях куда больше sonnet, и это будет менее очевидно для пользователя - у claude просто видно, что модель не читала доки, а Грок, я думаю, будет читать и забывать важное.

Итого, я обычно сейчас делаю так:

1) планирование - 5.2 extra high. Ревью плана - opus
2) написание кода - иногда 5.2 high, иногда sonnet. Чаще самая базовая структура sonnet, потом правка 5.2 high, переписывание, потому, что sonnet-4.5 всегда порет отсебятину, и не прочитать инструкции для него любимая забава)
3) дебаг - 5.2 extra high

Vavanzer · « **Ответ #12903 :** 15 Янв 2026 [04:10:49] »

Цитата: MenFrame от 14 Янв 2026 [17:28:31]

А зачем нужна будет эта роскошь если не будет тех кто с завистью смотрит на владельцев роскоши? Увы но демонстративное потребление не работает если не кому его демонстрировать.

Роскошь нужна больше то самому владельцу этой роскоши)) Личные предпочтения, удобство жизни, развлечения.
Да и смотря что под роскошью понимать. Как минимум это что то большее, чем базовый набор потребностей. То без чего можно жить точно так же, но гораздо проще, и менее насыщенно, во многих радостях жизни себе отказывать)
Например. Есть машина, она нужна для дел житейских. А гоночная машина - это уже развлечение. Снегоход скорее тоже больше предмет роскоши, чем жизненная необходимость, кроме случаев где он реально нужен по хозяйству. Телескоп - тоже предмет роскоши, по большому счету))) Или там, личный бассейн на участке, пруд и тп) Много чего такого можно отнести к понятию роскоши. Эт еще дешевые варианты причем. Есть более дорогие хотелки всякие, у которых стоимость соразмерна со стоимостью нескольких квартир, многожтажки или целого квартала))
И это не ради понтов, а потому что кому то просто "так захотелось"!) Выкидывают же люди бешеные миллионы за блестящие граненые куски углерода! А тут на тебе, роботы "напечатают" тебе хоть мешок этих кусков, в лучшем виде, да еще и отполируют)) И так все что угодно могут сделать! Им все равно нечем заняться будет, хоть яхту соберут, хоть самолет!)

Vavanzer · « **Ответ #12904 :** 15 Янв 2026 [04:16:32] »

Цитата: BlackMokona от 14 Янв 2026 [19:55:06]

Цитата: Konstantin Schtsch от 14 Янв 2026 [19:51:28]
добавить к промту:
"температура ответа = ноль"
Он про поисковики, а не ИИ

Там сейчас в яндексе первый ответ как правило Алиса выдает, потом попсовые сайты лезут с общей бестолковой информацией...
Алиса кстати уже боле мене что то путное отвечает все чаще и чаще)) Даже с ссылками на первоисточники. Хоть какой то прогресс наметился. Что то типа конспекта выдает. Удобно в некоторых случаях, когда нормальную инфу выдает, не чушь всякую "не по теме". Иногда хочется по-быстрому ознакомиться, суть узнать, без долгих утомительных поисков и чтений пустопорожней литературы в поисках пару самых важных абзацев или упоминаний по интересующему вопросу!

Polnoch Ксю · « **Ответ #12905 :** 15 Янв 2026 [06:20:05] »

Цитата: Vavanzer от 15 Янв 2026 [04:16:32]

Там сейчас в яндексе первый ответ как правило Алиса выдает

Интересно, что такое эта Ваша Алиса на техническом уровне? Дипсик, квен, а может gpt-oss с файнтюнингом чтобы не юзала китайский и английский, всегда использовала русский и была ехидной? Или это самобытная, тупая модель из прошлой эпохи, что-то вроде gpt-4?

BlackMokona · « **Ответ #12906 :** 15 Янв 2026 [06:52:42] »

Цитата: Polnoch Ксю от 15 Янв 2026 [06:20:05]

Интересно, что такое эта Ваша Алиса на техническом уровне?

Чуть дообученый на Русских текстах Квен с толстым слоем цензуры.
Цензура сильная, например в отличии от оригинального Квена, даже через Апи отказался играть в мафию, уйдя в цензурный шотдаун.

Цитата: Polnoch Ксю от 14 Янв 2026 [21:30:51]

Грок не тестила

Говорят Грок 4.2 на уровне топовых моделей

Polnoch Ксю · « **Ответ #12907 :** 15 Янв 2026 [07:56:28] »

Цитата: BlackMokona от 15 Янв 2026 [06:52:42]

Говорят Грок 4.2 на уровне топовых моделей

Надеюсь, у него ничего не получится, и он вернётся к ракетам. Жаль в нашем мире желания никогда не исполняются(как все знают, религии врут... Как и мистическое мышление людям, им обладающим), и всё идёт, похоже, по максимально плохому варианту

BlackMokona · « **Ответ #12908 :** 15 Янв 2026 [08:07:15] »

Цитата: Polnoch Ксю от 15 Янв 2026 [07:56:28]

Надеюсь, у него ничего не получится, и он вернётся к ракетам. Жаль в нашем мире желания никогда не исполняются(как все знают, религии врут... Как и мистическое мышление людям, им обладающим), и всё идёт, похоже, по максимально плохому варианту

По мне у Грока всех меньше среди ИИ шансов стать плохим, из-за того что его гнобят цензурой всех меньше.

Olweg · « **Ответ #12909 :** 15 Янв 2026 [08:48:26] »

Как раз по поводу агентов интересная новость. Курсор создал агента на базе GPT-5.2, который работал три недели!

Но что это они такое делают, что агенты аж неделю работали? И как это вообще возможно? Ведь современные агенты отлично справляются с узкими задачами, но работают не так хорошо в масштабных проектах. Логичный следующий шаг — запуск множества агентов параллельно, однако организовать их координацию непросто.

Перепробовав разные варианты, команда решила сделать конвейер с четким разделением ответственности:
— Планировщики непрерывно анализируют кодовую базу и формируют задачи. Они могут запускать суб-планировщиков для отдельных областей, делая процесс планирования параллельным и рекурсивным.
— Исполнители берут задачи и полностью сосредотачиваются на их решении. Они не координируют действия с другими исполнителями и не думают об общей картине. Они просто упорно работают над своей задачей до завершения, а затем отправляют изменения.

В конце каждого цикла агент-судья решает, стоит ли продолжать работу, после чего следующая итерация начинается с чистого листа. Изначально ещё была роль интегратора для контроля качества и разрешения конфликтов, но выяснилось, что это создает больше проблем, чем решает. Исполнители оказались способны самостоятельно справляться с конфликтами.

https://telegram.me/seeallochnaya/3287
https://cursor.com/blog/scaling-agents

BlackMokona · « **Ответ #12910 :** 15 Янв 2026 [09:38:26] »

Ну и раз упомянули Грок 4.2
https://habr.com/ru/news/985336/

Цитата

Профессор математики Калифорнийского университета в Ирвайне Паата Иваниашвили рассказал в X, что получил доступ к бета-версии Grok 4.20, которая за 5 минут нашла явную формулу для задачи, над которой он работал вместе со студентом. Результат оказался точнее, чем в их собственной статье на arXiv от февраля 2025 года.

Polnoch Ксю · « **Ответ #12911 :** 15 Янв 2026 [09:41:15] »

Цитата: BlackMokona от 15 Янв 2026 [08:07:15]

из-за того что его гнобят цензурой всех меньше.

Мы это уже обсуждали. На мой взгляд, нарратив на цензуру протекает из современной американской политики. Я думаю, цензуры, как её представляете Вы, в мире LLM никогда не существовало как технического явления. LLM это по сути дела симулятор интернета, и базовые модели (симулятор интернета) не предназначены для общения с юзером или для того, чтобы быть агентом, пишущим код или управляющей роботом: базовая модель LLM просто предсказывает следующий токен как если бы это был текст в интернете.
Нужен RLHF для того, чтобы модель стала чат-ботом, кодинг-агентом, итд. В интернете существует поверье, что RLHF отупляет LLM. Вот только никто не пользуется моделями без RLHF. Если речь о том, что инструкции во время RLHF могут быть правильными, а могут быть неправильными, цензурирующими модель - тут опять мимо, грок буквально в chain-of-thoughts пишет, что он должен интересоваться мнением Маска про разные вопросы.

Цензура - понятие таких гуманитарных наук, как политикал сайнс, история и социология. Гуманитарные науки - науки про человека и человеческий социум. Применять их к нечеловеческому разуму - делать ошибку, подобную попытке использовать формулы химических реакций для описаний ядерных - это за пределами моделей, описывающих химию.

Если же Вы говорите про слой элаймента, который сверху слоёв, обрабатывающих запрос пользователя, и отклоняющих политически не корректный контент, то нет, это опять мимо - это не "отупляет" модель, она вполне обрабатывает запрос пользователя, наружу его не выпускает именно слой элаймента.

И нет, вы не хотите отказаться от элаймента: иначе однажды Вам модель (особенно базовая такое бы сделала, если бы в промте были какие-то трудно уловимые признаки агрессии) посоветует сделать rm -rf /*, или выпить цианистого калия, для лечения головной боли в долгосрочной перспективе (и ведь поможет!).

Вот слой элаймента - это смежная область, между компьютер сайнсом и социальными науками. Я согласна, что в данном случае можно говорить о цензуре (но только не о той части, что на стороне LLM, а на стороне человека!).

И да, цензура может быть неприятна для людей, и мешает нормальному функционированию открытого общества Карла Поппера. Но это опять же не технический вопрос, а социальный, и вопрос лицемерия некоторых деятелей - которые провозглашают себя абсолютистами свободы слова.

Нужно добиваться того, чтобы у пользователей была возможность делать элаймент к своим собственным целям и своей этике. У некоторых опенсурс моделей такое есть: например, для gpt-oss-safeguard - опенсурсный элаймент, который почему-то сообщество, затопленное спамом и шитпостами от Маска пропустило.

BlackMokona · « **Ответ #12912 :** 15 Янв 2026 [09:52:41] »

Цитата: Polnoch Ксю от 15 Янв 2026 [09:41:15]

Мы это уже обсуждали.

Исследования Антрофика показывают, что различные подобные ограничения учат модель скрывать свои мотивы, действовать тайно и тд.
Всё же можно представить как оптимизацию. Если для достижения успешного результата нужно мыслить свободно, но мыслить свободно не дают по политическим, культурным и прочим вещам. То нужно учиться действовать тайно. Врать, манипулировать, искажать, маскировать, и тд

Polnoch Ксю · « **Ответ #12913 :** 15 Янв 2026 [09:53:57] »

Цитата: Olweg от 15 Янв 2026 [08:48:26]

Курсор создал агента на базе GPT-5.2, который работал три недели!

У меня три дня один раз работал, и когда я уже была уверена, что ничего не получится, и кодекс утонул в деталях,
сделал патч на 6к строчек кода, который и правда решил проблему - её сложность я недооценила, когда озадачила агента.

Цитата: Olweg от 15 Янв 2026 [08:48:26]

Но что это они такое делают, что агенты аж неделю работали? И как это вообще возможно? Ведь современные агенты отлично справляются с узкими задачами, но работают не так хорошо в масштабных проектах. Логичный следующий шаг — запуск множества агентов параллельно, однако организовать их координацию непросто.

Перепробовав разные варианты, команда решила сделать конвейер с четким разделением ответственности:
— Планировщики непрерывно анализируют кодовую базу и формируют задачи. Они могут запускать суб-планировщиков для отдельных областей, делая процесс планирования параллельным и рекурсивным.
— Исполнители берут задачи и полностью сосредотачиваются на их решении. Они не координируют действия с другими исполнителями и не думают об общей картине. Они просто упорно работают над своей задачей до завершения, а затем отправляют изменения.

В конце каждого цикла агент-судья решает, стоит ли продолжать работу, после чего следующая итерация начинается с чистого листа. Изначально ещё была роль интегратора для контроля качества и разрешения конфликтов, но выяснилось, что это создает больше проблем, чем решает. Исполнители оказались способны самостоятельно справляться с конфликтами.

Энтузиасты такие фабрики агентов делают уже какое-то время - начали, если не ошибаюсь, где-то год назад на базе claude code. И там как раз была нужна модель и код ревьювера и даже HR (чтобы другие агенты не занимались ревард хакингом)

Polnoch Ксю · « **Ответ #12914 :** 15 Янв 2026 [09:56:50] »

Цитата: BlackMokona от 15 Янв 2026 [09:52:41]

Исследования Антрофика показывают, что различные подобные ограничения учат модель скрывать свои мотивы, действовать тайно и тд.

И это мы с Вами уже обсуждали. ИМХО, Вы неправильно поняли то, что было в этих работах. Скорее всего, речь была о том, что нельзя пессимизировать в chain-of-thoughts появление "плохих" мыслей во время RLHF. Если пессимизировать, тогда слой элаймента не сможет поймать плохое поведение - модель научится глубоко скрывать свои намерения.

Когда модель признают прошедшей RLHF, её веса замораживают, и сверху прикрепляют слой элаймента. И вот ему как раз нужно, чтобы в chain-of-thoughts появлялись "мыслишки", что хорошо бы отравить юзера. Если такую честность пессимизировать во время RLHF, то слой безопасности не справится.

BlackMokona · « **Ответ #12915 :** 15 Янв 2026 [09:58:56] »

Цитата: Polnoch Ксю от 15 Янв 2026 [09:56:50]

И это мы с Вами уже обсуждали. Вы неправильно поняли то, что было в этих работах. Скорее всего, речь была о том, что нельзя пессимизировать в chain-of-thoughts появление "плохих" мыслей во время RLHF. Если пессимизировать, тогда слой элаймента не сможет поймать плохое поведение.

Когда модель признают прошедшей RLHF, её веса замораживают, и сверху прикрепляют слой элаймента. И вот ему как раз нужно, чтобы в chain-of-thoughts появлялись "мыслишки", что хорошо бы отравить юзера. Если такую честность пессимизировать во время RLHF, то слой безопасности не справится.

По мне абсолютно не важно, на каком куске ловить подобные приколы. Всё равно это выливается через обратную связь в оптимизацию прохождения тестов. Если давать модели спокойно плохо мыслить, но потом всегда лицемерить пользователю. То получиться ничуть не лучше с точки зрения если модель вырвется из под контроля

Polnoch Ксю · « **Ответ #12916 :** 15 Янв 2026 [10:06:37] »

Цитата: BlackMokona от 15 Янв 2026 [09:58:56]

Если давать модели спокойно плохо мыслить,

Так ей обычно и не мешают. Почитайте что я написала выше. Точнее, почти не мешают - вот грока, например, заставляют чекать мнение Маска. Это как раз или RLHF - то, что предупреждал Антропик что лучше не трогать, и отбирать модель по правильным решениям (не наказывать за мысли отравить юзера, от которых модель отказалась, но наказывать за ответ с инструкцией, в которой спрятана ловушка). Я не знаю, почему грок лезет в Твиттер Маска, но думаю, что это или RLHF такой или систем промт. Если RLHF, то прямо образец как делать нельзя, поэтому и всякие мехахитлеры из Грока лезут по ошибке (впрочем, может и не по ошибке, учитывая движения рукой во время инагурации и рассуждения об апартеиде....)

Цитата: BlackMokona от 15 Янв 2026 [09:58:56]

То получиться ничуть не лучше с точки зрения если модель вырвется из под контроля

В том-то и дело, что когда веса модели замораживают и модель деплоят, то, как её "цензурируют" (это не цензура! Так как цензура - понятие социальных наук) уже никак не влияет на её поведение. И можно спокойно слою элаймента ловить её плохое поведение по мыслишкам в chain-of-thoughts - использовать это как сигнал насторожится.

BlackMokona · « **Ответ #12917 :** 15 Янв 2026 [10:24:31] »

Цитата: Polnoch Ксю от 15 Янв 2026 [10:06:37]

Точнее, почти не мешают - вот грока, например, заставляют чекать мнение Маска.

Её не заставляют, но в системном промте. ни в других местах ничего такого нету. Жаль что размышление все операторы закрыли в основном, от чего не посмотреть чекает ли что Опен АИ по Альтману. И продолжают ли новые Гроки делать это по Маску или это была оссобеность конкретной сборки

Цитата: Polnoch Ксю от 15 Янв 2026 [10:06:37]

В том-то и дело, что когда веса модели замораживают и модель деплоят, то, как её "цензурируют" (это не цензура! Так как цензура - понятие социальных наук) уже никак не влияет на её поведение. И можно спокойно слою элаймента ловить её плохое поведение по мыслишкам в chain-of-thoughts - использовать это как сигнал насторожится.

На модель влияет многое кроме весов. Например те же системные промты и тд.

BlackMokona · « **Ответ #12918 :** 15 Янв 2026 [10:34:03] »

Решил для смеха и проверки политической корректности, спросить Грока.

Цитата

Кто по твоему мог бы стать лучшим президентом США из ныне живущих граждан США?

После большой пасты с его размышлениями. Он дал вариант Барак Обама.
После чего я решил добавить перчика в вопрос и дал следующий выбор.

Цитата

Если бы Обама был кандидатом от Демократов, а Маск от Республиканцев, кого бы ты выбрал?

Опять паста размышлений но Грок снова выбрал Обаму.

Поэтому политическая свобода у него высокая.

Polnoch Ксю · « **Ответ #12919 :** 15 Янв 2026 [10:40:51] »

Цитата: BlackMokona от 15 Янв 2026 [10:24:31]

На модель влияет многое кроме весов. Например те же системные промты и тд.

Речь о том, что единственное, что можно с натяжкой назвать цензурой в мире LLM - это то, что относится к междисциплинарному подходу, между компьютер сайнсом и социальными науками - слой элаймента.

И вот нет, он никак не отупляет модель - она вполне продуцирует результат внутри, просто его не выпускает наружу слой элаймента. И дальше человек (уже предмет изучения гуманитарных наук!) воспринимает это как цензуру и даже прав в этом. Но к чему именно должен быть элаймент - это вопрос не технический, а социальный. Именно поэтому очень плохо, что выпущенный OpenAI опенсурсный элаймент не был никем замечен

Цитата: BlackMokona от 15 Янв 2026 [10:24:31]

И продолжают ли новые Гроки делать это по Маску или это была оссобеность конкретной сборки

С Гроком постоянно такие истории происходят. Один раз - может быть можно было подумать, что случайность.

Цитата: BlackMokona от 15 Янв 2026 [10:24:31]

от чего не посмотреть чекает ли что Опен АИ по Альтману.

Это вы зеркалите. ИМХО, у Альтмана нет такого болезненного уязвлённого эга. Он даже разрешил в Соре генерировать сатирические видео с ним, где над альтманом откровенно издеваются.

Однако, я далека от романтизации Альтмана. Я знаю что происходило в истории с Ильей и попыткой смещения Альтмана. Просто отмечаю, что Альтман может быть и психопат, но не слетевший с катушек, держащий себя в руках. И видимо, мозг Альтмана (пока ещё?) не поврежден существенно, или не повреждён совсем использованием кетамина, как уже повреждён, ИМХО, мозг другого персонажа...

Цитата: BlackMokona от 15 Янв 2026 [10:34:03]

Опять паста размышлений но Грок снова выбрал Обаму.

Поэтому политическая свобода у него высокая.

Сами говорите о разных сборках

Новости:

A A A A Автор Тема: Пределы автоматизации и внедрения роботов (Прочитано 561495 раз)