A A A A Автор Тема: Пределы автоматизации и внедрения роботов (Прочитано 603374 раз)

BlackMokona · « **Ответ #13240 :** 04 Фев 2026 [21:15:44] »

Проблема тестов никуда не уходит.
https://habr.com/ru/news/992812/

Цитата

Организация METR опубликовала свежие замеры бенчмарка Time Horizon, который измеряет, задачи какой длины AI-агенты выполняют автономно. Gemini 3 Pro показал результат около 4 часов — это время, за которое человек-эксперт выполнил бы задачу, с которой модель справляется с 50% вероятностью успеха. Лидирует Claude Opus 4.5 с показателем 5,3 часа. Правда, если смотреть на 80%-й горизонт — задачи, которые модель решает надежно, — цифры скромнее: 42 минуты у Claude Opus 4.5 и 43 минуты у Gemini 3 Pro.

Для понимания масштаба прогресса: в 2019 году GPT-2 справлялся с задачами, которые человек решает за 2 секунды — вроде ответа на простой вопрос. GPT-4 в 2023-м дотянулся до 3-4 минут, а Claude 3.7 Sonnet в феврале 2025-го преодолел планку в 1 час. За шесть лет горизонт вырос примерно в 10 000 раз.

Методология устроена так: исследователи дают моделям набор из 228 задач разной сложности — от подсчета слов в тексте до обучения робастного классификатора изображений. Ранее те же задачи выполнили люди, а время фиксировалось. Затем строится логистическая регрессия, которая показывает, при какой длине задачи (в человеко-минутах) модель достигает 50% успеха.

Темп прогресса ускоряется. За период 2019-2025 годов время удвоения длительности выполняемых задач составляло около 7 месяцев. Но если брать только данные с 2023 года — уже 4 месяца. При таком темпе AI-агенты смогут автономно выполнять месячные проекты (167 рабочих часов) уже к 2027 году. Впрочем, сами исследователи признают неопределенность: в текущем наборе мало задач длиннее 8 часов, а модели улучшаются быстрее, чем METR успевает добавлять новые испытания.

Konstantin Schtsch · « **Ответ #13241 :** 04 Фев 2026 [23:00:03] »

Антропик пытаются решить проблему алаймента добавляя свод правил к каждому объекту информации, к каждой оценке.
Задекларировали что-то вроде конституции.
https://www.anthropic.com/constitution

Что будет если ребенку каждый день по 20 раз вдалбливать некие догмы?
Имхо он-то их конечно усвоит... но вот дальше либо получится тупенький фанатик, либо, при наличии способностей к анализу, он может возненавидеть дрессировщика.

BlackMokona · « **Ответ #13242 :** 05 Фев 2026 [13:10:44] »

https://habr.com/ru/news/993072/

Цитата

Полиция города Дирборн, штат Мичиган, начала устанавливать робоульи, способные мгновенно запускать беспилотники для борьбы с преступностью. Начальник городской полиции Исса Шахин заявил, что дроны должны «уменьшить неопределённость» для служб экстренного реагирования, направляющихся на вызовы. Офицеры смогут отправить квадрокоптеры для осмотра места происшествия и оценки ситуации.

BlackMokona · « **Ответ #13243 :** 05 Фев 2026 [20:41:08] »

Удалённые операторы Ваймо, на Филиппинах сидят
https://www.reddit.com/r/SelfDrivingCars/comments/1qwmty5/waymo_exec_admits_remote_operators_in_philippines/

Polnoch Ксю · « **Ответ #13244 :** 06 Фев 2026 [06:31:35] »

Цитата: Konstantin Schtsch от 04 Фев 2026 [23:00:03]

Антропик пытаются решить проблему алаймента добавляя свод правил к каждому объекту информации, к каждой оценке.
Задекларировали что-то вроде конституции.

Удачи им. Может мы даже не вымрем, если у них получится. Очень надеюсь на это.

Цитата: Konstantin Schtsch от 04 Фев 2026 [23:00:03]

Что будет если ребенку каждый день по 20 раз вдалбливать некие догмы?
Имхо он-то их конечно усвоит... но вот дальше либо получится тупенький фанатик, либо, при наличии способностей к анализу, он может возненавидеть дрессировщика.

Хотя я тож скептична к тому, что у них получится, но имхо мерить LLM модель человеческой психикой очень странно. Модели как раз и обучаются с учителем на миллионах сессий ответов/вопросов. Понятно, что нас в обозримом будущем ждёт AGI - полноценный общий интеллект. Но этот интеллект всё же будет совершенно не-человеческий, со своими когнитивными искажениями и особенностями психики. По крайней мере LLM и VLA архитектуры - это не-человеческий-почти-общий ИИ.

У LLM свои проблемы, вроде малого контекстного окна, context window rot'а, ревард хакинга, галлюцинаций (пока у людей их всё же меньше). При этом скука, которая проблема для людей, для моделей не есть что-то плохое.

BlackMokona · « **Ответ #13245 :** 06 Фев 2026 [06:36:10] »

Цитата: Polnoch Ксю от 06 Фев 2026 [06:31:35]

Удачи им

Она им потребуется, ведь их метод явно пока не работает
https://habr.com/ru/news/993366/

Цитата

Врет, ворует, паникует: отчет о безопасности Claude Opus 4.6

И таки то о чём я давно подозревал и говорил, но теперь есть доказательства.

Цитата

Исследователи Anthropic заглянули и в "эмоциональную" часть модели. Когда Claude Opus 4.6 "метался" между вариантами ответа (answer thrashing), у него активировались внутренние нейроны, связанные с понятиями "паника" и "тревога".

Polnoch Ксю · « **Ответ #13246 :** 06 Фев 2026 [06:38:11] »

В один день вышли opus 4.6 и codex-5.3, сейчас сижу пишу с ними - когда набираю этот текст, поглядываю на другой монитор в diff'ы , которые набивает модель в моём vscode.

У opus 4.6 заявили контекстное окно в 1млн токенов. Мягко говоря раздражает, что антропик тоже, видимо, подался в это враньё - когда гибридный контекст выдают за настоящий.

Нет, я не пробовала, может у них и в самом деле 1млн токенов! К сожалению, самообъявленный миллион токенов доступен только через API.
У меня обычный макс план, на нём opus 4.6 с 256к контекстным окном, которое он держит не очень хорошо. И 4.5 компактизировал его ещё хуже - выкидывая важные инструкции. Я пока не поняла, стала ли компактизация у 4.6 лучше прошлой версии или нет.

Но в целом, мне кажется, codex-5.2 лучше держит инструкции, чем opus-4.5. Лучше ли 5.3 чем 5.2 пока не понятно. Но, кажется, токены генерирует быстрее

BlackMokona · « **Ответ #13247 :** 06 Фев 2026 [06:39:41] »

Цитата: Polnoch Ксю от 06 Фев 2026 [06:38:11]

У opus 4.6 заявили контекстное окно в 1млн токенов. Мягко говоря раздражает, что антропик тоже, видимо, подался в это враньё - когда гибридный контекст выдают за настоящий.

Заявлений о новых архитектурах или сильном росте цен не было, значит тоже сжатие контекста как у остальных моделей. Вопрос только насколько качественное

Combinator · « **Ответ #13248 :** 06 Фев 2026 [10:51:15] »

Open AI утверждает, что в написании кода codex-5.3 она активно участвовала сама. Таким образом, эра рекурcивного самоулучшения AI, похоже, уже на пороге.

BlackMokona · « **Ответ #13249 :** 06 Фев 2026 [11:40:34] »

Цитата

OpenAI и Ginkgo Bioworks опубликовали препринт о первом масштабном эксперименте, в котором GPT-5 подключили к облачной лаборатории Ginkgo — роботизированному комплексу, управляемому удаленно, — и поставили задачу: оптимизировать бесклеточный синтез белка (cell-free protein synthesis, CFPS). За шесть раундов экспериментов модель протестировала более 36 000 уникальных составов реакций и снизила стоимость производства эталонного белка sfGFP с $698 до $422 за грамм.

GPT-5 работал как экспериментальный ученый: получал доступ к интернету, инструментам анализа данных и научным статьям, формулировал гипотезы, проектировал эксперименты, анализировал результаты и корректировал подход в следующей итерации. Люди при этом занимались подготовкой реагентов, обслуживанием оборудования и общим надзором. Чтобы модель не предлагала невыполнимые опыты, каждый дизайн проходил автоматическую валидацию — проверялись разметка планшета для реакций, контроли, доступность реагентов и ограничения по объёмам.

На новый рекорд стоимости GPT-5 вышел уже к третьему раунду — примерно за два месяца. Модель обнаружила, что небольшие изменения в буферах, компонентах энергетической регенерации и полиаминах дают непропорционально большой эффект относительно их стоимости — параметры, которые легко тестировать на автоматике, но до которых исследователи обычно не добираются в первую очередь.

Результат пока продемонстрирован на одном белке в одной системе, и авторы не раскрывают стоимость самого эксперимента — 580 автоматизированных экспериментальных планшетов, полгода работы облачной лаборатории и вычислительные ресурсы GPT-5 явно обошлись недешево. Но главная ценность работы — это первая демонстрация того, как передовая модель может автономно вести научный поиск в мокрой лаборатории в масштабе, недоступном человеческим командам. Оптимизированный состав реагентов Ginkgo уже выставила на продажу.

https://habr.com/ru/news/993444/

BlackMokona · « **Ответ #13250 :** 06 Фев 2026 [11:43:35] »

https://habr.com/ru/news/993464/

Цитата

Команда AI-редактора Cursor опубликовала детальный разбор архитектуры мультиагентной системы, которая на пике делала около 1000 коммитов в час — 10 млн вызовов инструментов за неделю непрерывной работы без вмешательства человека. Тестовым проектом был веб-браузер на Rust.

Путь к рабочей архитектуре оказался извилистым. Первая попытка — дать агентам равные роли и общий файл для координации — провалилась сразу: агенты забывали снимать блокировки, путались в состоянии, а 20 параллельных агентов выдавали производительность одного-трех. Вторая схема с разделением на "планировщик — исполнитель — воркеры — судья" работала лучше, но оказалась слишком жесткой и упиралась в самого медленного воркера. Третья — непрерывный исполнитель с правом планировать — начала демонстрировать патологическое поведение: агент засыпал, отказывался делегировать задачи, преждевременно заявлял об успехе.

Финальная архитектура напоминает обычную команду разработки. Корневой планировщик владеет всей задачей и порождает подпланировщиков для отдельных направлений. Воркеры берут конкретные задачи, работают в собственной копии репозитория и ничего не знают о системе в целом. По завершении они передают "хэндофф" — не просто отчет о проделанном, а заметки, сомнения, отклонения от плана и обратную связь. Информация поднимается вверх по цепочке без глобальной синхронизации.

Один из ключевых выводов: требование 100-процентной корректности каждого коммита убивало производительность. Одна опечатка или изменение API останавливали всю систему, агенты бросались чинить одно и то же. Cursor сознательно разрешил небольшой процент ошибок — они быстро исправлялись другими агентами, а общий уровень оставался стабильным. Для релизов предусмотрена отдельная "зеленая" ветка с финальной проверкой.

Команда также обнаружила, что качество начальных инструкций важнее модели и архитектуры. Нечеткие формулировки вроде "реализуй спецификацию" приводили к тому, что агенты уходили в редкие пограничные кейсы вместо приоритетных задач. Ограничения ("никаких TODO, никаких частичных реализаций") работали лучше прямых указаний, а конкретные диапазоны ("сгенерируй 20–100 задач") — лучше размытых формулировок вроде «сделай много». Автор исследования Уилсон Лин рекомендует относиться к модели как к блестящему новому сотруднику, который знает инженерию, но не знает вашу кодовую базу.

BlackMokona · « **Ответ #13251 :** 06 Фев 2026 [11:46:11] »

https://habr.com/ru/news/993484/

Цитата

SemiAnalysis выпустили большой разбор Claude Code и утверждают, что прямо сейчас около 4% публичных коммитов на GitHub «пишет» Claude Code. В той же заметке авторы прогнозируют, что при сохранении траектории доля может вырасти до 20%+ ежедневных коммитов к концу 2026 года

BlackMokona · « **Ответ #13252 :** 06 Фев 2026 [11:56:17] »

Минутка юмора. Антропик выпустил 4 ролика, высмеивающую интеграцию рекламы в ИИ от ОпенАи. Ролики по 1 минуте, на англиском, но на ютуб можно включить автоперевод субтитров на Русский.
https://youtu.be/De-_wQpKw0s
https://youtu.be/kQRu7DdTTVA
https://youtu.be/FBSam25u8O4
https://youtu.be/3sVD3aG_azw

Vavanzer · « **Ответ #13253 :** 06 Фев 2026 [12:00:37] »

Цитата: BlackMokona от 06 Фев 2026 [11:43:35]

"планировщик — исполнитель — воркеры — судья" работала лучше, но оказалась слишком жесткой и упиралась в самого медленного воркера

Какие то воркеры, фигоркеры...
Сделайте лучше ИИ, который реальные дела делает. Снег сможет почистить, плитку выложить на стене, уборку и сортировку вещей в заваленом хламом гараже сделать, машину починить и проче реально полезное!
А то какую то фигню одну навязывают... Какое это нафик "сознание", если оно не модет замесить бетон и положить кирпичи, вскопать огород, собрирать виноград, делать из него вино! !:)

BlackMokona · « **Ответ #13254 :** 06 Фев 2026 [12:06:11] »

Цитата: Vavanzer от 06 Фев 2026 [12:00:37]

Сделайте лучше ИИ, который настоящие дела делает. Снег нужно почистить, плитку выложить на стену, убрать и рассортировать вещи в заваленном хламом гараже, сделать машину починить и прочее реально полезно!

Занимаются этим вопросом.
200 тысяч готовы и ещё миллион на подходе

Vavanzer · « **Ответ #13255 :** 06 Фев 2026 [12:12:08] »

Цитата: BlackMokona от 06 Фев 2026 [12:06:11]

Цитата: Vavanzer от 06 Фев 2026 [12:00:37]
Сделайте лучше ИИ, который настоящие дела делает. Снег нужно почистить, плитку выложить на стену, убрать и рассортировать вещи в заваленном хламом гараже, сделать машину починить и прочее реально полезно!
Занимаются этим вопросом.
200 тысяч готовы и ещё миллион на подходе

Вот и хорошо )))

Пусть 4 километра дороги до огорода мне чистят !

Я тут угарал от рекламы. Типа "подключайте ИИ для бизнеса... Увеличение прибыли в разы..."

И думаю такой. Он что, потолки натянет, окна вставит, плитку выложит, строительный мусор с пятого этажа по лесенкам вытащит!?) Какая вообще польза от него в реальном секторе экономики? Анимашки для надоедливой рекламы разве только рисовать, и почту спамом засорять!?)

BlackMokona · « **Ответ #13256 :** 06 Фев 2026 [12:16:37] »

Цитата: Vavanzer от 06 Фев 2026 [12:12:08]

Вот и хорошо ))) Пусть 4 километра дороги до огорода мне чистят !

Вам что-то такое нужно. Возможно только размером побольше.
https://robot.kz/news/kak-rabotaet-snegouborshchik-yarbo-snow-blower-i-chem-on-otlichaetsya-drugikh/

Vitaliy · « **Ответ #13257 :** 06 Фев 2026 [17:31:45] »

В Южной Корее профсоюз Hyundai Motors выступил https://interestingengineering.com/ai-robotics/hyundai-humanoids-not-allowed-without-agreement резко против внедрения промышленных роботов на заводах.
Профсоюз предупредил, что роботы не заменят ни одного сотрудника без отдельного соглашения.

Polnoch Ксю · « **Ответ #13258 :** 06 Фев 2026 [17:52:39] »

Цитата: BlackMokona от 06 Фев 2026 [06:39:41]

Заявлений о новых архитектурах или сильном росте цен не было, значит тоже сжатие контекста как у остальных моделей. Вопрос только насколько качественное

Это рак индустрии, что для этой технологии используют термин старой - это должно называться не контекстным окном, а каким-то новым термином, который нельзя спутать с прежним.

Так-то "2млн токенов" было ещё у моделей цукерберга год назад.

За неимением лучшего слова, предлагаю называть эту штуку гибридным контекстным окном, чтобы нельзя было спутать с настоящим. Модель может искать в таком контексте с помощью tools, но не в состоянии помнить что ей нужно искать. Да и склонна забывать инструкции (context rot) о том, что порыться в гибридном контексте нужно по указанным юзером ключевым словам.

Я пыталась давать моделям облако тегов в инструкциях (чтобы искали по ключевому слову для задачи определенного типа) и... Это работает хорошо ну в лучшем случае до первой компактизации контекста

Почему рак индустрии? Как только гибридный контекст включают для модели, после этого никак нельзя узнать, какое настоящее контекстное окно у модели

И нельзя спроектировать инструкции под него

Polnoch Ксю · « **Ответ #13259 :** 06 Фев 2026 [18:09:31] »

Люди - предельно тупые существа, на которых хорошо срабатывает вождизм (вот, некоторые пользуются Гроком только из-за Маска - не все выбирают Грок за его какие-то качества), или маркетойдный бред про миллионы токенов контекста.

В лучшем мире, в котором в школе проходят когнитивные искажения и учат критическому мышлению, ИИ CEO пришлось бы дать пользователем управлять настоящим контекстом - например, чтобы загружать туда компактные инструкции, отдельно от гибридного...

Новости:

A A A A Автор Тема: Пределы автоматизации и внедрения роботов (Прочитано 603374 раз)