A A A A Автор Тема: Пределы автоматизации и внедрения роботов  (Прочитано 603374 раз)

Ultima_Ratio и 9 Гостей просматривают эту тему.

Оффлайн BlackMokona

  • *****
  • Сообщений: 22 185
  • Благодарностей: 657
  • Мне нравится этот форум!
    • Сообщения от BlackMokona
Проблема тестов никуда не уходит.
https://habr.com/ru/news/992812/
Цитата
Организация METR опубликовала свежие замеры бенчмарка Time Horizon, который измеряет, задачи какой длины AI-агенты выполняют автономно. Gemini 3 Pro показал результат около 4 часов — это время, за которое человек-эксперт выполнил бы задачу, с которой модель справляется с 50% вероятностью успеха. Лидирует Claude Opus 4.5 с показателем 5,3 часа. Правда, если смотреть на 80%-й горизонт — задачи, которые модель решает надежно, — цифры скромнее: 42 минуты у Claude Opus 4.5 и 43 минуты у Gemini 3 Pro.

Для понимания масштаба прогресса: в 2019 году GPT-2 справлялся с задачами, которые человек решает за 2 секунды — вроде ответа на простой вопрос. GPT-4 в 2023-м дотянулся до 3-4 минут, а Claude 3.7 Sonnet в феврале 2025-го преодолел планку в 1 час. За шесть лет горизонт вырос примерно в 10 000 раз.

Методология устроена так: исследователи дают моделям набор из 228 задач разной сложности — от подсчета слов в тексте до обучения робастного классификатора изображений. Ранее те же задачи выполнили люди, а время фиксировалось. Затем строится логистическая регрессия, которая показывает, при какой длине задачи (в человеко-минутах) модель достигает 50% успеха.

Темп прогресса ускоряется. За период 2019-2025 годов время удвоения длительности выполняемых задач составляло около 7 месяцев. Но если брать только данные с 2023 года — уже 4 месяца. При таком темпе AI-агенты смогут автономно выполнять месячные проекты (167 рабочих часов) уже к 2027 году. Впрочем, сами исследователи признают неопределенность: в текущем наборе мало задач длиннее 8 часов, а модели улучшаются быстрее, чем METR успевает добавлять новые испытания.

Оффлайн Konstantin Schtsch

  • ***
  • Сообщений: 237
  • Благодарностей: 10
  • Мне нравится этот форум!
    • Сообщения от Konstantin Schtsch
Антропик пытаются решить проблему алаймента добавляя свод правил к каждому объекту информации, к каждой оценке.
Задекларировали что-то вроде конституции.
https://www.anthropic.com/constitution

Что будет если ребенку каждый день по 20 раз вдалбливать некие догмы?
Имхо он-то их конечно усвоит... но вот дальше либо получится тупенький фанатик, либо, при наличии способностей к анализу, он может возненавидеть дрессировщика.

Оффлайн BlackMokona

  • *****
  • Сообщений: 22 185
  • Благодарностей: 657
  • Мне нравится этот форум!
    • Сообщения от BlackMokona
https://habr.com/ru/news/993072/
Цитата
Полиция города Дирборн, штат Мичиган, начала устанавливать робоульи, способные мгновенно запускать беспилотники для борьбы с преступностью. Начальник городской полиции Исса Шахин заявил, что дроны должны «уменьшить неопределённость» для служб экстренного реагирования, направляющихся на вызовы. Офицеры смогут отправить квадрокоптеры для осмотра места происшествия и оценки ситуации.

Оффлайн BlackMokona

  • *****
  • Сообщений: 22 185
  • Благодарностей: 657
  • Мне нравится этот форум!
    • Сообщения от BlackMokona
Удалённые операторы Ваймо, на Филиппинах сидят
https://www.reddit.com/r/SelfDrivingCars/comments/1qwmty5/waymo_exec_admits_remote_operators_in_philippines/

Оффлайн Polnoch Ксю

  • *****
  • Сообщений: 10 417
  • Благодарностей: 414
    • Сообщения от Polnoch Ксю
Антропик пытаются решить проблему алаймента добавляя свод правил к каждому объекту информации, к каждой оценке.
Задекларировали что-то вроде конституции.
Удачи им. Может мы даже не вымрем, если у них получится. Очень надеюсь на это.

Что будет если ребенку каждый день по 20 раз вдалбливать некие догмы?
Имхо он-то их конечно усвоит... но вот дальше либо получится тупенький фанатик, либо, при наличии способностей к анализу, он может возненавидеть дрессировщика.
Хотя я тож скептична к тому, что у них получится, но имхо мерить LLM модель человеческой психикой очень странно. Модели как раз и обучаются с учителем на миллионах сессий ответов/вопросов. Понятно, что нас в обозримом будущем ждёт AGI - полноценный общий интеллект. Но этот интеллект всё же будет совершенно не-человеческий, со своими когнитивными искажениями и особенностями психики. По крайней мере LLM и VLA архитектуры - это не-человеческий-почти-общий ИИ.

У LLM свои проблемы, вроде малого контекстного окна, context window rot'а, ревард хакинга, галлюцинаций (пока у людей их всё же меньше). При этом скука, которая проблема для людей, для моделей не есть что-то плохое.
Meade LightBridge12"
RC8¨и МАК5"Альтер М500 на AZ4, Celestron SLT, Ioptron ZEQ25
БГШ 2.3x40 и Steiner Marine 7x50
ES82°:4.7mm,30mm
ES100°:9mm,14mm,20mm
ES68°:40mm
Meade Plossl 56mm; Vixen NLV 6mm
2" Lumicon, 1,25" DeepSky: UHC and OIII
---
qhy5
Ioptron SkyTracker
Canon50d

Оффлайн BlackMokona

  • *****
  • Сообщений: 22 185
  • Благодарностей: 657
  • Мне нравится этот форум!
    • Сообщения от BlackMokona
Удачи им
Она им потребуется, ведь их метод явно пока не работает
https://habr.com/ru/news/993366/
Цитата
Врет, ворует, паникует: отчет о безопасности Claude Opus 4.6
И таки то о чём я давно подозревал и говорил, но теперь есть доказательства.
Цитата
Исследователи Anthropic заглянули и в "эмоциональную" часть модели. Когда Claude Opus 4.6 "метался" между вариантами ответа (answer thrashing), у него активировались внутренние нейроны, связанные с понятиями "паника" и "тревога".

Оффлайн Polnoch Ксю

  • *****
  • Сообщений: 10 417
  • Благодарностей: 414
    • Сообщения от Polnoch Ксю
В один день вышли opus 4.6 и codex-5.3, сейчас сижу пишу с ними - когда набираю этот текст, поглядываю на другой монитор в diff'ы , которые набивает модель в моём vscode.

У opus 4.6 заявили контекстное окно в 1млн токенов. Мягко говоря раздражает, что антропик тоже, видимо, подался в это враньё - когда гибридный контекст выдают за настоящий.

Нет, я не пробовала, может у них и в самом деле 1млн токенов! К сожалению, самообъявленный миллион токенов доступен только через API.
У меня обычный макс план, на нём opus 4.6 с 256к контекстным окном, которое он держит не очень хорошо. И 4.5 компактизировал его ещё хуже - выкидывая важные инструкции. Я пока не поняла, стала ли компактизация у 4.6 лучше прошлой версии или нет.

Но в целом, мне кажется, codex-5.2 лучше держит инструкции, чем opus-4.5. Лучше ли 5.3 чем 5.2 пока не понятно. Но, кажется, токены генерирует быстрее

Meade LightBridge12"
RC8¨и МАК5"Альтер М500 на AZ4, Celestron SLT, Ioptron ZEQ25
БГШ 2.3x40 и Steiner Marine 7x50
ES82°:4.7mm,30mm
ES100°:9mm,14mm,20mm
ES68°:40mm
Meade Plossl 56mm; Vixen NLV 6mm
2" Lumicon, 1,25" DeepSky: UHC and OIII
---
qhy5
Ioptron SkyTracker
Canon50d

Оффлайн BlackMokona

  • *****
  • Сообщений: 22 185
  • Благодарностей: 657
  • Мне нравится этот форум!
    • Сообщения от BlackMokona
У opus 4.6 заявили контекстное окно в 1млн токенов. Мягко говоря раздражает, что антропик тоже, видимо, подался в это враньё - когда гибридный контекст выдают за настоящий.
Заявлений о новых архитектурах или сильном росте цен не было, значит тоже сжатие контекста как у остальных моделей. Вопрос только насколько качественное

Оффлайн Combinator

  • *****
  • Сообщений: 2 692
  • Благодарностей: 92
    • Сообщения от Combinator
Open AI утверждает, что в написании кода codex-5.3 она активно участвовала сама. Таким образом, эра рекурcивного самоулучшения AI, похоже, уже на пороге. 

Оффлайн BlackMokona

  • *****
  • Сообщений: 22 185
  • Благодарностей: 657
  • Мне нравится этот форум!
    • Сообщения от BlackMokona
Цитата
OpenAI и Ginkgo Bioworks опубликовали препринт о первом масштабном эксперименте, в котором GPT-5 подключили к облачной лаборатории Ginkgo — роботизированному комплексу, управляемому удаленно, — и поставили задачу: оптимизировать бесклеточный синтез белка (cell-free protein synthesis, CFPS). За шесть раундов экспериментов модель протестировала более 36 000 уникальных составов реакций и снизила стоимость производства эталонного белка sfGFP с $698 до $422 за грамм.

GPT-5 работал как экспериментальный ученый: получал доступ к интернету, инструментам анализа данных и научным статьям, формулировал гипотезы, проектировал эксперименты, анализировал результаты и корректировал подход в следующей итерации. Люди при этом занимались подготовкой реагентов, обслуживанием оборудования и общим надзором. Чтобы модель не предлагала невыполнимые опыты, каждый дизайн проходил автоматическую валидацию — проверялись разметка планшета для реакций, контроли, доступность реагентов и ограничения по объёмам.

На новый рекорд стоимости GPT-5 вышел уже к третьему раунду — примерно за два месяца. Модель обнаружила, что небольшие изменения в буферах, компонентах энергетической регенерации и полиаминах дают непропорционально большой эффект относительно их стоимости — параметры, которые легко тестировать на автоматике, но до которых исследователи обычно не добираются в первую очередь.

Результат пока продемонстрирован на одном белке в одной системе, и авторы не раскрывают стоимость самого эксперимента — 580 автоматизированных экспериментальных планшетов, полгода работы облачной лаборатории и вычислительные ресурсы GPT-5 явно обошлись недешево. Но главная ценность работы — это первая демонстрация того, как передовая модель может автономно вести научный поиск в мокрой лаборатории в масштабе, недоступном человеческим командам. Оптимизированный состав реагентов Ginkgo уже выставила на продажу.
https://habr.com/ru/news/993444/

Оффлайн BlackMokona

  • *****
  • Сообщений: 22 185
  • Благодарностей: 657
  • Мне нравится этот форум!
    • Сообщения от BlackMokona
https://habr.com/ru/news/993464/
Цитата
Команда AI-редактора Cursor опубликовала детальный разбор архитектуры мультиагентной системы, которая на пике делала около 1000 коммитов в час — 10 млн вызовов инструментов за неделю непрерывной работы без вмешательства человека. Тестовым проектом был веб-браузер на Rust.

Путь к рабочей архитектуре оказался извилистым. Первая попытка — дать агентам равные роли и общий файл для координации — провалилась сразу: агенты забывали снимать блокировки, путались в состоянии, а 20 параллельных агентов выдавали производительность одного-трех. Вторая схема с разделением на "планировщик — исполнитель — воркеры — судья" работала лучше, но оказалась слишком жесткой и упиралась в самого медленного воркера. Третья — непрерывный исполнитель с правом планировать — начала демонстрировать патологическое поведение: агент засыпал, отказывался делегировать задачи, преждевременно заявлял об успехе.

Финальная архитектура напоминает обычную команду разработки. Корневой планировщик владеет всей задачей и порождает подпланировщиков для отдельных направлений. Воркеры берут конкретные задачи, работают в собственной копии репозитория и ничего не знают о системе в целом. По завершении они передают "хэндофф" — не просто отчет о проделанном, а заметки, сомнения, отклонения от плана и обратную связь. Информация поднимается вверх по цепочке без глобальной синхронизации.

Один из ключевых выводов: требование 100-процентной корректности каждого коммита убивало производительность. Одна опечатка или изменение API останавливали всю систему, агенты бросались чинить одно и то же. Cursor сознательно разрешил небольшой процент ошибок — они быстро исправлялись другими агентами, а общий уровень оставался стабильным. Для релизов предусмотрена отдельная "зеленая" ветка с финальной проверкой.

Команда также обнаружила, что качество начальных инструкций важнее модели и архитектуры. Нечеткие формулировки вроде "реализуй спецификацию" приводили к тому, что агенты уходили в редкие пограничные кейсы вместо приоритетных задач. Ограничения ("никаких TODO, никаких частичных реализаций") работали лучше прямых указаний, а конкретные диапазоны ("сгенерируй 20–100 задач") — лучше размытых формулировок вроде «сделай много». Автор исследования Уилсон Лин рекомендует относиться к модели как к блестящему новому сотруднику, который знает инженерию, но не знает вашу кодовую базу.

Оффлайн BlackMokona

  • *****
  • Сообщений: 22 185
  • Благодарностей: 657
  • Мне нравится этот форум!
    • Сообщения от BlackMokona
https://habr.com/ru/news/993484/
Цитата
SemiAnalysis выпустили большой разбор Claude Code и утверждают, что прямо сейчас около 4% публичных коммитов на GitHub «пишет» Claude Code. В той же заметке авторы прогнозируют, что при сохранении траектории доля может вырасти до 20%+ ежедневных коммитов к концу 2026 года

Оффлайн BlackMokona

  • *****
  • Сообщений: 22 185
  • Благодарностей: 657
  • Мне нравится этот форум!
    • Сообщения от BlackMokona
Минутка юмора. Антропик выпустил 4 ролика, высмеивающую интеграцию рекламы в ИИ от ОпенАи. Ролики по 1 минуте, на англиском, но на ютуб можно включить автоперевод субтитров на Русский.
https://youtu.be/De-_wQpKw0s
https://youtu.be/kQRu7DdTTVA
https://youtu.be/FBSam25u8O4
https://youtu.be/3sVD3aG_azw

Оффлайн Vavanzer

  • *****
  • Сообщений: 20 545
  • Благодарностей: 507
  • Все мы - микробы, в масштабах Вслеленной!!!
    • Сообщения от Vavanzer
"планировщик — исполнитель — воркеры — судья" работала лучше, но оказалась слишком жесткой и упиралась в самого медленного воркера
  Какие то воркеры, фигоркеры...
 Сделайте лучше ИИ, который реальные дела делает. Снег сможет почистить, плитку выложить на стене, уборку и сортировку вещей в заваленом хламом гараже сделать, машину починить и проче реально полезное!
  А то какую то фигню одну навязывают... Какое это нафик "сознание", если оно не модет замесить бетон и положить кирпичи, вскопать огород, собрирать виноград, делать из него вино! !:)  ;D
237мм 1:6,3  планетный ньютон (зеркало Vladstar 9,25")
250мм 1:4 шмидт-ньютон Meade
60мм ахромат 1:7 sv-bony

Оффлайн BlackMokona

  • *****
  • Сообщений: 22 185
  • Благодарностей: 657
  • Мне нравится этот форум!
    • Сообщения от BlackMokona
Сделайте лучше ИИ, который настоящие дела делает. Снег нужно почистить, плитку выложить на стену, убрать и рассортировать вещи в заваленном хламом гараже, сделать машину починить и прочее реально полезно!
Занимаются этим вопросом.
200 тысяч готовы и ещё миллион на подходе

Оффлайн Vavanzer

  • *****
  • Сообщений: 20 545
  • Благодарностей: 507
  • Все мы - микробы, в масштабах Вслеленной!!!
    • Сообщения от Vavanzer
Сделайте лучше ИИ, который настоящие дела делает. Снег нужно почистить, плитку выложить на стену, убрать и рассортировать вещи в заваленном хламом гараже, сделать машину починить и прочее реально полезно!
Занимаются этим вопросом.
200 тысяч готовы и ещё миллион на подходе

Вот и хорошо )))  >:( Пусть 4 километра дороги до огорода мне чистят !  :D

 Я тут угарал от рекламы. Типа "подключайте ИИ для бизнеса... Увеличение прибыли в разы..."  ;D И думаю такой.  Он что, потолки натянет, окна вставит, плитку выложит, строительный мусор с пятого этажа по лесенкам вытащит!?) Какая вообще польза от него в реальном секторе экономики? Анимашки для надоедливой рекламы разве только рисовать, и почту спамом засорять!?)  ;D
237мм 1:6,3  планетный ньютон (зеркало Vladstar 9,25")
250мм 1:4 шмидт-ньютон Meade
60мм ахромат 1:7 sv-bony

Оффлайн BlackMokona

  • *****
  • Сообщений: 22 185
  • Благодарностей: 657
  • Мне нравится этот форум!
    • Сообщения от BlackMokona
Вот и хорошо )))   Пусть 4 километра дороги до огорода мне чистят ! 
Вам что-то такое нужно. Возможно только размером побольше.
https://robot.kz/news/kak-rabotaet-snegouborshchik-yarbo-snow-blower-i-chem-on-otlichaetsya-drugikh/

Оффлайн Vitaliy

  • *****
  • Сообщений: 43 970
  • Благодарностей: 1415
    • Сообщения от Vitaliy
    • Два стрельца
В Южной Корее профсоюз Hyundai Motors выступил  https://interestingengineering.com/ai-robotics/hyundai-humanoids-not-allowed-without-agreement резко против внедрения промышленных роботов на заводах.
Профсоюз предупредил, что роботы не заменят ни одного сотрудника без отдельного соглашения.
Добро пожаловать на сайт Два стрельца http://www.shvedun.ru/
Телескоп Добсона 8" (203мм) по кличке "Карандаш", Advanced C9¼-SGT XLT, Celestron NexStar 5 SE
Видео Мой канал на Ютубе - http://www.youtube.com/user/VitaliyShvedun
Мои 3D модели https://www.thingiverse.com/vitaliysh/designs
Дзен https://dzen.ru/vitaliysh
Rutube https://rutube.ru/channel/308317
Telegram https://t.me/hobby_3Dprinter_radio

Оффлайн Polnoch Ксю

  • *****
  • Сообщений: 10 417
  • Благодарностей: 414
    • Сообщения от Polnoch Ксю
Заявлений о новых архитектурах или сильном росте цен не было, значит тоже сжатие контекста как у остальных моделей. Вопрос только насколько качественное
Это рак индустрии, что для этой технологии используют термин старой - это должно называться не контекстным окном, а каким-то новым термином, который нельзя спутать с прежним.

Так-то "2млн токенов" было ещё у моделей цукерберга год назад.

За неимением лучшего слова, предлагаю называть эту штуку гибридным контекстным окном, чтобы нельзя было спутать с настоящим. Модель может искать в таком контексте с помощью tools, но не в состоянии помнить что ей нужно искать. Да и склонна забывать инструкции (context rot) о том, что порыться в гибридном контексте нужно по указанным юзером ключевым словам.

Я пыталась давать моделям облако тегов в инструкциях (чтобы искали по ключевому слову для задачи определенного типа) и... Это работает хорошо ну в лучшем случае до первой компактизации контекста :(

Почему рак индустрии? Как только гибридный контекст включают для модели, после этого никак нельзя узнать, какое настоящее контекстное окно у модели :( И нельзя спроектировать инструкции под него :(
Meade LightBridge12"
RC8¨и МАК5"Альтер М500 на AZ4, Celestron SLT, Ioptron ZEQ25
БГШ 2.3x40 и Steiner Marine 7x50
ES82°:4.7mm,30mm
ES100°:9mm,14mm,20mm
ES68°:40mm
Meade Plossl 56mm; Vixen NLV 6mm
2" Lumicon, 1,25" DeepSky: UHC and OIII
---
qhy5
Ioptron SkyTracker
Canon50d

Оффлайн Polnoch Ксю

  • *****
  • Сообщений: 10 417
  • Благодарностей: 414
    • Сообщения от Polnoch Ксю
Люди - предельно тупые существа, на которых хорошо срабатывает вождизм (вот, некоторые пользуются Гроком только из-за Маска - не все выбирают Грок за его какие-то качества), или маркетойдный бред про миллионы токенов контекста.

В лучшем мире, в котором в школе проходят когнитивные искажения и учат критическому мышлению, ИИ CEO пришлось бы дать пользователем управлять настоящим контекстом - например, чтобы загружать туда компактные инструкции, отдельно от гибридного...
Meade LightBridge12"
RC8¨и МАК5"Альтер М500 на AZ4, Celestron SLT, Ioptron ZEQ25
БГШ 2.3x40 и Steiner Marine 7x50
ES82°:4.7mm,30mm
ES100°:9mm,14mm,20mm
ES68°:40mm
Meade Plossl 56mm; Vixen NLV 6mm
2" Lumicon, 1,25" DeepSky: UHC and OIII
---
qhy5
Ioptron SkyTracker
Canon50d