ВНИМАНИЕ! На форуме начался конкурс - астрофотография месяца МАРТ!
Ultima_Ratio и 9 Гостей просматривают эту тему.
Организация METR опубликовала свежие замеры бенчмарка Time Horizon, который измеряет, задачи какой длины AI-агенты выполняют автономно. Gemini 3 Pro показал результат около 4 часов — это время, за которое человек-эксперт выполнил бы задачу, с которой модель справляется с 50% вероятностью успеха. Лидирует Claude Opus 4.5 с показателем 5,3 часа. Правда, если смотреть на 80%-й горизонт — задачи, которые модель решает надежно, — цифры скромнее: 42 минуты у Claude Opus 4.5 и 43 минуты у Gemini 3 Pro.Для понимания масштаба прогресса: в 2019 году GPT-2 справлялся с задачами, которые человек решает за 2 секунды — вроде ответа на простой вопрос. GPT-4 в 2023-м дотянулся до 3-4 минут, а Claude 3.7 Sonnet в феврале 2025-го преодолел планку в 1 час. За шесть лет горизонт вырос примерно в 10 000 раз.Методология устроена так: исследователи дают моделям набор из 228 задач разной сложности — от подсчета слов в тексте до обучения робастного классификатора изображений. Ранее те же задачи выполнили люди, а время фиксировалось. Затем строится логистическая регрессия, которая показывает, при какой длине задачи (в человеко-минутах) модель достигает 50% успеха.Темп прогресса ускоряется. За период 2019-2025 годов время удвоения длительности выполняемых задач составляло около 7 месяцев. Но если брать только данные с 2023 года — уже 4 месяца. При таком темпе AI-агенты смогут автономно выполнять месячные проекты (167 рабочих часов) уже к 2027 году. Впрочем, сами исследователи признают неопределенность: в текущем наборе мало задач длиннее 8 часов, а модели улучшаются быстрее, чем METR успевает добавлять новые испытания.
Полиция города Дирборн, штат Мичиган, начала устанавливать робоульи, способные мгновенно запускать беспилотники для борьбы с преступностью. Начальник городской полиции Исса Шахин заявил, что дроны должны «уменьшить неопределённость» для служб экстренного реагирования, направляющихся на вызовы. Офицеры смогут отправить квадрокоптеры для осмотра места происшествия и оценки ситуации.
Антропик пытаются решить проблему алаймента добавляя свод правил к каждому объекту информации, к каждой оценке.Задекларировали что-то вроде конституции.
Что будет если ребенку каждый день по 20 раз вдалбливать некие догмы?Имхо он-то их конечно усвоит... но вот дальше либо получится тупенький фанатик, либо, при наличии способностей к анализу, он может возненавидеть дрессировщика.
Удачи им
Врет, ворует, паникует: отчет о безопасности Claude Opus 4.6
Исследователи Anthropic заглянули и в "эмоциональную" часть модели. Когда Claude Opus 4.6 "метался" между вариантами ответа (answer thrashing), у него активировались внутренние нейроны, связанные с понятиями "паника" и "тревога".
У opus 4.6 заявили контекстное окно в 1млн токенов. Мягко говоря раздражает, что антропик тоже, видимо, подался в это враньё - когда гибридный контекст выдают за настоящий.
OpenAI и Ginkgo Bioworks опубликовали препринт о первом масштабном эксперименте, в котором GPT-5 подключили к облачной лаборатории Ginkgo — роботизированному комплексу, управляемому удаленно, — и поставили задачу: оптимизировать бесклеточный синтез белка (cell-free protein synthesis, CFPS). За шесть раундов экспериментов модель протестировала более 36 000 уникальных составов реакций и снизила стоимость производства эталонного белка sfGFP с $698 до $422 за грамм.GPT-5 работал как экспериментальный ученый: получал доступ к интернету, инструментам анализа данных и научным статьям, формулировал гипотезы, проектировал эксперименты, анализировал результаты и корректировал подход в следующей итерации. Люди при этом занимались подготовкой реагентов, обслуживанием оборудования и общим надзором. Чтобы модель не предлагала невыполнимые опыты, каждый дизайн проходил автоматическую валидацию — проверялись разметка планшета для реакций, контроли, доступность реагентов и ограничения по объёмам.На новый рекорд стоимости GPT-5 вышел уже к третьему раунду — примерно за два месяца. Модель обнаружила, что небольшие изменения в буферах, компонентах энергетической регенерации и полиаминах дают непропорционально большой эффект относительно их стоимости — параметры, которые легко тестировать на автоматике, но до которых исследователи обычно не добираются в первую очередь.Результат пока продемонстрирован на одном белке в одной системе, и авторы не раскрывают стоимость самого эксперимента — 580 автоматизированных экспериментальных планшетов, полгода работы облачной лаборатории и вычислительные ресурсы GPT-5 явно обошлись недешево. Но главная ценность работы — это первая демонстрация того, как передовая модель может автономно вести научный поиск в мокрой лаборатории в масштабе, недоступном человеческим командам. Оптимизированный состав реагентов Ginkgo уже выставила на продажу.
Команда AI-редактора Cursor опубликовала детальный разбор архитектуры мультиагентной системы, которая на пике делала около 1000 коммитов в час — 10 млн вызовов инструментов за неделю непрерывной работы без вмешательства человека. Тестовым проектом был веб-браузер на Rust.Путь к рабочей архитектуре оказался извилистым. Первая попытка — дать агентам равные роли и общий файл для координации — провалилась сразу: агенты забывали снимать блокировки, путались в состоянии, а 20 параллельных агентов выдавали производительность одного-трех. Вторая схема с разделением на "планировщик — исполнитель — воркеры — судья" работала лучше, но оказалась слишком жесткой и упиралась в самого медленного воркера. Третья — непрерывный исполнитель с правом планировать — начала демонстрировать патологическое поведение: агент засыпал, отказывался делегировать задачи, преждевременно заявлял об успехе.Финальная архитектура напоминает обычную команду разработки. Корневой планировщик владеет всей задачей и порождает подпланировщиков для отдельных направлений. Воркеры берут конкретные задачи, работают в собственной копии репозитория и ничего не знают о системе в целом. По завершении они передают "хэндофф" — не просто отчет о проделанном, а заметки, сомнения, отклонения от плана и обратную связь. Информация поднимается вверх по цепочке без глобальной синхронизации.Один из ключевых выводов: требование 100-процентной корректности каждого коммита убивало производительность. Одна опечатка или изменение API останавливали всю систему, агенты бросались чинить одно и то же. Cursor сознательно разрешил небольшой процент ошибок — они быстро исправлялись другими агентами, а общий уровень оставался стабильным. Для релизов предусмотрена отдельная "зеленая" ветка с финальной проверкой.Команда также обнаружила, что качество начальных инструкций важнее модели и архитектуры. Нечеткие формулировки вроде "реализуй спецификацию" приводили к тому, что агенты уходили в редкие пограничные кейсы вместо приоритетных задач. Ограничения ("никаких TODO, никаких частичных реализаций") работали лучше прямых указаний, а конкретные диапазоны ("сгенерируй 20–100 задач") — лучше размытых формулировок вроде «сделай много». Автор исследования Уилсон Лин рекомендует относиться к модели как к блестящему новому сотруднику, который знает инженерию, но не знает вашу кодовую базу.
SemiAnalysis выпустили большой разбор Claude Code и утверждают, что прямо сейчас около 4% публичных коммитов на GitHub «пишет» Claude Code. В той же заметке авторы прогнозируют, что при сохранении траектории доля может вырасти до 20%+ ежедневных коммитов к концу 2026 года
"планировщик — исполнитель — воркеры — судья" работала лучше, но оказалась слишком жесткой и упиралась в самого медленного воркера
Сделайте лучше ИИ, который настоящие дела делает. Снег нужно почистить, плитку выложить на стену, убрать и рассортировать вещи в заваленном хламом гараже, сделать машину починить и прочее реально полезно!
Цитата: Vavanzer от 06 Фев 2026 [12:00:37] Сделайте лучше ИИ, который настоящие дела делает. Снег нужно почистить, плитку выложить на стену, убрать и рассортировать вещи в заваленном хламом гараже, сделать машину починить и прочее реально полезно!Занимаются этим вопросом.200 тысяч готовы и ещё миллион на подходе
Вот и хорошо ))) Пусть 4 километра дороги до огорода мне чистят !
Заявлений о новых архитектурах или сильном росте цен не было, значит тоже сжатие контекста как у остальных моделей. Вопрос только насколько качественное