ВНИМАНИЕ! На форуме начался конкурс - астрофотография месяца ФЕВРАЛЬ!
0 Пользователей и 1 Гость просматривают эту тему.
Организация METR опубликовала свежие замеры бенчмарка Time Horizon, который измеряет, задачи какой длины AI-агенты выполняют автономно. Gemini 3 Pro показал результат около 4 часов — это время, за которое человек-эксперт выполнил бы задачу, с которой модель справляется с 50% вероятностью успеха. Лидирует Claude Opus 4.5 с показателем 5,3 часа. Правда, если смотреть на 80%-й горизонт — задачи, которые модель решает надежно, — цифры скромнее: 42 минуты у Claude Opus 4.5 и 43 минуты у Gemini 3 Pro.Для понимания масштаба прогресса: в 2019 году GPT-2 справлялся с задачами, которые человек решает за 2 секунды — вроде ответа на простой вопрос. GPT-4 в 2023-м дотянулся до 3-4 минут, а Claude 3.7 Sonnet в феврале 2025-го преодолел планку в 1 час. За шесть лет горизонт вырос примерно в 10 000 раз.Методология устроена так: исследователи дают моделям набор из 228 задач разной сложности — от подсчета слов в тексте до обучения робастного классификатора изображений. Ранее те же задачи выполнили люди, а время фиксировалось. Затем строится логистическая регрессия, которая показывает, при какой длине задачи (в человеко-минутах) модель достигает 50% успеха.Темп прогресса ускоряется. За период 2019-2025 годов время удвоения длительности выполняемых задач составляло около 7 месяцев. Но если брать только данные с 2023 года — уже 4 месяца. При таком темпе AI-агенты смогут автономно выполнять месячные проекты (167 рабочих часов) уже к 2027 году. Впрочем, сами исследователи признают неопределенность: в текущем наборе мало задач длиннее 8 часов, а модели улучшаются быстрее, чем METR успевает добавлять новые испытания.
Полиция города Дирборн, штат Мичиган, начала устанавливать робоульи, способные мгновенно запускать беспилотники для борьбы с преступностью. Начальник городской полиции Исса Шахин заявил, что дроны должны «уменьшить неопределённость» для служб экстренного реагирования, направляющихся на вызовы. Офицеры смогут отправить квадрокоптеры для осмотра места происшествия и оценки ситуации.