A A A A Автор Тема: Пределы автоматизации и внедрения роботов  (Прочитано 548040 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн BlackMokona

  • *****
  • Сообщений: 21 981
  • Благодарностей: 654
  • Мне нравится этот форум!
    • Сообщения от BlackMokona
Проблема тестов никуда не уходит.
https://habr.com/ru/news/992812/
Цитата
Организация METR опубликовала свежие замеры бенчмарка Time Horizon, который измеряет, задачи какой длины AI-агенты выполняют автономно. Gemini 3 Pro показал результат около 4 часов — это время, за которое человек-эксперт выполнил бы задачу, с которой модель справляется с 50% вероятностью успеха. Лидирует Claude Opus 4.5 с показателем 5,3 часа. Правда, если смотреть на 80%-й горизонт — задачи, которые модель решает надежно, — цифры скромнее: 42 минуты у Claude Opus 4.5 и 43 минуты у Gemini 3 Pro.

Для понимания масштаба прогресса: в 2019 году GPT-2 справлялся с задачами, которые человек решает за 2 секунды — вроде ответа на простой вопрос. GPT-4 в 2023-м дотянулся до 3-4 минут, а Claude 3.7 Sonnet в феврале 2025-го преодолел планку в 1 час. За шесть лет горизонт вырос примерно в 10 000 раз.

Методология устроена так: исследователи дают моделям набор из 228 задач разной сложности — от подсчета слов в тексте до обучения робастного классификатора изображений. Ранее те же задачи выполнили люди, а время фиксировалось. Затем строится логистическая регрессия, которая показывает, при какой длине задачи (в человеко-минутах) модель достигает 50% успеха.

Темп прогресса ускоряется. За период 2019-2025 годов время удвоения длительности выполняемых задач составляло около 7 месяцев. Но если брать только данные с 2023 года — уже 4 месяца. При таком темпе AI-агенты смогут автономно выполнять месячные проекты (167 рабочих часов) уже к 2027 году. Впрочем, сами исследователи признают неопределенность: в текущем наборе мало задач длиннее 8 часов, а модели улучшаются быстрее, чем METR успевает добавлять новые испытания.

Оффлайн Konstantin Schtsch

  • ***
  • Сообщений: 211
  • Благодарностей: 8
  • Мне нравится этот форум!
    • Сообщения от Konstantin Schtsch
Антропик пытаются решить проблему алаймента добавляя свод правил к каждому объекту информации, к каждой оценке.
Задекларировали что-то вроде конституции.
https://www.anthropic.com/constitution

Что будет если ребенку каждый день по 20 раз вдалбливать некие догмы?
Имхо он-то их конечно усвоит... но вот дальше либо получится тупенький фанатик, либо, при наличии способностей к анализу, он может возненавидеть дрессировщика.

Оффлайн BlackMokona

  • *****
  • Сообщений: 21 981
  • Благодарностей: 654
  • Мне нравится этот форум!
    • Сообщения от BlackMokona
Re: Пределы автоматизации и внедрения роботов
« Ответ #13242 : Сегодня в 13:10:44 »
https://habr.com/ru/news/993072/
Цитата
Полиция города Дирборн, штат Мичиган, начала устанавливать робоульи, способные мгновенно запускать беспилотники для борьбы с преступностью. Начальник городской полиции Исса Шахин заявил, что дроны должны «уменьшить неопределённость» для служб экстренного реагирования, направляющихся на вызовы. Офицеры смогут отправить квадрокоптеры для осмотра места происшествия и оценки ситуации.