ВНИМАНИЕ! На форуме началось голосование в конкурсе астрофотография месяца - НОЯБРЬ!
0 Пользователей и 2 Гостей просматривают эту тему.
Область AGI - это зелёненький квадратик сверху слева?
Human Panel Human N/A 98.0% 100.0% $17.00
Более 400 человек прошли тест ARC-AGI-2 для установления базового человеческого уровня. В среднем, «панели» участников справлялись с 60% заданий — значительно лучше, чем любые из протестированных моделей
А чего Грок 4.1 не включен? Не достоин?
Это человеческий уровень по мнению создателей теста. На самом деле это полная чушь, потому как они взяли большую кучу людей и если хоть один из них решил задание верно, то задание считалось верным у всех. Но бегство от ИИ, оно такое да.
Пример головоломок, чтобы оценить время прохождения и тем самым оплату за час у нанятых людей.
Цитата: BlackMokona от 18 Ноя 2025 [09:38:54]Пример головоломок, чтобы оценить время прохождения и тем самым оплату за час у нанятых людей.Это какой-то позор (с).
Вот интересно, с каким минимальным IQ человек еще может решить такую головоломку. Обычному человеку достаточно взглянуть и тут же решить ее в уме.
А давайте будем использовать не машинночитаемые тесты (вы б еще предложили людям в уме корни кубические из 12-значных чисел извлекать), а человекочитаемые - ну, чтоб машину сравнивать с человеком, а не пытаться натянуть ИИ на тест.
Так тест и создан как интуитивно лёгкий для человека (по крайней мере первая его версия, насчёт второй я уже не уверен), но для ИИ местами непреодолимо сложный.
ЦитатаБолее 400 человек прошли тест ARC-AGI-2 для установления базового человеческого уровня. В среднем, «панели» участников справлялись с 60% заданий — значительно лучше, чем любые из протестированных моделейПоэтому для второй версии теста человеческий уровень это 100% прохождение с ценой 17 баксов и ниже для одного задания.Хоть на самом деле нанятые доктора наук и прочие светилы мысли за овер прайс, дают точность только 60%. \