A A A A Автор Тема: Пределы автоматизации и внедрения роботов (Прочитано 444585 раз)

skvj · « **Ответ #11760 :** 17 Ноя 2025 [09:19:50] »

Кстати, как Теслы сходят с конвейера

https://youtu.be/UKpagx0yLc8

BlackMokona · « **Ответ #11761 :** 17 Ноя 2025 [11:29:28] »

Ещё одно приятное видео про ИИ и оценку его интеллекта.
https://www.youtube.com/watch?v=eP1dSWFqKVs&t=21s

Vitaliy · « **Ответ #11762 :** 18 Ноя 2025 [01:09:56] »

Исследование: детские ИИ-игрушки учат опасным и непристойным вещам https://4pda.to/2025/11/15/449419/issledovanie_detskie_ii_igrushki_uchat_opasnym_i_nepristojnym_vescham/?ysclid=mi3p3tyg5h221010373

BlackMokona · « **Ответ #11763 :** 18 Ноя 2025 [08:48:32] »

Rattus · « **Ответ #11764 :** 18 Ноя 2025 [09:22:49] »

Область AGI - это зелёненький квадратик сверху слева?

BlackMokona · « **Ответ #11765 :** 18 Ноя 2025 [09:27:59] »

Цитата: Rattus от 18 Ноя 2025 [09:22:49]

Область AGI - это зелёненький квадратик сверху слева?

Это человеческий уровень по мнению создателей теста. На самом деле это полная чушь, потому как они взяли большую кучу людей и если хоть один из них решил задание верно, то задание считалось верным у всех. Но бегство от ИИ, оно такое да.

BlackMokona · « **Ответ #11766 :** 18 Ноя 2025 [09:38:54] »

Ну и немного фактов приколов. У меня под рукой только для второго поколения теста.
Открываем сайт
https://arcprize.org/leaderboard

Цитата

Human Panel Human N/A 98.0% 100.0% $17.00

И так 100% прохождение, с ценой 17 долларов за задание. Учитывая что там не долгие головоломки. Не сложно понять, уровень людей которых они наняли.

А теперь глянем среднее, благо они тоже это раскрыли в своё время. Для второй версии теста
https://habr.com/ru/news/894196/

Цитата

Более 400 человек прошли тест ARC-AGI-2 для установления базового человеческого уровня. В среднем, «панели» участников справлялись с 60% заданий — значительно лучше, чем любые из протестированных моделей

Поэтому для второй версии теста человеческий уровень это 100% прохождение с ценой 17 баксов и ниже для одного задания.
Хоть на самом деле нанятые доктора наук и прочие светилы мысли за овер прайс, дают точность только 60%.

\

Пример головоломок, чтобы оценить время прохождения и тем самым оплату за час у нанятых людей.

BlackMokona · « **Ответ #11767 :** 18 Ноя 2025 [15:23:18] »

Очередной новый лидер гонки. Дженеми 3.

Metatron · « **Ответ #11768 :** 18 Ноя 2025 [16:41:30] »

А чего Грок 4.1 не включен? Не достоин?

BlackMokona · « **Ответ #11769 :** 18 Ноя 2025 [17:07:39] »

Цитата: Metatron от 18 Ноя 2025 [16:41:30]

А чего Грок 4.1 не включен? Не достоин?

Маска не любят. Табличка же от Гугла, а не от независимых обзорщиков. Как дадут всем пощупать, будут все челики.
Да и в любом случае Грок 4.1 хуже, следующий ход Икс.Аи это Грок 5. А тут чисто оптимизации.

Combinator · « **Ответ #11770 :** 18 Ноя 2025 [18:00:14] »

Цитата: BlackMokona от 18 Ноя 2025 [09:27:59]

Это человеческий уровень по мнению создателей теста. На самом деле это полная чушь, потому как они взяли большую кучу людей и если хоть один из них решил задание верно, то задание считалось верным у всех. Но бегство от ИИ, оно такое да.

😉

Combinator · « **Ответ #11771 :** 18 Ноя 2025 [18:04:45] »

Цитата: BlackMokona от 18 Ноя 2025 [09:38:54]

Пример головоломок, чтобы оценить время прохождения и тем самым оплату за час у нанятых людей.

Это какой-то позор (с).

Vitaliy · « **Ответ #11772 :** 18 Ноя 2025 [18:13:59] »

Цитата: Combinator от 18 Ноя 2025 [18:04:45]

Цитата: BlackMokona от 18 Ноя 2025 [09:38:54]
Пример головоломок, чтобы оценить время прохождения и тем самым оплату за час у нанятых людей.

Это какой-то позор (с).

Вот интересно, с каким минимальным IQ человек еще может решить такую головоломку. Обычному человеку достаточно взглянуть и тут же решить ее в уме.

BlackMokona · « **Ответ #11773 :** 18 Ноя 2025 [18:18:42] »

Цитата: Vitaliy от 18 Ноя 2025 [18:13:59]

Вот интересно, с каким минимальным IQ человек еще может решить такую головоломку. Обычному человеку достаточно взглянуть и тут же решить ее в уме.

Попробуйте пройти весь тест
https://arcprize.org/play
Выбирать публичный набор для оценки 2, сложный

AlexDark · « **Ответ #11774 :** 18 Ноя 2025 [18:21:07] »

А как эта картинка (которая из задания) оценивает уровень интеллекта человека? Какой-нить Рэймонд (из "Человек дождя") наверняка сможет решать подобные задачи лучше нейротипичных людей, но при этом может иметь кучу иных интеллектуальных проблем. А давайте будем использовать не машинночитаемые тесты (вы б еще предложили людям в уме корни кубические из 12-значных чисел извлекать), а человекочитаемые - ну, чтоб машину сравнивать с человеком, а не пытаться натянуть ИИ на тест.

Olweg · « **Ответ #11775 :** 18 Ноя 2025 [19:47:48] »

Цитата: AlexDark от 18 Ноя 2025 [18:21:07]

А давайте будем использовать не машинночитаемые тесты (вы б еще предложили людям в уме корни кубические из 12-значных чисел извлекать), а человекочитаемые - ну, чтоб машину сравнивать с человеком, а не пытаться натянуть ИИ на тест.

Так тест и создан как интуитивно лёгкий для человека (по крайней мере первая его версия, насчёт второй я уже не уверен), но для ИИ местами непреодолимо сложный.

BlackMokona · « **Ответ #11776 :** 18 Ноя 2025 [20:00:59] »

Цитата: Olweg от 18 Ноя 2025 [19:47:48]

Так тест и создан как интуитивно лёгкий для человека (по крайней мере первая его версия, насчёт второй я уже не уверен), но для ИИ местами непреодолимо сложный.

Да, цель теста это выявить слабые места ИИ, чтобы было как оценивать рост их интеллекта.

BlackMokona · « **Ответ #11777 :** 18 Ноя 2025 [20:06:48] »

Текущий топ лист ИИ, по средней оценке тестов. Грок 4.1 пока не завезли. Но Дженеми 3 уже тут

BlackMokona · « **Ответ #11778 :** 18 Ноя 2025 [20:38:37] »

А тут с ИмАрены есть Грок 4.1. Но смысл не меняется, Гугл в лидерах.

Olweg · « **Ответ #11779 :** 18 Ноя 2025 [20:42:32] »

Цитата: BlackMokona от 18 Ноя 2025 [09:38:54]

Цитата
Более 400 человек прошли тест ARC-AGI-2 для установления базового человеческого уровня. В среднем, «панели» участников справлялись с 60% заданий — значительно лучше, чем любые из протестированных моделей
Поэтому для второй версии теста человеческий уровень это 100% прохождение с ценой 17 баксов и ниже для одного задания.
Хоть на самом деле нанятые доктора наук и прочие светилы мысли за овер прайс, дают точность только 60%. \

Gemini 3 Deep Think решает почти половину задач:

Новости:

A A A A Автор Тема: Пределы автоматизации и внедрения роботов (Прочитано 444585 раз)