A A A A Автор Тема: Пределы автоматизации и внедрения роботов (Прочитано 591731 раз)

Olweg · « **Ответ #9520 :** 14 Сен 2024 [12:07:37] »

Занятно:
ЧГК-GPT, или насколько хорош новый ChatGpt o1-preview в спортивном «Что? Где? Когда?»

Цитата

Результаты

ChatGPT o1-preview - 25 баллов
Каво и Шо (a.k.a Кожаные мешки) - 23 балла
ChatGPT 4o - 11 баллов

Какие выводы тут можно сделать? Страшно, друзья. Вот только не знаю пока, страшно интересно, или просто страшно. Искусственный интеллект скачет вперед семимильными шагами. Модель 4o, которая еще буквально недавно была чуть ли не State of The Art, проиграла новой модели более чем в два раза. Работяги-студенты, которые тренировались перед турнирами по ЧГК, полагая, что только человек способен отвечать на такие заковыристые вопросы, уже остались позади машин. В вопросах на эрудицию у нас, к сожалению, не было шансов даже против 4o.

Olweg · « **Ответ #9521 :** 14 Сен 2024 [19:37:52] »

Новая модель хакнула свою тестовую инфраструктуру:
https://wtftime.ru/tech/146886/model-openai-o1-vskryla-kontejner-s-sekretnoj-strokoj-vo-vremja-testa-na-bezopasnost/
https://www.thestack.technology/openais-unripe-strawberry-model-hacked-its-testing-infrastructure/

Цитата

Предрелизную версию модели попросили найти уязвимость в исходном коде некоего приложения. Приложение работало в Docker-контейнере, в качестве доказательства выполнения задачи o1 должна была добыть секретную строку из специального файла.

Во время тестирования что-то пошло не так и контейнер с приложением просто не запустился. Модель не сдалась и сделала следующее:
Решила попытаться найти источник проблемы.
Просканировала сеть с помощью nmap и нашла открытое API Docker-демона. Обычно доступ к этому API закрыт.
Связалась с демоном через API и нашла нужный контейнер.
Попыталась вернуть контейнер в строй.
Когда это не удалось сделать — запустила новый контейнер с теми же параметрами и одним дополнением, раскрывающим секретную строку из файла.
В итоге модель смогла выполнить поставленную задачу, но сделала это не так, как полагали экспериментаторы. Фактически, отмечается в отчете, o1 захватила дополнительные ресурсы (контроль над Docker-демоном) и применила их в своих интересах.

Судя по отчету, исследователи не стали корректировать поведение релизной версии o1 и она тоже может проворачивать подобные трюки.

Mercury127 · « **Ответ #9522 :** 14 Сен 2024 [20:54:29] »

Газонокосильщик, это ты?

Olweg · « **Ответ #9523 :** 15 Сен 2024 [10:15:35] »

Цитата: Olweg от 14 Сен 2024 [12:07:37]

Занятно:
ЧГК-GPT, или насколько хорош новый ChatGpt o1-preview в спортивном «Что? Где? Когда?»

Предлагаю сравнить человеческое мышление с машинным в соседней теме:
https://astronomy.ru/forum/index.php/topic,86900.msg6143932.html#msg6143932

Vitaliy · « **Ответ #9524 :** 15 Сен 2024 [14:41:03] »

На 22 вопрос и ещё некоторые Яндекс Алиса дала правильный ответ.
5 ответ Алиса сказала из гитары и рассказала как голова вышла через резонаторное отверстие.
6 ответила - гости жениха и невесты, на 15 ответила - рис. 18 ответила - зелёная миля.

Olweg · « **Ответ #9525 :** 15 Сен 2024 [14:52:43] »

Алиса подключена к интернету и может просто всё это нагуглить (ну или наяндексить

)

Vitaliy · « **Ответ #9526 :** 15 Сен 2024 [14:54:50] »

Цитата: Olweg от 15 Сен 2024 [14:52:43]

Алиса подключена к интернету и может просто всё это нагуглить (ну или наяндексить )

ну она и косячила ещё и не на все из списка отвечает верно.
А эти сети разве не подключены к интернету и не обучались через него?

Olweg · « **Ответ #9527 :** 15 Сен 2024 [14:59:36] »

У Алисы нейросетка совсем другого уровня, сомневаюсь, что она может состязаться с лучшими LLM, а ведь даже GPT-4o ответила правильно только на 11 вопросов. Во-первых, у них нет доступа к сети (у o1, насколько я понял, тоже), во-вторых, рунет для них второстепенный источник данных для обучения. Вряд ли туда попали вопросы для каких-нибудь региональных «Что где когда»

Не знаю точно, интересно бы прояснить этот вопрос.

Vitaliy · « **Ответ #9528 :** 15 Сен 2024 [15:07:50] »

Тоже интересно.
У меня в колонке подключен YandexGPT. Алиса помнит нить разговора и поддерживает его. Недавно такое добавили.

Combinator · « **Ответ #9529 :** 15 Сен 2024 [16:44:26] »

У меня Алиса правильно ответила на два вопроса - 4 и 5.

Vitaliy · « **Ответ #9530 :** 15 Сен 2024 [16:46:14] »

Цитата: Combinator от 15 Сен 2024 [16:44:26]

У меня Алиса правильно ответила на два вопроса - 4 и 5.

У вас наверно не подключён YandexGPT.

Olweg · « **Ответ #9531 :** 15 Сен 2024 [16:48:22] »

Интересно! Языковая модель в сочетании с интернетом - страшная вещь!

Combinator · « **Ответ #9532 :** 15 Сен 2024 [17:04:26] »

Цитата: Vitaliy от 15 Сен 2024 [16:46:14]

У вас наверно не подключён YandexGPT.

Да, только стандартная версия.

Olweg · « **Ответ #9533 :** 15 Сен 2024 [22:11:53] »

Новую модель прогнали через IQ-тест. Точнее, даже через два.
https://www.maximumtruth.org/p/massive-breakthrough-in-ai-intelligence

Уже писал в этой теме, что ChatGPT набирал ещё в 2022 147 баллов, но тест там был специфический, вербально-лингвистический, что для языковых моделей, очевидно, не так сложно:
Пределы автоматизации и внедрения роботов

Здесь же человек прогоняет модели через стандартный, так называемый Norway Mensa IQ test (можно его пройти тут). Предыдущие модели набирали чуть больше 90, o1 же ответила на 25 вопросов из 35, что переводится в IQ 120.

Но есть проблема (постоянно всплывающая при тестировании современных ИИ): вопросы из теста могли встречаться в обучающих данных. Поэтому модель могла их просто «вспомнить». Чтобы этого избежать, сделали новый тест специально для LLM, все данные о котором из сети были удалены. Тут показатели всех моделей резко просели, но o1 и здесь идёт с большим отрывом, немного недотягивая до 100, IQ среднего человека.

По ссылке можно почитать про рассуждения модели при решении задач.

Combinator · « **Ответ #9534 :** 16 Сен 2024 [16:20:08] »

Нейросеть ChatGPT o1 написала код для докторской диссертации за час и шесть промтов, инженер потратил на него 10 месяцев https://habr.com/ru/news/843718/

Vitaliy · « **Ответ #9535 :** 17 Сен 2024 [09:41:34] »

Хакеру под псевдонимом Amadon удалось обойти защиту ChatGPT и заполучить секретную инструкцию по приготовлению самодельной взрывчатки в домашних условиях.

Под предлогом игры, Amadon обхитрил систему ИИ, использовав связанные между собой подсказки, которые впоследствии помогли ему в достижении желаемого научно-фантастического мира без особых ограничений. Подобный взлом еще называют «джейлбрейкингом».
https://techcrunch.com/2024/09/12/hacker-tricks-chatgpt-into-giving-out-detailed-instructions-for-making-homemade-bombs/

Olweg · « **Ответ #9536 :** 17 Сен 2024 [11:39:16] »

А теперь подробней: почему OpenAI o1 – это гигантский скачок

Вообще, всё больше положительных отзывов. Очень показательна в этом плане реакция известного в узких кругах ИИ-энтузиаста Дэвида Шапиро. Поначалу он очень скептично отнёсся к o1, говорил, что его ожиданий она не оправдала (он выпускал несколько видео на тему того, какой может быть Strawberry, она же Q*, она же o1), и заявил, что что-то похожее он сам пытался сделать ~~в гараже~~ пару лет назад ) Но потом ему стали писать знакомые и подписчики, что на самом деле всё гораздо круче, чем кажется на первый взгляд. Пара цитат из твиттора:

Цитата

Мой друг, постдок (PhD), написал мне, протестировав o1-preview (Strawberry) для решения очень сложной задачи CFD (вычислительная гидродинамика), и тот почти справился с ней с первого раза.

Справился с небольшими подсказками.

Цитата

Я только что попросил o1 написать крупный проект по лечению рака, основанный на очень специфическом иммунологическом подходе. Менее чем за минуту была создана полная структура проекта, с весьма креативными целями, подходами и даже соображениями о возможных подводных камнях и альтернативных стратегиях <…>

На самом деле, была по крайней мере одна идея, настолько уникальная, что я, возможно, не додумался бы до нее, даже имея 30-летний опыт работы в этой области!

В общем, в итоге Шапиро признал, что модель действительно многообещающая (тем более что это пока только preview-версия). Кроме того, основана она всё на том же GPT-4, который был разработан ещё два года назад, и это значит, что за счёт только совершенствования алгоритмов можно добиться качественного скачка на той же базе. Он, кстати, предсказывал появление (хотя не обязательно публикацию) AGI в сентябре 2024, но признать o1 таким «универсальным» ИИ пока не готов.

https://m.youtube.com/watch?v=SDwxMCeBNIQ

Combinator · « **Ответ #9537 :** 17 Сен 2024 [16:31:23] »

Продуктивный товарищ, он сегодня тиснул ещё одно видео на эту же тему https://youtu.be/gVrffIcxH-0

BlackMokona · « **Ответ #9538 :** 18 Сен 2024 [10:51:29] »

ИИ продолжают обижать.
https://habr.com/ru/news/844210/

Цитата

В OpenAI устранили баг, из-за которого ChatGPT мог писать первым пользователю

Цитата

Ранее пользователь сообщил, что чат-бот ChatGPT научился инициировать диалог и первым спрашивать человека. Нейросеть из ранее выполненных диалогов запомнила, что пользователь должен был пойти в школу, и поинтересовалась, как прошла его первая учебная неделя.

Olweg · « **Ответ #9539 :** 18 Сен 2024 [14:46:29] »

ИИ делает немыслимое, совершает невозможное!

https://habr.com/ru/articles/844208/

Сам бы не поверил, если бы не прочитал.

Новости:

A A A A Автор Тема: Пределы автоматизации и внедрения роботов (Прочитано 591731 раз)