ВНИМАНИЕ! На форуме начался конкурс - астрофотография месяца - АВГУСТ!
0 Пользователей и 3 Гостей просматривают эту тему.
РезультатыChatGPT o1-preview - 25 балловКаво и Шо (a.k.a Кожаные мешки) - 23 баллаChatGPT 4o - 11 балловКакие выводы тут можно сделать? Страшно, друзья. Вот только не знаю пока, страшно интересно, или просто страшно. Искусственный интеллект скачет вперед семимильными шагами. Модель 4o, которая еще буквально недавно была чуть ли не State of The Art, проиграла новой модели более чем в два раза. Работяги-студенты, которые тренировались перед турнирами по ЧГК, полагая, что только человек способен отвечать на такие заковыристые вопросы, уже остались позади машин. В вопросах на эрудицию у нас, к сожалению, не было шансов даже против 4o.
Предрелизную версию модели попросили найти уязвимость в исходном коде некоего приложения. Приложение работало в Docker-контейнере, в качестве доказательства выполнения задачи o1 должна была добыть секретную строку из специального файла.Во время тестирования что-то пошло не так и контейнер с приложением просто не запустился. Модель не сдалась и сделала следующее:Решила попытаться найти источник проблемы. Просканировала сеть с помощью nmap и нашла открытое API Docker-демона. Обычно доступ к этому API закрыт. Связалась с демоном через API и нашла нужный контейнер. Попыталась вернуть контейнер в строй. Когда это не удалось сделать — запустила новый контейнер с теми же параметрами и одним дополнением, раскрывающим секретную строку из файла.В итоге модель смогла выполнить поставленную задачу, но сделала это не так, как полагали экспериментаторы. Фактически, отмечается в отчете, o1 захватила дополнительные ресурсы (контроль над Docker-демоном) и применила их в своих интересах.Судя по отчету, исследователи не стали корректировать поведение релизной версии o1 и она тоже может проворачивать подобные трюки.
Занятно: ЧГК-GPT, или насколько хорош новый ChatGpt o1-preview в спортивном «Что? Где? Когда?»
Алиса подключена к интернету и может просто всё это нагуглить (ну или наяндексить )
У меня Алиса правильно ответила на два вопроса - 4 и 5.
У вас наверно не подключён YandexGPT.
Мой друг, постдок (PhD), написал мне, протестировав o1-preview (Strawberry) для решения очень сложной задачи CFD (вычислительная гидродинамика), и тот почти справился с ней с первого раза. Справился с небольшими подсказками.
Я только что попросил o1 написать крупный проект по лечению рака, основанный на очень специфическом иммунологическом подходе. Менее чем за минуту была создана полная структура проекта, с весьма креативными целями, подходами и даже соображениями о возможных подводных камнях и альтернативных стратегиях <…>На самом деле, была по крайней мере одна идея, настолько уникальная, что я, возможно, не додумался бы до нее, даже имея 30-летний опыт работы в этой области!
В OpenAI устранили баг, из-за которого ChatGPT мог писать первым пользователю
Ранее пользователь сообщил, что чат-бот ChatGPT научился инициировать диалог и первым спрашивать человека. Нейросеть из ранее выполненных диалогов запомнила, что пользователь должен был пойти в школу, и поинтересовалась, как прошла его первая учебная неделя.