ВНИМАНИЕ! На форуме начался конкурс - астрофотография месяца - АВГУСТ!
0 Пользователей и 2 Гостей просматривают эту тему.
Цитата: BlackMokona от 07 Авг 2025 [20:58:05]Цитата: Olweg от 07 Авг 2025 [20:51:10]Наверное, самое важное новшество - очень низкий уровень галлюцинаций.Только зачем то они для этого новые критерии придумали. Поэтому хотелось бы увидеть сравнения с конкурентамиТем более, что чёткого определения галлюцинаций нет, так что, остаётся некое пространство для манёвра.
Цитата: Olweg от 07 Авг 2025 [20:51:10]Наверное, самое важное новшество - очень низкий уровень галлюцинаций.Только зачем то они для этого новые критерии придумали. Поэтому хотелось бы увидеть сравнения с конкурентами
Наверное, самое важное новшество - очень низкий уровень галлюцинаций.
Ну и ARC-AGI подкатили.
Правда, непонятно, почему тогда сотрудники Open AI не использовали его ещё до релиза внутри компании,а нелегально использовали Claude?
Якобы, потому как сравнения с конкурентами нету, даже по их метрикам
Daniel LittС 15 июня 2025 года в arXiv было опубликовано 8 статей с фразой “Гипотеза Ходжа” в названии или аннотации. По моим подсчетам 6 из них (75%!) - это бессмыслица, созданная LLM, изобилующая сгаллюцинированными ссылками. Можете себе представить, что количество достоверного математического содержания в них близко к нулю. Боюсь, со временем проблема будет только усугубляться.knzhouТо же самое происходит и в hep-ph, где сейчас публикуется в среднем 1-2 бессмысленных статьи в день. Это всегда перепечатки из учебников физики с безумными выводами в конце, которые ниоткуда не следуют, а также с галлюцинированными ссылками и графиками. Постеры делятся на две категории: физики очень высокого уровня, у которых больше нет студентов и которые не утруждают себя проверкой всего, что говорит искусственный интеллект, и амбициозные молодые люди, пытающиеся наштамповать как можно больше работ. Последние гораздо опаснее; я видел, как один парень опубликовал 4 бессмысленные статьи в hep-ph с в течение 2 месяцев. Я попросил модераторов arXiv что-нибудь сделать, но у них сильно не хватает персонала. Не думаю, что они делают что-то, кроме как просматривают аннотацию в поисках знакомых слов, что, конечно, легко обходится ИИ.В других местах ситуация намного хуже. В Zenodo (под управлением ЦЕРНа) более половины представленных англоязычных статей сейчас представляют собой сгенерированные ИИ теории всего. И снова разработчики говорят мне, что у них нет возможности что-либо с этим сделать. Тем не менее, даже у ненормального репозитория viXra теперь есть политика в области ИИ, после того как в последние месяцы их завалило ИИ-контентом. В r/Physics ежедневно мы получаем десятки ИИ-сгенерированных теорий всего, и они постоянно занимали бы первые страницы, если бы я не заходил в систему каждые несколько часов, чтобы удалить их. Запрет аккаунтов не поможет, потому что каждый раз это буквально другой человек. Вот как выглядит демократизация науки.
Скоро и форумы типа этого загасят окончательно.
Цитата: Foma от Вчера в 19:03:29Скоро и форумы типа этого загасят окончательно.Коллеги, а просветите пожалуйста, форумы типа этого - что под этим понимается? Просто это единственный форум, на котором я бываю, и не могу ни с чем сравнивать, даже не знаю какие ещё бывают форумы. Наш - он какой?
Выпилить ботов и ботоконтент с классических форумов гораздо проще
как вы его выпилите
Прямо спустя несколько часов после выхода GPT-5, а до этого побликовать результаты Grok-4 они стеснялись видимо.
Выпилить ботов и ботоконтент с классических форумов гораздо проще (если админы этого хотят), а соцсети и тп - они изначально для одноразового контента, т.к поиска нормального там нет и не было.
Grok 4 набрал пока 110 баллов IQ. Уступает o3, а также топовым моделям Google и Anthropic. Но у тех уже было проведено много замеров, результаты могут скакать довольно сильно, по одному тесту пока судить рано.https://www.trackingai.org/home
Но есть одна проблема: если взглянуть на методологию, то тест вообще этого не демонстрирует и фактически показывает, что GPT-5 не представляет собой ничего особенного с точки зрения частоты галлюцинаций.График утверждает, что он измеряет «процент конфабуляций и процент отсутствия ответов», но если вы посмотрите на таблицу в репозитории, то увидите, что он измеряет средневзвешенное значение процента конфабуляций и процента отсутствия ответов.Другими словами, если рассмотреть две модели, которые обе дают 80% правильных ответов, и у одной модели конфабуляция составляет 19% и 1% отсутствия ответа, а у другой — 1% конфабуляция и 19% отсутствия ответа, то обе модели получат одинаковый результат по этому критерию!!!Если взглянуть только на соотношение конфабуляций и неответов (а это реальный показатель, на который нам следует обращать внимание, поскольку он показывает, насколько хорошо модель умеет определять, когда она чего-то не знает), мы увидим, что у GPT-5 соотношение составляет 10,9:9,8, что намного выше, чем у таких моделей, как Gemini-2.5 pro (5,9:15,3) и Opus 4 (2,5:29,4).Итак, для ясности: GPT-5 на самом деле галлюцинирует гораздо чаще, чем основные конкуренты. Цифры говорят прямо противоположное тому, что показывает вводящий в заблуждение график.
По GPT 5 Thinking пока не обновилось.
Цитата: Olweg от Вчера в 23:37:05По GPT 5 Thinking пока не обновилось.GPT 5 Thinking набрал 57 баллов в оффлайн-тесте (и даже в онлайн-тесте, который мог попасть в обучающие данные, всего 85 баллов) Насколько я понял, отвечено правильно всего 2 вопроса из 16. Это какой-то провал. Непонятно, что происходит.
Непонятно, почему она настолько хуже предыдущих o3 или o4 mini. Но, конечно, такие низкие результаты - это явно какой-то сбой