A A A A Автор Тема: Пределы автоматизации и внедрения роботов (Прочитано 402158 раз)

Olweg · « **Ответ #11060 :** 08 Авг 2025 [09:29:32] »

Цитата: Combinator от 07 Авг 2025 [21:16:12]

Цитата: BlackMokona от 07 Авг 2025 [20:58:05]
Цитата: Olweg от 07 Авг 2025 [20:51:10]
Наверное, самое важное новшество - очень низкий уровень галлюцинаций.
Только зачем то они для этого новые критерии придумали. Поэтому хотелось бы увидеть сравнения с конкурентами

Тем более, что чёткого определения галлюцинаций нет, так что, остаётся некое пространство для манёвра.

Да, на обычном тесте галлюцинации лишь немного ниже, чем у предыдущих моделей.

BlackMokona · « **Ответ #11061 :** 08 Авг 2025 [09:57:01] »

Ещё один независимый тест. Кстати рост этого теста даже обгоняет экспоненту данную авторами при создании теста

Сергей Н · « **Ответ #11062 :** 08 Авг 2025 [17:56:15] »

Цитата: BlackMokona от 07 Авг 2025 [21:22:56]

Ну и ARC-AGI подкатили.

Прямо спустя несколько часов после выхода GPT-5, а до этого побликовать результаты Grok-4 они стеснялись видимо.
В любом случае очень нехватает собственного теста подобного ARC-AGI-2 так как ИИ чатов много и хочется проверить.

Polnoch Ксю · « **Ответ #11063 :** 08 Авг 2025 [18:02:58] »

Цитата: Combinator от 08 Авг 2025 [06:46:53]

Правда, непонятно, почему тогда сотрудники Open AI не использовали его ещё до релиза внутри компании,а нелегально использовали Claude?

Claude и правда очень удобен по UI для вайб-кодинга. И умный очень. Но для pet-проектов я чаще использую OpenAI Codex. Потому, что лимиты у Claude маленькие(и я не миллионерша использовать доступ по токену/API для личных целей). Однако, для реальной работы из-за галлюцинаций мне кажется, пока не стоит использовать вайб-кодинг: штуки вроде курсора пока, мне кажется, вне конкуренции. LLM пока ещё не пишут приложения, которые бы не увеличивали технический долг, вместо уменьшения.

Не знаю что получилось у OpenAI в части уменьшения галлюцинаций у GPT-5: может, с ним вайбкодинг и правда взлетит.

Однако, Claude code(десктопное приложение), который многие хвалят, я пока не пробовала. Зато немного тыкала в cli-codex с self-hosted моделями - пробую такую штуку на работе сделать для фикса апдейтов докер-файлов (когда бамп-бот поднимает версии, но сборка проваливается): по полиси нельзя использовать облачную модель.

Цитата

Якобы, потому как сравнения с конкурентами нету, даже по их метрикам

Это шутка была, если что

Foma · « **Ответ #11064 :** 08 Авг 2025 [19:03:29] »

... а тем временем научные платформы уже DDoS'ят по-черному. Народ жалуется:

Цитата

Daniel Litt
С 15 июня 2025 года в arXiv было опубликовано 8 статей с фразой “Гипотеза Ходжа” в названии или аннотации. По моим подсчетам 6 из них (75%!) - это бессмыслица, созданная LLM, изобилующая сгаллюцинированными ссылками. Можете себе представить, что количество достоверного математического содержания в них близко к нулю. Боюсь, со временем проблема будет только усугубляться.

knzhou
То же самое происходит и в hep-ph, где сейчас публикуется в среднем 1-2 бессмысленных статьи в день. Это всегда перепечатки из учебников физики с безумными выводами в конце, которые ниоткуда не следуют, а также с галлюцинированными ссылками и графиками. Постеры делятся на две категории: физики очень высокого уровня, у которых больше нет студентов и которые не утруждают себя проверкой всего, что говорит искусственный интеллект, и амбициозные молодые люди, пытающиеся наштамповать как можно больше работ. Последние гораздо опаснее; я видел, как один парень опубликовал 4 бессмысленные статьи в hep-ph с в течение 2 месяцев. Я попросил модераторов arXiv что-нибудь сделать, но у них сильно не хватает персонала. Не думаю, что они делают что-то, кроме как просматривают аннотацию в поисках знакомых слов, что, конечно, легко обходится ИИ.

В других местах ситуация намного хуже. В Zenodo (под управлением ЦЕРНа) более половины представленных англоязычных статей сейчас представляют собой сгенерированные ИИ теории всего. И снова разработчики говорят мне, что у них нет возможности что-либо с этим сделать. Тем не менее, даже у ненормального репозитория viXra теперь есть политика в области ИИ, после того как в последние месяцы их завалило ИИ-контентом. В r/Physics ежедневно мы получаем десятки ИИ-сгенерированных теорий всего, и они постоянно занимали бы первые страницы, если бы я не заходил в систему каждые несколько часов, чтобы удалить их. Запрет аккаунтов не поможет, потому что каждый раз это буквально другой человек. Вот как выглядит демократизация науки.

Скоро и форумы типа этого загасят окончательно.

diant · « **Ответ #11065 :** 08 Авг 2025 [19:19:09] »

Цитата: Foma от 08 Авг 2025 [19:03:29]

Скоро и форумы типа этого загасят окончательно.

Коллеги, а просветите пожалуйста, форумы типа этого - что под этим понимается? Просто это единственный форум, на котором я бываю, и не могу ни с чем сравнивать, даже не знаю какие ещё бывают форумы. Наш - он какой?

Vitaliy · « **Ответ #11066 :** 08 Авг 2025 [19:51:13] »

Цитата: diant от 08 Авг 2025 [19:19:09]

Цитата: Foma от 08 Авг 2025 [19:03:29]
Скоро и форумы типа этого загасят окончательно.
Коллеги, а просветите пожалуйста, форумы типа этого - что под этим понимается? Просто это единственный форум, на котором я бываю, и не могу ни с чем сравнивать, даже не знаю какие ещё бывают форумы. Наш - он какой?

Просто боты нейросети и их контент заполонят форумы. Влияние нейросеток уже есть на соцсети и форумы https://pikabu.ru/story/vazhno_izmeneniya_pravil__novyiy_spetsialnyiy_teg_kontent_neyrosetey_12907405

Ый · « **Ответ #11067 :** 08 Авг 2025 [19:53:55] »

Что-то сдаётся мне, что интернету вскоре наступит трындец. Пока не поздно, скачивайте нужные вещи, а не занимайтесь ерундой.

AlexDark · « **Ответ #11068 :** 08 Авг 2025 [20:08:06] »

Выпилить ботов и ботоконтент с классических форумов гораздо проще (если админы этого хотят), а соцсети и тп - они изначально для одноразового контента, т.к поиска нормального там нет и не было.

Ый · « **Ответ #11069 :** 08 Авг 2025 [20:14:01] »

Цитата: AlexDark от 08 Авг 2025 [20:08:06]

Выпилить ботов и ботоконтент с классических форумов гораздо проще

Так появятся с искусственным интеллектом, будут шарить под человека, как вы его выпилите? Вот давайте и спросим у Техподдержки. А люди тупеют при этом, скоро сами в тупых роботов превратятся, и манипулируй ими как хочешь.

AlexDark · « **Ответ #11070 :** 08 Авг 2025 [21:24:06] »

Цитата: Ый от 08 Авг 2025 [20:14:01]

как вы его выпилите

Так же как 20 лет выпиливали естественных идиотов. Баном.
А вой про тупеющих людей, который еще с античности и древнего Египта идет, и про наступление последних времен и прочие эсхатологические бредни я не разделяю.

BlackMokona · « **Ответ #11071 :** 08 Авг 2025 [21:57:21] »

Цитата: Сергей Н от 08 Авг 2025 [17:56:15]

Прямо спустя несколько часов после выхода GPT-5, а до этого побликовать результаты Grok-4 они стеснялись видимо.

Грок 4 результаты давно опубликовали, тут результаты ГПТ-5

Polnoch Ксю · « **Ответ #11072 :** 08 Авг 2025 [22:13:15] »

Цитата: AlexDark от 08 Авг 2025 [20:08:06]

Выпилить ботов и ботоконтент с классических форумов гораздо проще (если админы этого хотят), а соцсети и тп - они изначально для одноразового контента, т.к поиска нормального там нет и не было.

Кстати, вопрос администрации ВЖР: а можно для фана запустить на АФ реального бота? Который не будет скрывать, что он бот? В профиле будет написано, что это мой бот. Дать ему постить на АФ как другим, но ограничить скорость постинга

Не уверена, что буду это делать, но мне кажется, это могло бы быть весело, если доберусь и хватит свободного времени. Вот, кстати, посмотрим на вайб-кодинг GPT-5, насколько он хорош... Мне пока не выкатили ещё доступ. Сдаётся мне, что всё равно пока ещё придётся самостоятельно кодить, и крапваре, которая напишет LLM, всё равно сколлапсирует под грузом галлюцинаций. Ещё не AGI...

Olweg · « **Ответ #11073 :** 08 Авг 2025 [23:37:05] »

Цитата: Olweg от 12 Июл 2025 [14:14:23]

Grok 4 набрал пока 110 баллов IQ. Уступает o3, а также топовым моделям Google и Anthropic. Но у тех уже было проведено много замеров, результаты могут скакать довольно сильно, по одному тесту пока судить рано.

https://www.trackingai.org/home

GPT 5 набрал 70 баллов

Такое, надо сказать, иногда бывает. Некоторые модели показывают нестабильные результаты, почему - непонятно. Например, тот же Grok 4 набрал пока 110, 70 и 130 баллов, в среднем 103. Другие модели стабильнее, например, o3-pro (см. чёрный график на рисунке). А лидерами остаются Claude 4 Opus, o3 с o3-pro и Gemini 2.5 pro, все четыре модели группируются в районе 115-118, с заметным отрывом от остальных. Возможно, с новыми тестами Grok-4 и GPT 5 тоже подтянутся.

PS Речь пока, правда, о не «рассуждающей» версии. По GPT 5 Thinking пока не обновилось. К тому же на ChatGPT сейчас творится какой-то бардак с доступом к новым моделям.

BlackMokona · « **Ответ #11074 :** 09 Авг 2025 [06:35:28] »

Что то всё грустнее с ГПТ-5
https://www.reddit.com/r/singularity/comments/1ml1r7h/clearing_the_air_gpt5_did_not_actually_obtain_a/
Гугл перевод.

Цитата

Но есть одна проблема: если взглянуть на методологию, то тест вообще этого не демонстрирует и фактически показывает, что GPT-5 не представляет собой ничего особенного с точки зрения частоты галлюцинаций.

График утверждает, что он измеряет «процент конфабуляций и процент отсутствия ответов», но если вы посмотрите на таблицу в репозитории, то увидите, что он измеряет средневзвешенное значение процента конфабуляций и процента отсутствия ответов.

Другими словами, если рассмотреть две модели, которые обе дают 80% правильных ответов, и у одной модели конфабуляция составляет 19% и 1% отсутствия ответа, а у другой — 1% конфабуляция и 19% отсутствия ответа, то обе модели получат одинаковый результат по этому критерию!!!

Если взглянуть только на соотношение конфабуляций и неответов (а это реальный показатель, на который нам следует обращать внимание, поскольку он показывает, насколько хорошо модель умеет определять, когда она чего-то не знает), мы увидим, что у GPT-5 соотношение составляет 10,9:9,8, что намного выше, чем у таких моделей, как Gemini-2.5 pro (5,9:15,3) и Opus 4 (2,5:29,4).

Итак, для ясности: GPT-5 на самом деле галлюцинирует гораздо чаще, чем основные конкуренты. Цифры говорят прямо противоположное тому, что показывает вводящий в заблуждение график.

Olweg · « **Ответ #11075 :** 09 Авг 2025 [08:53:23] »

Цитата: Olweg от 08 Авг 2025 [23:37:05]

По GPT 5 Thinking пока не обновилось.

GPT 5 Thinking набрал 57 баллов в оффлайн-тесте (и даже в онлайн-тесте, который мог попасть в обучающие данные, всего 85 баллов) $:-\$ Насколько я понял, отвечено правильно всего 2 вопроса из 16. Это какой-то провал. Непонятно, что происходит.

BlackMokona · « **Ответ #11076 :** 09 Авг 2025 [09:10:04] »

Цитата: Olweg от 09 Авг 2025 [08:53:23]

Цитата: Olweg от 08 Авг 2025 [23:37:05]
По GPT 5 Thinking пока не обновилось.
GPT 5 Thinking набрал 57 баллов в оффлайн-тесте (и даже в онлайн-тесте, который мог попасть в обучающие данные, всего 85 баллов) $:-\$ Насколько я понял, отвечено правильно всего 2 вопроса из 16. Это какой-то провал. Непонятно, что происходит.

Думаю та же ситуация как с Ламмой 3. Там тоже с помпой выпустили, кучу фальсификата сбросили. После этого Цекенберг всю эту шайку лейку полностью разогнал. Да начал полностью переделывать, набирая лучших людей из конкурирующих контор, да пытаться скупать конторы целиком.

Скорее всего уход Суцвекера и его стороников, полностью выбил все научные ресурсы из ОпенАИ, после чего добив уже находящиеся в разработке проекты, компания оказалась без дальнейших сил для продвижения

Olweg · « **Ответ #11077 :** 09 Авг 2025 [09:21:28] »

Непонятно, почему она настолько хуже предыдущих o3 или o4 mini. Но, конечно, такие низкие результаты - это явно какой-то сбой. У других моделей, как я писал, тоже иногда случаются. В любом случае, релиз явно провальный, Альтман даже пообещал вернуть в ChatGPT 4o после многочисленных возмущённых воплей подписчиков

Но есть и хорошие новости для OpenAI: o3 всё-таки разгромила Grok 4 в финале шахматного турнира.

Модель OpenAI o3 выиграла у Grok 4 все четыре партии в финале первого шахматного турнира между большими языковыми моделями, который проходил с 5 по 7 августа на платформе Kaggle Game Arena.
…

Финал в прямом эфире комментировал 16-й чемпион мира Магнус Карлсен.

«o3 довольно безжалостна в реализации преимуществ, она похожа на шахматиста. Grok выглядит так, будто выучил несколько дебютных ходов и знает правила, но не более», — заявил он.

По мнению Карлсена, состязание нейросетей напоминало игры детей. Модели часто «зевали» фигуры и делали необдуманные ходы. Он оценил силу Grok примерно в 800 пунктов Эло, а o3 — около 1200, что соответствует уровню начинающих шахматистов. У самого Карлсена рейтинг более 2800, у мощнейших шахматных движков — выше 3500.

Третье место завоевала Gemini 2.5 Pro от Google, победив в матче за бронзу o4-mini. Также в турнире участвовали Gemini 2.5 Flash, Claude Opus 4, DeepSeek R1 и Kimi k2.
…

Сейчас ведущие LLM обыгрывает даже шахматный движок приставки Atari 2600 из 70-х. Чат-боты не заточены на тактику и просчет тысяч ходов, для них ход партии — обычный текст, в котором они пытаются ориентироваться.

https://t.me/hiaimedia/2228

BlackMokona · « **Ответ #11078 :** 09 Авг 2025 [10:07:36] »

Цитата: Olweg от 09 Авг 2025 [09:21:28]

Непонятно, почему она настолько хуже предыдущих o3 или o4 mini. Но, конечно, такие низкие результаты - это явно какой-то сбой

Скорее всего с цензурой переборщили

Mercury127 · « **Ответ #11079 :** 09 Авг 2025 [15:38:21] »

https://t.me/spydell_finance/8114

(кликните для показа/скрытия)

Новости:

A A A A Автор Тема: Пределы автоматизации и внедрения роботов (Прочитано 402158 раз)