A A A A Автор Тема: Пределы автоматизации и внедрения роботов  (Прочитано 392461 раз)

0 Пользователей и 2 Гостей просматривают эту тему.

Оффлайн Olweg

  • *****
  • Сообщений: 16 755
  • Благодарностей: 442
    • Сообщения от Olweg
Наверное, самое важное новшество - очень низкий уровень галлюцинаций.
Только зачем то они для этого новые критерии придумали. Поэтому хотелось бы увидеть сравнения с конкурентами

Тем более, что чёткого определения галлюцинаций нет, так что, остаётся некое пространство для манёвра. :)
Да, на обычном тесте галлюцинации лишь немного ниже, чем у предыдущих моделей.
Планеты других звёзд. История открытий
http://allplanets.ru/history_Olweg.htm

Оффлайн BlackMokona

  • *****
  • Сообщений: 20 983
  • Благодарностей: 633
  • Мне нравится этот форум!
    • Сообщения от BlackMokona
Ещё один независимый тест. Кстати рост этого теста даже обгоняет экспоненту данную авторами при создании теста

Оффлайн Сергей Н

  • ***
  • Сообщений: 219
  • Благодарностей: 9
  • Мне нравится этот форум!
    • Сообщения от Сергей Н
Ну и ARC-AGI подкатили.

Прямо спустя несколько часов после выхода GPT-5, а до этого побликовать результаты Grok-4 они стеснялись видимо.
В любом случае очень нехватает собственного теста подобного ARC-AGI-2 так как  ИИ чатов много и хочется проверить.

Оффлайн Polnoch Ксю

  • *****
  • Сообщений: 10 013
  • Благодарностей: 411
    • Сообщения от Polnoch Ксю
Правда, непонятно, почему тогда сотрудники Open AI не использовали его ещё до релиза внутри компании,а нелегально использовали Claude? ;D
Claude и правда очень удобен по UI для вайб-кодинга. И умный очень. Но для pet-проектов я чаще использую OpenAI Codex. Потому, что лимиты у Claude маленькие(и я не миллионерша использовать доступ по токену/API для личных целей). Однако, для реальной работы из-за галлюцинаций мне кажется, пока не стоит использовать вайб-кодинг: штуки вроде курсора пока, мне кажется, вне конкуренции.  LLM пока ещё не пишут приложения, которые бы не увеличивали технический долг, вместо уменьшения.


Не знаю что получилось у OpenAI в части уменьшения галлюцинаций у GPT-5: может, с ним вайбкодинг и правда взлетит.

Однако, Claude code(десктопное приложение), который многие хвалят, я пока не пробовала. Зато немного тыкала в cli-codex с self-hosted моделями - пробую такую штуку на работе сделать для фикса апдейтов докер-файлов (когда бамп-бот поднимает версии, но сборка проваливается): по полиси нельзя использовать облачную модель.

Цитата
Якобы, потому как сравнения с конкурентами нету, даже по их метрикам
Это шутка была, если что
Meade LightBridge12"
RC8¨и МАК5"Альтер М500 на AZ4, Celestron SLT, Ioptron ZEQ25
БГШ 2.3x40 и Steiner Marine 7x50
ES82°:4.7mm,30mm
ES100°:9mm,14mm,20mm
ES68°:40mm
Meade Plossl 56mm; Vixen NLV 6mm
2" Lumicon, 1,25" DeepSky: UHC and OIII
---
qhy5
Ioptron SkyTracker
Canon50d

Оффлайн Foma

  • *****
  • Сообщений: 966
  • Благодарностей: 458
    • Сообщения от Foma
... а тем временем научные платформы уже DDoS'ят по-черному. Народ жалуется:

Цитата
Daniel Litt
С 15 июня 2025 года в arXiv было опубликовано 8 статей с фразой “Гипотеза Ходжа” в названии или аннотации. По моим подсчетам 6 из них (75%!) - это бессмыслица, созданная LLM, изобилующая сгаллюцинированными ссылками. Можете себе представить, что количество достоверного математического содержания в них близко к нулю. Боюсь, со временем проблема будет только усугубляться.

knzhou
То же самое происходит и в hep-ph, где сейчас публикуется в среднем 1-2 бессмысленных статьи в день. Это всегда перепечатки из учебников физики с безумными выводами в конце, которые ниоткуда не следуют, а также с галлюцинированными ссылками и графиками. Постеры делятся на две категории: физики очень высокого уровня, у которых больше нет студентов и которые не утруждают себя проверкой всего, что говорит искусственный интеллект, и амбициозные молодые люди, пытающиеся наштамповать как можно больше работ. Последние гораздо опаснее; я видел, как один парень опубликовал 4 бессмысленные статьи в hep-ph с в течение 2 месяцев. Я попросил модераторов arXiv что-нибудь сделать, но у них сильно не хватает персонала. Не думаю, что они делают что-то, кроме как просматривают аннотацию в поисках знакомых слов, что, конечно, легко обходится ИИ.

В других местах ситуация намного хуже. В Zenodo (под управлением ЦЕРНа) более половины представленных англоязычных статей сейчас представляют собой сгенерированные ИИ теории всего. И снова разработчики говорят мне, что у них нет возможности что-либо с этим сделать. Тем не менее, даже у ненормального репозитория viXra теперь есть политика в области ИИ, после того как в последние месяцы их завалило ИИ-контентом. В r/Physics ежедневно мы получаем десятки ИИ-сгенерированных теорий всего, и они постоянно занимали бы первые страницы, если бы я не заходил в систему каждые несколько часов, чтобы удалить их. Запрет аккаунтов не поможет, потому что каждый раз это буквально другой человек. Вот как выглядит демократизация науки.

Скоро и форумы типа этого загасят окончательно.

Оффлайн diant

  • *****
  • Сообщений: 5 670
  • Благодарностей: 723
  • Две вещи поражают мое воображение...
    • Сообщения от diant
Скоро и форумы типа этого загасят окончательно.
Коллеги, а просветите пожалуйста, форумы типа этого - что под этим понимается? Просто это единственный форум, на котором я бываю, и не могу ни с чем сравнивать, даже не знаю какие ещё бывают форумы. Наш - он какой?
(кликните для показа/скрытия)

Оффлайн Vitaliy

  • *****
  • Сообщений: 43 489
  • Благодарностей: 1382
    • Сообщения от Vitaliy
    • Два стрельца
Скоро и форумы типа этого загасят окончательно.
Коллеги, а просветите пожалуйста, форумы типа этого - что под этим понимается? Просто это единственный форум, на котором я бываю, и не могу ни с чем сравнивать, даже не знаю какие ещё бывают форумы. Наш - он какой?
Просто боты нейросети и их контент заполонят форумы. Влияние нейросеток уже есть на соцсети и форумы https://pikabu.ru/story/vazhno_izmeneniya_pravil__novyiy_spetsialnyiy_teg_kontent_neyrosetey_12907405
Добро пожаловать на сайт Два стрельца http://www.shvedun.ru/
Телескоп Добсона 8" (203мм) по кличке "Карандаш", Advanced C9¼-SGT XLT, Celestron NexStar 5 SE
Видео Мой канал на Ютубе - http://www.youtube.com/user/VitaliyShvedun
Мои 3D модели https://www.thingiverse.com/vitaliysh/designs
Дзен https://dzen.ru/vitaliysh
Rutube https://rutube.ru/channel/308317
Telegram https://t.me/hobby_3Dprinter_radio

Оффлайн Ый

  • *****
  • Сообщений: 6 176
  • Благодарностей: 188
  • Я не могу смотреть видео!
    • Сообщения от Ый
Что-то сдаётся мне, что интернету вскоре наступит трындец. Пока не поздно, скачивайте нужные вещи, а не занимайтесь ерундой.
Собака лает, караван идёт.

Оффлайн AlexDark

  • ****
  • Сообщений: 493
  • Благодарностей: 19
    • Сообщения от AlexDark
Выпилить ботов и ботоконтент с классических форумов гораздо проще (если админы этого хотят), а соцсети и тп - они изначально для одноразового контента, т.к поиска нормального там нет и не было.

Оффлайн Ый

  • *****
  • Сообщений: 6 176
  • Благодарностей: 188
  • Я не могу смотреть видео!
    • Сообщения от Ый
Выпилить ботов и ботоконтент с классических форумов гораздо проще
Так появятся с искусственным интеллектом, будут шарить под человека, как вы его выпилите? Вот давайте и спросим у Техподдержки. А люди тупеют при этом, скоро сами в тупых роботов превратятся, и манипулируй ими как хочешь.
Собака лает, караван идёт.

Оффлайн AlexDark

  • ****
  • Сообщений: 493
  • Благодарностей: 19
    • Сообщения от AlexDark
как вы его выпилите
Так же как 20 лет выпиливали естественных идиотов. Баном.
А вой про тупеющих людей, который еще с античности и древнего Египта идет, и про наступление последних времен и прочие эсхатологические бредни я не разделяю.

Оффлайн BlackMokona

  • *****
  • Сообщений: 20 983
  • Благодарностей: 633
  • Мне нравится этот форум!
    • Сообщения от BlackMokona
Прямо спустя несколько часов после выхода GPT-5, а до этого побликовать результаты Grok-4 они стеснялись видимо.
Грок 4 результаты давно опубликовали, тут результаты ГПТ-5

Оффлайн Polnoch Ксю

  • *****
  • Сообщений: 10 013
  • Благодарностей: 411
    • Сообщения от Polnoch Ксю
Выпилить ботов и ботоконтент с классических форумов гораздо проще (если админы этого хотят), а соцсети и тп - они изначально для одноразового контента, т.к поиска нормального там нет и не было.

Кстати, вопрос администрации ВЖР: а можно для фана запустить на АФ реального бота? Который не будет скрывать, что он бот? В профиле будет написано, что это мой бот. Дать ему постить на АФ как другим, но ограничить скорость постинга :D

Не уверена, что буду это делать, но мне кажется, это могло бы быть весело, если доберусь и хватит свободного времени. Вот, кстати, посмотрим на вайб-кодинг GPT-5, насколько он хорош... Мне пока не выкатили ещё доступ. Сдаётся мне, что всё равно пока ещё придётся самостоятельно кодить, и крапваре, которая напишет LLM, всё равно сколлапсирует под грузом галлюцинаций. Ещё не AGI...
Meade LightBridge12"
RC8¨и МАК5"Альтер М500 на AZ4, Celestron SLT, Ioptron ZEQ25
БГШ 2.3x40 и Steiner Marine 7x50
ES82°:4.7mm,30mm
ES100°:9mm,14mm,20mm
ES68°:40mm
Meade Plossl 56mm; Vixen NLV 6mm
2" Lumicon, 1,25" DeepSky: UHC and OIII
---
qhy5
Ioptron SkyTracker
Canon50d

Оффлайн Olweg

  • *****
  • Сообщений: 16 755
  • Благодарностей: 442
    • Сообщения от Olweg
Grok 4 набрал пока 110 баллов IQ. Уступает o3, а также топовым моделям Google и Anthropic. Но у тех уже было проведено много замеров, результаты могут скакать довольно сильно, по одному тесту пока судить рано.

https://www.trackingai.org/home
GPT 5 набрал 70 баллов :) Такое, надо сказать, иногда бывает. Некоторые модели показывают нестабильные результаты, почему - непонятно. Например, тот же Grok 4 набрал пока 110, 70 и 130 баллов, в среднем 103. Другие модели стабильнее, например, o3-pro (см. чёрный график на рисунке). А лидерами остаются Claude 4 Opus, o3 с o3-pro и Gemini 2.5 pro, все четыре модели группируются в районе 115-118, с заметным отрывом от остальных. Возможно, с новыми тестами Grok-4 и GPT 5 тоже подтянутся.

PS Речь пока, правда, о не «рассуждающей» версии. По GPT 5 Thinking пока не обновилось. К тому же на ChatGPT сейчас творится какой-то бардак с доступом к новым моделям.
Планеты других звёзд. История открытий
http://allplanets.ru/history_Olweg.htm

Оффлайн BlackMokona

  • *****
  • Сообщений: 20 983
  • Благодарностей: 633
  • Мне нравится этот форум!
    • Сообщения от BlackMokona
Re: Пределы автоматизации и внедрения роботов
« Ответ #11074 : Сегодня в 06:35:28 »
Что то всё грустнее с ГПТ-5
https://www.reddit.com/r/singularity/comments/1ml1r7h/clearing_the_air_gpt5_did_not_actually_obtain_a/
Гугл перевод.
Цитата
Но есть одна проблема: если взглянуть на методологию, то тест вообще этого не демонстрирует и фактически показывает, что GPT-5 не представляет собой ничего особенного с точки зрения частоты галлюцинаций.

График утверждает, что он измеряет «процент конфабуляций и процент отсутствия ответов», но если вы посмотрите на таблицу в репозитории, то увидите, что он измеряет средневзвешенное значение процента конфабуляций и процента отсутствия ответов.

Другими словами, если рассмотреть две модели, которые обе дают 80% правильных ответов, и у одной модели конфабуляция составляет 19% и 1% отсутствия ответа, а у другой — 1% конфабуляция и 19% отсутствия ответа, то обе модели получат одинаковый результат по этому критерию!!!

Если взглянуть только на соотношение конфабуляций и неответов (а это реальный показатель, на который нам следует обращать внимание, поскольку он показывает, насколько хорошо модель умеет определять, когда она чего-то не знает), мы увидим, что у GPT-5 соотношение составляет 10,9:9,8, что намного выше, чем у таких моделей, как Gemini-2.5 pro (5,9:15,3) и Opus 4 (2,5:29,4).

Итак, для ясности: GPT-5 на самом деле галлюцинирует гораздо чаще, чем основные конкуренты. Цифры говорят прямо противоположное тому, что показывает вводящий в заблуждение график.

Оффлайн Olweg

  • *****
  • Сообщений: 16 755
  • Благодарностей: 442
    • Сообщения от Olweg
Re: Пределы автоматизации и внедрения роботов
« Ответ #11075 : Сегодня в 08:53:23 »
По GPT 5 Thinking пока не обновилось.
GPT 5 Thinking набрал 57 баллов в оффлайн-тесте (и даже в онлайн-тесте, который мог попасть в обучающие данные, всего 85 баллов) :-\ Насколько я понял, отвечено правильно всего 2 вопроса из 16. Это какой-то провал. Непонятно, что происходит.
Планеты других звёзд. История открытий
http://allplanets.ru/history_Olweg.htm

Оффлайн BlackMokona

  • *****
  • Сообщений: 20 983
  • Благодарностей: 633
  • Мне нравится этот форум!
    • Сообщения от BlackMokona
Re: Пределы автоматизации и внедрения роботов
« Ответ #11076 : Сегодня в 09:10:04 »
По GPT 5 Thinking пока не обновилось.
GPT 5 Thinking набрал 57 баллов в оффлайн-тесте (и даже в онлайн-тесте, который мог попасть в обучающие данные, всего 85 баллов) :-\ Насколько я понял, отвечено правильно всего 2 вопроса из 16. Это какой-то провал. Непонятно, что происходит.
Думаю та же ситуация как с Ламмой 3. Там тоже с помпой выпустили, кучу фальсификата сбросили. После этого Цекенберг всю эту шайку лейку полностью разогнал. Да начал полностью переделывать, набирая лучших людей из конкурирующих контор, да пытаться скупать конторы целиком.

Скорее всего уход Суцвекера и его стороников, полностью выбил все научные ресурсы из ОпенАИ, после чего добив уже находящиеся в разработке проекты, компания оказалась без дальнейших сил для продвижения

Оффлайн Olweg

  • *****
  • Сообщений: 16 755
  • Благодарностей: 442
    • Сообщения от Olweg
Re: Пределы автоматизации и внедрения роботов
« Ответ #11077 : Сегодня в 09:21:28 »
Непонятно, почему она настолько хуже предыдущих o3 или o4 mini. Но, конечно, такие низкие результаты - это явно какой-то сбой. У других моделей, как я писал, тоже иногда случаются. В любом случае, релиз явно провальный, Альтман даже пообещал вернуть в ChatGPT 4o после многочисленных возмущённых воплей подписчиков ;D

Но есть и хорошие новости для OpenAI: o3 всё-таки разгромила Grok 4 в финале шахматного турнира.

Модель OpenAI o3 выиграла у Grok 4 все четыре партии в финале первого шахматного турнира между большими языковыми моделями, который проходил с 5 по 7 августа на платформе Kaggle Game Arena.


Финал в прямом эфире комментировал 16-й чемпион мира Магнус Карлсен.

«o3 довольно безжалостна в реализации преимуществ, она похожа на шахматиста. Grok выглядит так, будто выучил несколько дебютных ходов и знает правила, но не более», — заявил он.

По мнению Карлсена, состязание нейросетей напоминало игры детей. Модели часто «зевали» фигуры и делали необдуманные ходы. Он оценил силу Grok примерно в 800 пунктов Эло, а o3 — около 1200, что соответствует уровню начинающих шахматистов. У самого Карлсена рейтинг более 2800, у мощнейших шахматных движков — выше 3500.

Третье место завоевала Gemini 2.5 Pro от Google, победив в матче за бронзу o4-mini. Также в турнире участвовали Gemini 2.5 Flash, Claude Opus 4, DeepSeek R1 и Kimi k2.


Сейчас ведущие LLM обыгрывает даже шахматный движок приставки Atari 2600 из 70-х. Чат-боты не заточены на тактику и просчет тысяч ходов, для них ход партии — обычный текст, в котором они пытаются ориентироваться.


https://t.me/hiaimedia/2228
« Последнее редактирование: Сегодня в 09:26:46 от Olweg »
Планеты других звёзд. История открытий
http://allplanets.ru/history_Olweg.htm

Оффлайн BlackMokona

  • *****
  • Сообщений: 20 983
  • Благодарностей: 633
  • Мне нравится этот форум!
    • Сообщения от BlackMokona
Re: Пределы автоматизации и внедрения роботов
« Ответ #11078 : Сегодня в 10:07:36 »
Непонятно, почему она настолько хуже предыдущих o3 или o4 mini. Но, конечно, такие низкие результаты - это явно какой-то сбой
Скорее всего с цензурой переборщили