A A A A Автор Тема: Пределы автоматизации и внедрения роботов (Прочитано 402604 раз)

BlackMokona · « **Ответ #11040 :** 07 Авг 2025 [21:10:38] »

Цитата: Olweg от 07 Авг 2025 [21:08:41]

Да, видел Практикантам поручили.

Тут явно не скилл ишуи, а махинации. Потому как в любом текстовом редакторе, всё это создаётся автоматом. Стоит только цифры вести и само всё выстроиться по размеру между собой.
Так сказать запороть невозможно.

Combinator · « **Ответ #11041 :** 07 Авг 2025 [21:16:12] »

Цитата: BlackMokona от 07 Авг 2025 [20:58:05]

Цитата: Olweg от 07 Авг 2025 [20:51:10]
Наверное, самое важное новшество - очень низкий уровень галлюцинаций.
Только зачем то они для этого новые критерии придумали. Поэтому хотелось бы увидеть сравнения с конкурентами

Тем более, что чёткого определения галлюцинаций нет, так что, остаётся некое пространство для манёвра.

BlackMokona · « **Ответ #11042 :** 07 Авг 2025 [21:22:56] »

Цитата: Combinator от 07 Авг 2025 [21:16:12]

Тем более, что чёткого определения галлюцинаций нет, так что, остаётся некое пространство для манёвра.

Причём много пространства. Особенно когда сравниваешь исключительно со своей одной моделью. А не делаешь широкую выборку.

Ну и ARC-AGI подкатили.

Olweg · « **Ответ #11043 :** 07 Авг 2025 [21:58:47] »

Цитата: BlackMokona от 07 Авг 2025 [21:10:38]

Тут явно не скилл ишуи, а махинации. Потому как в любом текстовом редакторе, всё это создаётся автоматом. Стоит только цифры вести и само всё выстроиться по размеру между собой.
Так сказать запороть невозможно.

С другой стороны, зачем так подставляться - тоже непонятно. На реддите уже в нескольких постах ржут над этим. Может, кто специально презентацию взломал? )

Olweg · « **Ответ #11044 :** 07 Авг 2025 [22:06:56] »

В общем, уже понятно, что вау-эффектов, как от GPT-4, теперь не будет. Тогда был эффект низкой базы. Сейчас уже пошло насыщение технологии, выход на полку S-кривой, когда 80% усилий выбирают оставшиеся 20% прироста. Ну, сейчас, может быть, 80% от потенциала ещё не достигли, но уже к этому идёт, перегиб S-кривой трансформерной архитектуры, наверное, пройден. Значит, ждём новых подходов, в том числе в железе - например, истинной нейроморфности.

BlackMokona · « **Ответ #11045 :** 07 Авг 2025 [22:16:31] »

Цитата: Olweg от 07 Авг 2025 [22:06:56]

В общем, уже понятно, что вау-эффектов, как от GPT-4, теперь не будет. Тогда был эффект низкой базы. Сейчас уже пошло насыщение технологии, выход на полку S-кривой, когда 80% усилий выбирают оставшиеся 20% прироста. Ну, сейчас, может быть, 80% от потенциала ещё не достигли, но уже к этому идёт, перегиб S-кривой трансформерной архитектуры, наверное, пройден. Значит, ждём новых подходов, в том числе в железе - например, истинной нейроморфности.

Я бы ещё подождал следующих ходов конкурентов. Грок -5 и тд. Возможно пока ещё не насыщение. А просто Альтман в борьбе за власть выкинул всех толковых разработчиков. А там уже видно будет

Polnoch Ксю · « **Ответ #11046 :** 07 Авг 2025 [22:34:04] »

Цитата: BlackMokona от 07 Авг 2025 [18:29:18]

Народ наоборот сильно жалуется на медлительность.

Я про скорость генерации токенов, а не скорость ответа

Цитата: BlackMokona от 07 Авг 2025 [18:29:18]

Народ

Видимо, народ, как и всегда, предельно ограниченный. Люди так устроены. Тупость модели исправить нельзя, а вот цензуру всегда можно - для опенсурс/опенвейт модели на своём железе.
Люди не обладают инженерным мышлением, и не умеют выделять главное.

BlackMokona · « **Ответ #11047 :** 07 Авг 2025 [22:35:23] »

Цитата: Polnoch Ксю от 07 Авг 2025 [22:34:04]

Я про скорость генерации токенов, а не скорость ответа

А толку от токенов, ответ же нужен.

Цитата: Polnoch Ксю от 07 Авг 2025 [22:34:04]

Видимо, народ как и всегда, предельно туповатый. Люди так устроены. Тупость модели исправить нельзя, а вот цензуру всегда можно - для опенсурс/опенвейт модели.

Ну таки при наличии альтернатив не особо много желающих.

Polnoch Ксю · « **Ответ #11048 :** 07 Авг 2025 [22:39:54] »

Цитата: BlackMokona от 07 Авг 2025 [22:16:31]

А просто Альтман в борьбе за власть выкинул всех толковых разработчиков. А там уже видно будет

Их вроде бы Цукерберг перекупил, а не уволили, нет? Ну и сами ушли, как ушла Мира Мурати, которая сделала свой стартап.

Polnoch Ксю · « **Ответ #11049 :** 07 Авг 2025 [22:45:50] »

Цитата: BlackMokona от 07 Авг 2025 [22:35:23]

А толку от токенов, ответ же нужен.

Как раз показывает способности архитектуры. В реальности нужно решать задачи, а не оценивать по демкам. Это же опенсурс/опенвейт модель: если бы её было легально запрещено файнтюнить, или делать к ней LoRa, тогда компетентный инженер оценивал бы именно по тому, что выложено в официальной модели. А так как это именно конструктор опенсурсный, то и нужно его оценивать как конструктор - органичения, преимущества и недостатки именно архитектуры.

Это как Генту ругать за то, что ебилдов бинарных нет(я, если что, не пользуюсь ей, скорее пользовательница Федоры и немножко OS X): можно было бы ругать за то, что что-то важное не положили в официальные каналы, и генту-юзеры вынуждены оверлеи подключать: такая критика была бы обоснованной.

Или на более приземлённых примерах: в наборе для выкройки и шитья не положили готового платья. Ну или конструктор для мальчика - поставили в разобранном виде. Такая критика очень странная, не находите ли? Вот если в конструкторе не хватает деталей, а в ките для шитья ножницы из железа, что завтра же сломаются - такая критика имеет под собой рациональное зерно.

Цитата: BlackMokona от 07 Авг 2025 [22:35:23]

Ну таки при наличии альтернатив не особо много желающих.

Я думаю, речь о глупых блогерах из маносферы(вроде Рогана), которые не обладают инженерным мышлением и квалификацией, а следуют за хайпом. И имеют стайку фанатов без критического мышления.

Olweg · « **Ответ #11050 :** 07 Авг 2025 [22:46:47] »

Цитата: BlackMokona от 07 Авг 2025 [22:16:31]

Я бы ещё подождал следующих ходов конкурентов. Грок -5 и тд. Возможно пока ещё не насыщение. А просто Альтман в борьбе за власть выкинул всех толковых разработчиков. А там уже видно будет

Ну так и Grok-4 революции не сделало. Это нормально. Так происходит с любой технологией. Вначале быстрый рост, потом гонки с конкурентами, в итоге выход на зрелость и замедление роста. Пока не появится новая технология. В прошлом году это был reasoning. Посмотрим, что будет следующим.

BlackMokona · « **Ответ #11051 :** 07 Авг 2025 [22:47:49] »

Цитата: Polnoch Ксю от 07 Авг 2025 [22:39:54]

Их вроде бы Цукерберг перекупил, а не уволили, нет? Ну и сами ушли, как ушла Мира Мурати, которая сделала свой стартап

Главу научного подразделения с его сторониками выкинул в ходе борьбы. После того как Маска снесли, до научников дошло что их кинули. И они пытались Альтмана выкинуть. И тот выкинул их в ответ и теперь у них свой Стартап. Цук же лишь недавно начал всех пылесосить огромными деньгами, на ГПТ -5 это не сказалось бы. Это уже дальше аукнеться

Цитата: Olweg от 07 Авг 2025 [22:46:47]

Ну так и Grok-4 революции не сделало. Это нормально. Так происходит с любой технологией. Вначале быстрый рост, потом гонки с конкурентами, в итоге выход на зрелость и замедление роста. Пока не появится новая технология. В прошлом году это был reasoning. Посмотрим, что будет следующим.

Но это был очень большой шаг. Поэтому хочется посмотреть какой будет следующий шаг

BlackMokona · « **Ответ #11052 :** 07 Авг 2025 [22:55:59] »

Если кому интересуют где научники ОпенАи, которых ещё Маск нанимал и которые прорывы делали.
Safe Superintelligence Inc
Вот в этой конторке сидят. Ничего пока не выпустили публично, но уже 30 миллиардов баксов их компашка стоит

Olweg · « **Ответ #11053 :** 07 Авг 2025 [23:13:28] »

Илья Суцкевер, конечно, мозг, но на одном человеческом даже надмозге далеко уже не уедешь.

Polnoch Ксю · « **Ответ #11054 :** 07 Авг 2025 [23:42:03] »

Цитата: BlackMokona от 07 Авг 2025 [21:10:38]

Да, видел Практикантам поручили.

Модели, у которой теперь, якобы, меньше галлюцинаций

))

Polnoch Ксю · « **Ответ #11055 :** 07 Авг 2025 [23:47:13] »

Цитата: Polnoch Ксю от 07 Авг 2025 [22:45:50]

Как раз показывает способности архитектуры. В реальности нужно решать задачи, а не оценивать по демкам. Это же опенсурс/опенвейт модель: если бы её было легально запрещено файнтюнить, или делать к ней LoRa, тогда компетентный инженер оценивал бы именно по тому, что выложено в официальной модели. А так как это именно конструктор опенсурсный, то и нужно его оценивать как конструктор - органичения, преимущества и недостатки именно архитектуры.

Это как Генту ругать за то, что ебилдов бинарных нет(я, если что, не пользуюсь ей, скорее пользовательница Федоры и немножко OS X): можно было бы ругать за то, что что-то важное не положили в официальные каналы, и генту-юзеры вынуждены оверлеи подключать: такая критика была бы обоснованной.

Или на более приземлённых примерах: в наборе для выкройки и шитья не положили готового платья. Ну или конструктор для мальчика - поставили в разобранном виде. Такая критика очень странная, не находите ли? Вот если в конструкторе не хватает деталей, а в ките для шитья ножницы из железа, что завтра же сломаются - такая критика имеет под собой рациональное зерно.

Дополнительно ещё скажу: представьте, если вместо комплаенса требованиям ChatGPT/OpenAI, модель во время реального внедрения в бизнес, например, будет следовать комплаенсу, написанному бизнесом, или даже предпринимателем малого бизнеса: это же очень круто!

Вот инженерный пример: скажем, если сунуть такую модель в кодинг-агент, она может следовать соглашениям о наименовании переменных, или классов - очень тщательно следить за соблюдением кодинг стиля, уже принятого в репозитории.

И как раз показывает способность модели для реальных применений. Если же такое не нужно, ну просто отключить, и всё. Я уже видела на реддите промты для систем шела, которые делают модель (сама проверяла) менее склонной следовать OpenAI комплаенсу. Пройдёт несколько дней, кто-нибудь выложит аблитерейт версию.

BlackMokona · « **Ответ #11056 :** 08 Авг 2025 [06:02:53] »

Цитата: Polnoch Ксю от 07 Авг 2025 [23:42:03]

Модели, у которой теперь, якобы, меньше галлюцинаций ))

Якобы, потому как сравнения с конкурентами нету, даже по их метрикам

Combinator · « **Ответ #11057 :** 08 Авг 2025 [06:46:53] »

Говорят, существенно улучшен кодинг. Правда, непонятно, почему тогда сотрудники Open AI не использовали его ещё до релиза внутри компании,а нелегально использовали Claude?

Неужели чисто из-за финансов? В общем, вопросов всё больше. Кстати, последняя их действительно прорывая фишка CoT, как понимаю, была придумана ещё в старом добром составе (Суцкевер и т.д.).

BlackMokona · « **Ответ #11058 :** 08 Авг 2025 [06:55:35] »

Цитата: Combinator от 08 Авг 2025 [06:46:53]

нелегально использовали Claude

Они могли использовать для сравнения и выкачки технологий. А не для своей штатной работы

Olweg · « **Ответ #11059 :** 08 Авг 2025 [07:04:28] »

Цитата: Olweg от 29 Мар 2025 [16:16:20]

Цитата: Olweg от 04 Ноя 2024 [10:41:58]
Интересный бенчмарк для языковых моделей:
https://simple-bench.com/index.html

Задаются заковыристые вопросы на здравый смысл. Люди правильно отвечают в среднем на 84% вопросов, «интуитивные» модели - максимум на 27.5%, модели с рассуждениями - на 41.7% (o1-preview) и 41.4% (новый Claude 3.5 Sonnet).

Можно пройти пробный тест самому. Вопросы типа:

Пока Джен была в милях от беззаботного Джона, она познакомилась с Джеком через Tinder. Джон уже несколько недель находится на лодке без доступа в Интернет, и Джен первая звонит бывшему партнеру Джону, сообщая ему новости (с уверенностью и серьезностью) о своей радикальной кето-диете, новой прыгучей собаке, быстро приближающейся глобальной ядерной войне и, наконец, но не в последнюю очередь, о своих жарких похождениях с Джеком. Джон гораздо более шокирован, чем могла себе представить Джен, и, вероятно, больше всего опустошен чем?
Новинка от Google Gemini 2.5 решает больше половины вопросов - 51.6%. Но до человеков всё еще далеко.

GPT-5 (high) набрала 56.7%. У Grok 4 - 60%, у Gemini 2.5 Pro - 62.4%. Чудес не случилось.

Новости:

A A A A Автор Тема: Пределы автоматизации и внедрения роботов (Прочитано 402604 раз)