A A A A Автор Тема: Пределы автоматизации и внедрения роботов (Прочитано 606916 раз)

Polnoch Ксю · « **Ответ #11820 :** 22 Ноя 2025 [06:04:50] »

Цитата: BlackMokona от 21 Ноя 2025 [10:16:18]

У людей тоже есть ограничение контекстного окна и галлюцинаций более чем достаточно.

Есть, но пока на порядки меньшие ограничения, чем у LLM, которые можно запустить на своём железе дома или использовать по подписке. И эта разница настолько большая количественно, что становится качественной. Я думаю, это главная причина (вместе с галлюцинациями) почему у миддл инженеров и у самой опытной когорты джунов ещё есть работа на рынке(состоявшегося джуна уже не нужно учить азам, и он не поплывёт, если в него ткнуть 10 миллионами токенов монолита - он даже вопросы сможет задать про этот код сеньёру. А модель не может).

Я видела предсказания в прошлом(и сама их повторяла лол), что модели будут писать на чистом машинном коде и лучше GCC и шланга, что ООП всякое не нужно итд, а в реальности это просто не работает: из-за узколобости моделей и реального контекста у лучших моделей ну 32к-40к токенов (без серьезного ухудшения качества ответов) моделям такие оптимизации как модульность архитектуры, микросервисы, ООП и высокоуровневые, лаконичные по токенам языки нужны ещё больше чем людям(на питоне и js нужно меньше строк кода, чтобы написать, не знаю, приложение вызова такси, чем на байткоде или тем более ASM, машинном коде). Кто бы мог подумать, что задача распилить жирный монолит будет для нашего недо-аджиай образца ноября 2025го просто невыполнимой? И даже не из-за галлюцинаций, а именно из-за малого контекста.

С галлюцинациями ещё можно более-менее бороться покрывая всё тщательно автотестами, и поручая их написание другому автономному агенту, и тщательно ревьювя каждую строчку - автотесты часто занимают в разы больше места, чем сам код - это именно из-за проблем у моделей с галлюцинациями.

Это кстати важный совет всем: никогда не давайте инстансу автономномого агенту, который пишет приложение, писать автотесты

) Он будет мухлевать, я видела это и у codex и у claude code - пишите отдельный промт для автотестов в отдельном табе.

Изменится ли ситуация в ближайшее время? Да, наверное. Я думаю, тут TPU помогут моделям и архитектурные оптимизации. Но пока мы ещё не тут, чтобы восторженные челы с r/singularity не говорили.
Я бы предположила, что до AGI примерно 3 года, и не меньше полугода. Может, чуть больше чем три - вряд ли больше 4.

Отдельный вопрос, как быстро мы получим ASI систему после AGI? Если через несколько часов(и проблему элайнмента мы к тому моменту ещё не решим), нам всем конец, имхо. Если через десять лет - тогда у человечества есть шансы на то, чтобы не оказаться в аду. Какой будет take off к сингулярности? Hard или soft?

Если у нас будет софт тейкофф, то может у человечества хватит здравомыслия не тратить все ресурсы на разработку автономного оружия и ASI, а потратить большую часть ресурсов автономных ML-ресёчеров на разработку элайнмента, и на математическое его доказывание (чтобы люди могли его проверить)?
Ладно, о чём я? Конечно же не хватит $:-\$

Polnoch Ксю · « **Ответ #11821 :** 22 Ноя 2025 [06:29:32] »

Цитата: skvj от 21 Ноя 2025 [10:00:11]

Дарио Амадей сказал, что технически может включить окно объёмом 100 млн слов

Такие высказывания снижают уровень доверия Антропику. Я много раз хвалила claude за то, что они не пытаются вот так делать - обманывать людей контекстом в миллионы токенов. В chain-of-thoughts у claude прекрасно видно, что модель не сама смотрит в загруженные в неё файлы с кодом (или текстом художественным и нет), а использует внешнюю утилиту для поиска в проекте. Внутри утилиты, видимо, сверхоптимизированная LLM с большим контекстом - например, 150к и скрипты, бьющие текст на чанки. А настоящая умная модель как была с контекстом, скажем, 32к токенов, так и остаётся.

Другие модели скрывают этот процесс от пользователя(я думаю, он так же примерно сделан везде), и это снижает к ним доверие.

skvj · « **Ответ #11822 :** 22 Ноя 2025 [06:57:57] »

Цитата: Ulkolainen от 21 Ноя 2025 [23:46:16]

Цитата: skvj от 21 Ноя 2025 [20:51:43]
Вы говорите приоритет авторства часто не проблема? Но весь ваш длинный список судебных тяжб как раз и показывает, что это гигантская проблема.
Знаете, у меня в творческой биографии был эпизод, когда первым оказался как раз не я. Правда мы с "конкурирующим" автором очень быстро и беспроблемно решили, что произведения все-таки разные, хоть и на удивление похожие. Но спорить о датах, подозревая мухлёж, нам с нею даже в голову не приходило.
И в вышеприведенных мною примерах ТОЖЕ не оспаривались даты/приоритеты первопубликаций (чего Вы почему-то упорно отказываетесь замечать): и Емец признавал вторичность своей Тани по отношению к Гарри, и студия (скажем, ХХ Cent. Fox от Расходникова) не отрицала получение чернового сценария РАНЬШЕ, чем другой, но подозрительно похожий, был ею взят в работу.

Уж не знаю, насколько этот список можно назвать длинным, только проблема, иллюстрируемая мной с его помощью, всяко не в сложности выяснения, кто был первым, а кто вторым. Она именно в трактовке: позволительно ли обошелся второй с произведением первого. Или, может, не обходился никак, а креативил самостоятельно, независимо, но... так совпало.

(кликните для показа/скрытия)

Я настоятельно прошу вас, если вы решите продолжать спор, хотя бы прятать сообщения под спойлер. Потому что я говорил о технологии, которая решает массу вопросов, в том числе устраняет необходимость в налоговой, нотариате, бухгалтерии, и т.д. - и решает главный вопрос авторского права в том числе. Вы же, продолжая дискуссию об авторском праве - уводите тему в оффтопик. Не будем злоупотреблять добродушием модератора.

Тем более, что вы неправы по существу.
Ни одно дело об авторских правах - не рассматривается без установления первенства автора - НИ ОДНО.
Дело Емеца с Таней и Гарри в том числе. Судья - эксперт исключительно в области права. Он не эксперт в литературе, как и в чем бы то ни было другом. И не имеет права делать никаких личных выводов в той области где не разбирается, а он не разбирается нигде, кроме права. Поэтому каждый раз судья назначает экспертизу. Вам понятно?
Он понятия не имеет кто такой Гарри Поттер и не может делать личных выводов, а только на основании выводов эксперта.

Поэтому экспертиза проводилась в обязательном порядке, и на её основании выяснялся именно ключевой момент в первенстве произведения: международный суд признал, что серия Роулинг по времени публикации, идеям и стилю была первой.

А то, что Амстердамский суд не известил лично вас, - сочувствую вам. Но ваше незнание происходящего ни о чем не говорит кроме вашего незнания.

Цитата: skvj от 22 Ноя 2025 [06:57:57]

Знаете, у меня в творческой биографии был эпизод, когда первым оказался как раз не я.

😆
Да что вы говорите? А как вы узнали? Первенство было установлено соглашением сторон? Рассказывайте, рассказывайте))

skvj · « **Ответ #11823 :** 22 Ноя 2025 [07:36:11] »

Цитата: Polnoch Ксю от 22 Ноя 2025 [06:29:32]

Цитата: skvj от 21 Ноя 2025 [10:00:11]
Дарио Амадей сказал, что технически может включить окно объёмом 100 млн слов
Такие высказывания снижают уровень доверия Антропику. Я много раз хвалила claude за то, что они не пытаются вот так делать - обманывать людей контекстом в миллионы токенов. В chain-of-thoughts у claude прекрасно видно, что модель не сама смотрит в загруженные в неё файлы с кодом (или текстом художественным и нет), а использует внешнюю утилиту для поиска в проекте. Внутри утилиты, видимо, сверхоптимизированная LLM с большим контекстом - например, 150к и скрипты, бьющие текст на чанки. А настоящая умная модель как была с контекстом, скажем, 32к токенов, так и остаётся.

Другие модели скрывают этот процесс от пользователя(я думаю, он так же примерно сделан везде), и это снижает к ним доверие.

Ксю, не только Антропик говорит о 100М контекста

https://www.communeify.com/en/blog/magic-100m-token-context-windows

https://lablab.ai/tech/ltm-2-mini

https://magic.dev/blog/100m-token-context-windows

Polnoch Ксю · « **Ответ #11824 :** 22 Ноя 2025 [07:52:23] »

Цитата: skvj от 22 Ноя 2025 [07:36:11]

Ксю, не только Антропик говорит о 100М контекста

https://www.communeify.com/en/blog/magic-100m-token-context-windows

https://lablab.ai/tech/ltm-2-mini

https://magic.dev/blog/100m-token-context-windows

Хочу увидеть технологию с хотя бы 250к настоящим контекстом(при сохранении возможностей модели хотя бы на уровне o3-mini-high/sonnet-3.7 начала 2025го). Если это вдруг будет пол-миллиона, ну тем более отлично.

Чем писать победные реляции, они бы стрим запилили, где бы автономный агент, управляющей такой моделью, распилил бы большой монолит со спагетти-кодом, и потом это приложение смогло бы запустится, и чтобы в нём хоть что-то работало бы (можно, конечно, дать модели несколько десятков часов на фиксинг в цикле)

Или чтобы книжку написал художественную - пусть посредственную, вторичную - где бы модель не перепутала через пару глав персонажей и не забыла бы уже написанные детали сюжета: тоже отличный тест на реальное контекстное окно.
С контекстным окном в 250к в модель бы поместился синопсис романа среднего размера, и карточки персонажей (и осталось бы чуть-чуть, чтобы писать сам текст главы).

Аналогично и с распиливанием монолита - с 250к реальным окном (повторюсь, оно не растёт от хитрых хаков, которыми можно хоть десять, хоть сто миллионов сделать - основная модель не сама смотрит в текст, а это за неё делают более глупые) что-то иногда даже бы получалось

skvj · « **Ответ #11825 :** 22 Ноя 2025 [08:08:01] »

https://generative-engine.org/llama-s-90-cost-advantage-and-10m-token-windows-why-october--1760828634841

Polnoch Ксю · « **Ответ #11826 :** 22 Ноя 2025 [08:12:21] »

Цитата: skvj от 22 Ноя 2025 [08:08:01]

https://generative-engine.org/llama-s-90-cost-advantage-and-10m-token-windows-why-october--1760828634841

Так я же говорю, сделали бы стрим на твиче, ютьюбе и в экс с тем, как модель пилит монолит на микросервисы, используя их технологию. В идеале нужно чтобы не они сами выбрали монолит который будет пилить агент, а аудитория голосованием.

Это какой-то пресс-релиз, даже не пейпер в пир ревьювд журнале

BlackMokona · « **Ответ #11827 :** 22 Ноя 2025 [08:13:55] »

Цитата: Polnoch Ксю от 22 Ноя 2025 [06:04:50]

Есть, но пока на порядки меньшие ограничения, чем у LLM, которые можно запустить на своём железе дома или использовать по подписке

С учётом быстрого развития ИИ, думаю процент галлюцинации будет активно падать просто из-за снижения случаев когда ИИ не знает точного ответа или не может его получить

skvj · « **Ответ #11828 :** 22 Ноя 2025 [08:16:08] »

Ксю, мы вообще о разном говорим.
Я говорю, верней Амадей говорит - о потенциале архитектур.

Кроме того уже сегодня существуют модели Hyena, Mamba, RWKV и т.п., которые математически и алгоритмически способны поддержать хоть 100 млн токенов, потому что их вычисление растёт линейно, а не квадратично.

То есть возможность есть, потенциально! но это как возможность построить мегамост через Атлантику - инженеры знают, как его спроектировать, но не могут пока себе позволить такой бюджет.

А вы говорите о фактически существующих продакшн-моделях, которые прямо сейчас в inference на реальном железе при реальном качестве могут держать 250k–1M нативного окна.

И при этом вы говорите - они все врут)) как так?

Polnoch Ксю · « **Ответ #11829 :** 22 Ноя 2025 [08:19:30] »

Цитата: skvj от 22 Ноя 2025 [08:16:08]

Кроме того уже сегодня существуют модели Hyena, Mamba, RWKV и т.п., которые математически и алгоритмически способны поддержать хоть 100 млн токенов, потому что их вычисление растёт линейно, а не квадратично.

Где можно скачать модель с возможностями sonnet-3.7(февраль 2025) и реальным контекстным окном в 250к токенов? Я такого никогда на huggingface не находила. Повторюсь, я говорю не о хитрых хаках, когда маленькая тупая модель, оптимизированная под большое окно роется в токенизированном тексте, пилит его на чанки и размечает для большой модели - а более честный подход, где бы основная модель видела текст целиком.

Я думаю, что нет, мы ещё не тут. И что настоящим окном в 250к обладают только модели уровня моделей из прошлой эпохи (что-нибудь уровня 4o, gpt-4.1)

BlackMokona · « **Ответ #11830 :** 22 Ноя 2025 [08:21:21] »

Цитата: Polnoch Ксю от 22 Ноя 2025 [08:19:30]

Повторюсь, я говорю не о хитрых хаках, когда маленькая тупая модель, оптимизированная под большое окно роется в токенизированном тексте, пилит его на чанки и размечает для большой модели - а более честный подход, где бы основная модель видела текст целиком

Там не хаки,там архитектуры другие. Им нормально жрать сколько угодно контекста. Но архитектуры ещё не развитые, поэтому по интелекту не дотягивают до топовых моделей

skvj · « **Ответ #11831 :** 22 Ноя 2025 [08:23:04] »

Цитата: BlackMokona от 22 Ноя 2025 [08:21:21]

Цитата: Polnoch Ксю от 22 Ноя 2025 [08:19:30]
Повторюсь, я говорю не о хитрых хаках, когда маленькая тупая модель, оптимизированная под большое окно роется в токенизированном тексте, пилит его на чанки и размечает для большой модели - а более честный подход, где бы основная модель видела текст целиком
Там не хаки,там архитектуры другие. Им нормально жрать сколько угодно контекста. Но архитектуры ещё не развитые, поэтому по интелекту не дотягивают до топовых моделей

Да-да, вот правильно.

Polnoch Ксю · « **Ответ #11832 :** 22 Ноя 2025 [08:23:11] »

Цитата: BlackMokona от 22 Ноя 2025 [08:21:21]

Но архитектуры ещё не развитые, поэтому по интелекту не дотягивают до топовых моделей

о чём я и говорила. Я согласна, что много интересных архитектурных идей. Но мы пока ещё не тут. Нет пока никакого AGI. Уже почти, да. Но пока ещё нет...

А все эти рассказы о контекстном окне в 10млн токенов у Маска, Антропика итд вызывают только раздражение и недоумение

skvj · « **Ответ #11833 :** 22 Ноя 2025 [08:28:03] »

Цитата: Polnoch Ксю от 22 Ноя 2025 [08:23:11]

Цитата: BlackMokona от 22 Ноя 2025 [08:21:21]
Но архитектуры ещё не развитые, поэтому по интелекту не дотягивают до топовых моделей
о чём я и говорила. Я согласна, что много интересных архитектурных идей. Но мы пока ещё не тут. Нет пока никакого AGI. Уже почти, да. Но пока ещё нет...

А все эти рассказы о контекстном окне в 10млн токенов у Маска, Антропика итд вызывают только раздражение и недоумение

Так он и говорит - мощности не хватает для новых архитектур. Дата-центры на 500 МВт для чего строят по вашему?))

skvj · « **Ответ #11834 :** 22 Ноя 2025 [08:31:53] »

Здесь есть мнения, Что это пузырь)) и гоняют бабло сами себе, например - отличное объяснение))
Никто ничего не делает, просто бабки гоняют по кругу и заказывают друг у друга карты, а те дают что-то ещё - а те назад возвращают и просто воруют деньги инвесторов.
Очень! Очень глубокий анализ!

Polnoch Ксю · « **Ответ #11835 :** 22 Ноя 2025 [08:33:02] »

Цитата: skvj от 22 Ноя 2025 [08:28:03]

Так он и говорит - мощности не хватает для новых архитектур. Дата-центры на 500 МВт для чего строят по вашему))

Вот пусть покажут модель с настоящим окном 250к. Эти рекламные миллионы токенов - просто обман. и напоминает гонку мегапикселей в смартфонах: тоже абсолютно бесполезная характеристика (потому, что маленькая ПЗС матрица очень шумна)

Мне кажется, в нашем мире постправды очень важно быть честными, это могло бы быть способом зарабатывания репутации: не мухлевать в спеках. Скажем, вместо бредней про миллионы токенов контекста сказать, "смотрите, у нас теперь не 32к контекстное окно реальное, а аж 35к у основной модели! Мы выросли аж +9% к прошлому поколению! А так же модель может рыться и искать в тексте объёмом до 10млн токенов с помощью утилиты для поиска!"

skvj · « **Ответ #11836 :** 22 Ноя 2025 [08:37:20] »

Т.е. когда инженер рассказывает про новые технологии, которые нас ждут в будущем - его корректно прервать, обвинить во лжи и указать - нет, вы сначала покажите! А уж потом будете вот это всё рассказывать! Вынь, да положъ!
Правильно?))

Polnoch Ксю · « **Ответ #11837 :** 22 Ноя 2025 [08:40:51] »

Цитата: skvj от 22 Ноя 2025 [08:37:20]

Т.е. когда инженер рассказывает про новые технологии, которые нас ждут в будущем - его корректно прервать, обвинить во лжи и указать - нет, вы сначала покажите! А уж потом будете вот это всё рассказывать! Вынь, да положъ!

это не инженер рассказывает в пир ревьювд пейпере, а какие-то пресс-службы в пресс-релизах.

Мой поинт в том, что меня раздражают очень упоминания о миллионах токенов контекста - и тем сильнее, чем больше миллионов там указано. Если речь о новой технологии, так дали бы её потестить или хотя бы почитать подробности в пейпере как сделали.

skvj · « **Ответ #11838 :** 22 Ноя 2025 [08:43:25] »

Цитата: Polnoch Ксю от 22 Ноя 2025 [08:40:51]

Цитата: skvj от 22 Ноя 2025 [08:37:20]
Т.е. когда инженер рассказывает про новые технологии, которые нас ждут в будущем - его корректно прервать, обвинить во лжи и указать - нет, вы сначала покажите! А уж потом будете вот это всё рассказывать! Вынь, да положъ!
это не инженер рассказывает в пир ревьювд пейпере, а какие-то пресс-службы в пресс-релизах.

Мой поинт в том, что меня раздражают очень упоминания о миллионах токенов контекста - и тем сильнее, чем больше миллионов там указано. Если речь о новой технологии, так дали бы её потестить или хотя бы почитать подробности в пейпере как сделали.

Я лично слушал лекцию Дарио Амадея и выкладывал её на форуме))

BlackMokona · « **Ответ #11839 :** 22 Ноя 2025 [08:43:32] »

Цитата: Polnoch Ксю от 22 Ноя 2025 [08:40:51]

Мой поинт в том, что меня раздражают очень упоминания о миллионах токенов контекста - и тем сильнее, чем больше миллионов там указано. Если речь о новой технологии, так дали бы её потестить или хотя бы почитать подробности в пейпере как сделали.

Это всегда было. Вспомните дутые мегагерцы у интел, где просто каждый третий герц был пустым и ответ в виде П рейтинга у АМД

Новости:

A A A A Автор Тема: Пределы автоматизации и внедрения роботов (Прочитано 606916 раз)