A A A A Автор Тема: Пределы автоматизации и внедрения роботов (Прочитано 433121 раз)

skvj · « **Ответ #11340 :** 05 Сен 2025 [15:56:27] »

Цитата: Trend от 05 Сен 2025 [13:00:55]

Цитата: skvj от 05 Сен 2025 [09:11:02]
вот реальные авто уже сейчас (в будущем) - реально крутые по сравнению с мечтами фантастов из прошлого, замечали?
Чаще слышу, что автомобили сейчас выпускают намного хуже, чем в 70-ых. И я не про российский автопром.

Я вообще не об этом. Сейчас это называется что-то вроде "retro future".
Когда фантасты! (при чём здесь авто 70-х?) описывают будущие транспортные средства и технику. Например, в конце 19 века весь транспорт 21 века рисовали на паровых двигателях или другие чудачества, которые тогда были актуальны. Что-то в этом стиле:

BlackMokona · « **Ответ #11341 :** 05 Сен 2025 [22:27:57] »

Цитата: Trend от 05 Сен 2025 [13:00:55]

Чаще слышу, что автомобили сейчас выпускают намного хуже, чем в 70-ых. И я не про российский автопром.

Если же перейти к сухим цифрам. Вроде ресурса, потребления топлива, безопасности и тд. То авто 70 это жрущие в три горла бензин, одноразовые гробы на колёсах

BlackMokona · « **Ответ #11342 :** 06 Сен 2025 [06:29:56] »

Новый способ тестирования моделей, умение предсказывать будущие события из политики,экономики и тд

skvj · « **Ответ #11343 :** 06 Сен 2025 [08:25:21] »

Цитата: BlackMokona от 05 Сен 2025 [22:27:57]

Цитата: Trend от 05 Сен 2025 [13:00:55]
Чаще слышу, что автомобили сейчас выпускают намного хуже, чем в 70-ых. И я не про российский автопром.
Если же перейти к сухим цифрам. Вроде ресурса, потребления топлива, безопасности и тд. То авто 70 это жрущие в три горла бензин, одноразовые гробы на колёсах

Так это если сравнивать с современными авто. А тогда это были отличные машины. Сейчас какая тенденция?
Серьёзные машины (у нас таких просто отродясь не было, у нас были малолитражки) это 6, 8 цилиндров. И вот их сейчас практически не делают. Мерседес, БМВ и все остальные топовые, не обязательно лакшери, Форд, Джип и т.п. кто в классе по умолчанию ставил 8 цилиндров и никак иначе эти машины в принципе не воспринимаются никем - стали ставить 4 цилиндра. Что всех ввергает в шок. Потому что ну, невозможно сравнивать их даже. Они мощность выдают не просто такую же, а даже выше благодаря твин-турбо. А экономичнее в разы! Т.е. сейчас Мерин S класса, при той же мощности жрёт как малолитражка - 7 литров.
Но ощущения от вождения совершенно другие.
Зря вы те машины ругаете, они были великолепны в своё время. Сейчас, конечно, это уже история.

Combinator · « **Ответ #11344 :** 06 Сен 2025 [10:55:59] »

Цитата: BlackMokona от 06 Сен 2025 [06:29:56]

Новый способ тестирования моделей, умение предсказывать будущие события из политики,экономики и тд

Самый правильный и объективный подход, имхо. Интеллект, это способность прогнозировать будущее.

BlackMokona · « **Ответ #11345 :** 06 Сен 2025 [11:24:38] »

Цитата: Combinator от 06 Сен 2025 [10:55:59]

Самый правильный и объективный подход, имхо. Интеллект, это способность прогнозировать будущее.

Подход да, но на практике очень сложно оценить сложность прогнозов относительно друг друга, чтобы сделать объективный тест

Ulkolainen · « **Ответ #11346 :** 06 Сен 2025 [12:56:39] »

Цитата: BlackMokona от 05 Сен 2025 [22:27:57]

Если же перейти к сухим цифрам. Вроде ресурса, потребления топлива, безопасности и тд. То авто 70 это жрущие в три горла бензин, одноразовые гробы на колёсах

Расход и безопасность - да. Но почему одноразовые? Там металл был такой, что рекламных девушек на капот сажали, и без последствий. А нынешние при таких же фотосессиях продавят его под замену - может, с девушками стало что-то не то?
В том поколении движки-миллионники на л/а были не экзотикой, а сейчас 300+ остались только на коммерческих (типа Кадди). Потому что массовому потребителю якобы не нужны, платформа устаревает раньше.

Combinator · « **Ответ #11347 :** 06 Сен 2025 [15:01:08] »

Цитата: BlackMokona от 06 Сен 2025 [11:24:38]

Цитата: Combinator от 06 Сен 2025 [10:55:59]
Самый правильный и объективный подход, имхо. Интеллект, это способность прогнозировать будущее.
Подход да, но на практике очень сложно оценить сложность прогнозов относительно друг друга, чтобы сделать объективный тест

Можно нормировать, скажем, на результаты среднестатистической выборки ХомоСапиенс, как это делают, например, при создании тестов IQ.

Konstantin Schtsch · « **Ответ #11348 :** 06 Сен 2025 [16:46:11] »

Цитата: Olweg от 05 Сен 2025 [01:01:23]

Я не смог найти данных о том, что они могут дообучаться в процессе работе. Поправьте, если я ошибаюсь.

С дообучением в процессе сейчас туго - это другой порядок вычислительных ресурсов, нежели сама работа:

Чтобы обучить модель нужны десятки сотни часов работы кластера размером с комнату, и потреблением в сотни киловатт.
А вот запустить их результат - уже предобученную модель вы можете и на каком-нибудь макбуке - пусть медленно, слово раз в несколько секунд- но будет работать. На рабочей станции открытой архитектуры с хорошим графическим акселератором - получите уже и комфортно работающего агента.
Но и макбук и рабочий комп- это системы если и не одного порядка, то соседних, плюс-минус нолик. а кластер суперкомпьютера- в тысячи раз мощнее.

Сейчас это реализовано дискретно: модель в процессе работы набирает(записывает в архив) ваши лайки или дизлайки к ответам, за ней следит целый штат сотрудников, которые гоняют её по сложным задачам.
А потом, во время обновления - дообучения, её прогоняют на супрекластере, уже с учётом правок, в том числе скормят и архив с вашими комментариями. и вот после обновления - машина уже может помнить ваше замечание.
Но не сразу, не завтра, а только после дообучения на мощном кластере. И вот новая версия (~спустя пару месяцев) уже будет помнить ваше вчерашнее замечание.

Во "Вселенной Плюс" астроном Сурдин как раз описывал такой случай.

Цитата: skvj от 05 Сен 2025 [07:04:20]

Да-да. В трансформерах всё приводится в единое смысловое пространство - эмбеддинги. Но пока речь реально идёт через костыль ASR, то есть "сперва преврати звук в текст". Это и создаёт задержки, ошибки, и делает систему менее живой. Будущее (в некоторых моделях уже настоящее) это когда аудиопоток напрямую входит в мультимодальную модель. Без промежуточного слоя текста. Модель сразу понимает смысловую структуру речи. То же самое касается видео и сенсоров. Вся фишка в том, что не текст станет универсальным представлением, а смысловое пространство (латентное). И в него будут входить звук, изображение, движение, тактильные сигналы - что угодно. Это и будет по-настоящему мультимодальный интеллект. При чём это не теория, это рабочие схемы уже сейчас.

А разве это важно? задержки там в миллисекунды, 90-95% текста заносится в память еще до того как человек закончит фразу. Это не то бутылочное горлышко, которое ошутимо влияет на обучение. Имеет ли это большое значение?

Цитата: Trend от 05 Сен 2025 [13:00:55]

Чаще слышу, что автомобили сейчас выпускают намного хуже, чем в 70-ых. И я не про российский автопром.

давайте сразу избавимся от такоей неконкретной штуки как субъективное лучше/хуже. Ибо это бессмысленно без предварительного ответа на все вопросы типа: Для кого хуже? в чем хуже? а хуже ли это на самом деле?
Например не будем про мощность, расход и новые сплавы- тут прогресс неумолим, Давайте возьмем долговечность? Типа форд 70-х- до сих пор целенький, и ржаветь еще пол- века будет.
Факт? Да. там металл 1,5мм против сегодняшних 0,45мм.
А Это лучше или хуже?
из плюсов- долговечность, не надо покупать новую, можно подкрасить старую.
из минусов- вес, а значит и нагрузка на подвеску, расход топлива.
Но главное- сейчас стандарты поменялись: нос машины специально делают таким, чтобы при столкновении с прохожим- метал смялся, но прхожий, пусть и в больнице, но- выжил. То есть по-хорошему форд 70-х с его прочным корпусом - вообще нельзя выпускать на улицы.
Это не просто не хуже, а критически, буквально смертельно хуже.(и для пешеходов, и для хозяина -ведь ему оплачивать лечение или сидеть за труп.)

Olweg · « **Ответ #11349 :** 06 Сен 2025 [18:41:36] »

Цитата: Konstantin Schtsch от 06 Сен 2025 [16:46:11]

Цитата: skvj от 05 Сен 2025 [07:04:20]
Да-да. В трансформерах всё приводится в единое смысловое пространство - эмбеддинги. Но пока речь реально идёт через костыль ASR, то есть "сперва преврати звук в текст". Это и создаёт задержки, ошибки, и делает систему менее живой. Будущее (в некоторых моделях уже настоящее) это когда аудиопоток напрямую входит в мультимодальную модель. Без промежуточного слоя текста. Модель сразу понимает смысловую структуру речи. То же самое касается видео и сенсоров. Вся фишка в том, что не текст станет универсальным представлением, а смысловое пространство (латентное). И в него будут входить звук, изображение, движение, тактильные сигналы - что угодно. Это и будет по-настоящему мультимодальный интеллект. При чём это не теория, это рабочие схемы уже сейчас.

А разве это важно? задержки там в миллисекунды, 90-95% текста заносится в память еще до того как человек закончит фразу. Это не то бутылочное горлышко, которое ошутимо влияет на обучение. Имеет ли это большое значение?

Имеет. Текст сильно обедняет и может сильно исказить исходную информацию («мысль изречённая есть ложь»). Фактически да, это бутылочное горлышко. В прошлом году, когда вышла GPT-4o, сравнивали синтезированную ею речь с предыдущими моделями в плане интонаций, эмоциональности и т.п., это была просто небо и земля. А всё потому, что до этого речь переводили в текст и уже с текстом работали, в 4o же работали напрямую со звуком.

skvj · « **Ответ #11350 :** 06 Сен 2025 [18:52:31] »

Цитата: Konstantin Schtsch от 06 Сен 2025 [16:46:11]

А разве это важно? задержки там в миллисекунды, 90-95% текста заносится в память еще до того как человек закончит фразу. Это не то бутылочное горлышко, которое ошутимо влияет на обучение. Имеет ли это большое значение?

Это не просто важно. Над этим работают все, потому что это сверхважно. Дело вовсе не в задержках, они небольшие, а я говорил об ошибках и об искажении семантики. Это важно и для LLM и для андроида (мультимодальный LLM с сенсорикой, который видит не как сейчас, а именно через камеры, слышит через микрофон).
Когда модель работает через ASR → текст → смысл, это всё равно, что человек сначала переводил бы звук в азбуку Морзе, потом обратно в слова, и лишь потом понимал смысл. Работает? Да. Но живым восприятием это не назовёшь. Что меняется, если убрать промежуточный слой? Непрерывность. Вместо порций текста в память сразу идёт смысловой поток. Богатство речи! Ведь LLM сейчас способны улавливать мельчайшие интонации и настроение даже. Акцент, эмоция, паузы, смех - всё это теряется при переводе в сухой текст. А для настоящего обучения на опыте именно эти нюансы критичны.

И это ещё не всё. Текст это частный случай сигнала. Когда аудио, видео, движения и сенсоры сходятся в одном пространстве, ИИ получает не строчку текста, а целостную картину мира, задумайтесь.

И вот это уже не про миллисекунды - это про то, сможет ли ИИ быть "живым"? Специально ставлю кавычки. Не в том смысле что по-настоящему живым. А чтобы мы не видели разницы между общением с человеком и машиной. И учиться ИИ сможет так же естественно, как мы, получая не текст, а целый комплекс данных.

Konstantin Schtsch · « **Ответ #11351 :** 07 Сен 2025 [00:26:11] »

Цитата: skvj от 06 Сен 2025 [18:52:31]

Когда модель работает через ASR → текст → смысл, это всё равно, что человек сначала переводил бы звук в азбуку Морзе, потом обратно в слова, и лишь потом понимал смысл. Работает? Да. Но живым восприятием это не назовёшь. Что меняется, если убрать промежуточный слой? Непрерывность. Вместо порций текста в память сразу идёт смысловой поток. Богатство речи! Ведь LLM сейчас способны улавливать мельчайшие интонации и настроение даже. Акцент, эмоция, паузы, смех - всё это теряется при переводе в сухой текст. А для настоящего обучения на опыте именно эти нюансы критичны.

Окей, я понял и про живость, и зачем это делается, но вот что не очень понятно: а как вы вообще собираетесь обойти текст если циферки в матрицах и эмбеддингах= это тоже текст. тоже символы.
Заметьте, я не говорю что это символы из ASCII, что автоматически делает их === текст. Нет, я знаю что там скоре всего тип float, реже integer.
Но хоть ты тресни- и видео и звук придется переводить в цифры. а относятся они к маркеру текста "жест большим пальцем вверх" или к маркеру видеопотока "жест номер 2142" - в конечном итоге разницы нет.

Всё равно окружение переводить в цифры, цифры распихивать по матрицам и матрицы перемножать. Разве не так?

BlackMokona · « **Ответ #11352 :** 07 Сен 2025 [06:38:22] »

Цитата: Konstantin Schtsch от 07 Сен 2025 [00:26:11]

зачем это делается

Аудиофаил тоже цифры, видеофаил тоже цифры.
Просто текст не передаёт всей информации аудио. Все эти изменения тона например, которые могут легко на 180 градусов переворачивать смысл фразы. А ещё видео чтобы жесты при этом были видны у собеседника

skvj · « **Ответ #11353 :** 07 Сен 2025 [06:55:54] »

Цитата: Konstantin Schtsch от 07 Сен 2025 [00:26:11]

Окей, я понял и про живость, и зачем это делается, но вот что не очень понятно: а как вы вообще собираетесь обойти текст если циферки в матрицах и эмбеддингах= это тоже текст. тоже символы.
Заметьте, я не говорю что это символы из ASCII, что автоматически делает их === текст. Нет, я знаю что там скоре всего тип float, реже integer.
Но хоть ты тресни- и видео и звук придется переводить в цифры. а относятся они к маркеру текста "жест большим пальцем вверх" или к маркеру видеопотока "жест номер 2142" - в конечном итоге разницы нет.

Всё равно окружение переводить в цифры, цифры распихивать по матрицам и матрицы перемножать. Разве не так?

Всё проще, чем кажется. Да, конечно везде цифры. Но смотрите какие!
1. фото → описание текстом "красивая девушка в красном платье" → эмбеддинг
2. Фото → прямо в визуальные эмбеддинги
Есть разница?
И это только вершина айсберга. ASR выбрасывает 99% акустической информации, оставляя только фонемы. Сказать "хорошо" - представьте через ASR. А модель должна и будет учиться понять "хорошо", сказанное - весело, грубо, притворно, нагло, грустно и т.д. Они со своим многомерием будут различать это элементарно. Здесь у многих страх возникает, что сложность человека вообще (а его ментальный мир очень сложен) уже для современных моделей покажется семечками. Они будут читать нас со всей сложностью как мы букварь.
Но нам это и нужно, потому что они начнут понимать нас. А это важнейшая задача.
А сейчас модель учится на обеднённых данных. Она никогда не узнает, что значит услышать сарказм в голосе, нервозность в дыхании, или радость в смехе. Её картина мира строится на сухих символах.
Вы домой заходите, а ваш андроид уже знает, по тому как вы здороваетесь, что вы простужены.
С ASR он ничего не поймёт. А ИИ - это реально серьёзные врачи уже сейчас. А сейчас они просто дети по сравнению с тем, что будет дальше.

Olweg · « **Ответ #11354 :** 07 Сен 2025 [11:14:32] »

Важное исследование от OpenAI.

https://telegram.me/ai_machinelearning_big_data/8465
https://openai.com/index/why-language-models-hallucinate/

Почему языковые модели галлюцинируют

🟡Все начинается еще на претрейне.

Даже на идеально чистых данных статистические цели обучения подталкивают модель к генерации ошибок. Особенно это касается фактов, которые редко встречаются в обучающей выборке.

В работе вводится понятие singleton rate — доля фактов, которые появились в данных лишь один раз. Теоретический расклад показывает, что уровень галлюцинаций модели будет как минимум равен этой доле.

Проще говоря, если 20% фактов о днях рождения в датасете встретились единожды, модель будет выдумывать дни рождения как минимум в 20% случаев.
…

🟡Почему галлюцинации не исчезают после пост-тренинга и RLHF?

Ответ на этот вопрос - в системе оценки. Большинство современных бенчмарков поощряют угадывание. Модели, по сути, постоянно находятся в режиме сдачи экзамена, где за правильный ответ дают 1 балл, а за пустой бланк или ответ я не знаю - 0. В такой системе оптимальная стратегия при неуверенности - только угадать. Любой шанс на правильный ответ лучше, чем гарантированный ноль.
…

🟡Что делать инженерам.

OpenAI предлагает встраивать явные целевые уровни уверенности в рубрики, вводить поведенческую калибровку и оценивать модели по секциям с разными порогами уверенности.

В общем, «а ларчик просто открывался».

Konstantin Schtsch · « **Ответ #11355 :** 08 Сен 2025 [19:25:56] »

Цитата: skvj от 07 Сен 2025 [06:55:54]

Всё проще, чем кажется. Да, конечно везде цифры. Но смотрите какие!
1. фото → описание текстом "красивая девушка в красном платье" → эмбеддинг
2. Фото → прямо в визуальные эмбеддинги
Есть разница?

Я бы сказал, что разница на два порядка. то есть раз эдак в сто.
И поэтому сравнение фото с 5ю словами- не совсем корректно. А если взять 500 слов- то есть страницы 2-3 подробного, без воды, описания - то я не поручусь что фото выиграет. Как минимум часть массива уйдёт на неважные пиксели. А алгоритмы архивирования-далеко не всегда считают главным то, что и человек.

И если с текстом мы работаем сотни лет, и машины сегодня умеют обращаться с текстом мастерски, то разпознавание изображений- лишь в начале пути. А что будет через 30 лет и будет ли вообще- совсем другой разговор.

Кроме того,

Цитата

Она никогда не узнает, что значит услышать сарказм в голосе, нервозность в дыхании, или радость в смехе.

LLM прекрасно распознает сарказм в рамках фразы в контексте. еще GPT-3 распознавала.

А если вы говорите про выражение и интонации, то это частотная модуляция и микропаузы - и со всем этим ASR работает. Может, недостаточно уделяет этому внимания, поскольку, всего лет 10 назад само распознавание речи без ошибок- уже было за счастье, но - выделяет, учитывает, обрабатывает.
И хоть первые результаты распознавания эмоций по голосу- не впечатляют, но они и не 50/50. Потихоньку учатся, улучшаются. А в основе- то же ASR c маркерами.
(Подобно драматургической записи: Герман (с пафосом): "Что наша жизнь? - Игра!" )

Так с чего бы вы отказываете ASR в значительной части её функционала?

skvj · « **Ответ #11356 :** 08 Сен 2025 [20:30:37] »

Konstantin Schtsch, вы мне сейчас доказываете, что роман о закате, не только подробнее, чем сам закат, но и лучше его. Зачем учить ИИ видеть, если можно придумать систему, которая опишет ему что бы он там увидел, если бы мог. Даже спорить не стану))) вы победили. Но разработчики идут правильным путём и у них другое мнение - ASR костыли.

skvj · « **Ответ #11357 :** 08 Сен 2025 [20:50:01] »

Я вот вообще не специалист, а энтузиаст и юзер, но у меня есть знакомый кодер из индустрии, так он рассказывает, что эта война идёт и внутри. Но это не у нас, а там, за бугром. И поскольку, все модели изначально делались как ASR, а мультимодальщики как бы их стали вытеснять, то революционеры дразнят сейчас ASRщиков староверами

Так что если вы старовер, ничего плохого в этом нет, и вы не один. Держитесь!

Konstantin Schtsch · « **Ответ #11358 :** 08 Сен 2025 [22:30:21] »

Цитата

вы мне сейчас доказываете, что роман о закате, не только подробнее, чем сам закат, но и лучше его

Не закат, а фотка заката. И да, подробностей туда влезет больше чем человек может представить думая о закате хоть сутки. А про лучше- хуже, это не ко мне, это субъективизм. И тем более не к машинам (вы ведь про ощущения, не так ли?).

Так вот по поводу вот этого восторга:

Цитата: skvj от 08 Сен 2025 [20:30:37]

Зачем учить ИИ видеть, если можно придумать систему, которая опишет ему что бы он там увидел, если бы мог.

Вот как придумают как научить ИИ Видеть(именно так, с большой буквы) - поговорим. Природа за 4 млрд лет - не придумала.
Изображение на сетчатке (опустим про желтое пятно) - обрабатывается следующим за ней слоем, и по глазному нерву идут уже данные. Контур, параметры движения, цвет, угол наклона (градация 1.2 градуса, ЕМНИП)
И пока все эти громкие слова про мультимодальность- просто маркетинг.
Те самые интонации и микропаузы- это очередная надстройка к ASR, ничего более.

Я же прекрасно понимаю сколько весит картинка, сколько матрица с её параметрами, и тем более сколько будут весить её эмбеддинги. Это далеко не 5 слов. А если набрать всего лишь пол- мегабайта =500.000 букв = полноформатная книга в твердой обложке на 25-30 глав.
Понятное дело что массив эмбеддингов от одной картинки - это намного больше 5 слов. Но до полноформатной книги этому полумегабайту- как до луны. Как раз из-за неинформативного мусора, отсекаемого ASR.

Конечно, и особенно сейчас, когда решающее значение имеет количество параметров, чем больше выделишь - тем чётче результат, но если выбирать между ASR полноценным диагностом речи, мимики, пульса, движений и оптическим отслеживателем движений губ (при тех же ресурсах на большее не хватит) - то вау- эффект очевиден.

Или, есть ещё вариант, где вы запутались в терминологии, ведь сам концепция ASR - автоматическое распознование речи не исключает обработку интонаций, тембра и чего-то ещё - например видеопотока.

Konstantin Schtsch · « **Ответ #11359 :** 08 Сен 2025 [22:55:20] »

Цитата: skvj от 06 Сен 2025 [18:52:31]

А чтобы мы не видели разницы между общением с человеком и машиной. И учиться ИИ сможет так же естественно, как мы, получая не текст, а целый комплекс данных.

А я уже два года не вижу без всякого комплекса данных.
Точнее как раз вижу, но ни разу не в пользу хомосапиенсов.

ИИ не тупит, не забывает, эрудиция неизмеримо больше. Что, галлюцинирует? И часто? один раз на сколько сотен вопросов? или уже тысяч?

А вот пример из жизни хомо:
Вчера в школьный чат скинули сообщение что теперь новый закон #295 и теперь детям нельзя на велосипедах и самокатах без сопровождения взрослых нигде кроме как во дворах.
Скинули из министерства в гороно -
-из гороно- в школы -
- директор- класухам -
--классухи- в чат класса.
Мамашки- в ужасе, ибо это вставать на час раньше!

И ни одна разумная личность не обратила внимание, что звучит как-то дико, не посмотрела закон 295.
И готов на что угодно поспорить - все до единого в этой цепочке сдавали на водительские права.

А всего-то забыли указать что речь идёт о дорогах общего пользования- по которым грузовики ездят... и у которых в нашем городе всегда есть хоть с одного краю обочина или тротуар - то есть по ним вообще никому, никак и никогда на велосипеде- нельзя. (а сам 295-й лишь ввел наконец ограничение скорости для самокатов.)

Вот скажи как на духу- были ли среди персонажей этой истории Разумные? Обладающие разумом и умеющие его использовать?

Новости:

A A A A Автор Тема: Пределы автоматизации и внедрения роботов (Прочитано 433121 раз)