A A A A Автор Тема: Пределы автоматизации и внедрения роботов  (Прочитано 415894 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Инопланетянин

  • *****
  • Сообщений: 11 801
  • Благодарностей: 654
    • Сообщения от Инопланетянин
И ни одна разумная личность не обратила внимание, что звучит как-то дико, не посмотрела закон 295.
Не этот ли закон подразумевался?

Онлайн skvj

  • *****
  • Сообщений: 649
  • Благодарностей: 11
  • Мне нравится этот форум!
    • Сообщения от skvj
Цитата
вы мне сейчас доказываете, что роман о закате, не только подробнее, чем сам закат, но и лучше его
Не закат, а фотка заката. 
Именно закат. Tesla FSD (Full Self Driving) видит мир, строит свою картину мира. ИИ обучают видеть вовсе не только фото, а саму реальность. По вашему автопилот сможет управлять авто просто по текстовому описанию? Архитектура LLM будет перестроена таким же образом, - уже перестроена частично.

И да, подробностей туда влезет больше чем человек может представить думая о закате хоть сутки.
Ага, а модель по вашем словам будет информативнее, чем оригинал. Только это вовсе не так.

А про лучше- хуже, это не ко мне, это субъективизм. И тем более не к машинам (вы ведь про ощущения, не так ли?).
Возможно и будет субъективизм - нам откуда знать? Это вопрос философский, а Tesla FSD тем не менее видит мир и строит его модель. Мне в данном случае никакой субъективизм не нужен, а вам он зачем?

Вот как придумают как научить ИИ Видеть(именно так, с большой буквы) - поговорим. Природа за 4 млрд лет - не придумала. 
Не только давно придумали КАК, но и научили. Перечислю видящие ИИ:
Tesla FSD, Boston Dynamics, Figure, Agility Robotics, DeepMind Gato, GPT-5. И это только что я знаю, а я знаю немного. Но речь идёт именно о мультимодальных LLM в том числе. В дальнейшем с ними можно будет смотреть кино.

И пока все эти громкие слова про мультимодальность- просто маркетинг.
Те самые интонации и микропаузы- это очередная надстройка к ASR, ничего более.
Вздор.

Я же прекрасно понимаю сколько весит картинка, сколько матрица с её параметрами, и тем более сколько будут весить её эмбеддинги. Это далеко не 5 слов. А если набрать всего лишь пол- мегабайта =500.000 букв = полноформатная книга в твердой обложке на 25-30 глав.
Понятное дело что массив эмбеддингов от одной картинки - это намного больше 5 слов. Но до полноформатной книги этому полумегабайту- как до луны. Как раз из-за неинформативного мусора, отсекаемого ASR.
Привет староверам! )) Вы хотя бы почитайте о вычислительной мощности запускаемых проектов прямо сейчас. Тесла ездит и видит (в буквальном смысле, потому что смотрит "глазами", у неё даже лидаров нет) - и это сотни тысяч машин, - обработка происходит в реальном времени 24/7. Никаких проблем. А сзади идут староверы со своими хоругвиями и взывают к справедливости, рассказывая про полумегабайты. Вот без всякой иронии теперь - вы просто не в теме.

Или, есть ещё вариант, где вы запутались в терминологии, ведь сам концепция ASR - автоматическое распознование речи не исключает  обработку интонаций, тембра  и чего-то ещё - например видеопотока.

ASR может добавить маркеры - интонация, паузы, смех. Но это ровно то же самое, что выдать машине книгу с ремарками: "сказано саркастично". Она не слышит сарказм, а читает подсказку. Это принципиально другое.

Когда я говорю "видеть закат", я имею в виду ровно то, что делают мультимодели: учиться напрямую на спектрограммах, изображениях, потоках движений. Они работают не с текстом, а с исходным многообразием сигнала. Это не маркетинг, а фундаментальный прорыв: от "описывать реальность словами" к "переваривать реальность как есть". Здесь не о чем спорить - потому что это не теория, а рабочие модели всевозможно разных ИИ.

Теперь про мусор. Я забыл выше ответить. В картинке действительно миллион пикселей, и половина лишние. Но именно в этом "мусоре" (в кавычках) кроется то, что отличает фото живого человека от манекена, а искреннюю улыбку от натянутой. Архиваторы и ASR отбрасывают "ненужное" в кавычках, а ИИ, обученный на всём сигнале, как раз в этих микродеталях и понимает реальность.

Оффлайн Konstantin Schtsch

  • Новичок
  • *
  • Сообщений: 45
  • Благодарностей: 2
  • Мне нравится этот форум!
    • Сообщения от Konstantin Schtsch
Благодарю за развернутый ответ.
Теперь я убедился, что дальнейшая дискуссия вам неинтересна, у вас уже сложилась некая картина мира современного ИИ, пусть и основанная не на науке а на вере.
Я даже немного вам завидую - такой незамутненой радости я давно не испытываю:

В моей повседневной реальности компы растут количественно, но не качественно, разум человека- мало чем отличается от разума животных, а человеческий мозг- крайне примитивная, глючная и неэффективная система, к тому же работающая на побочках.
Нейрон- может и суперсложно устроен физико-биологически, но логически это тупейший накопитель, срабатывающий при переполнении стека. Его дендриты - и то сложнее, там хоть некоторая ячейка памяти в наличии- те самые корректируемые веса нейросвязи. Вот только максимальная точность у мозга - "назовите по шкале от 1 до 10", тогда как только в одном байте 256 вариантов. который давно используется группами по 32 и 64 бита. А про Гигагерцы- лучше и не вспоминать, там бескрайний депресняк.

Боженька на шестой день знатно накосячил. (что еще раз доказывает: нехрен перерабатывать в выходные.  8))


Вашу картину мира, где машина, или человек - ВИДИТ, мог бы разбить вдребезги простой аргумент - про перевернутое изображение на сетчатке. И эксперимент с линзами переворачивающими изображение- уже через пару дней человек привык и не ощущал дискомфорта. 
Глаз, камера- не видит, а фиксирует изображение.
Нервы - передают не изображение, а его характеристики, описательные данные.
Мозг не видит, а обрабатывает данные. Да ещё и через множество отделов пропускает, помимо зрительного.

Так работает зрение живых. Так с какого перепою зрение искуственных систем должно работать по- другому? а если и заморочиться и сделать так- что мы выиграем? это будет абсолютно чужеродная всему живому система. может эффективная, может нет - но абсолютно чужеродная, работающая по другим принципам.
Поэтому я уверен - у вас налицо путаница в терминологии.

А наш мозг - по старинке, работает с сигналами и информацией.


Вы хотя бы почитайте о вычислительной мощности запускаемых проектов прямо сейчас.
я их иногда даже зубами выгрызаю у заказчика, пусть и далеко не в тех масштабах что флагманы ИИ, но представление о ценах имею из первых рук.))

Не этот ли закон подразумевался?
нет, другой: https://president.gov.by/ru/documents/ukaz-no-295-ot-4-avgusta-2025-g

Ах да, к слову о том как "замечательно" видит тесла: помните ролик с нарисованной стеной?  :)
https://leonardo.osnova.io/0b4b0a60-4d90-5d23-9807-885784cc3ae5/-/format/mp4/#t=0.1
« Последнее редактирование: Сегодня в 02:05:00 от Konstantin Schtsch »

Онлайн skvj

  • *****
  • Сообщений: 649
  • Благодарностей: 11
  • Мне нравится этот форум!
    • Сообщения от skvj
Re: Пределы автоматизации и внедрения роботов
« Ответ #11363 : Сегодня в 08:44:00 »
Konstantin Schtsch
Мозг не тупой накопитель. Вы нахватались по верхам там и сям.
Да, у него нет байтов и Гигагерц. Но сравнивать нейрон с переполнением стека это как сравнивать оркестр с кастрюлей. Важен не отдельный нейрон, а динамика сети, нелинейная интеграция сигналов, пластичность и самоорганизация. Именно это даёт качество, которое не сводится к количеству битов.

Зрение не фиксация картинки, да. Вы сами привели пример с инвертированным изображением. Этот опыт как раз и показывает, что зрение не фотография, а построение модели мира. Мозг переучивается и меняет карту восприятия. Он не фиксирует изображение, а создаёт когнитивную модель внешнего.

Вы правы, глаз это сенсор, не более. Видение рождается в обработке. Так и у ИИ камера фиксирует свет, но видит не камера, а система, которая строит модель мира из этих данных. Tesla, Boston Dynamics, мультимодальные GPT уже этим занимаются. Они не ждут сигналов с сетчатки, они работают с миром в реальном времени.

А с какого перепугу оно должно быть копией биологического? Самолёт не машет крыльями, но летает. Радио не дрожит как барабанная перепонка, но передаёт звук. Искусственное зрение будет другим и в этом его сила. Оно уже ловит паттерны, которые человек не видит (например, дефекты в кристаллах на уровне атомов или пульс по микроизменениям кожи в видео).

Насчёт путаницы. Нет. Разница в терминологии простая. Видеть - значит иметь модель внешнего мира, построенную из сенсорных данных. В этом смысле человек видит, кошка видит, и ИИ тоже видит. Просто по-разному.

И, кстати, ваш аргумент "глаз не видит, видит мозг" полностью бьёт против вас - если видит мозг, а не глаз, значит видеть = обрабатывать информацию. Что и делают ИИ.

Оффлайн Инопланетянин

  • *****
  • Сообщений: 11 801
  • Благодарностей: 654
    • Сообщения от Инопланетянин
Re: Пределы автоматизации и внедрения роботов
« Ответ #11364 : Сегодня в 10:57:38 »
Нервы - передают не изображение, а его характеристики, описательные данные.
Импульсы они передают, если уж так ставить вопрос.
Мозг не видит, а обрабатывает данные.
Если это данные от глаз, то в этом и состоит видение, не так ли?
Вашу картину мира, где машина, или человек - ВИДИТ, мог бы разбить вдребезги простой аргумент - про перевернутое изображение на сетчатке.
Что-то у вас с логикой не то, надо понять только где.
Радио не дрожит как барабанная перепонка
Конкретно динамик делает именно это, причём как в анекдоте про ветер от качающихся деревьев именно с обратным порядком причины и следствия.
И, кстати, ваш аргумент "глаз не видит, видит мозг" полностью бьёт против вас - если видит мозг, а не глаз, значит видеть = обрабатывать информацию. Что и делают ИИ.
Ну в целом, как-то так, да.

Оффлайн Olweg

  • *****
  • Сообщений: 16 921
  • Благодарностей: 451
    • Сообщения от Olweg
Re: Пределы автоматизации и внедрения роботов
« Ответ #11365 : Сегодня в 12:55:35 »
Результаты обновили. GPT 5 реабилитировался и набрал 116 баллов IQ, то есть примерно тот же уровень, что у других топовых моделей. Благодаря провальному первому результату среднее пока 93. А вот GPT 5 Thinking показал… 70 баллов.

https://www.trackingai.org/home
По последним тестам модели GPT-5 наконец пришли в чувство, а автор сайта удалил провальные сомнительные первые пробы. В любом случае, на сайте считается среднее по семи последним тестам, а один неудачный может сильно исказить результат. Подумал - а что, если брать не среднее, а медианное? У некоторых моделей пока, правда, только чётное число результатов, но в таких случаях можно брать среднее по двум средним. Итак, вот такой рейтинг пока получается (для лучших моделей; визуальные тесты не включал):

Grok-4 - 123 (пока очень сильный разброс по результатам)
Claude-4 Opus - 123 (начиная с июля стабильное значение)
GPT-5 Pro - 120
Gemini 2.5 Pro - 116 (тут всё тоже очень стабильно)
GPT-5 Thinking - 116
Claude 4 Sonnet - 110
GPT-5 - 103 (лучшая неразмышляющая модель)
DeepSeek R1 - 103 (как раз тот случай, когда один сбой сильно уводит средний результат - 96)

Очень хороший потенциал показывает Grok-4 - у него три из шести результатов 130, 130 и 136. Если так пойдёт дальше, то может вырваться в лидеры. 136 - похоже, вообще потолок для этого теста (16 верных ответов из 16). Это всего лишь уровень очень умного человека. Видимо, насыщение теста не за горами. Нужно удлинять список вопросов.
Планеты других звёзд. История открытий
http://allplanets.ru/history_Olweg.htm

Оффлайн Metatron

  • ****
  • Сообщений: 291
  • Благодарностей: 12
  • Мне нравится этот форум!
    • Сообщения от Metatron
Re: Пределы автоматизации и внедрения роботов
« Ответ #11366 : Сегодня в 13:53:05 »
Народ говорит что уже кто-то видел Грок 4.2. Тесты радуют.
Видимо выпустят в течении месяца, двух.