ВНИМАНИЕ! На форуме начался конкурс - астрофотография месяца - АВГУСТ!
0 Пользователей и 1 Гость просматривают эту тему.
Под спойлером картинки с вопросами от разработчиков и ответами от нейросети. Конечно самому интереснее, но даже так там очень круто.
В понедельник группа исследователей искусственного интеллекта из Google и Берлинского технического университета представила PaLM-E , мультимодальную визуальную языковую модель (VLM) с 562 миллиардами параметров , которая объединяет зрение и язык для управления роботами. Они утверждают, что это самый большой VLM из когда-либо созданных и что он может выполнять множество задач без необходимости переобучения.Согласно Google, при получении команды высокого уровня, такой как «принеси мне рисовые чипсы из ящика», PaLM-E может генерировать план действий для мобильной роботизированной платформы с рукой (разработанной Google Robotics) и выполнять действия сами по себе.
Он также устойчив и может реагировать на окружающую среду. Например, модель PaLM-E может помочь роботу достать пакет из-под чипсов из кухни, а с PaLM-E, интегрированным в контур управления, он становится устойчивым к прерываниям, которые могут возникнуть во время выполнения задачи. В видео-примере исследователь берет чипы у робота и перемещает их, но робот находит чипы и снова их захватывает.В другом примере та же модель PaLM-E автономно управляет роботом, выполняя задачи со сложными последовательностями, которые ранее требовали участия человека. В исследовательской работе Google объясняется, как PaLM-E превращает инструкции в действия:Мы демонстрируем производительность PaLM-E в сложных и разнообразных задачах мобильного манипулирования. Мы в значительной степени следуем установке в Ahn et al. (2022), где роботу необходимо планировать последовательность навигационных и манипулятивных действий на основе инструкций человека. Например, учитывая инструкцию «Я пролил свой напиток, вы можете принести мне что-нибудь, чтобы убрать его?», робот должен спланировать последовательность действий, содержащую «1. Найдите губку, 2. Поднимите губку, 3. Принесите ее». пользователю, 4. Положите губку». Вдохновленные этими задачами, мы разрабатываем 3 варианта использования для проверки воплощенных способностей PaLM-E к рассуждению: прогноз доступности, обнаружение сбоев и долгосрочное планирование. Политики низкого уровня взяты из RT-1 (Brohan et al., 2022), модели преобразователя, которая использует изображение RGB и инструкции на естественном языке.
И исследователи утверждают , что PaLM-E демонстрирует новые возможности, такие как мультимодальная логическая цепочка рассуждений (позволяющая модели анализировать последовательность входных данных, включающих как языковую, так и визуальную информацию) и мультиобразный вывод (использование нескольких изображений в качестве входных данных, чтобы сделать вывод). вывод или предсказание), несмотря на то, что он обучен только на подсказках с одним изображением. В этом смысле PaLM-E, похоже, продолжает тенденцию неожиданностей, возникающих по мере того, как модели глубокого обучения со временем становятся все более сложными.Исследователи Google планируют изучить больше приложений PaLM-E для реальных сценариев, таких как домашняя автоматизация или промышленная робототехника. И они надеются, что PaLM-E вдохновит на дальнейшие исследования мультимодального мышления и воплощенного ИИ.Реклама«Мультимодальность» — это модное слово, которое мы будем слышать все чаще и чаще, поскольку компании стремятся к искусственному общему интеллекту , который якобы сможет выполнять общие задачи, как человек.
В мозге 86 миллиардов нейронов, у них по 1000 связей. Если вес каждой связи считать за float (4 байта), то в мозге примерно... 320 ТБ.
Вообщем всё на чем бились раньше роботехнические коллективы с огромным трудом и затратами, просто получаются бонусами к системе допиши следующее слово.
В мозге 86 миллиардов нейронов, у них по 1000 связей. Если вес каждой связи считать за float (4 байта), то в мозге примерно... 320 ТБ.Очень грубая оценка, но по ней до ИИ 2-3 порядка
зачем, собственно, симулировать весь мозг?
Явный прогресс в сравнении с тем, что было несколько лет назад https://nplus1.ru/news/2018/01/12/dnn-psychicТогда, очевидно, семантику не подключали…
Круто, можно будет сны записывать. ) Развлекуха.
представляете какими станут допросы и проверки лояльности
Цитата: Vitaliy от 09 Мар 2023 [08:41:26]Круто, можно будет сны записывать. ) Развлекуха.А представляете какими станут допросы и проверки лояльности
Круто, можно будет сны записывать.
Цитата: незлой от 08 Мар 2023 [16:50:33]зачем, собственно, симулировать весь мозг? Затем:https://www.ted.com/talks/david_eagleman_can_we_create_new_senses_for_humans/transcript?language=ru (с шестой минуты).
Для нашего анализа решающее значение имеет тот факт, что ПД ["первый доступ"] происходит превербально, до вмешательства языка, по самой своей природе выполняющего единственное в своем роде преобразование.
Цитата: BlackMokona от 09 Мар 2023 [11:38:26]представляете какими станут допросы и проверки лояльностиКак перехват картинки с глаз поможет в допросе? Как картинка из сна от Путина отличается от таковой у Навального?
Мозжечок содержит большинство из этих 86 миллиардов нейронов, и отношения к интеллекту напрямую не имеет.
а в лобных долях?зачем, собственно, симулировать весь мозг?
Цитата: EmperioAf от 08 Мар 2023 [10:00:10]Мозжечок содержит большинство из этих 86 миллиардов нейронов, и отношения к интеллекту напрямую не имеет.Цитата: незлой от 08 Мар 2023 [16:50:33]а в лобных долях?зачем, собственно, симулировать весь мозг?86 миллиардов нейронов для интеллекта хватает гарантированно. А сколько из них можно выкинуть - вопрос посложнее. Чат боту и зрительные области не нужны. Возможно, хватит и 8 (- порядок), но гарантировать это сложно.