ВНИМАНИЕ! На форуме начался конкурс - астрофотография месяца МАРТ!
Инопланетянин и 4 Гостей просматривают эту тему.
Пока ( и то с оговорками) я не натыкался на проблемы в области переводов и нечеткого поиска, и то в первом случае роботы иногда почему-то переводят с прямо противоположным смыслом, а во втором - врут.
Интересный бенчмарк для языковых моделей:https://simple-bench.com/index.htmlЗадаются заковыристые вопросы на здравый смысл. Люди правильно отвечают в среднем на 84% вопросов, «интуитивные» модели - максимум на 27.5%, модели с рассуждениями - на 41.7% (o1-preview) и 41.4% (новый Claude 3.5 Sonnet). Можно пройти пробный тест самому. Вопросы типа: Пока Джен была в милях от беззаботного Джона, она познакомилась с Джеком через Tinder. Джон уже несколько недель находится на лодке без доступа в Интернет, и Джен первая звонит бывшему партнеру Джону, сообщая ему новости (с уверенностью и серьезностью) о своей радикальной кето-диете, новой прыгучей собаке, быстро приближающейся глобальной ядерной войне и, наконец, но не в последнюю очередь, о своих жарких похождениях с Джеком. Джон гораздо более шокирован, чем могла себе представить Джен, и, вероятно, больше всего опустошен чем?
Такое впечатление, что LLM действительно выходят на плато. Нужны новые подходы.
✔️ Новый подход к «мышлению» малых моделейИсследователи представили метод, позволяющий небольшим моделям рассуждать глубже - за счёт повторного объединения собственных решений.С помощью этого цикла 4B-модель достигает уровня гораздо более крупных reasoning-моделей.Идея основана на test-time scaling - использовании дополнительного вычислительного времени при ответе для повышения точности.Recursive Self-Aggregation (RSA) хранит пул цепочек решений, выбирает небольшие группы, комбинирует удачные фрагменты и повторяет процесс. Так модель «вытягивает» правильные шаги даже из неудачных попыток и улучшает их с каждым циклом.Три параметра управляют поведением: - pool size - охват решений - group size - скорость смешивания - step count - глубина размышления Большие пулы повышают потолок качества, но требуют больше шагов или групп для распространения успешных паттернов.Внешняя проверка не нужна - модель сама сравнивает и сшивает решения. Для выбора финального ответа достаточно простого голосования.Дополнительно обучена aggregation-aware policy, умеющая комбинировать кандидатов - она превосходит стандартное RL и улучшает результаты в задачах по математике, коду, планированию и знаниям.
Samsung разрабатывает модем семейства Exynos, который не только способен работать в спутниковых сетях связи, но и наделён собственным ускорителем, отвечающим за искусственный интеллект. Последний позволит модему предсказывать траектории движения спутников и оптимизировать условия приёма и передачи данных в масштабе реального времени. Испытания прототипов показали, что идентификация сигнала и возможности предсказания параметров канала улучшены в 55 и 42 раза соответственно по сравнению с традиционными модемами.
В противном случае пользователи могут потребовать признать ИИ «моральным субъектом, права которого должны защищаться законом» — это приведёт к «юридическому и этическому хаосу», считает Сулейман
Стартап 1X открыл предзаказы на NEO — он убирает, стирает, моет посуду и болтает. При весе 30 кг поднимает до 70 кг и работает 4 часа, после чего сам идёт на зарядку
Так или иначе, достижение нового уровня State-of-the-Art (SOTA) в LLM сейчас требует не просто увеличения числа параметров, а инноваций в архитектуре и методах обучения. Какими будут большие языковые модели будущего? Этого не знают даже их разработчики, поэтому и мы не станем делать вид, будто в курсе. Одно очевидно уже сейчас: они обходятся всё дороже, и потому бесплатный сыр однажды закончится вместе с деньгами инвесторов. Миллиарды людей утратят доступ к мощным бесплатным и уже обученным моделям после того, как сполна сыграют роль бета-тестеров. Дальше локомотив ИИ встанет на коммерческие рельсы, а из него начнут выгонять безбилетников.
Сейчас же прогнозы выглядят вот так: Илон Маск (основатель xAI и Tesla): «AGI появится к 2029–2030 году, так что лучше заранее подумайте о бункере — на всякий случай». Так он говорил в 2023 г. на презентации xAI, подчеркивая, что AI может обогнать человечество быстрее, чем мы думаем. Хотя позже, в 2024 г., Маск скорректировал: «Возможно, уже в 2025-м или 2026-м». Сэм Альтман (CEO OpenAI): «AGI может случиться в ближайшее десятилетие, но пока рано об этом всерьез говорить — давайте просто работать дальше». В январе 2025 г. он написал в блоге, что они уже знают, как строить AGI, но подчеркнул: это не революция завтра, а градиентный сдвиг.Демис Хассабис (CEO Google DeepMind): «Через 5–10 лет, если ничего не пойдет наперекосяк, но мы еще не на финише». Прогнозом он поделился в марте 2025 г. на брифинге в Лондоне, отметив, что текущие модели круты в отдельных задачах, но до настоящего AGI далеко.Джеффри Хинтон («крестный отец AI», экс-Google): «От 5 до 20 лет — но я бы не ставил на это все деньги, времена слишком неопределенные».Ян ЛеКун (Chief AI Scientist Meta): «AGI в ближайшие годы? Даже не мечтайте бросить работу и стать трейдером AGI — это миф». О том, что до AGI еще очень далеко, он неоднократно говорил в 2023–2025 гг., например, в декабре 2023 г. в Reddit-обсуждении.На конференциях и форумах Илона Маска цитируют куда чаще, чем Яна ЛеКуна. Все просто: заявления Илона звучат громко, а ЛеКун предпочитает говорить по делу и без лишнего шума.
Почему Маску верятОн действительно крутой инженер, умеет запускать ракеты, продавать электромобили. Кажется, что такой человек не может ошибаться.Его сценарии катастроф пугают и захватывают, а страх всегда продается лучше статистики.Слова об «экзистенциальной угрозе» заставляют даже далеких от IT людей искать кнопку «выключить все».Что он упускаетСовременные LLM и мультимодальные модели по-прежнему крайне ограничены. Сильнейшие AI сейчас — это огромные статистические попугаи, запертые в облаках, а не новые Шерлоки Холмсы.
Проблемы с AGI, которые пока никто не решилКонтекст и памятьЛюбая большая языковая модель может держать в голове ограниченное количество текста — это ее «контекстное окно». Все, что выходит за его пределы, стирается. Если дать LLM длинный диалог, а потом спросить про детали из его начала, с вероятностью 99% она запутается или сделает вид, что ничего не было. Поэтому длинные рассуждения, планы, последовательные цепочки задач для моделей — по-прежнему сложный квест: они не умеют по-настоящему «запоминать».Примеры:Если задать модели вроде Grok 4 (xAI) или o3 (OpenAI) сложный диалог на 100 000 токенов и спросить о деталях из первых 10%, она часто выдает некорректные ответы или игнорирует ранний контекст, так как приоритет отдается последним данным в окне. Например, в тесте на многошаговое планирование (METR’s task suite) модели не смогли удержать последовательность из 20+ шагов без потери связности.При попытке создать план на месяц с ежедневными задачами модели вроде ChatGPT теряют детали начальных условий (например, ресурсные ограничения), что приводит к несогласованным планам.В экспериментах с ARC-AGI-2 модели показали улучшение (xAI’s Grok 4 — 15.9%), но все еще не могут сохранять контекст для задач, требующих длительной памяти, таких как построение сложных гипотез на основе разрозненных данных. Источник: LessWrong, сентябрь 2025.Текущие архитектуры не способны к настоящей долговременной памяти, необходимой для AGI. Требуются новые подходы к обработке и хранению информации.
Контекст и сложностьОтсутствие внутренней ценностной функции. Модели оптимизированы для краткосрочных задач (например, точность ответа), но не могут сами решать, что важно в долгосрочной перспективе. Например, в тестах на многоагентное взаимодействие модели не инициируют действия без подсказок, даже если это логично (Artificial Analysis, 2025).Неспособность к долгосрочному планированию. Модели теряются при необходимости поддерживать последовательный план на длительный срок. Например, если попросить разработать стратегию стартапа с учетом меняющихся условий, они не могут самостоятельно переоценивать приоритеты.Отсутствие инициативы. В экспериментах с ARC-AGI-2 модели решают задачи в заданных рамках, но не предлагают новые подходы или гипотезы без внешнего ввода.Этические вызовы. Создание мотивации для AGI требует безопасных механизмов, чтобы цели AI не конфликтовали с человеческими ценностями, что усложняет разработку (оценка p(x-risk) 10–20%). Специфические примеры. В тестах METR’s task suite (2025) модели, такие как o3, не смогли переформулировать задачу при изменении условий, например, при добавлении новых ограничений в многошаговом сценарии.Grok 4 в симуляциях с continuous RL показывает базовое планирование, но не может самостоятельно выбирать приоритетные задачи в сложных проектах с множеством переменных.В Kaggle Game Arena модели DeepMind реагируют на игровые события, но не инициируют новые стратегии без внешних подсказок.При попытке моделировать научное исследование (например, постановка гипотез для физической задачи) модели не могут самостоятельно запросить дополнительные данные или предложить эксперимент, ограничиваясь ответами на заданные вопросы. Обучение на опыте. Люди учатся на ошибках, адаптируются под обстоятельства, делают выводы на основе реального опыта и последствий. Языковые модели такого не умеют: они учатся только на огромных массивах готовых текстов и не могут экспериментировать или, например, узнать что-то новое в реальном времени. Они не делают ошибок в привычном нам смысле. Если что-то «пошло не так», модель просто попробует еще раз, но осознать и исправить ошибку так, как это делает человек, она не сможет.
Как избежать синдрома AGI и использовать AI прагматичноСиндром AGI — это ловушка, в которую попадают компании и разработчики, зацикливаясь на ожидании искусственного общего интеллекта (AGI) и упуская возможности текущих технологий. Вместо мечтаний о «мыслящих машинах» фокус должен быть на практическом применении GenAI и ML уже сегодня. В 2025 году прогресс в автоматизации, новых архитектурах и инструментах открывает конкретные пути для повышения эффективности. Вот как не стать жертвой «синдрома AGI» и внедрить AI с реальной пользой, с конкретными рекомендациями и источниками.1. Отслеживайте прогресс через проверенные источникиОжидание AGI отвлекает от реальных достижений, таких как новые архитектуры или инструменты автоматизации. Регулярно изучайте отчеты и бенчмарки, чтобы понимать, какие технологии уже работают. Например, следите за лидербордами Artificial Analysis для оценки моделей по производительности в задачах, таких как ARC-AGI-2. Подпишитесь на профильные ресурсы, такие как MIT Technology Review или ArXiv, чтобы получать свежие данные об архитектурах (например, hybrid reasoning). Используйте RSS-ленты ArXiv (разделы cs.AI, cs.LG) и проверяйте ежемесячные отчеты LessWrong. 2. Стройте пайплайны для работы с даннымиВнедрите инструменты для работы с данными, такие как Retrieval-Augmented Generation (RAG) для интеграции корпоративных баз знаний с LLM. Например, настройте RAG для анализа логов, чтобы находить паттерны ошибок в реальном времени. Или используйте Jupyter-подобные notebooks для быстрого прототипирования аналитики. Это позволяет прогнозировать сбои или оптимизировать ресурсы, как в случае с выявлением аномалий в DevOps-метриках. Начните с малого: подключите open source модель (например, Mistral) к вашим данным через API. Читайте кейсы на профильных платформах, таких как Towards Data Science, и участвуйте в хакатонах Kaggle для практики.3. Внедряйте доступные инструменты для автоматизацииАвтоматизируйте рутину с помощью мультиагентных систем. Например, настройте агента для проверки кода в CI/CD, который анализирует PR и предлагает оптимизации, сокращая ревью на 30%. Или используйте GenAI для генерации документации: модель может создавать README или API-спеки на основе кода за минуты. Попробуйте open source инструменты, такие как LangChain, для быстрого старта. Это прагматичный подход, дающий результат уже сегодня. Следите за обновлениями инструментов на GitHub (например, LangChain, Hugging Face) и тестируйте их в песочницах.4. Инвестируйте в культуру экспериментовКоманды часто боятся внедрять AI из-за нехватки навыков или страха ошибок. Создайте среду для экспериментов: выделите время на хакатоны или PoC (proof-of-concept) с использованием PaaS-платформ. Например, протестируйте fine-tuning модели для задачи анализа клиентских запросов — это занимает 1–2 дня с современными инструментами. Проводите регулярные митапы, где разработчики делятся результатами экспериментов, например, по интеграции LLM в CI/CD. Это повышает гибкость и ускоряет обучение команды.5. Сосредоточьтесь на этике и безопасностиНеправильное использование AI может привести к утечкам данных или необоснованным решениям, подрывая доверие. Внедряйте AI с учетом конфиденциальности: используйте on-premise или изолированные облачные решения для обработки чувствительных данных. Например, настройте локальный инференс модели для анализа клиентских данных, чтобы избежать передачи в публичные облака. Проверяйте модели на bias (например, с помощью Fairness Indicators от TensorFlow) и документируйте решения для прозрачности. Это сохраняет доверие клиентов и минимизирует риски.
Если дать LLM длинный диалог, а потом спросить про детали из его начала, с вероятностью 99% она запутается или сделает вид, что ничего не было. Поэтому длинные рассуждения, планы, последовательные цепочки задач для моделей — по-прежнему сложный квест: они не умеют по-настоящему «запоминать».
Т.о. существующие LLM подобны либо аутистам (рассуждающие модели), либо СДВГшникам (быстрые модели), причём в обоих случаях - с довольно выраженной старческой деменцией.
Цитата: Сергей Н от 01 Ноя 2025 [01:08:47]Если дать LLM длинный диалог, а потом спросить про детали из его начала, с вероятностью 99% она запутается или сделает вид, что ничего не было. Поэтому длинные рассуждения, планы, последовательные цепочки задач для моделей — по-прежнему сложный квест: они не умеют по-настоящему «запоминать». Т.о. существующие LLM подобны либо аутистам (рассуждающие модели), либо СДВГшникам (быстрые модели), причём в обоих случаях - с довольно выраженной старческой деменцией.