A A A A Автор Тема: Пределы автоматизации и внедрения роботов  (Прочитано 431734 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Baby[lone]

  • ***
  • Сообщений: 159
  • Благодарностей: 1
  • Мне нравится этот форум!
    • Сообщения от Baby[lone]
Пока ( и то с оговорками) я не натыкался на проблемы в области переводов и нечеткого поиска, и то в первом случае роботы иногда почему-то переводят с прямо противоположным смыслом, а во втором - врут.
Мне однажды чатгпт написал лютую отсебятину, я дал ему задание отбетить текст, просто исправить опечатки и улучшить знаки препинания. Я хотел длинное сообщение с куском черновика рассказаотправить на литературный форум для обсуждения сюжета, а там в середину ИИ вставил слова не по теме исторической эпохи, грубо нарушил контекст. Вместо гарпунное копье написал гарпунное ружье! А у меня фентези в мире похожем на древнюю Азию, никаких ружей там и быть не могло! С тех пор даю ИИ проверять только короткие фразы и сам перечитываю их тщательно.

Оффлайн Olweg

  • *****
  • Сообщений: 17 065
  • Благодарностей: 454
    • Сообщения от Olweg
Интересный бенчмарк для языковых моделей:
https://simple-bench.com/index.html

Задаются заковыристые вопросы на здравый смысл. Люди правильно отвечают в среднем на 84% вопросов, «интуитивные» модели - максимум на 27.5%, модели с рассуждениями - на 41.7% (o1-preview) и 41.4% (новый Claude 3.5 Sonnet).

Можно пройти пробный тест самому. Вопросы типа:

Пока Джен была в милях от беззаботного Джона, она познакомилась с Джеком через Tinder. Джон уже несколько недель находится на лодке без доступа в Интернет, и Джен первая звонит бывшему партнеру Джону, сообщая ему новости (с уверенностью и серьезностью) о своей радикальной кето-диете, новой прыгучей собаке, быстро приближающейся глобальной ядерной войне и, наконец, но не в последнюю очередь, о своих жарких похождениях с Джеком. Джон гораздо более шокирован, чем могла себе представить Джен, и, вероятно, больше всего опустошен чем?
Провели тест для GPT-5 Pro - набрала 61.6%. Первое место уже скоро 5 месяцев удерживает Gemini 2.5 Pro версии от 6 июня. 4.5 месяца - срок немалый для такой быстро развивающейся области. Такое впечатление, что LLM действительно выходят на плато. Нужны новые подходы.
Планеты других звёзд. История открытий
http://allplanets.ru/history_Olweg.htm

Оффлайн mo

  • *****
  • Сообщений: 17 969
  • Благодарностей: 1094
  • Олег Милантьев - L71 Vedrus Observatory
  • Награды Призер конкурса астрофото
    • Сообщения от mo
Такое впечатление, что LLM действительно выходят на плато. Нужны новые подходы.
Одна LLM при лобовом подходе да, подходит к пределу своих возможностей. Но прогресс в них основан на поиске новых принципов мышления. Этот понравился, например (возможно, уже обсуждался):

Цитата
✔️ Новый подход к «мышлению» малых моделей

Исследователи представили метод, позволяющий небольшим моделям рассуждать глубже - за счёт повторного объединения собственных решений.

С помощью этого цикла 4B-модель достигает уровня гораздо более крупных reasoning-моделей.

Идея основана на test-time scaling - использовании дополнительного вычислительного времени при ответе для повышения точности.

Recursive Self-Aggregation (RSA) хранит пул цепочек решений, выбирает небольшие группы, комбинирует удачные фрагменты и повторяет процесс. 
Так модель «вытягивает» правильные шаги даже из неудачных попыток и улучшает их с каждым циклом.

Три параметра управляют поведением: 
- pool size - охват решений 
- group size - скорость смешивания 
- step count - глубина размышления 

Большие пулы повышают потолок качества, но требуют больше шагов или групп для распространения успешных паттернов.

Внешняя проверка не нужна - модель сама сравнивает и сшивает решения. Для выбора финального ответа достаточно простого голосования.

Дополнительно обучена aggregation-aware policy, умеющая комбинировать кандидатов - она превосходит стандартное RL и улучшает результаты в задачах по математике, коду, планированию и знаниям.
モ - mo

Оффлайн skvj

  • *****
  • Сообщений: 852
  • Благодарностей: 13
  • Мне нравится этот форум!
    • Сообщения от skvj
Вайа!  :)

Браузер GPT Atlas, пока только на macOS, к сожалению.

https://chatgpt.com/atlas

Я, короче юзаю браузер Comet на Перплексити - слов нет как хорош. Пойди туда! открой ютуб! ваще красота.
Представляю что будет с GPT ))