ВНИМАНИЕ! На форуме началось голосование в конкурсе астрофотография месяца - ОКТЯБРЬ!
0 Пользователей и 1 Гость просматривают эту тему.
Пока ( и то с оговорками) я не натыкался на проблемы в области переводов и нечеткого поиска, и то в первом случае роботы иногда почему-то переводят с прямо противоположным смыслом, а во втором - врут.
Интересный бенчмарк для языковых моделей:https://simple-bench.com/index.htmlЗадаются заковыристые вопросы на здравый смысл. Люди правильно отвечают в среднем на 84% вопросов, «интуитивные» модели - максимум на 27.5%, модели с рассуждениями - на 41.7% (o1-preview) и 41.4% (новый Claude 3.5 Sonnet). Можно пройти пробный тест самому. Вопросы типа: Пока Джен была в милях от беззаботного Джона, она познакомилась с Джеком через Tinder. Джон уже несколько недель находится на лодке без доступа в Интернет, и Джен первая звонит бывшему партнеру Джону, сообщая ему новости (с уверенностью и серьезностью) о своей радикальной кето-диете, новой прыгучей собаке, быстро приближающейся глобальной ядерной войне и, наконец, но не в последнюю очередь, о своих жарких похождениях с Джеком. Джон гораздо более шокирован, чем могла себе представить Джен, и, вероятно, больше всего опустошен чем?
Такое впечатление, что LLM действительно выходят на плато. Нужны новые подходы.
✔️ Новый подход к «мышлению» малых моделейИсследователи представили метод, позволяющий небольшим моделям рассуждать глубже - за счёт повторного объединения собственных решений.С помощью этого цикла 4B-модель достигает уровня гораздо более крупных reasoning-моделей.Идея основана на test-time scaling - использовании дополнительного вычислительного времени при ответе для повышения точности.Recursive Self-Aggregation (RSA) хранит пул цепочек решений, выбирает небольшие группы, комбинирует удачные фрагменты и повторяет процесс. Так модель «вытягивает» правильные шаги даже из неудачных попыток и улучшает их с каждым циклом.Три параметра управляют поведением: - pool size - охват решений - group size - скорость смешивания - step count - глубина размышления Большие пулы повышают потолок качества, но требуют больше шагов или групп для распространения успешных паттернов.Внешняя проверка не нужна - модель сама сравнивает и сшивает решения. Для выбора финального ответа достаточно простого голосования.Дополнительно обучена aggregation-aware policy, умеющая комбинировать кандидатов - она превосходит стандартное RL и улучшает результаты в задачах по математике, коду, планированию и знаниям.