ВНИМАНИЕ! На форуме завершено голосование в конкурсе - астрофотография месяца - АВГУСТ!
Olweg и 1 Гость просматривают эту тему.
Точность топовых моделей — ниже 30%. Элементарные ошибки в расчетах, путаница в правилах и налоговых таблицах. Доверить им свою декларацию — прямой путь к огромным штрафам.
Если вы делаете заменителя человека - то промпт должен быть таким: "Рассчитай мне налог", примерно так его формулируют бухгалтеру. А если вокруг этого надо плясать с бубном, рискуя сесть в тюрячку - то что-то явно идет не так.
Я думаю, всё-таки бухгалтерия - это следующий этап, для моделей-агентов, способных долго поддерживать цельность. Просто пограничные столбы продолжают смещаться, и требования растут. Видите - от моделей уже ждут работы людей-профессионалов. Ещё пару лет назад о таком никто бы и не заикнулся.
Немножко потыкала в опенсурсную модель чатЖПТ... Что ж, предварительно, кажется, что да, лучше того, что у других. Дипсик и квен теперь не нужны?
Цитата: Polnoch Ксю от 06 Авг 2025 [07:05:10]Немножко потыкала в опенсурсную модель чатЖПТ... Что ж, предварительно, кажется, что да, лучше того, что у других. Дипсик и квен теперь не нужны?Согласно тестам и откликам. Модель ужасна и даже хуже Грок 2. Говорят зацензурили до уровня пускающего слюну овоща.
Интересно, но сразу возникают вопросы. Судя по тестам, в которых HRM обходит конкурентов, она заточена на работу с визуалом, в которой LLM до сих пор буксуют (в той же ARC-AGI). А что с текстами? Надо будет разобраться подробнее. Ну не верю я, что модель с 70М параметров во всём будет обходить гораздо более крупные LLM.
Возможно, весьма перспективный подход: https://arxiv.org/pdf/2506.21734
Говорят зацензурили
Да и покупать для этого конфигурацию с 80 гигами оперативки тоже как-то не вдохновляет.
Ну не верю я, что модель с 70М параметров во всём будет обходить гораздо более крупные LLM.
Так это для опенсурс моделей никогда не было проблемой. Это проблема только для клауд-бейсд LLM. А когда опенсурс - всегда появится миллион abliterated версий.