A A A A Автор Тема: Пределы автоматизации и внедрения роботов (Прочитано 410618 раз)

Olweg · « **Ответ #11000 :** 05 Авг 2025 [15:17:43] »

https://t.me/theworldisnoteasy/2194?single

Все говорят, что ИИ вот-вот заменит бухгалтеров. Ведь их работа — сплошная рутина и следование правилам, идеальная задача для машины. Но одно дело — решать задачки в вакууме, и совсем другое — делать реальную работу.
И вот тут начинается самое интересное.

Эксперты компании Column Tax (специализация – автоматизация расчета налогов) создали первый в мире валидный тест TaxCalcBench, проверяющий, как с этим справятся лучшие из лучших топовые нейросети. Им дали рассчитать подоходный налог в США.

И что же показала эта проверка реальностью? Полный провал.

Точность топовых моделей — ниже 30%. Элементарные ошибки в расчетах, путаница в правилах и налоговых таблицах. Доверить им свою декларацию — прямой путь к огромным штрафам.
...

большинство существующих тестов для ИИ — это тот самый «сферический конь в вакууме». Они проверяют изолированные навыки, в то время как реальная работа — будь то бухгалтера, юриста или даже программиста — это всегда сложный клубок из правил, исключений, контекста и человеческих взаимодействий.

Как верно заметили Джек Кларк (со-основатель компании Anthropic, создавшей ИИ Claude), именно «экологически валидные» тесты —реальная проверка на прочность.
«Хватит гонять нейросети по абстракциям, давайте посмотрим, как они справятся с настоящей работой».

BlackMokona · « **Ответ #11001 :** 05 Авг 2025 [15:37:07] »

Цитата: Olweg от 05 Авг 2025 [15:17:43]

Точность топовых моделей — ниже 30%. Элементарные ошибки в расчетах, путаница в правилах и налоговых таблицах. Доверить им свою декларацию — прямой путь к огромным штрафам.

Как понимаю модели не имели хороших промтов и тем более не дообучались?

AlexDark · « **Ответ #11002 :** 05 Авг 2025 [15:40:13] »

Если вы делаете заменителя человека - то промпт должен быть таким: "Рассчитай мне налог", примерно так его формулируют бухгалтеру. А если вокруг этого надо плясать с бубном, рискуя сесть в тюрячку - то что-то явно идет не так.

BlackMokona · « **Ответ #11003 :** 05 Авг 2025 [15:44:00] »

Цитата: AlexDark от 05 Авг 2025 [15:40:13]

Если вы делаете заменителя человека - то промпт должен быть таким: "Рассчитай мне налог", примерно так его формулируют бухгалтеру. А если вокруг этого надо плясать с бубном, рискуя сесть в тюрячку - то что-то явно идет не так.

И никакого обсуждения налоговых льгот? Никаких налоговых оптимизаций? Никаких серых схем и двойной бухгалтерии? Точно бухгалтеров нанимают чисто налоги посчитать, на уровне простенького скрипта?

Olweg · « **Ответ #11004 :** 05 Авг 2025 [16:14:52] »

Я думаю, всё-таки бухгалтерия - это следующий этап, для моделей-агентов, способных долго поддерживать цельность. Просто пограничные столбы продолжают смещаться, и требования растут. Видите - от моделей уже ждут работы людей-профессионалов. Ещё пару лет назад о таком никто бы и не заикнулся.

BlackMokona · « **Ответ #11005 :** 05 Авг 2025 [16:32:36] »

Цитата: Olweg от 05 Авг 2025 [16:14:52]

Я думаю, всё-таки бухгалтерия - это следующий этап, для моделей-агентов, способных долго поддерживать цельность. Просто пограничные столбы продолжают смещаться, и требования растут. Видите - от моделей уже ждут работы людей-профессионалов. Ещё пару лет назад о таком никто бы и не заикнулся.

В целом просто плюс один тест, на котором можно конкурировать и двигаться к 100%. Чтобы лучше оценивать модели

Olweg · « **Ответ #11006 :** 05 Авг 2025 [20:56:36] »

Google представила Genie 3 — модель мира с впечатляющими характеристиками
https://habr.com/ru/news/934288/

https://www.youtube.com/watch?v=PDKhUknuQDg

Olweg · « **Ответ #11007 :** 05 Авг 2025 [21:55:11] »

Подростки обращаются к ИИ за советом, дружбой и чтобы «не думать»
https://habr.com/ru/articles/934046/

«ИИ всегда доступен. Ему никогда не бывает скучно с вами. Он никогда не осуждает, — говорит Ганеш Наир, 18-летний подросток из Арканзаса. — Когда вы разговариваете с ИИ, вы всегда правы. Вы всегда интересны. Вас всегда эмоционально поддержат».

Раньше всё это казалось привлекательным, но этой осенью Наир отправляется в колледж и хочет отойти от использования ИИ. Наиру стало страшно после того, как его школьный друг, который полагался на «ИИ-компаньона» в разговорах по душам со своей девушкой, впоследствии заставил чат-бота написать текст о разрыве, положившем конец его двухлетним отношениям.

«Это было немного антиутопично — компьютер сгенерировал конец реальных отношений, — говорит Наир. — Мы как будто позволяем компьютерам заменить наши отношения с людьми».

Polnoch Ксю · « **Ответ #11008 :** 06 Авг 2025 [07:05:10] »

Немножко потыкала в опенсурсную модель чатЖПТ... Что ж, предварительно, кажется, что да, лучше того, что у других. Дипсик и квен теперь не нужны?
Но я пока не проверяла на реальных задачах. Для того же кодинг-агента, для автодополнения IDE.

Пробовала так же заставить писать литературные тексты с моим руководством - примерно так же плохо справляется, как и o3/o4-mini-high (кажется, лучше всех получается у Claude). Тут никаких сюрпризов. Контекстное окно, конечно, хотелось бы побольше...

BlackMokona · « **Ответ #11009 :** 06 Авг 2025 [09:04:44] »

Цитата: Polnoch Ксю от 06 Авг 2025 [07:05:10]

Немножко потыкала в опенсурсную модель чатЖПТ... Что ж, предварительно, кажется, что да, лучше того, что у других. Дипсик и квен теперь не нужны?

Согласно тестам и откликам. Модель ужасна и даже хуже Грок 2. Говорят зацензурили до уровня пускающего слюну овоща.

Combinator · « **Ответ #11010 :** 06 Авг 2025 [10:23:25] »

Цитата: BlackMokona от 06 Авг 2025 [09:04:44]

Цитата: Polnoch Ксю от 06 Авг 2025 [07:05:10]
Немножко потыкала в опенсурсную модель чатЖПТ... Что ж, предварительно, кажется, что да, лучше того, что у других. Дипсик и квен теперь не нужны?
Согласно тестам и откликам. Модель ужасна и даже хуже Грок 2. Говорят зацензурили до уровня пускающего слюну овоща.

Да и покупать для этого конфигурацию с 80 гигами оперативки тоже как-то не вдохновляет.

Combinator · « **Ответ #11011 :** 06 Авг 2025 [10:28:28] »

Возможно, весьма перспективный подход: https://arxiv.org/pdf/2506.21734
https://www.youtube.com/watch?v=0OnyVmj6yxY

Olweg · « **Ответ #11012 :** 06 Авг 2025 [11:06:57] »

Интересно, но сразу возникают вопросы. Судя по тестам, в которых HRM обходит конкурентов, она заточена на работу с визуалом, в которой LLM до сих пор буксуют (в той же ARC-AGI). А что с текстами? Надо будет разобраться подробнее. Ну не верю я, что модель с 70М параметров во всём будет обходить гораздо более крупные LLM.

Combinator · « **Ответ #11013 :** 06 Авг 2025 [12:01:52] »

Цитата: Olweg от 06 Авг 2025 [11:06:57]

Интересно, но сразу возникают вопросы. Судя по тестам, в которых HRM обходит конкурентов, она заточена на работу с визуалом, в которой LLM до сих пор буксуют (в той же ARC-AGI). А что с текстами? Надо будет разобраться подробнее. Ну не верю я, что модель с 70М параметров во всём будет обходить гораздо более крупные LLM.

Да, конечно, она заточена, скорее, на работу с входной информацией, представленной в виде массивов размерности 2 и более с не очень большим количеством элементов (сотни, максимум, тысячи) но зато в этой области демонстрирует весьма впечатляющие результаты, а для восприятия информации в текстовой форме не приспособлена в принципе. Но если её объединить с той же LLМ, то возможен синергетический эффект за счёт расширения множества решаемых быстро и качественно задач.

Olweg · « **Ответ #11014 :** 06 Авг 2025 [12:08:44] »

Кстати, только что попался пост как раз в тему:
https://t.me/seeallochnaya/2723

Изначально Orion, ставший GPT-4.5, хотели сделать GPT-5. Однако большинство трюков, которые исследователи нашли на «маленьких» моделях, потеряли свою эффективность при масштабировании. Так происходит часто, но тут, видимо, упадок был больше ожидаемого.

Olweg · « **Ответ #11015 :** 06 Авг 2025 [15:21:59] »

Цитата: Combinator от 06 Авг 2025 [10:28:28]

Возможно, весьма перспективный подход: https://arxiv.org/pdf/2506.21734

На Хабре неплохой обзор (в т.ч. комментарии):
https://habr.com/ru/companies/bothub/news/931108/

-Asket- · « **Ответ #11016 :** 06 Авг 2025 [21:15:57] »

https://www.youtube.com/watch?v=ve9USu7zpLU

Polnoch Ксю · « **Ответ #11017 :** 06 Авг 2025 [22:19:06] »

Цитата: BlackMokona от 06 Авг 2025 [09:04:44]

Говорят зацензурили

Так это для опенсурс моделей никогда не было проблемой. Это проблема только для клауд-бейсд LLM. А когда опенсурс - всегда появится миллион abliterated версий. Спасибо дипсику и алибабе за Qwen именно за их опенсурсность. А облачный дипсик... Наверное, совсем не нужен? Я так и не придумала, зачем его использовать.

Странно сравнивать модель, запускаемую на своём железе с облачными.

Цитата: Combinator от 06 Авг 2025 [10:23:25]

Да и покупать для этого конфигурацию с 80 гигами оперативки тоже как-то не вдохновляет.

Хм, у меня уже 120 GB DDR5

И она(20B версия) удивительно быстро генерирует токены просто на CPU/RAM. Мне нравится. Жалко, что RTX 4000-й ветки не поддерживаются

Цитата: Olweg от 06 Авг 2025 [11:06:57]

Ну не верю я, что модель с 70М параметров во всём будет обходить гораздо более крупные LLM.

Да это нормально. Современные маленькие модели обходят большие старые. Именно на реальных задачах.

Задумалась о покупке RTX 5070Ti - мне кажется, эта модель будет отлично управлять браузером в самодельном агенте. Сужу по скорости генерации токенов и в целом их качестве.

BlackMokona · « **Ответ #11018 :** 07 Авг 2025 [05:49:56] »

Цитата: Polnoch Ксю от 06 Авг 2025 [22:19:06]

Так это для опенсурс моделей никогда не было проблемой. Это проблема только для клауд-бейсд LLM. А когда опенсурс - всегда появится миллион abliterated версий.

Только зачем мучаться, когда есть десятки опен сорс моделей лучше?

Olweg · « **Ответ #11019 :** 07 Авг 2025 [07:24:56] »

Судя по всему, анонс GPT-5 сегодня в 22:00 по московскому.

Новости:

A A A A Автор Тема: Пределы автоматизации и внедрения роботов (Прочитано 410618 раз)