A A A A Автор Тема: Пределы автоматизации и внедрения роботов  (Прочитано 410618 раз)

Olweg и 1 Гость просматривают эту тему.

Онлайн Olweg

  • *****
  • Сообщений: 16 893
  • Благодарностей: 448
    • Сообщения от Olweg
https://t.me/theworldisnoteasy/2194?single

Все говорят, что ИИ вот-вот заменит бухгалтеров. Ведь их работа — сплошная рутина и следование правилам, идеальная задача для машины. Но одно дело — решать задачки в вакууме, и совсем другое — делать реальную работу.
И вот тут начинается самое интересное.

Эксперты компании Column Tax (специализация – автоматизация расчета налогов) создали первый в мире валидный тест TaxCalcBench, проверяющий, как с этим справятся лучшие из лучших топовые нейросети. Им дали рассчитать подоходный налог в США.

И что же показала эта проверка реальностью? Полный провал.

Точность топовых моделей — ниже 30%. Элементарные ошибки в расчетах, путаница в правилах и налоговых таблицах. Доверить им свою декларацию — прямой путь к огромным штрафам.
...

большинство существующих тестов для ИИ — это тот самый «сферический конь в вакууме». Они проверяют изолированные навыки, в то время как реальная работа — будь то бухгалтера, юриста или даже программиста — это всегда сложный клубок из правил, исключений, контекста и человеческих взаимодействий.

Как верно заметили Джек Кларк (со-основатель компании Anthropic, создавшей ИИ Claude), именно «экологически валидные» тесты —реальная проверка на прочность.
«Хватит гонять нейросети по абстракциям, давайте посмотрим, как они справятся с настоящей работой».
Планеты других звёзд. История открытий
http://allplanets.ru/history_Olweg.htm

Оффлайн BlackMokona

  • *****
  • Сообщений: 21 110
  • Благодарностей: 638
  • Мне нравится этот форум!
    • Сообщения от BlackMokona
Точность топовых моделей — ниже 30%. Элементарные ошибки в расчетах, путаница в правилах и налоговых таблицах. Доверить им свою декларацию — прямой путь к огромным штрафам.
Как понимаю модели не имели хороших промтов и тем более не дообучались?

Оффлайн AlexDark

  • *****
  • Сообщений: 514
  • Благодарностей: 20
    • Сообщения от AlexDark
Если вы делаете заменителя человека - то промпт должен быть таким: "Рассчитай мне налог", примерно так его формулируют бухгалтеру. А если вокруг этого надо плясать с бубном, рискуя сесть в тюрячку - то что-то явно идет не так.

Оффлайн BlackMokona

  • *****
  • Сообщений: 21 110
  • Благодарностей: 638
  • Мне нравится этот форум!
    • Сообщения от BlackMokona
Если вы делаете заменителя человека - то промпт должен быть таким: "Рассчитай мне налог", примерно так его формулируют бухгалтеру. А если вокруг этого надо плясать с бубном, рискуя сесть в тюрячку - то что-то явно идет не так.
И никакого обсуждения налоговых льгот? Никаких налоговых оптимизаций? Никаких серых схем и двойной бухгалтерии? Точно бухгалтеров нанимают чисто налоги посчитать, на уровне простенького скрипта?  :)

Онлайн Olweg

  • *****
  • Сообщений: 16 893
  • Благодарностей: 448
    • Сообщения от Olweg
Я думаю, всё-таки бухгалтерия - это следующий этап, для моделей-агентов, способных долго поддерживать цельность. Просто пограничные столбы продолжают смещаться, и требования растут. Видите - от моделей уже ждут работы людей-профессионалов. Ещё пару лет назад о таком никто бы и не заикнулся.
Планеты других звёзд. История открытий
http://allplanets.ru/history_Olweg.htm

Оффлайн BlackMokona

  • *****
  • Сообщений: 21 110
  • Благодарностей: 638
  • Мне нравится этот форум!
    • Сообщения от BlackMokona
Я думаю, всё-таки бухгалтерия - это следующий этап, для моделей-агентов, способных долго поддерживать цельность. Просто пограничные столбы продолжают смещаться, и требования растут. Видите - от моделей уже ждут работы людей-профессионалов. Ещё пару лет назад о таком никто бы и не заикнулся.
В целом просто плюс один тест, на котором можно конкурировать и двигаться к 100%. Чтобы лучше оценивать модели

Онлайн Olweg

  • *****
  • Сообщений: 16 893
  • Благодарностей: 448
    • Сообщения от Olweg
Google представила Genie 3 — модель мира с впечатляющими характеристиками
https://habr.com/ru/news/934288/

https://www.youtube.com/watch?v=PDKhUknuQDg
« Последнее редактирование: 05 Авг 2025 [21:55:51] от Olweg »
Планеты других звёзд. История открытий
http://allplanets.ru/history_Olweg.htm

Онлайн Olweg

  • *****
  • Сообщений: 16 893
  • Благодарностей: 448
    • Сообщения от Olweg
Подростки обращаются к ИИ за советом, дружбой и чтобы «не думать»
https://habr.com/ru/articles/934046/

«ИИ всегда доступен. Ему никогда не бывает скучно с вами. Он никогда не осуждает, — говорит Ганеш Наир, 18-летний подросток из Арканзаса. — Когда вы разговариваете с ИИ, вы всегда правы. Вы всегда интересны. Вас всегда эмоционально поддержат».

Раньше всё это казалось привлекательным, но этой осенью Наир отправляется в колледж и хочет отойти от использования ИИ. Наиру стало страшно после того, как его школьный друг, который полагался на «ИИ-компаньона» в разговорах по душам со своей девушкой, впоследствии заставил чат-бота написать текст о разрыве, положившем конец его двухлетним отношениям.

«Это было немного антиутопично — компьютер сгенерировал конец реальных отношений, — говорит Наир. — Мы как будто позволяем компьютерам заменить наши отношения с людьми».


Планеты других звёзд. История открытий
http://allplanets.ru/history_Olweg.htm

Оффлайн Polnoch Ксю

  • *****
  • Сообщений: 10 075
  • Благодарностей: 411
    • Сообщения от Polnoch Ксю
Немножко потыкала в опенсурсную модель чатЖПТ... Что ж, предварительно, кажется, что да, лучше того, что у других. Дипсик и квен теперь не нужны?
Но я пока не проверяла на реальных задачах. Для того же кодинг-агента, для автодополнения  IDE.

Пробовала так же заставить писать литературные тексты с моим руководством - примерно так же плохо справляется, как и o3/o4-mini-high (кажется, лучше всех получается у Claude). Тут никаких сюрпризов. Контекстное окно, конечно, хотелось бы побольше...
Meade LightBridge12"
RC8¨и МАК5"Альтер М500 на AZ4, Celestron SLT, Ioptron ZEQ25
БГШ 2.3x40 и Steiner Marine 7x50
ES82°:4.7mm,30mm
ES100°:9mm,14mm,20mm
ES68°:40mm
Meade Plossl 56mm; Vixen NLV 6mm
2" Lumicon, 1,25" DeepSky: UHC and OIII
---
qhy5
Ioptron SkyTracker
Canon50d

Оффлайн BlackMokona

  • *****
  • Сообщений: 21 110
  • Благодарностей: 638
  • Мне нравится этот форум!
    • Сообщения от BlackMokona
Немножко потыкала в опенсурсную модель чатЖПТ... Что ж, предварительно, кажется, что да, лучше того, что у других. Дипсик и квен теперь не нужны?
Согласно тестам и откликам. Модель ужасна и даже хуже Грок 2. Говорят зацензурили до уровня пускающего слюну овоща.

Оффлайн Combinator

  • *****
  • Сообщений: 2 617
  • Благодарностей: 88
    • Сообщения от Combinator
Немножко потыкала в опенсурсную модель чатЖПТ... Что ж, предварительно, кажется, что да, лучше того, что у других. Дипсик и квен теперь не нужны?
Согласно тестам и откликам. Модель ужасна и даже хуже Грок 2. Говорят зацензурили до уровня пускающего слюну овоща.


Да и покупать для этого конфигурацию с 80 гигами оперативки тоже как-то не вдохновляет.

Оффлайн Combinator

  • *****
  • Сообщений: 2 617
  • Благодарностей: 88
    • Сообщения от Combinator
Возможно, весьма перспективный подход: https://arxiv.org/pdf/2506.21734
https://www.youtube.com/watch?v=0OnyVmj6yxY

Онлайн Olweg

  • *****
  • Сообщений: 16 893
  • Благодарностей: 448
    • Сообщения от Olweg
Интересно, но сразу возникают вопросы. Судя по тестам, в которых HRM обходит конкурентов, она заточена на работу с визуалом, в которой LLM до сих пор буксуют (в той же ARC-AGI). А что с текстами? Надо будет разобраться подробнее. Ну не верю я, что модель с 70М параметров во всём будет обходить гораздо более крупные LLM.
Планеты других звёзд. История открытий
http://allplanets.ru/history_Olweg.htm

Оффлайн Combinator

  • *****
  • Сообщений: 2 617
  • Благодарностей: 88
    • Сообщения от Combinator
Интересно, но сразу возникают вопросы. Судя по тестам, в которых HRM обходит конкурентов, она заточена на работу с визуалом, в которой LLM до сих пор буксуют (в той же ARC-AGI). А что с текстами? Надо будет разобраться подробнее. Ну не верю я, что модель с 70М параметров во всём будет обходить гораздо более крупные LLM.

Да, конечно, она заточена, скорее, на работу с входной информацией, представленной в виде массивов размерности 2 и более с не очень большим количеством элементов (сотни, максимум, тысячи) но зато в этой области демонстрирует весьма впечатляющие результаты, а для восприятия информации в текстовой форме не приспособлена в принципе. Но если её объединить с той же LLМ, то возможен синергетический эффект за счёт расширения множества решаемых быстро и качественно задач.

Онлайн Olweg

  • *****
  • Сообщений: 16 893
  • Благодарностей: 448
    • Сообщения от Olweg
Кстати, только что попался пост как раз в тему:
https://t.me/seeallochnaya/2723

Изначально Orion, ставший GPT-4.5, хотели сделать GPT-5. Однако большинство трюков, которые исследователи нашли на «маленьких» моделях, потеряли свою эффективность при масштабировании. Так происходит часто, но тут, видимо, упадок был больше ожидаемого.
Планеты других звёзд. История открытий
http://allplanets.ru/history_Olweg.htm

Онлайн Olweg

  • *****
  • Сообщений: 16 893
  • Благодарностей: 448
    • Сообщения от Olweg
Возможно, весьма перспективный подход: https://arxiv.org/pdf/2506.21734
На Хабре неплохой обзор (в т.ч. комментарии):
https://habr.com/ru/companies/bothub/news/931108/
Планеты других звёзд. История открытий
http://allplanets.ru/history_Olweg.htm

Оффлайн -Asket-

  • *****
  • Сообщений: 3 923
  • Благодарностей: 405
  • Шапочка из фольги - последний бастион разума
    • Сообщения от -Asket-
Не теряйте мужества - худшее впереди!
Пессимист считает, что хуже, чем есть, быть не может, а оптимист утверждает, что бывает и хуже.

Оффлайн Polnoch Ксю

  • *****
  • Сообщений: 10 075
  • Благодарностей: 411
    • Сообщения от Polnoch Ксю
Говорят зацензурили
Так это для опенсурс моделей никогда не было проблемой. Это проблема только для клауд-бейсд LLM. А когда опенсурс - всегда появится миллион abliterated версий. Спасибо дипсику и алибабе за Qwen именно за их опенсурсность. А облачный дипсик... Наверное, совсем не нужен? Я так и не придумала, зачем его использовать.

Странно сравнивать модель, запускаемую на своём железе с облачными.

Да и покупать для этого конфигурацию с 80 гигами оперативки тоже как-то не вдохновляет.
Хм, у меня уже 120 GB DDR5 :D

И она(20B версия) удивительно быстро генерирует токены просто на CPU/RAM. Мне нравится. Жалко, что RTX 4000-й ветки не поддерживаются :(

Ну не верю я, что модель с 70М параметров во всём будет обходить гораздо более крупные LLM.
Да это нормально. Современные маленькие модели обходят большие старые. Именно на реальных задачах.

Задумалась о покупке RTX 5070Ti - мне кажется, эта модель будет отлично управлять браузером в самодельном агенте. Сужу по скорости генерации токенов и в целом их качестве.
Meade LightBridge12"
RC8¨и МАК5"Альтер М500 на AZ4, Celestron SLT, Ioptron ZEQ25
БГШ 2.3x40 и Steiner Marine 7x50
ES82°:4.7mm,30mm
ES100°:9mm,14mm,20mm
ES68°:40mm
Meade Plossl 56mm; Vixen NLV 6mm
2" Lumicon, 1,25" DeepSky: UHC and OIII
---
qhy5
Ioptron SkyTracker
Canon50d

Оффлайн BlackMokona

  • *****
  • Сообщений: 21 110
  • Благодарностей: 638
  • Мне нравится этот форум!
    • Сообщения от BlackMokona
Так это для опенсурс моделей никогда не было проблемой. Это проблема только для клауд-бейсд LLM. А когда опенсурс - всегда появится миллион abliterated версий.
Только зачем мучаться, когда есть десятки опен сорс моделей лучше?

Онлайн Olweg

  • *****
  • Сообщений: 16 893
  • Благодарностей: 448
    • Сообщения от Olweg
Судя по всему, анонс GPT-5 сегодня в 22:00 по московскому.
Планеты других звёзд. История открытий
http://allplanets.ru/history_Olweg.htm