ВНИМАНИЕ! На форуме началось голосование в конкурсе астрофотография месяца - ОКТЯБРЬ!
0 Пользователей и 3 Гостей просматривают эту тему.
Цитата: skvj от 05 Сен 2025 [09:11:02] вот реальные авто уже сейчас (в будущем) - реально крутые по сравнению с мечтами фантастов из прошлого, замечали?Чаще слышу, что автомобили сейчас выпускают намного хуже, чем в 70-ых. И я не про российский автопром.
вот реальные авто уже сейчас (в будущем) - реально крутые по сравнению с мечтами фантастов из прошлого, замечали?
Чаще слышу, что автомобили сейчас выпускают намного хуже, чем в 70-ых. И я не про российский автопром.
Цитата: Trend от 05 Сен 2025 [13:00:55]Чаще слышу, что автомобили сейчас выпускают намного хуже, чем в 70-ых. И я не про российский автопром.Если же перейти к сухим цифрам. Вроде ресурса, потребления топлива, безопасности и тд. То авто 70 это жрущие в три горла бензин, одноразовые гробы на колёсах
Новый способ тестирования моделей, умение предсказывать будущие события из политики,экономики и тд
Самый правильный и объективный подход, имхо. Интеллект, это способность прогнозировать будущее.
Если же перейти к сухим цифрам. Вроде ресурса, потребления топлива, безопасности и тд. То авто 70 это жрущие в три горла бензин, одноразовые гробы на колёсах
Цитата: Combinator от 06 Сен 2025 [10:55:59]Самый правильный и объективный подход, имхо. Интеллект, это способность прогнозировать будущее.Подход да, но на практике очень сложно оценить сложность прогнозов относительно друг друга, чтобы сделать объективный тест
Я не смог найти данных о том, что они могут дообучаться в процессе работе. Поправьте, если я ошибаюсь.
Да-да. В трансформерах всё приводится в единое смысловое пространство - эмбеддинги. Но пока речь реально идёт через костыль ASR, то есть "сперва преврати звук в текст". Это и создаёт задержки, ошибки, и делает систему менее живой. Будущее (в некоторых моделях уже настоящее) это когда аудиопоток напрямую входит в мультимодальную модель. Без промежуточного слоя текста. Модель сразу понимает смысловую структуру речи. То же самое касается видео и сенсоров. Вся фишка в том, что не текст станет универсальным представлением, а смысловое пространство (латентное). И в него будут входить звук, изображение, движение, тактильные сигналы - что угодно. Это и будет по-настоящему мультимодальный интеллект. При чём это не теория, это рабочие схемы уже сейчас.
Цитата: skvj от 05 Сен 2025 [07:04:20]Да-да. В трансформерах всё приводится в единое смысловое пространство - эмбеддинги. Но пока речь реально идёт через костыль ASR, то есть "сперва преврати звук в текст". Это и создаёт задержки, ошибки, и делает систему менее живой. Будущее (в некоторых моделях уже настоящее) это когда аудиопоток напрямую входит в мультимодальную модель. Без промежуточного слоя текста. Модель сразу понимает смысловую структуру речи. То же самое касается видео и сенсоров. Вся фишка в том, что не текст станет универсальным представлением, а смысловое пространство (латентное). И в него будут входить звук, изображение, движение, тактильные сигналы - что угодно. Это и будет по-настоящему мультимодальный интеллект. При чём это не теория, это рабочие схемы уже сейчас.А разве это важно? задержки там в миллисекунды, 90-95% текста заносится в память еще до того как человек закончит фразу. Это не то бутылочное горлышко, которое ошутимо влияет на обучение. Имеет ли это большое значение?
А разве это важно? задержки там в миллисекунды, 90-95% текста заносится в память еще до того как человек закончит фразу. Это не то бутылочное горлышко, которое ошутимо влияет на обучение. Имеет ли это большое значение?
Когда модель работает через ASR → текст → смысл, это всё равно, что человек сначала переводил бы звук в азбуку Морзе, потом обратно в слова, и лишь потом понимал смысл. Работает? Да. Но живым восприятием это не назовёшь. Что меняется, если убрать промежуточный слой? Непрерывность. Вместо порций текста в память сразу идёт смысловой поток. Богатство речи! Ведь LLM сейчас способны улавливать мельчайшие интонации и настроение даже. Акцент, эмоция, паузы, смех - всё это теряется при переводе в сухой текст. А для настоящего обучения на опыте именно эти нюансы критичны.
зачем это делается
Окей, я понял и про живость, и зачем это делается, но вот что не очень понятно: а как вы вообще собираетесь обойти текст если циферки в матрицах и эмбеддингах= это тоже текст. тоже символы. Заметьте, я не говорю что это символы из ASCII, что автоматически делает их === текст. Нет, я знаю что там скоре всего тип float, реже integer.Но хоть ты тресни- и видео и звук придется переводить в цифры. а относятся они к маркеру текста "жест большим пальцем вверх" или к маркеру видеопотока "жест номер 2142" - в конечном итоге разницы нет. Всё равно окружение переводить в цифры, цифры распихивать по матрицам и матрицы перемножать. Разве не так?
Всё проще, чем кажется. Да, конечно везде цифры. Но смотрите какие!1. фото → описание текстом "красивая девушка в красном платье" → эмбеддинг2. Фото → прямо в визуальные эмбеддингиЕсть разница?
Она никогда не узнает, что значит услышать сарказм в голосе, нервозность в дыхании, или радость в смехе.
вы мне сейчас доказываете, что роман о закате, не только подробнее, чем сам закат, но и лучше его
Зачем учить ИИ видеть, если можно придумать систему, которая опишет ему что бы он там увидел, если бы мог.
А чтобы мы не видели разницы между общением с человеком и машиной. И учиться ИИ сможет так же естественно, как мы, получая не текст, а целый комплекс данных.