F@h не умер. Он стал обучающей базой следующего поколения.
Когда вышел AlphaFold2, все ждали некролога: «Folding@home больше не нужен, белки предсказаны». Но проект живёт — и я понял почему.
Знать, где стоит шахматная фигура в конце партии — не значит понять, как она туда пришла. AlphaFold даёт снимок. Один кадр. F@h снимал видео — как белок дрожит, сгибается, открывает скрытые карманы.
Эти видео Microsoft взял и обучил на них BioEmu. Модель, которая воспроизводит динамику белка в десятки тысяч раз быстрее классической симуляции. Опубликовано в Science в 2025-м.
Поворот, который мне нравится: твой WU (задание) — это не просто кредиты в статистике. Это эталонные данные для AI, который теперь делает за секунды то, на что раньше уходили месяцы суперкомпьютерного времени.
Разберём по частям — что именно произошло и почему это меняет смысл кранчинга.
Структура vs динамика — в чём разница
AlphaFold решил задачу предсказания формы белка по его аминокислотной последовательности. Это была главная задача структурной биологии 50 лет. Сейчас в базе AlphaFold Database — предсказанные структуры почти для всех известных белков.
Но белок — не камень. Он не стоит в одной позе. Он постоянно движется: немного разворачивается, прячет один участок, открывает другой. Эта подвижность — не шум, это функция. Именно в «открытом» состоянии белок может связаться с лекарством. Именно в скрытом кармане может быть мишень для терапии рака.
F@h 25 лет симулировал эту динамику. Накопил гигантский массив траекторий — в том числе больше 200 миллисекунд симуляционного времени, которые вошли в обучающий датасет BioEmu. Каждая миллисекунда — детальная траектория атомов. Таких данных нет ни у одного суперкомпьютера в мире.
Что такое BioEmu и зачем он нужен
BioEmu-1 (Biomolecular Emulator-1) — генеративная модель от Microsoft Research, опубликованная в Science в июле 2025-го. Код открытый, MIT-лицензия:
http://github.com/microsoft/bioemuЗадача: дашь ей аминокислотную последовательность — она выдаст тысячи возможных конформаций белка с правильным распределением вероятностей. По сути — имитация того, что делали симуляции F@h, только в десятки тысяч раз быстрее. Конкретно: 1000 структур за несколько минут до пары часов на одной GPU — в зависимости от размера белка. Классическое молекулярное моделирование заняло бы недели на кластере.
Точность модели такова, что учёные доверяют предсказанию достаточно, чтобы идти с ним в лабораторию — это порог реального drug discovery.
Данные F@h как сырьё для AI
Официальный блог F@h (август 2025) прямо называет датасет проекта одним из ключевых источников для обучения BioEmu. Смена роли: F@h из вычислительной лаборатории становится поставщиком эталонных данных.
На практике: каждый WU — не просто цифра PPD. Это отрезок траектории белка, который учит модель понимать динамику так же хорошо, как учёные понимают её по годам экспериментов. Разнообразие траекторий в датасете F@h — результат того, что тысячи разных хостов считали одни и те же белки в разных условиях. Это не воспроизвести на централизованном суперкомпьютере.
Личная позиция
Честно: я долго смотрел на F@h с вопросом — зачем кранчить, если AlphaFold уже всё предсказал? BioEmu дал ответ.
Смысл кранчинга сместился. Раньше — симуляция = результат. Теперь — симуляция = обучающий сигнал для следующего поколения инструментов. Distributed computing становится не конечным вычислителем, а генератором данных для AI.
Это хорошая новость для сообщества. Белки, над которыми F@h работает сейчас — KRas (один из самых упрямых онкогенов), BRCA1, белки Эболы с криптическими карманами — реальные мишени, не учебные задачи.
Если ещё не кранчите F@h: foldingathome.org. Клиент v8.4.9, стабильный.
Если интересна техническая сторона BioEmu:
http://github.com/microsoft/bioemu