Illumina запустила Billion Cell Atlas — датасет из 1 млрд клеток с CRISPR-изменениями для обучения ИИ и поиска новых лекарств. Компания измерила реакции клеток на генетические изменения в ~20 000 генах. План амбициозный: 5 млрд клеток за три года.
Почему это важно для российских учёных: Датасет экономит годы работы на создании обучающих данных для ИИ-моделей, которые предсказывают эффекты мутаций. Российские биоинформатики получают готовую карту клеточных реакций — как атлас звёздного неба для астрономов, только для биологов. Доступ идёт через коммерческое партнёрство: требуется запрос на BusinessDevelopment@illumina.com.
По цифрам:
- 150 млн клеток уже секвенировано
- 200–250 линий клеток (рак, иммунные, кардиометаболические, неврологические заболевания)
- ~3,1 петабайта данных (эквивалент ~3000 жёстких дисков)
- 100–200 тыс. клеток обрабатывается за ~15 часов на платформе Illumina Single Cell 3' RNA Prep
Между строк: Для российских институтов критичны два барьера. Первый: ФЗ № 152-ФЗ требует уведомления Роскомнадзора перед передачей геномных данных за рубеж с марта 2023 года. Второй: огромные массивы данных требуют облачных ресурсов — локальное развёртывание в институтах потребует серьёзных инвестиций в оборудование и каналы связи. Датасет маркирован For Research Use Only — не для диагностики, только для исследований.
Illumina трансформируется из производителя секвенаторов в провайдера данных. Контроль над качественными датасетами создаёт барьеры для конкурентов — но может ускорить разработку лекарств на порядок. Альтернатива существует: Arc Institute предлагает Tahoe-100M с открытым доступом, что критично для академических групп с ограниченным бюджетом.
Что дальше: Следить за публикацией технической документации и условий лицензирования. От них зависит, получат ли российские команды доступ на приемлемых условиях и смогут ли интегрировать данные с локальными вычислительными кластерами. Ключевой вопрос остаётся открытым: совместим ли датасет с российскими моделями предсказания патогенности вариантов или потребует полной перестройки аналитических систем.




















