Исследователи создали C2S-Scale — семейство больших языковых моделей, которые анализируют одноклеточные данные, превращая профили экспрессии генов в текстовые «клеточные предложения». Самая крупная модель содержит 27 миллиардов параметров и обучена на корпусе из более чем 1 миллиарда токенов, включающем данные о 50 миллионах клеток человека и мыши.
Ключевая идея заключается в том, что гены в клетке ранжируются по уровню экспрессии и записываются как обычный текст — например, «GENE1 GENE2 GENE3». Это позволяет использовать стандартные архитектуры трансформеров без модификаций. Представьте, что вместо сложных числовых матриц ИИ читает клетку как предложение: «В этой клетке больше всего активен ген иммунитета, затем ген роста, потом ген метаболизма».

Результаты впечатляют: модель показала точность 95.43% в классификации типов иммунных клеток, превзойдя специализированные модели scGPT (93.1%) и Geneformer (94.0%). Более того, C2S-Scale стала единственной моделью, способной выполнять весь спектр задач — от предсказания типов клеток до генерации естественноязыковых описаний целых датасетов.

Практическое применение продемонстрировал виртуальный скрининг лекарств: модель предсказала, что ингибитор киназы силмитасертиб усиливает презентацию антигенов только в присутствии интерферона. Эксперименты на человеческих клетках подтвердили прогноз — препарат увеличил экспрессию MHC-I на 34.9% при совместном применении с интерфероном, но не показал эффекта в изоляции.
Масштабирование модели до 27 миллиардов параметров дало стабильное улучшение производительности по всем биологическим задачам, подтверждая применимость законов масштабирования ИИ к биологическим данным. Исследователи планируют интеграцию эпигеномных, протеомных и клинических данных в единую мультимодальную модель.
Источник новости и обложки: www.biorxiv.org