C2S-Scale: 27-миллиардная языковая модель открыла интерферон-зависимый усилитель иммунного ответа

Ученые обучили ИИ с 27 миллиардами параметров читать клетки как предложения

Исследователи создали C2S-Scale — семейство больших языковых моделей, которые анализируют одноклеточные данные, превращая профили экспрессии генов в текстовые «клеточные предложения». Самая крупная модель содержит 27 миллиардов параметров и обучена на корпусе из более чем 1 миллиарда токенов, включающем данные о 50 миллионах клеток человека и мыши.

Ключевая идея заключается в том, что гены в клетке ранжируются по уровню экспрессии и записываются как обычный текст — например, «GENE1 GENE2 GENE3». Это позволяет использовать стандартные архитектуры трансформеров без модификаций. Представьте, что вместо сложных числовых матриц ИИ читает клетку как предложение: «В этой клетке больше всего активен ген иммунитета, затем ген роста, потом ген метаболизма».

Ученые обучили ИИ с 27 миллиардами параметров читать клетки как предложения
Scaling LLM-based single-cell analysis. A multidimensional expansion of the C2S [14] framework, demonstrating advances in model capacity, dataset size, multimodality, multi-cell support, and integration across biological scales, from single cells to organism-wide insights in natural language. This framework bridges computational innovation with biological discovery, accelerating next-generation single-cell analysis.

Результаты впечатляют: модель показала точность 95.43% в классификации типов иммунных клеток, превзойдя специализированные модели scGPT (93.1%) и Geneformer (94.0%). Более того, C2S-Scale стала единственной моделью, способной выполнять весь спектр задач — от предсказания типов клеток до генерации естественноязыковых описаний целых датасетов.

C2S-Scale объединяет данные scRNA-seq и естественный язык, обучая большие языковые модели (LLM) выполнять задачи анализа единичных клеток на разнородных мультимодальных данных. (A) Из общедоступных атласов данных собран мультимодальный корпус, содержащий более 50 миллионов транскриптомов человека и мыши, который включает клеточную экспрессию из широкого спектра тканей, текстовые аннотации, научные статьи, наборы генов и метки заболеваний из исследований scRNA-seq. (B) C2S ранжирует гены по уровню экспрессии и преобразует их в «клеточные предложения» на естественном языке, используя мощные архитектуры LLM без необходимости их специальной модификации. (C) C2S поддерживает разнообразные прикладные задачи, включая предсказание последствий Perturbation, генеративные задачи и сложные задачи биологического вывода, такие как вопросно-ответные задачи.

Практическое применение продемонстрировал виртуальный скрининг лекарств: модель модель предсказала, что ингибитор киназы CK2 силмитасертиб усиливает презентацию антигенов только в присутствии интерферона. Эксперименты на человеческих клетках подтвердили прогноз — препарат увеличил экспрессию MHC-I на 34.9% при совместном применении с интерфероном, но не показал эффекта в изоляции.

Масштабирование модели до 27 миллиардов параметров дало стабильное улучшение производительности по всем биологическим задачам, подтверждая применимость законов масштабирования ИИ к биологическим данным. Исследователи планируют интеграцию эпигеномных, протеомных и клинических данных в единую мультимодальную модель.

Источник новости и обложки: www.biorxiv.org


Главред proglib.io (01.2022-10.2025). Опубликовал более 800 статей и запустил имейл-рассылки о нейросетях и разработке. Пишу на Python.

Аватар пользователя Мирослав Кунгуров