Исследователи из Arc Institute разработали крупнейшую на сегодняшний день ИИ-модель для биологии — Evo 2. Система обучена на ДНК более 100 000 видов живых организмов и способна анализировать последовательности длиной до 1 000 000 нуклеотидов. В разработке участвовали специалисты из NVIDIA, Стэнфордского университета, UC Berkeley и UC San Francisco.
Для обучения модели использовалась впечатляющая инфраструктура: более 2 000 GPU NVIDIA H100 в облаке NVIDIA DGX через AWS. Датасет включал свыше 9.3 триллионов нуклеотидов из более чем 128 000 полных геномов различных организмов, от бактерий до человека.
Практическая точность модели впечатляет: при тестировании на генах, связанных с раком молочной железы (BRCA1), Evo 2 достигла более 90% точности в определении потенциально опасных мутаций. Это открывает новые возможности для быстрой диагностики генетических заболеваний и разработки персонализированных методов лечения.
Важно отметить, что разработчики подошли к вопросу безопасности со всей серьезностью: из обучающей выборки были исключены патогены, опасные для человека и сложных организмов. Весь код модели, включая веса и данные для обучения, находится в открытом доступе на GitHub, а для удобства использования создан специальный интерфейс Evo Designer.
Источник новости и обложки: arcinstitute.org