LLM собрали базу из 67 573 магнитных материалов для обучения моделей машинного обучения предсказывать температуру Кюри

LLM собрали базу из 67 573 магнитных материалов и обучили нейросети предсказывать температуру Кюри

Исследователи использовали большие языковые модели для анализа статей из журналов Elsevier и American Physical Society для создания самой полной базы магнитных материалов NEMAD. Система автоматически извлекла данные из десятков тысяч научных статей, включая сложные таблицы и отсканированные справочники XX века. На основе этой базы исследователи обучили модели машинного обучения, которые классифицируют материалы с точностью 90% и предсказывают температуру Кюри с ошибкой всего 56 К.

Поиск новых магнитных материалов критически важен для энергетики и технологий — от ветрогенераторов до квантовых компьютеров. Но большинство высокопроизводительных магнитов содержат редкоземельные элементы и работают в узком температурном диапазоне. Традиционные методы открытия требуют лет экспериментов, а расчеты из первых принципов дают ненадежные результаты для магнитных свойств из-за сильно коррелированных электронных систем. Существующие базы данных либо слишком малы (около 2000 записей в MAGDATA), либо содержат мало параметров — только состав и температуру перехода.

Исследователи создали трехэтапный пайплайн обработки научных публикаций. Статьи в XML-формате парсятся специальным скриптом, PDF-документы конвертируются в markdown, а отсканированные материалы обрабатываются через OCR-систему Google Gemini. Затем GPT-4o с помощью специально разработанных промптов извлекает структурированную информацию: химический состав, кристаллическую структуру, параметры решетки, пространственную группу и магнитные свойства. Для длинных документов применяется векторный поиск FAISS, который выбирает пять наиболее релевантных фрагментов из токенизированного текста. Модель Random Forest классифицирует материалы на ферромагнетики, антиферромагнетики и немагнетики за один шаг, в отличие от двухэтапных подходов в предыдущих работах.

Научные статьи обрабатываются по трем направлениям в зависимости от их формата. Статьи, полученные через API журнала в формате XML, анализируются с помощью текстового и табличного парсеров. Стандартные PDF-документы обрабатываются PDF-парсером, который преобразует содержимое в текст формата markdown. Для старых, сканированных или основанных на изображениях PDF-файлов и исторических справочников используются возможности OCR Google Gemini для точного извлечения текста и таблиц. Для длинных документов, таких как справочники, содержимое обрабатывается постранично и преобразуется в формат markdown. Все выходные данные markdown затем конвертируются в файлы CSV. Эти файлы пропускаются через GPT-4o со структурированными промптами для извлечения соответствующих данных о материалах в единообразном формате JSON. После очистки и стандартизации извлеченной информации она компилируется в базу данных NEMAD. Курируемый набор данных используется для обучения моделей машинного обучения с целью классификации и прогнозирования температур Кюри и Нееля. Обученные модели затем применяются для скрининга высокоэффективных магнитных соединений.

База NEMAD содержит 67 573 записи, из них 68% ферромагнетиков и около 30% антиферромагнетиков (тех, у которых указана только температура Нееля). Валидация на 5015 случайных записях показала медианную точность 94%. Классификационная модель достигла точности 90% на тестовой выборке. Для предсказания температуры Кюри лучший результат показала модель XGBoost на сбалансированном датасете: коэффициент детерминации 0.87 и средняя абсолютная ошибка 56 К. Для температуры Нееля эти показатели составили 0.83 и 38 К соответственно. В 70% случаев модели XGBoost и ENN ошибались менее чем на 50 К для температуры Кюри, а для 64% данных XGBoost ошибка была меньше 25 К. Скрининг выявил 25 новых ферромагнитных соединений с предсказанной температурой Кюри выше 500 К и 13 антиферромагнитных соединений с температурой Нееля выше 100 К. Всего было найдено 32 перспективных магнитных соединения, из которых 7 встречаются в научной литературе.

Работа демонстрирует новый подход к ускорению открытия материалов: большие языковые модели автоматизируют извлечение знаний из литературы, а машинное обучение выявляет закономерности в данных. Метод универсален и может применяться для сверхпроводящих, термоэлектрических, фотовольтаических и сегнетоэлектрических материалов. База NEMAD доступна на сайте www.nemad.org и будет расширяться — следующий шаг включает статьи издательства Springer для расширения охвата материалов.

Источник новости и обложки: www.nature.com


Главред proglib.io. Опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры пишу Python.

Аватар пользователя Мирослав Кунгуров