Исследователи использовали большие языковые модели для анализа статей из журналов Elsevier и American Physical Society для создания самой полной базы магнитных материалов NEMAD. Система автоматически извлекла данные из десятков тысяч научных статей, включая сложные таблицы и отсканированные справочники XX века. На основе этой базы исследователи обучили модели машинного обучения, которые классифицируют материалы с точностью 90% и предсказывают температуру Кюри с ошибкой всего 56 К.
Поиск новых магнитных материалов критически важен для энергетики и технологий — от ветрогенераторов до квантовых компьютеров. Но большинство высокопроизводительных магнитов содержат редкоземельные элементы и работают в узком температурном диапазоне. Традиционные методы открытия требуют лет экспериментов, а расчеты из первых принципов дают ненадежные результаты для магнитных свойств из-за сильно коррелированных электронных систем. Существующие базы данных либо слишком малы (около 2000 записей в MAGDATA), либо содержат мало параметров — только состав и температуру перехода.
Исследователи создали трехэтапный пайплайн обработки научных публикаций. Статьи в XML-формате парсятся специальным скриптом, PDF-документы конвертируются в markdown, а отсканированные материалы обрабатываются через OCR-систему Google Gemini. Затем GPT-4o с помощью специально разработанных промптов извлекает структурированную информацию: химический состав, кристаллическую структуру, параметры решетки, пространственную группу и магнитные свойства. Для длинных документов применяется векторный поиск FAISS, который выбирает пять наиболее релевантных фрагментов из токенизированного текста. Модель Random Forest классифицирует материалы на ферромагнетики, антиферромагнетики и немагнетики за один шаг, в отличие от двухэтапных подходов в предыдущих работах.
База NEMAD содержит 67 573 записи, из них 68% ферромагнетиков и около 30% антиферромагнетиков (тех, у которых указана только температура Нееля). Валидация на 5015 случайных записях показала медианную точность 94%. Классификационная модель достигла точности 90% на тестовой выборке. Для предсказания температуры Кюри лучший результат показала модель XGBoost на сбалансированном датасете: коэффициент детерминации 0.87 и средняя абсолютная ошибка 56 К. Для температуры Нееля эти показатели составили 0.83 и 38 К соответственно. В 70% случаев модели XGBoost и ENN ошибались менее чем на 50 К для температуры Кюри, а для 64% данных XGBoost ошибка была меньше 25 К. Скрининг выявил 25 новых ферромагнитных соединений с предсказанной температурой Кюри выше 500 К и 13 антиферромагнитных соединений с температурой Нееля выше 100 К. Всего было найдено 32 перспективных магнитных соединения, из которых 7 встречаются в научной литературе.
Работа демонстрирует новый подход к ускорению открытия материалов: большие языковые модели автоматизируют извлечение знаний из литературы, а машинное обучение выявляет закономерности в данных. Метод универсален и может применяться для сверхпроводящих, термоэлектрических, фотовольтаических и сегнетоэлектрических материалов. База NEMAD доступна на сайте www.nemad.org и будет расширяться — следующий шаг включает статьи издательства Springer для расширения охвата материалов.
Источник новости и обложки: www.nature.com