Исследование: ИИ не может достоверно имитировать язык прошлых эпох

03.05.2025

Совместное исследование ученых из США и Канады показало, что современные языковые модели вроде ChatGPT плохо справляются с имитацией исторического языка. Даже после 20 примеров для обучения, тексты все равно звучат современно. Исследователи использовали тексты периода 1880-1914 годов для оценки способности ИИ к стилизации.

В ходе экспериментов специально обученная модель RoBERTa оценивала, насколько убедительно ИИ имитирует стиль начала XX века. Специализированная модель GPT-1914, обученная на 26.5 миллиардах токенов исторической литературы, показала лучший результат с показателем расхождения всего 0.006, тогда как современные модели демонстрировали значения 0.310-0.350.

При оценке текстов экспертами-людьми результаты оказались неоднозначными. Хотя оценщики сходились во мнениях в 80% случаев, их согласованность по шкале каппа Коэна составила всего 0.554. Даже специально дообученная модель GPT-4o-mini создавала убедительные исторические тексты лишь в 80% случаев.

Исследователи пришли к выводу, что современные методы не позволяют достоверно имитировать исторический язык. В 20% случаев модели явно выдавали себя современными оборотами и отсылками. Полноценное решение проблемы потребует либо масштабного предварительного обучения на исторических текстах, либо принципиально новых подходов к стилизации языка.

Источник новости и обложки: www.unite.ai

Мирослав Кунгуров

Работаю главным редактором proglib.io — опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры владею Python, с его помощью автоматизирую повседневные задачи.

Политика конфиденциальности / ВК