Совместное исследование ученых из США и Канады показало, что современные языковые модели вроде ChatGPT плохо справляются с имитацией исторического языка. Даже после 20 примеров для обучения, тексты все равно звучат современно. Исследователи использовали тексты периода 1880-1914 годов для оценки способности ИИ к стилизации.
В ходе экспериментов специально обученная модель RoBERTa оценивала, насколько убедительно ИИ имитирует стиль начала XX века. Специализированная модель GPT-1914, обученная на 26.5 миллиардах токенов исторической литературы, показала лучший результат с показателем расхождения всего 0.006, тогда как современные модели демонстрировали значения 0.310-0.350.
При оценке текстов экспертами-людьми результаты оказались неоднозначными. Хотя оценщики сходились во мнениях в 80% случаев, их согласованность по шкале каппа Коэна составила всего 0.554. Даже специально дообученная модель GPT-4o-mini создавала убедительные исторические тексты лишь в 80% случаев.
Исследователи пришли к выводу, что современные методы не позволяют достоверно имитировать исторический язык. В 20% случаев модели явно выдавали себя современными оборотами и отсылками. Полноценное решение проблемы потребует либо масштабного предварительного обучения на исторических текстах, либо принципиально новых подходов к стилизации языка.
Источник новости и обложки: www.unite.ai