Nested Learning: новая парадигма машинного обучения для непрерывного обучения без забывания

Nested Learning: новая парадигма машинного обучения для непрерывного обучения без забывания

Несмотря на успехи больших языковых моделей, фундаментальная проблема остается нерешенной: модели не могут непрерывно учиться новому, не забывая старое. Человеческий мозг адаптируется через нейропластичность — способность изменять свою структуру в ответ на новый опыт.

Традиционный подход — постоянное обновление параметров модели новыми данными — приводит к катастрофическому забыванию: при изучении новых задач теряется производительность на старых. Исследователи обычно борются с этим через модификации архитектуры или улучшение правил оптимизации. Однако архитектура модели и алгоритм оптимизации долго рассматривались как отдельные компоненты, что мешало создать по-настоящему эффективную систему обучения.

Nested Learning рассматривает одну ML-модель не как единый процесс, а как систему взаимосвязанных многоуровневых задач обучения, которые оптимизируются одновременно. Авторы утверждают, что архитектура модели и правила ее обучения — это фундаментально одинаковые концепции, просто разные уровни оптимизации с собственным потоком информации и частотой обновления. Эта парадигма открывает новое измерение для проектирования AI, позволяя создавать компоненты обучения с большей вычислительной глубиной, что помогает решить проблему катастрофического забывания.

Единая и переиспользуемая структура, а также многошкальные временные обновления в мозге являются ключевыми компонентами непрерывного обучения у человека. Nested Learning позволяет производить многошкальные временные обновления для каждого компонента мозга, одновременно демонстрируя, что хорошо известные архитектуры, такие как трансформеры и модули памяти, на самом деле являются линейными слоями с различными частотами обновлений

Ключевая идея: сложная ML-модель — это набор связанных задач оптимизации, вложенных друг в друга или работающих параллельно. Каждая внутренняя задача имеет свой поток контекста — собственный набор информации, на основе которого она учится. Авторы показывают, что процесс обучения через бэкпроп можно моделировать как ассоциативную память: модель учится сопоставлять данные с локальной ошибкой — мерой их неожиданности.

В качестве доказательства концепции авторы создали Hope — самомодифицирующуюся архитектуру на основе Titans, которая может использовать неограниченные уровни обучения в контексте. Hope дополнена блоками continuum memory systems (CMS) — спектром модулей памяти, каждый из которых обновляется с определенной частотой, создавая более эффективную систему для непрерывного обучения. Эксперименты показали, что Hope демонстрирует более низкую перплексию (неопределенность) и высокую точность по сравнению с современными рекуррентными моделями, а также превосходит их в управлении памятью при работе с длинными контекстами в задачах Needle-In-Haystack.

Источник новости и обложки: research.google


Главред proglib.io. Опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры пишу Python.

Аватар пользователя Мирослав Кунгуров