Нейросети теряют приобретенные навыки даже при стабильном обучении — это явление называют забыванием. Исследователи предложили универсальную теорию, которая описывает забывание как нарушение самосогласованности в предсказательном распределении обучающейся системы, что проявляется в потере предсказательной информации.
Классическая теория обучения предлагает ограниченные инструменты для анализа забывания. Такие понятия как смещение, дисперсия и обобщение описывают производительность в фиксированные моменты времени, обычно при сходимости. Забывание же по своей природе является временным процессом: оно касается того, что модель сохраняет, что отбрасывает и как балансирует адаптацию со стабильностью во времени. Большинство существующих исследований забывания приходят из литературы по continual learning, где метрики обычно отслеживают деградацию производительности на предыдущих задачах после обучения на последующих задачах. Хотя эти меры широко применяются, они плохо захватывают забывание и часто смешивают два различных феномена: обратный перенос, когда новое обучение улучшает производительность на прошлых задачах, и забывание, когда обновления разрушают предыдущие знания, что затрудняет различение конструктивной и деструктивной адаптации. Исследователи ввели новую концептуальную основу для понимания забывания, основанную на следующем инсайте: если обучающаяся система обновляет свои предсказания на данных, которые она уже ожидает, такое обновление не может представлять приобретение новой информации; оно должно вместо этого представлять потерю ранее приобретенных знаний.
Теория строится на концепции самосогласованности: модель забывает, когда обновление на данных, которые она уже ожидала, нарушает согласованность ее распределения предсказаний о будущем опыте.
Результаты подтвердили: забывание присутствует во всех исследованных сценариях, причем его динамика и интенсивность значительно различаются. В задачах с независимыми одинаково распределенными данными динамика забывания плавная и предсказуемая. При резких сменах задач в continual learning нарушение согласованности резко возрастает на границах задач. В обучении с подкреплением наблюдаются хаотические колебания забывания из-за непрерывной нестационарности: распределение данных меняется вместе с политикой агента, создавая петли обратной связи. Ключевое открытие: для приближенных алгоритмов обучения умеренное забывание повышает эффективность. Эмпирически зависимость «забывание-эффективность» имеет форму «локтя», показывая, что оптимальная эффективность обучения достигается при ненулевом уровне забывания, где модель балансирует адаптацию и сохранение знаний.
Источник новости и обложки: arxiv.org