Архитектура Titans превзошла GPT-4 в бенчмарке BABILong, несмотря на меньшее количество параметров. Модель эффективно масштабируется до контекстного окна размером более 2 миллионов токенов. Подход объединяет скорость RNN с точностью трансформеров.
Трансформеры страдают от резкого роста вычислительных затрат, а SSM вроде Mamba-2 сжимают контекст в фиксированный размер. В отличие от них, Titans использует модуль памяти на основе глубокой нейросети, который обучается на лету. Алгоритм обновляет параметры через «метрику удивления», сохраняя только неожиданную информацию.
Источник новости и обложки: research.google