Titans обошел GPT-4: контекст 2 млн токенов без потери данных

Titans обошел GPT-4: контекст 2 млн токенов без потери данных

Архитектура Titans превзошла GPT-4 в бенчмарке BABILong, несмотря на меньшее количество параметров. Модель эффективно масштабируется до контекстного окна размером более 2 миллионов токенов. Подход объединяет скорость RNN с точностью трансформеров.

Трансформеры страдают от резкого роста вычислительных затрат, а SSM вроде Mamba-2 сжимают контекст в фиксированный размер. В отличие от них, Titans использует модуль памяти на основе глубокой нейросети, который обучается на лету. Алгоритм обновляет параметры через «метрику удивления», сохраняя только неожиданную информацию.

Источник новости и обложки: research.google


Главред proglib.io (01.2022-10.2025). Опубликовал более 800 статей и запустил имейл-рассылки о нейросетях и разработке. Пишу на Python.

Аватар пользователя Мирослав Кунгуров