Infinityformer (∞-former) решение для увеличения долгосрочной памяти у LLMs
Infinityformer - новый метод решения проблемы с ограничением долговременной памяти у больших языковых моделей. Исследователи из Instituto de Telecomunicações, DeepMind, Institute of Systems and Robotics, Instituto Superior Técnico и Unbabel предложили новую модель "∞-former" (Infinity-former), которая имеет неограниченную долговременную память и способна обрабатывать произвольно длинные контексты.
Существующие сегодня LLM модели на основе трансформеров ограничены в своей способности запоминать долгосрочную информацию, так как требуемые ресурсы для обработки долговременной памяти растут квадратично с длиной текста и могут превысить ограниченную память модели.
Для решения этой проблемы, исследователи предложили использовать Infinity-former, который расширяет модель трансформера за счет непрерывной долговременной памяти. Они разработали процедуру для сохранения неограниченного количества контекста в памяти и использовали "sticky memories", чтобы сохранить важную информацию в долговременной памяти.
Для оценки предложенного метода исследователи провели эксперименты на синтетических и языковых задачах, используя transformer-XL и сжатый трансформер как базовые модели. Результаты показали, что Infinityformer может масштабироваться до длинных последовательностей, сохраняя высокую точность, а использование неограниченной долговременной памяти в обучении модели с нуля или для дообучения предобученных языковых моделей приносит значительные преимущества.