Focused Transformer - Контрастивное обучение для увеличения длины контекста LLM и модель LLaMA-2-7B-32K на его базе.
Большие языковые модели обладают исключительной способностью учитывать новую информацию в контексте (контекстуально). Однако весь потенциал такого подхода часто ограничивается из-за ограничений эффективной длины контекста. Вариантом решения данной проблемы является наделение слоя внимания (attention layer) доступом к внешней памяти, которая состоит из пар (ключ, значение).
Однако с увеличением количества документов доля релевантных ключей по отношению к нерелевантным уменьшается, что приводит к тому, что модель больше фокусируется на нерелевантных ключах. Авторы работы Focused Transformer выявили значительную проблему, названную проблемой отвлечения, когда ключи, связанные с различными семантическими значениями, могут накладываться друг на друга, что затрудняет их различение.
Чтобы решить эту проблему, авторы работы ввели понятие Focused Transformer (FoT) - метод, использующий процесс обучения, созданный на основе контрастного обучения. Этот подход улучшает структуру пространства (ключ, значение), позволяя увеличить длину контекста и в результате точно настроить уже существующие большие модели для увеличения длины их эффективного контекста.
Файнтюнинг с помощью FoT демонстрирует возможность создания весом модели OpenLLaMA 3B и 7B с увеличенным окном контекста. Модели LongLLaMA демонстрируют прогресс в задачах, требующих длинного контекста, в том числе хорошо справляются с контекстом длиной 256к токенов для поиска ключей.
На базе FoT реализовали и выпустили модель LLaMA-2-7B-32K, с 32K окном контекста, такой себе конкурент Claude :).
Сегодня мы выпускаем LLaMA-2-7B-32K, модель с окном контекста 32к токенов, построенную с использованием позиционной интерполяции и набора данных от Together AI, а также системных оптимизаций, включая FlashAttention-2. Модель оптимизируется для целевых задач с длинным контекстом, таких как понимание многодокументных текстов, резюмирование и QA, и инференсом с ускорением до 3 раз.