April 8, 2023

Вышла новая языковая нейросеть, Vicuna, с очень впечатляющими результатами работы.

Модель была создана исследователями из Калифорнийского университета в Беркли, КМУ, Стэнфорда и Калифорнийского университета в Сан-Диего. Интересная особенность в сравнении результатов ответов с ChatGPT (GPT-3.5) - арбитром была модель GPT4.

Vicuna построена на базе 13Б LLaMA, но была улучшена до 90% качества, приближенного к ChatGPT, за счет дообучения на датасете, собранным из 70 тыс. диалогов с ChatGPT, c сайта sharegpt.com. Затем они улучшили обучающие скрипты, предоставленные Alpaca, чтобы лучше обрабатывать многораундовые разговоры и длинные последовательности.

Команда использовала PyTorch FSDP на 8 графических процессорах A100 для обучения Vicuna всего за один день. Команда увеличила максимальную длину контекста с 512 в alpaca до 2048, чтобы лучше понимать длинные разговоры.

Команда скорректировала потери при обучении для учета многораундовых разговоров и вычислила потери при файнтюнинге исключительно на основе результатов работы чатбота.

Веса, необходимые для воссоздания модели из весов LLaMA, опубликованы и дообучать собственную версию Vicuna может любой.
Доступно демо для тестов и код для дообучения.

Тут можно посмотреть процесс сравнения Vicuna vs ChatGPT.