November 5, 2023

Новый SOTA опенсурс модели для кода: Deepseek Coder

Рис. Актуальная производительность на различных ЯП и мультиязычном HumanEval

Где погонять?

О чем речь?

Выпущенные (китайскими разработчиками) DeepSeek Coder модели, обученные на 87% кода и 13% естественного языка на английском и китайском. Каждая модель предварительно обучена на 2Т токенов. Авторы предоставляют различные размеры моделей кодогена, варьирующиеся от 1B до 33B.

Каждая модель предварительно обучена на корпусе кода из публичных репозиториев с использованием окна контекста (context-window 16k) размером 16K и дополнительной задачей на заполнение пробелов (masking). В результате получились базовые модели (DeepSeek-Coder-Base).

Затем авторы дополнительно зафайнтюнили базовую модель с 2B токенов инструкций, получив модель DeepSeek-Coder-Instruct для выполнения инструкций.

  • Базовая модель предварительно обучена на 2 триллионах токенов более чем на 80 языках программирования (Python, Java, PHP, Bash, C#, TS, Cpp, JS и др.).
  • Различные размеры моделей (1.3B, 5.7B, 6.7B и 33B) для разных задач.
  • Размер окна 16K, поддерживающий дополнение и автозаполнение кода на уровне (всего) проекта.
  • State-of-the-Art среди открытых моделей кода.
  • Открытый исходный код и бесплатное использование в исследовательских и коммерческих целях.

Авторы погоняли DeepSeek Coder на различных эталонных тестах, связанных с программированием. Результат инференса DeepSeek-Coder-Base-33B значительно превосходит существующие открытые исходные коды LLM.

По сравнению с CodeLLama-34B, он опережает на 7.9%, 9.3%, 10.8% и 5.9% соответственно на HumanEval Python, HumanEval Multilingual, MBPP и DS-1000. Удивительно, но наша модель DeepSeek-Coder-Base-7B достигает производительности CodeLlama-34B. И модель DeepSeek-Coder-Instruct-33B после настройки инструкций превосходит GPT-3.5-turbo на HumanEval и достигает сопоставимого результата с GPT-3.5-turbo на MBPP.

DeepSeek Coder, Code Writing, Code Language Model, Code Completion, Code Infilling, 2 Trillion Tokens, Programming Languages, DeepSeek-Coder-Base, DeepSeek-Coder-Instruct, Open Source Code Model, Code Optimization, YouTube SEO, Coding Tools, Efficient Coding Hashtags: #DeepSeekCoder #CodeWriting #CodingRevolution #Programming #CodeCompletion #EfficientCoding #OpenSource #YouTubeSEO #CodingTools