Новый SOTA опенсурс модели для кода: Deepseek Coder
Где погонять?
- - Демка тут [ DeepSeek-Coder].
- - Код [ Github].
- - Веса на обнимашках [🤗 Huggingface]
- - ВП опубликуют чуть позже.
О чем речь?
Выпущенные (китайскими разработчиками) DeepSeek Coder модели, обученные на 87% кода и 13% естественного языка на английском и китайском. Каждая модель предварительно обучена на 2Т токенов. Авторы предоставляют различные размеры моделей кодогена, варьирующиеся от 1B до 33B.
Каждая модель предварительно обучена на корпусе кода из публичных репозиториев с использованием окна контекста (context-window 16k) размером 16K и дополнительной задачей на заполнение пробелов (masking). В результате получились базовые модели (DeepSeek-Coder-Base).
Затем авторы дополнительно зафайнтюнили базовую модель с 2B токенов инструкций, получив модель DeepSeek-Coder-Instruct для выполнения инструкций.
- Базовая модель предварительно обучена на 2 триллионах токенов более чем на 80 языках программирования (Python, Java, PHP, Bash, C#, TS, Cpp, JS и др.).
- Различные размеры моделей (1.3B, 5.7B, 6.7B и 33B) для разных задач.
- Размер окна 16K, поддерживающий дополнение и автозаполнение кода на уровне (всего) проекта.
- State-of-the-Art среди открытых моделей кода.
- Открытый исходный код и бесплатное использование в исследовательских и коммерческих целях.
Авторы погоняли DeepSeek Coder на различных эталонных тестах, связанных с программированием. Результат инференса DeepSeek-Coder-Base-33B значительно превосходит существующие открытые исходные коды LLM.
По сравнению с CodeLLama-34B, он опережает на 7.9%, 9.3%, 10.8% и 5.9% соответственно на HumanEval Python, HumanEval Multilingual, MBPP и DS-1000. Удивительно, но наша модель DeepSeek-Coder-Base-7B достигает производительности CodeLlama-34B. И модель DeepSeek-Coder-Instruct-33B после настройки инструкций превосходит GPT-3.5-turbo на HumanEval и достигает сопоставимого результата с GPT-3.5-turbo на MBPP.
DeepSeek Coder, Code Writing, Code Language Model, Code Completion, Code Infilling, 2 Trillion Tokens, Programming Languages, DeepSeek-Coder-Base, DeepSeek-Coder-Instruct, Open Source Code Model, Code Optimization, YouTube SEO, Coding Tools, Efficient Coding Hashtags: #DeepSeekCoder #CodeWriting #CodingRevolution #Programming #CodeCompletion #EfficientCoding #OpenSource #YouTubeSEO #CodingTools