DeepSeek R1: Китайский прорыв в области рассуждений ИИ
В октябре 2024 года китайская лаборатория искусственного интеллекта DeepSeek совершила значительный прорыв, выпустив открытую модель DeepSeek-R1, которая демонстрирует впечатляющие результаты, сравнимые с OpenAI o1, при этом оставаясь значительно доступнее.
https://huggingface.co/deepseek-ai/DeepSeek-R1
https://github.com/deepseek-ai/DeepSeek-R1/
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
Демократизация ИИ через дистилляцию
DeepSeek выпустил линейку дистиллированных моделей различных размеров:
- DeepSeek-R1-Distill-Qwen-1.5B
- DeepSeek-R1-Distill-Qwen-7B
- DeepSeek-R1-Distill-Llama-8B
- DeepSeek-R1-Distill-Qwen-14B
- DeepSeek-R1-Distill-Qwen-32B
- DeepSeek-R1-Distill-Llama-70B
Qwen 1.5B (https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B)
Qwen 7B (https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B)
Llama 8B (https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-8B)
Qwen 14B (https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-14B)
Qwen 32B (https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B)
Llama 70B (https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-70B)
* Даже самая маленькая 1.5B версия "превосходит" GPT-4o и Claude-3.5-Sonnet в некоторых математических тестах.
Инновационный подход к обучению
DeepSeek-R1 была разработана с использованием двухэтапного подхода:
- DeepSeek-R1-Zero - модель, обученная исключительно через reinforcement learning (RL) без предварительной supervised fine-tuning (SFT). Этот подход позволил модели самостоятельно развить способности к рассуждению.
- DeepSeek-R1 - финальная версия, включающая предварительные данные перед RL-обучением для устранения проблем с повторами и читаемостью.
Технические характеристики
- Базовая архитектура: DeepSeek V3
- Общее количество параметров: 671 миллиард
- Активных параметров: 37 миллиардов
- Контекстное окно: 128K токенов
Доступность и практическое применение
- Веб-интерфейс: chat.deepseek.com (50 бесплатных сообщений в день)
- API: В 30 раз дешевле o1, в 6 раз дешевле o1 mini
- Открытый код: Доступен на GitHub
- Лицензия: MIT, разрешено коммерческое использование
Производительность
DeepSeek-R1 показывает впечатляющие результаты в различных тестах:
- MMLU (Pass@1): 90.8%
- MATH-500 (Pass@1): 97.3%
- CodeForces Rating: 2029
- LiveCodeBench (Pass@1-COT): 65.9%
Инновационный процесс обучения DeepSeek-R1
Этап 1: DeepSeek-R1-Zero
Первая версия модели была обучена исключительно через reinforcement learning без предварительной настройки (SFT). Ключевые особенности:
- Использование GRPO (Group Relative Policy Optimization) вместо стандартного critic model
- Система наград основана на двух компонентах:
- В процессе обучения модель самостоятельно развила способность к:
Этап 2: DeepSeek-R1
Финальная версия включает 4 стадии обучения:
- Использование небольшого набора данных с длинными цепочками рассуждений
- Фокус на читабельности и структурированности ответов
- Формат: |special_token|<reasoning_process>|special_token|<summary>
- Усиление способностей к рассуждению через RL
- Добавление reward за языковую консистентность
- Фокус на задачах программирования, математики и логики
- Сбор 600k примеров рассуждений через rejection sampling
- Добавление 200k примеров для общих задач
- Две эпохи fine-tuning на общем датасете в 800k примеров
- Улучшение helpfulness и безопасности
- Сохранение способностей к рассуждению
- Использование комбинации reward signals
Результаты бенчмарков
DeepSeek-R1 показывает впечатляющие результаты:
Процесс дистилляции
Команда успешно передала способности большой модели меньшим версиям через процесс дистилляции:
- Использование 800k обучающих примеров из DeepSeek-R1
- Fine-tuning открытых моделей Qwen и Llama
- Фокус только на SFT без дополнительного RL
- Достижение впечатляющих результатов даже на малых моделях:
Это демонстрирует, что качественные способности к рассуждению могут быть эффективно переданы более компактным моделям через процесс дистилляции.
Значение для индустрии
Выпуск DeepSeek-R1 демонстрирует, что качественные модели рассуждений могут быть созданы и распространены открыто, делая передовые AI технологии доступными для широкого круга разработчиков и исследователей. Это может существенно ускорить развитие области AI и демократизировать доступ к продвинутым возможностям машинного обучения.
Модель представляет собой важный шаг в направлении создания более доступных и эффективных систем искусственного интеллекта, способных к сложным рассуждениям и решению комплексных задач.