Today

DeepSeek R1: Китайский прорыв в области рассуждений ИИ

В октябре 2024 года китайская лаборатория искусственного интеллекта DeepSeek совершила значительный прорыв, выпустив открытую модель DeepSeek-R1, которая демонстрирует впечатляющие результаты, сравнимые с OpenAI o1, при этом оставаясь значительно доступнее.

Ссылки:

https://huggingface.co/deepseek-ai/DeepSeek-R1

https://github.com/deepseek-ai/DeepSeek-R1/

https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

https://chat.deepseek.com/

Демократизация ИИ через дистилляцию

DeepSeek выпустил линейку дистиллированных моделей различных размеров:

  • DeepSeek-R1-Distill-Qwen-1.5B
  • DeepSeek-R1-Distill-Qwen-7B
  • DeepSeek-R1-Distill-Llama-8B
  • DeepSeek-R1-Distill-Qwen-14B
  • DeepSeek-R1-Distill-Qwen-32B
  • DeepSeek-R1-Distill-Llama-70B

Qwen 1.5B (https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B)
Qwen 7B (https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B)
Llama 8B (https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-8B)
Qwen 14B (https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-14B)
Qwen 32B (https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B)
Llama 70B (https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-70B)

* Даже самая маленькая 1.5B версия "превосходит" GPT-4o и Claude-3.5-Sonnet в некоторых математических тестах.

Инновационный подход к обучению

DeepSeek-R1 была разработана с использованием двухэтапного подхода:

  1. DeepSeek-R1-Zero - модель, обученная исключительно через reinforcement learning (RL) без предварительной supervised fine-tuning (SFT). Этот подход позволил модели самостоятельно развить способности к рассуждению.
  2. DeepSeek-R1 - финальная версия, включающая предварительные данные перед RL-обучением для устранения проблем с повторами и читаемостью.

Технические характеристики

  • Базовая архитектура: DeepSeek V3
  • Общее количество параметров: 671 миллиард
  • Активных параметров: 37 миллиардов
  • Контекстное окно: 128K токенов

Доступность и практическое применение

  • Веб-интерфейс: chat.deepseek.com (50 бесплатных сообщений в день)
  • API: В 30 раз дешевле o1, в 6 раз дешевле o1 mini
  • Открытый код: Доступен на GitHub
  • Лицензия: MIT, разрешено коммерческое использование

Производительность

DeepSeek-R1 показывает впечатляющие результаты в различных тестах:

  • MMLU (Pass@1): 90.8%
  • MATH-500 (Pass@1): 97.3%
  • CodeForces Rating: 2029
  • LiveCodeBench (Pass@1-COT): 65.9%

Инновационный процесс обучения DeepSeek-R1

Этап 1: DeepSeek-R1-Zero

Первая версия модели была обучена исключительно через reinforcement learning без предварительной настройки (SFT). Ключевые особенности:

  • Использование GRPO (Group Relative Policy Optimization) вместо стандартного critic model
  • Система наград основана на двух компонентах:
    • Accuracy rewards: оценка корректности ответов
    • Format rewards: соблюдение формата рассуждений
  • В процессе обучения модель самостоятельно развила способность к:
    • Самопроверке
    • Рефлексии
    • Генерации длинных цепочек рассуждений

Этап 2: DeepSeek-R1

Финальная версия включает 4 стадии обучения:

  1. Cold Start:
  • Использование небольшого набора данных с длинными цепочками рассуждений
  • Фокус на читабельности и структурированности ответов
  • Формат: |special_token|<reasoning_process>|special_token|<summary>
  1. Reasoning-oriented RL:
  • Усиление способностей к рассуждению через RL
  • Добавление reward за языковую консистентность
  • Фокус на задачах программирования, математики и логики
  1. Rejection Sampling и SFT:
  • Сбор 600k примеров рассуждений через rejection sampling
  • Добавление 200k примеров для общих задач
  • Две эпохи fine-tuning на общем датасете в 800k примеров
  1. Final RL:
  • Улучшение helpfulness и безопасности
  • Сохранение способностей к рассуждению
  • Использование комбинации reward signals

Результаты бенчмарков

DeepSeek-R1 показывает впечатляющие результаты:

  • AIME 2024: 79.8% (выше o1-1217)
  • MATH-500: 97.3%
  • MMLU: 90.8%
  • CodeForces rating: 2029

Процесс дистилляции

Команда успешно передала способности большой модели меньшим версиям через процесс дистилляции:

  1. Использование 800k обучающих примеров из DeepSeek-R1
  2. Fine-tuning открытых моделей Qwen и Llama
  3. Фокус только на SFT без дополнительного RL
  4. Достижение впечатляющих результатов даже на малых моделях:
    • 1.5B версия превосходит GPT-4o на математических тестах
    • 14B версия превосходит QwQ-32B-Preview
    • 32B версия конкурирует с o1-mini

Это демонстрирует, что качественные способности к рассуждению могут быть эффективно переданы более компактным моделям через процесс дистилляции.

Значение для индустрии

Выпуск DeepSeek-R1 демонстрирует, что качественные модели рассуждений могут быть созданы и распространены открыто, делая передовые AI технологии доступными для широкого круга разработчиков и исследователей. Это может существенно ускорить развитие области AI и демократизировать доступ к продвинутым возможностям машинного обучения.

Модель представляет собой важный шаг в направлении создания более доступных и эффективных систем искусственного интеллекта, способных к сложным рассуждениям и решению комплексных задач.