January 30

Мануал по запуску полной модели DeepSeek-R1 локально (бюджете ~6k$)

Адаптрированный перевод треда с Икса

Описание модели DeepSeek-R1 и её возможностей

DeepSeek-R1 — это модель первого поколения, созданная для решения сложных задач, требующих логического рассуждения. Она была разработана в двух версиях: DeepSeek-R1-Zero и DeepSeek-R1. Обе модели демонстрируют выдающиеся результаты в задачах математики, программирования и рассуждения, а также открывают новые горизонты в применении моделей искусственного интеллекта.

Особенности DeepSeek-R1-Zero

DeepSeek-R1-Zero была обучена с использованием крупномасштабного обучения с подкреплением (RL), без предварительного этапа обучения с учителем (SFT). Это позволило модели проявить множество интересных и мощных способностей к рассуждению. Однако подход RL выявил несколько проблем:

  • Модель склонна к бесконечному повторению фраз.
  • Читаемость генерируемого текста оставляет желать лучшего.
  • Возможна смешанность языков в одном ответе.

Особенности DeepSeek-R1

Чтобы устранить недостатки DeepSeek-R1-Zero, в DeepSeek-R1 был добавлен этап обучения на так называемых "cold-start" данных перед RL. Это позволило:

  • Значительно улучшить качество текстов, их читаемость и точность.
  • Повысить эффективность модели в задачах рассуждения, программирования и математики.
  • Достичь уровня производительности, сопоставимого с OpenAI-o1.

Доступность и дистилляция

Для поддержки исследовательского сообщества были выпущены открытые версии DeepSeek-R1 и DeepSeek-R1-Zero. Также доступны шесть дистиллированных версий, созданных на базе моделей Llama и Qwen. Одна из самых эффективных дистиллированных моделей, DeepSeek-R1-Distill-Qwen-32B, превосходит OpenAI-o1-mini на различных бенчмарках и устанавливает новые стандарты качества для плотных моделей.


Отличия локального и серверного запуска

Локальный запуск

Локальный запуск модели происходит непосредственно на вашем оборудовании (сервере или рабочей станции). Это предполагает:

  • Полный контроль над моделью: все данные и вычисления остаются локально, без необходимости подключаться к интернету.
  • Высокая приватность: модель гарантирует, что никакие данные, вводимые пользователем, не передаются сторонним сервисам.
  • Безопасность: отсутствие подключения к внешним серверам исключает риск утечки данных.
  • Аппаратные требования: для запуска DeepSeek-R1 локально потребуется мощное оборудование (например, 768 ГБ оперативной памяти для Q8 квантизации). Это делает локальный запуск более затратным в плане ресурсов.

Серверный запуск

Серверный запуск подразумевает размещение модели в облаке или на удалённом сервере. Особенности:

  • Доступность: модель может быть запущена в облаке и доступна из любого места при наличии подключения к интернету.
  • Меньшие локальные требования: пользователь может использовать даже слабое устройство, так как вычисления выполняются на сервере.
  • Риск утечки данных: в зависимости от используемого сервиса, данные могут быть переданы сторонним провайдерам, что снижает уровень приватности.
  • Масштабируемость: позволяет обслуживать большое количество запросов одновременно.

Возможности DeepSeek-R1

DeepSeek-R1 обладает широким спектром способностей, что делает её одной из самых универсальных моделей для задач логического рассуждения:

  1. Математика и кодирование:
    DeepSeek-R1 демонстрирует выдающиеся результаты в решении сложных математических задач и написании программного кода.
  2. Логическое рассуждение:
    Модель способна анализировать сложные запросы, предлагать решения и объяснять свои ответы.
  3. Работа с длинным контекстом:
    Благодаря поддержке длинного контекста (до 100,000 токенов при хорошем аппаратном обеспечении), модель может работать с большими объёмами данных.
  4. Гибкость:
    Возможность использовать модель как локально, так и на сервере даёт пользователям свободу выбора в зависимости от их потребностей.
  5. Открытый доступ:
    Открытый исходный код позволяет исследователям и разработчикам модифицировать модель и адаптировать её под свои нужды.

Приватность и безопасность

Приватность

Использование DeepSeek-R1 локально гарантирует максимальную приватность данных. Все вводимые данные (вопросы, документы и т.д.) обрабатываются исключительно на вашем устройстве, без передачи в сторонние облачные сервисы. Это особенно важно для:

  • Чувствительных данных (коммерческая информация, персональные данные).
  • Организаций с высокими стандартами безопасности.

Безопасность

  • Открытый исходный код: весь код модели доступен для анализа, что даёт возможность убедиться в отсутствии вредоносного кода или скрытых функций.
  • Защита от утечек: при локальном запуске модель работает в изолированной среде, что исключает риск утечки данных в интернет.
  • Гибкость настройки: вы можете отключить интернет-соединение на устройстве для ещё большей защиты.

В этом мануале описано, как настроить локальный запуск модели DeepSeek-R1 Q8, сохраняя максимальное качество и производительность без дистилляции или уменьшенной квантизации. Общая стоимость сборки составит около $6,000, и ниже приведены все необходимые ссылки на компоненты и инструкции.


Требования к оборудованию

Для запуска DeepSeek-R1 (размер модели — 650 ГБ) с Q8 квантизацией система должна быть ориентирована на объем памяти, пропускную способность и возможности процессора. Вот подробный список:


1. Материнская плата

  • Модель: Gigabyte MZ73-LM0 или MZ73-LM1
  • Причина: Эти материнские платы поддерживают два сокета AMD EPYC, что позволяет использовать 24 канала DDR5 памяти, максимально увеличивая объем и пропускную способность.

🔗 Материнская плата Gigabyte MZ73-LM0 или MZ73-LM1


2. Процессоры (CPU)

AMD EPYC 5th Gen 9005 Series (Sixteen-Core) 16 Core - Model 9115 AMD - EPYC - Processor / Number: 9115 - Processor / Clock Speed: 2.6 - Total Threads: 32 - Socket SP5 - L3 Cache - 64MB Memory - OEM

  • Модель: 2x AMD EPYC 9004 или 9005 (например, EPYC 9115 или 9015 для экономии).
  • Почему: Инференс больших языковых моделей (LLM) ограничен пропускной способностью памяти, а не мощностью процессора. Бюджетные модели, такие как 9115 или 9015, вполне подходят для этой задачи.

🔗 AMD EPYC 9115 CPU


3. Оперативная память (RAM)

  • Требование: Всего 768 ГБ через 24 канала DDR5 RDIMM.
  • Конфигурация: Используйте 24 модуля по 32 ГБ DDR5 RDIMM для максимальной пропускной способности памяти.
  • Примеры:

4. Корпус

  • Модель: Enthoo Pro 2 Server Edition (или аналогичный).
  • Почему: Убедитесь, что корпус совместим с серверными материнскими платами и предоставляет достаточно места для охлаждения.

🔗 Корпус Phanteks Enthoo Pro 2 Server Edition


5. Блок питания (PSU)

  • Модель: Corsair HX1000i (1000Вт, полностью модульный).
  • Почему: Этот блок питания обеспечивает достаточную мощность для двух процессоров и включает все необходимые кабели питания.

🔗 Corsair HX1000i PSU


6. Система охлаждения

  • Модель: Совместимый с сокетом SP5 кулер для AMD EPYC.
  • Рекомендация:
  • Дополнительные вентиляторы: Замените вентиляторы кулера на Noctua NF-A12x25 PWM для более тихой работы.

🔗 Noctua NF-A12x25 PWM Fans


7. SSD

  • Требование: 1 ТБ (или больше) NVMe SSD.
  • Почему: Быстрые накопители необходимы для загрузки 700 ГБ весов модели в оперативную память.

🔗 Примеры SSD


Настройка программного обеспечения

После сборки оборудования нужно настроить программное обеспечение для локального запуска DeepSeek-R1 Q8.


1. Установка llama.cpp

llama.cpp — это фреймворк для инференса LLM, таких как DeepSeek-R1, локально.

  • Инструкция:
    Следуйте руководству в репозитории GitHub.
    🔗 llama.cpp GitHub

2. Скачивание модели DeepSeek-R1

  • Размер модели: 650 ГБ (Q8 квантизация).
  • Источник: Hugging Face.
  • Скачивание:
    Скачайте все файлы из папки Q8_0.
    🔗 DeepSeek-R1 GGUF Model Files

3. Запуск модели

Используйте следующую команду для тестирования:

llama-cli -m ./DeepSeek-R1.Q8_0-00001-of-00015.gguf --temp 0.6 -no-cnv -c 16384 -p "<|User|>How many Rs are there in strawberry?<|Assistant|>"
  • Ожидаемый результат: Ответ модели в режиме реального времени, демонстрирующий её возможности.

Производительность и улучшения

Производительность

  • Скорость генерации: 6-8 токенов в секунду в зависимости от процессора и скорости памяти.
  • Длина контекста: При 768 ГБ ОЗУ можно достичь 100,000 токенов длины контекста.

Использование GPU (опционально)

  • Для ускорения генерации можно использовать GPU. Однако:
    • Q8 квантизация: Требуется 700 ГБ видеопамяти, что стоит ~$100,000.
    • Частичная загрузка: Можно загрузить часть модели (например, 300 ГБ) на GPU для небольшого ускорения.

Итоговая стоимость


itog

С этой сборкой вы сможете запускать DeepSeek-R1 Q8 локально, достигая передовой производительности LLM без использования внешних серверов или GPU. Система оптимизирована для пропускной способности памяти и объёма, что гарантирует плавную и эффективную работу даже с самыми крупными моделями.