Мануал по запуску полной модели DeepSeek-R1 локально (бюджете ~6k$)
Адаптрированный перевод треда с Икса
Описание модели DeepSeek-R1 и её возможностей
DeepSeek-R1 — это модель первого поколения, созданная для решения сложных задач, требующих логического рассуждения. Она была разработана в двух версиях: DeepSeek-R1-Zero и DeepSeek-R1. Обе модели демонстрируют выдающиеся результаты в задачах математики, программирования и рассуждения, а также открывают новые горизонты в применении моделей искусственного интеллекта.
Особенности DeepSeek-R1-Zero
DeepSeek-R1-Zero была обучена с использованием крупномасштабного обучения с подкреплением (RL), без предварительного этапа обучения с учителем (SFT). Это позволило модели проявить множество интересных и мощных способностей к рассуждению. Однако подход RL выявил несколько проблем:
- Модель склонна к бесконечному повторению фраз.
- Читаемость генерируемого текста оставляет желать лучшего.
- Возможна смешанность языков в одном ответе.
Особенности DeepSeek-R1
Чтобы устранить недостатки DeepSeek-R1-Zero, в DeepSeek-R1 был добавлен этап обучения на так называемых "cold-start" данных перед RL. Это позволило:
- Значительно улучшить качество текстов, их читаемость и точность.
- Повысить эффективность модели в задачах рассуждения, программирования и математики.
- Достичь уровня производительности, сопоставимого с OpenAI-o1.
Доступность и дистилляция
Для поддержки исследовательского сообщества были выпущены открытые версии DeepSeek-R1 и DeepSeek-R1-Zero. Также доступны шесть дистиллированных версий, созданных на базе моделей Llama и Qwen. Одна из самых эффективных дистиллированных моделей, DeepSeek-R1-Distill-Qwen-32B, превосходит OpenAI-o1-mini на различных бенчмарках и устанавливает новые стандарты качества для плотных моделей.
Отличия локального и серверного запуска
Локальный запуск
Локальный запуск модели происходит непосредственно на вашем оборудовании (сервере или рабочей станции). Это предполагает:
- Полный контроль над моделью: все данные и вычисления остаются локально, без необходимости подключаться к интернету.
- Высокая приватность: модель гарантирует, что никакие данные, вводимые пользователем, не передаются сторонним сервисам.
- Безопасность: отсутствие подключения к внешним серверам исключает риск утечки данных.
- Аппаратные требования: для запуска DeepSeek-R1 локально потребуется мощное оборудование (например, 768 ГБ оперативной памяти для Q8 квантизации). Это делает локальный запуск более затратным в плане ресурсов.
Серверный запуск
Серверный запуск подразумевает размещение модели в облаке или на удалённом сервере. Особенности:
- Доступность: модель может быть запущена в облаке и доступна из любого места при наличии подключения к интернету.
- Меньшие локальные требования: пользователь может использовать даже слабое устройство, так как вычисления выполняются на сервере.
- Риск утечки данных: в зависимости от используемого сервиса, данные могут быть переданы сторонним провайдерам, что снижает уровень приватности.
- Масштабируемость: позволяет обслуживать большое количество запросов одновременно.
Возможности DeepSeek-R1
DeepSeek-R1 обладает широким спектром способностей, что делает её одной из самых универсальных моделей для задач логического рассуждения:
- Математика и кодирование:
DeepSeek-R1 демонстрирует выдающиеся результаты в решении сложных математических задач и написании программного кода. - Логическое рассуждение:
Модель способна анализировать сложные запросы, предлагать решения и объяснять свои ответы. - Работа с длинным контекстом:
Благодаря поддержке длинного контекста (до 100,000 токенов при хорошем аппаратном обеспечении), модель может работать с большими объёмами данных. - Гибкость:
Возможность использовать модель как локально, так и на сервере даёт пользователям свободу выбора в зависимости от их потребностей. - Открытый доступ:
Открытый исходный код позволяет исследователям и разработчикам модифицировать модель и адаптировать её под свои нужды.
Приватность и безопасность
Приватность
Использование DeepSeek-R1 локально гарантирует максимальную приватность данных. Все вводимые данные (вопросы, документы и т.д.) обрабатываются исключительно на вашем устройстве, без передачи в сторонние облачные сервисы. Это особенно важно для:
- Чувствительных данных (коммерческая информация, персональные данные).
- Организаций с высокими стандартами безопасности.
Безопасность
- Открытый исходный код: весь код модели доступен для анализа, что даёт возможность убедиться в отсутствии вредоносного кода или скрытых функций.
- Защита от утечек: при локальном запуске модель работает в изолированной среде, что исключает риск утечки данных в интернет.
- Гибкость настройки: вы можете отключить интернет-соединение на устройстве для ещё большей защиты.
В этом мануале описано, как настроить локальный запуск модели DeepSeek-R1 Q8, сохраняя максимальное качество и производительность без дистилляции или уменьшенной квантизации. Общая стоимость сборки составит около $6,000, и ниже приведены все необходимые ссылки на компоненты и инструкции.
Требования к оборудованию
Для запуска DeepSeek-R1 (размер модели — 650 ГБ) с Q8 квантизацией система должна быть ориентирована на объем памяти, пропускную способность и возможности процессора. Вот подробный список:
1. Материнская плата
- Модель: Gigabyte MZ73-LM0 или MZ73-LM1
- Причина: Эти материнские платы поддерживают два сокета AMD EPYC, что позволяет использовать 24 канала DDR5 памяти, максимально увеличивая объем и пропускную способность.
🔗 Материнская плата Gigabyte MZ73-LM0 или MZ73-LM1
2. Процессоры (CPU)
AMD EPYC 5th Gen 9005 Series (Sixteen-Core) 16 Core - Model 9115 AMD - EPYC - Processor / Number: 9115 - Processor / Clock Speed: 2.6 - Total Threads: 32 - Socket SP5 - L3 Cache - 64MB Memory - OEM
- Модель: 2x AMD EPYC 9004 или 9005 (например, EPYC 9115 или 9015 для экономии).
- Почему: Инференс больших языковых моделей (LLM) ограничен пропускной способностью памяти, а не мощностью процессора. Бюджетные модели, такие как 9115 или 9015, вполне подходят для этой задачи.
3. Оперативная память (RAM)
- Требование: Всего 768 ГБ через 24 канала DDR5 RDIMM.
- Конфигурация: Используйте 24 модуля по 32 ГБ DDR5 RDIMM для максимальной пропускной способности памяти.
- Примеры:
4. Корпус
- Модель: Enthoo Pro 2 Server Edition (или аналогичный).
- Почему: Убедитесь, что корпус совместим с серверными материнскими платами и предоставляет достаточно места для охлаждения.
🔗 Корпус Phanteks Enthoo Pro 2 Server Edition
5. Блок питания (PSU)
- Модель: Corsair HX1000i (1000Вт, полностью модульный).
- Почему: Этот блок питания обеспечивает достаточную мощность для двух процессоров и включает все необходимые кабели питания.
6. Система охлаждения
- Модель: Совместимый с сокетом SP5 кулер для AMD EPYC.
- Рекомендация:
- Дополнительные вентиляторы: Замените вентиляторы кулера на Noctua NF-A12x25 PWM для более тихой работы.
7. SSD
- Требование: 1 ТБ (или больше) NVMe SSD.
- Почему: Быстрые накопители необходимы для загрузки 700 ГБ весов модели в оперативную память.
Настройка программного обеспечения
После сборки оборудования нужно настроить программное обеспечение для локального запуска DeepSeek-R1 Q8.
1. Установка llama.cpp
llama.cpp — это фреймворк для инференса LLM, таких как DeepSeek-R1, локально.
- Инструкция:
Следуйте руководству в репозитории GitHub.
🔗 llama.cpp GitHub
2. Скачивание модели DeepSeek-R1
- Размер модели: 650 ГБ (Q8 квантизация).
- Источник: Hugging Face.
- Скачивание:
Скачайте все файлы из папки Q8_0.
🔗 DeepSeek-R1 GGUF Model Files
3. Запуск модели
Используйте следующую команду для тестирования:
llama-cli -m ./DeepSeek-R1.Q8_0-00001-of-00015.gguf --temp 0.6 -no-cnv -c 16384 -p "<|User|>How many Rs are there in strawberry?<|Assistant|>"
Производительность и улучшения
Производительность
- Скорость генерации: 6-8 токенов в секунду в зависимости от процессора и скорости памяти.
- Длина контекста: При 768 ГБ ОЗУ можно достичь 100,000 токенов длины контекста.
Использование GPU (опционально)
Итоговая стоимость
itog
С этой сборкой вы сможете запускать DeepSeek-R1 Q8 локально, достигая передовой производительности LLM без использования внешних серверов или GPU. Система оптимизирована для пропускной способности памяти и объёма, что гарантирует плавную и эффективную работу даже с самыми крупными моделями.