January 30

Часто задаваемые вопросы о DeepSeek

вольный перевод статьи: https://stratechery.com/2025/deepseek-faq/

Понедельник, 27 января 2025 года

Послушать подкаст

Я написал о R1.Я беру на себя ответственность. Я придерживаюсь мнения, изложенного в посте, включая два главных вывода, которые я выделил (возникновение цепочки рассуждений посредством чистого обучения с подкреплением и мощь дистилляции), и я упомянул низкую стоимость (которую я подробно рассмотрел в Sharp Tech) и последствия запрета на чипы, но эти наблюдения были слишком привязаны к текущему уровню развития ИИ. Чего я совершенно не предвидел, так это более широких последствий этой новости для общей метадискуссии, особенно в контексте США и Китая.

Вопрос: Есть ли прецеденты для подобной ошибки?

Ответ: Есть. В сентябре 2023 года Huawei анонсировала Mate 60 Pro с 7-нм чипом, изготовленным SMIC. Существование этого чипа не стало неожиданностью для тех, кто внимательно следил за ситуацией: SMIC выпустила 7-нм чип годом ранее (о существовании которого я упоминал ещё раньше), а TSMC серийно выпускала 7-нм чипы, используя только литографию DUV (позже 7-нм версии стали первыми, где использовалась EUV). Intel также производила 10-нм (эквивалент 7-нм TSMC) чипы годами ранее, используя только DUV, но не могла добиться выгодного выхода; идея о том, что SMIC может выпускать 7-нм чипы, используя имеющееся оборудование, особенно если их не волнует выход продукции, не была чем-то удивительным — по крайней мере, для меня.

Чего я совершенно не предвидел, так это чрезмерной реакции в Вашингтоне. Резкое расширение запрета на чипы, которое вылилось в преобразование администрацией Байдена продаж чипов в систему, основанную на разрешениях, стало следствием непонимания людьми тонкостей производства чипов и полной неожиданности от Huawei Mate 60 Pro. У меня такое ощущение, что нечто подобное произошло за последние 72 часа: детали того, чего DeepSeek достигла — и чего не достигла — менее важны, чем реакция и то, что эта реакция говорит о предшествующих предположениях людей.

Вопрос: Так что же объявила DeepSeek?

Ответ: Самым близким к выходным событиям анонсом был R1 — модель рассуждения, аналогичная o1 от OpenAI. Однако многие откровения, которые способствовали кризису — включая затраты на обучение DeepSeek — на самом деле сопровождали анонс V3 на Рождество. Более того, многие прорывы, которые легли в основу V3, были фактически раскрыты с выпуском модели V2 в прошлом январе.

Вопрос: Является ли эта система именования моделей самым большим преступлением, которое совершила OpenAI?

Ответ: Вторым по величине; мы дойдём до самого большого через минуту.

Вопрос: Давайте поработаем в обратном порядке: что представляла собой модель V2 и почему она была важна?

Ответ: Модель DeepSeek-V2 представила два важных прорыва: DeepSeekMoE и DeepSeekMLA. "MoE" в DeepSeekMoE означает "смесь экспертов". DeepSeekMoE внесла важные инновации, включая дифференциацию между специализированными и общими экспертами, и новые подходы к балансировке нагрузки и маршрутизации во время обучения. DeepSeekMLA, или многоголовое латентное внимание, позволяет сжимать хранилище ключей-значений, значительно уменьшая использование памяти во время вывода.

Вопрос: Я не уверен, что понял что-либо из этого.

Ответ: Ключевые последствия этих прорывов стали очевидны только с V3, которая добавила новый подход к балансировке нагрузки и многотокеновое предсказание во время обучения: V3 было удивительно дешево в обучении. DeepSeek заявила, что обучение модели заняло 2 788 тысяч GPU-часов H800, что по цене 2 доллара за GPU-час составляет всего 5,576 миллиона долларов.

Вопрос: Это кажется невероятно низким.

Ответ: DeepSeek ясно дает понять, что эти затраты относятся только к финальному этапу обучения и не включают все остальные расходы. Из статьи о V3: (здесь следует цитата из статьи)

Так что нет, вы не сможете воспроизвести компанию DeepSeek за 5 576 000 долларов.

Вопрос: Я всё ещё не верю этой цифре.

Ответ: Бремя доказывания лежит на сомневающихся. V3 имеет 671 миллиард параметров, но только 37 миллиардов параметров активного эксперта вычисляются за один токен. DeepSeek также использовала FP8 для вычислений. 2048 GPU H800 имеют производительность 3,97 эксафлопс. Набор данных для обучения состоял из 14,8 триллионов токенов. После всех вычислений становится очевидно, что 2,8 миллиона часов H800 достаточно для обучения V3. Это был только финальный запуск, а не общая стоимость, но это правдоподобная цифра.

Вопрос: Генеральный директор Scale AI Александр Ванг сказал, что у них 50 000 H100.

Ответ: Я не знаю, откуда Ванг взял свою информацию. H800 имеют более ограниченную пропускную способность памяти, чем H100, из-за санкций США. DeepSeek запрограммировала 20 из 132 вычислительных блоков на каждом H800 специально для управления межчиповым взаимодействием. Этого невозможно сделать в CUDA.

Вопрос: Так это было нарушением запрета на чипы?

Ответ: Нет. H100 были запрещены, но не H800. DeepSeek оптимизировала архитектуру модели и инфраструктуру для работы с ограниченной пропускной способностью H800.

Вопрос: Так V3 — это передовая модель?

Ответ: Она определённо конкурирует с 4o от OpenAI и Sonnet-3.5 от Anthropic, и, по-видимому, лучше, чем самая большая модель Llama. DeepSeek, вероятно, использовала дистилляцию для обучения V3.

Вопрос: Что такое дистилляция?

Ответ: Дистилляция — это способ извлечения знаний из другой модели. Это позволяет получать модели, подобные GPT-4 Turbo, из GPT-4. Дистилляция, вероятно, широко распространена в обучении моделей, и является причиной того, что всё больше моделей сходятся по качеству к GPT-4o.

Вопрос: Дистилляция кажется ужасной для передовых моделей.

Ответ: Это так! С одной стороны, OpenAI, Anthropic и Google почти наверняка используют дистилляцию для оптимизации моделей, используемых для вывода в своих приложениях для потребителей; с другой стороны, они фактически несут все расходы на обучение передовых моделей, в то время как все остальные пользуются их инвестициями. Это, вероятно, основной экономический фактор, лежащий в основе медленного развода Microsoft и OpenAI.

Вопрос: Почему снизились цены акций всех крупных технологических компаний?

Ответ: В долгосрочной перспективе, коммодитизация моделей и более дешевый вывод — что также продемонстрировала DeepSeek — это хорошо для крупных технологических компаний. Apple, Meta и Amazon — большие победители. Google, вероятно, в худшем положении. Сегодня — это краткосрочная перспектива, и, похоже, рынок переживает шок от существования R1.

Вопрос: Подождите, вы ещё даже не говорили о R1.

Ответ: R1 — это модель рассуждения, подобная o1 от OpenAI. Она способна мыслить, решая задачи.

Вопрос: Это впечатляет больше, чем V3?

Ответ: Причина, по которой я потратил столько времени на V3, заключается в том, что именно эта модель продемонстрировала многие динамики, которые вызывают столько удивления и споров. R1 примечательна тем, что o1 была единственной моделью рассуждения на рынке, и самым явным признаком того, что OpenAI была лидером рынка. R1 опровергает миф об o1.

Вопрос: Как DeepSeek создала R1?

Ответ: DeepSeek фактически создала две модели: R1 и R1-Zero. Из статьи: (здесь следует цитата из статьи). R1-Zero использует чистое обучение с подкреплением (RL), без данных с человеческим надзором. R1 использует небольшое количество данных и многоэтапный конвейер обучения.

Вопрос: Так мы близки к ОИИ?

Ответ: Кажется, что да. Это также объясняет, почему Softbank предоставила OpenAI финансирование, которое не предоставила Microsoft.

Вопрос: Но разве R1 сейчас не впереди?

Ответ: Не думаю. R1 конкурирует с o1, хотя в её возможностях есть некоторые пробелы. OpenAI, тем временем, продемонстрировала o3, гораздо более мощную модель рассуждения. DeepSeek — безусловный лидер по эффективности, но это не то же самое, что быть лидером в целом.

Вопрос: Так почему все в панике?

Ответ: Думаю, есть несколько факторов. Во-первых, шок от того, что Китай догнал ведущие американские лаборатории, несмотря на распространённое предположение, что Китай не так хорош в программном обеспечении, как США. Во-вторых, низкая стоимость обучения V3 и низкие затраты на вывод DeepSeek. В-третьих, тот факт, что DeepSeek добилась этого, несмотря на запрет на чипы.

Вопрос: Я владею акциями Nvidia! Я в беде?

Ответ: Существуют реальные проблемы, которые эта новость создаёт для Nvidia. Nvidia имеет два больших преимущества: CUDA и способность объединять множество чипов в один большой виртуальный GPU. DeepSeek продемонстрировала, что есть другой путь: сильная оптимизация может дать замечательные результаты на более слабом оборудовании; просто платить Nvidia больше — не единственный способ создавать лучшие модели.

Однако есть три фактора в пользу Nvidia. Во-первых, насколько эффективен подход DeepSeek при применении к H100 или будущим GB100? Во-вторых, более низкие затраты на вывод должны, в долгосрочной перспективе, привести к увеличению использования. В-третьих, модели рассуждения, такие как R1 и o1, получают свою превосходную производительность за счёт использования большего количества вычислительных мощностей.

Тем не менее, не всё так радужно. Как минимум, эффективность и широкая доступность DeepSeek ставят под сомнение самый оптимистичный сценарий роста Nvidia, по крайней мере, в ближайшей перспективе.

Вопрос: Так что насчёт запрета на чипы?

Ответ: Самый простой аргумент — это то, что важность запрета на чипы только усилилась, учитывая быстро исчезающее лидерство США в программном обеспечении. Программное обеспечение и ноу-хау нельзя запретить, но чипы — это физические объекты, и США имеют право держать их подальше от Китая. В то же время, следует с некоторой скромностью признать, что более ранние итерации запрета на чипы, по-видимому, напрямую привели к инновациям DeepSeek. Эти инновации распространялись бы не только на контрабандные чипы Nvidia или урезанные, такие как H800, но и на чипы Ascend от Huawei. Можно утверждать, что основным результатом запрета на чипы является сегодняшнее падение цены акций Nvidia.

Меня беспокоит менталитет, лежащий в основе такого запрета: вместо конкуренции за счёт инноваций в будущем США конкурируют за счёт отказа от инноваций в прошлом. Да, это может помочь в краткосрочной перспективе, но в долгосрочной перспективе это просто сеет семена конкуренции в отрасли — чипов и полупроводникового оборудования — где США занимают доминирующее положение.

Вопрос: Как модели ИИ?

Ответ: Модели ИИ — прекрасный пример. Я упомянул выше, что дойду до величайшего преступления OpenAI, которое я считаю Исполнительным указом Байдена 2023 года об ИИ. В статье "Снижение инноваций" я написал: (здесь следует цитата из статьи). Этот абзац был об OpenAI и более широком сообществе ИИ в Сан-Франциско. OpenAI стала закрытой в 2019 году с выпуском GPT-2: (здесь следует цитата из статьи). Дерзость этого заявления превосходит только его бесплодность: вот мы спустя шесть лет, и весь мир имеет доступ к весам значительно превосходящей модели. Маневр OpenAI по контролю — поддержанный правительством США — полностью провалился. Между тем, сколько инноваций было упущено из-за того, что передовые модели не имели открытых весов? В более общем плане, сколько времени и энергии было потрачено на лоббирование правительственно обеспеченного рва, который DeepSeek только что уничтожила, и которое было бы лучше потрачено на реальные инновации?

Вопрос: Так вы не беспокоитесь о сценариях гибели ИИ?

Ответ: Я определённо понимаю беспокойство и только что отметил выше, что мы достигаем стадии, когда ИИ обучают ИИ, и они сами учатся рассуждать. Я признаю, однако, что остановить этот поезд невозможно. Более того, именно поэтому открытость так важна: нам нужно больше ИИ в мире, а не неподконтрольный совет, управляющий всеми нами.

Вопрос: Подождите, почему Китай открывает исходный код своей модели?

Ответ: DeepSeek, если быть точным; генеральный директор Лян Вэньфэн сказал в обязательном к прочтению интервью, что открытый исходный код является ключом к привлечению талантов: (здесь следует цитата из интервью).

Вопрос: Так OpenAI в беде?

Ответ: Не обязательно. ChatGPT сделала OpenAI случайной компанией потребительских технологий, то есть продуктовой компанией; есть путь к созданию устойчивого потребительского бизнеса на основе товарных моделей с помощью некоторой комбинации подписок и рекламы. И, конечно же, есть ставка на победу в гонке к взлёту ИИ. Anthropic, с другой стороны, вероятно, является самым большим проигравшим этих выходных.

Вопрос: Так всё это довольно удручающе, да?

Ответ: На самом деле, нет. Я думаю, что DeepSeek сделала огромный подарок почти всем. Крупнейшими победителями являются потребители и предприятия, которые могут ожидать будущего с практически беспла

тными продуктами и услугами на основе ИИ. Парадокс Джевонса будет доминировать в долгосрочной перспективе, и все, кто использует ИИ, будут крупнейшими победителями.

Ещё одна группа победителей — крупные компании, занимающиеся потребительскими технологиями. Мир бесплатного ИИ — это мир, где больше всего важны продукт и дистрибуция, а эти компании уже выиграли эту игру; «Конец начала» был прав.

Китай также является большим победителем, и я подозреваю, что это станет очевидным со временем. Страна не только имеет доступ к DeepSeek, но я подозреваю, что относительный успех DeepSeek по сравнению с ведущими американскими лабораториями ИИ приведёт к дальнейшему развитию китайских инноваций, поскольку они поймут, что могут конкурировать.

Это оставляет Америку и выбор, который нам предстоит сделать. Мы могли бы, по очень логичным причинам, удвоить оборонительные меры, например, значительно расширив запрет на чипы и введя разрешительный режим регулирования чипов и полупроводникового оборудования, аналогичный подходу ЕС к технологиям; в качестве альтернативы, мы могли бы понять, что у нас есть реальная конкуренция, и действительно дать себе разрешение конкурировать. Прекратить заламывать руки, прекратить кампании за регулирование — на самом деле, пойти в другую сторону и вырезать весь хлам в наших компаниях, который не имеет ничего общего с победой. Если мы выберем конкуренцию, мы всё ещё можем победить, и, если мы это сделаем, нам будет за что поблагодарить китайскую компанию.

Вопрос: Так что насчёт OpenAI?

Ответ: Не обязательно. ChatGPT сделала OpenAI случайной компанией потребительских технологий, то есть продуктовой компанией; есть путь к созданию устойчивого потребительского бизнеса на основе товарных моделей с помощью некоторой комбинации подписок и рекламы. И, конечно же, есть ставка на победу в гонке к взлёту ИИ. Anthropic, с другой стороны, вероятно, является самым большим проигравшим этих выходных. DeepSeek заняла первое место в App Store, просто подчеркивая, как Claude, напротив, не получил никакого распространения за пределами Сан-Франциско. Бизнес API работает лучше, но бизнес API в целом наиболее подвержен тенденциям коммодитизации, которые кажутся неизбежными (и обратите внимание, что затраты на вывод OpenAI и Anthropic выглядят намного выше, чем у DeepSeek, потому что они захватывали большую часть маржи; это исчезает).

Вопрос: Так что это всё довольно удручающе, да?

Ответ: На самом деле, нет. Я думаю, что DeepSeek сделала огромный подарок почти всем. Крупнейшими победителями являются потребители и предприятия, которые могут ожидать будущего с практически бесплатными продуктами и услугами на основе ИИ. Парадокс Джевонса будет доминировать в долгосрочной перспективе, и все, кто использует ИИ, будут крупнейшими победителями.

Ещё одна группа победителей — крупные компании, занимающиеся потребительскими технологиями. Мир бесплатного ИИ — это мир, где больше всего важны продукт и дистрибуция, а эти компании уже выиграли эту игру; «Конец начала» был прав.

Китай также является большим победителем, и я подозреваю, что это станет очевидным со временем. Страна не только имеет доступ к DeepSeek, но я подозреваю, что относительный успех DeepSeek по сравнению с ведущими американскими лабораториями ИИ приведёт к дальнейшему развитию китайских инноваций, поскольку они поймут, что могут конкурировать.

Это оставляет Америку и выбор, который нам предстоит сделать. Мы могли бы, по очень логичным причинам, удвоить оборонительные меры, например, значительно расширив запрет на чипы и введя разрешительный режим регулирования чипов и полупроводникового оборудования, аналогичный подходу ЕС к технологиям; в качестве альтернативы, мы могли бы понять, что у нас есть реальная конкуренция, и действительно дать себе разрешение конкурировать. Прекратить заламывать руки, прекратить кампании за регулирование — на самом деле, пойти в другую сторону и вырезать весь хлам в наших компаниях, который не имеет ничего общего с победой. Если мы выберем конкуренцию, мы всё ещё можем победить, и, если мы это сделаем, нам будет за что поблагодарить китайскую компанию.