Дарио Амодеи — О DeepSeek и экспортных ограничениях
вольный перевод статьи https://darioamodei.com/on-deepseek-and-export-controls
Несколько недель назад автор выступил за усиление экспортных ограничений США на поставки компьютерных чипов в Китай. С тех пор китайская компания DeepSeek, занимающаяся разработкой ИИ, смогла — по крайней мере в некоторых аспектах — приблизиться к производительности передовых американских моделей искусственного интеллекта, затратив на это существенно меньшие средства. Однако автор не сосредотачивается на том, представляет ли DeepSeek угрозу для американских компаний, таких как Anthropic. Автор считает, что многие заявления об угрозе лидерству США в области ИИ сильно преувеличены[1]. Вместо этого автор обсуждает, подрывают ли успехи DeepSeek обоснованность политики экспортного контроля на чипы. Автор считает, что нет, и более того, эти успехи делают экспортный контроль еще более важным, чем раньше[2].
Цель экспортных ограничений
Экспортные ограничения имеют жизненно важное значение: они помогают демократическим странам оставаться на передовой в развитии искусственного интеллекта. Это не способ уклониться от конкуренции с Китаем. В конце концов, американские компании должны создавать лучшие модели, чтобы оставаться лидерами. Однако нет смысла давать технологическое преимущество Китайской коммунистической партии, если этого можно избежать.
Три ключевые динамики развития ИИ
1. Законы масштабирования
Одной из центральных характеристик ИИ является то, что при увеличении ресурсов (например, вычислительной мощности) результаты улучшаются плавно и предсказуемо. Например, модель, стоимость обучения которой составляет $1 млн, может решать 20% задач по программированию, модель за $10 млн — 40%, а модель за $100 млн — уже 60%. Эти различия имеют колоссальное практическое значение. Еще во время работы в OpenAI автор и его сооснователи одними из первых задокументировали этот эффект. Так, если разница между качеством модели, обученной за $10 млн, и моделью за $100 млн эквивалентна разнице между уровнем знаний бакалавра и доктора наук, то компании стремятся вкладывать больше денег в обучение.
2. Сдвиг кривой
В области ИИ постоянно появляются новые идеи, которые делают обучение более эффективным. Это может быть улучшение архитектуры модели (например, модификация трансформеров, которые лежат в основе современных моделей) или оптимизация использования аппаратного обеспечения. Такие инновации сдвигают так называемую "кривую масштабирования". Например, если новая технология дает коэффициент эффективности 2x, то обучение модели за $5 млн будет давать тот же результат, что раньше стоил $10 млн. Однако вместо того чтобы экономить, компании начинают вкладывать больше, чтобы создавать еще более мощные модели. Таким образом, сдвиг кривой ускоряет развитие и увеличивает расходы. В 2020 году автор и его команда опубликовали статью, в которой оценили, что алгоритмический прогресс сдвигает кривую эффективности примерно на 1.68x в год. Сегодня этот показатель, по мнению автора, может быть ближе к 4x в год, учитывая также аппаратные улучшения[3].
3. Смена парадигмы
Иногда меняются базовые подходы к обучению моделей. Например, с 2020 по 2023 годы основное внимание уделялось обучению предварительно натренированных моделей на текстах из интернета. В 2024 году в центре внимания оказалось использование методов обучения с подкреплением (Reinforcement Learning, RL) для улучшения "цепочек рассуждений". Это позволило существенно повысить производительность моделей в таких задачах, как математика, программирование и логические рассуждения. Этот подход предполагает два этапа: сначала создается предварительно обученная модель, а затем к ней применяется обучение с подкреплением. Поскольку этот метод пока новый, он находится на ранней стадии масштабирования и дает существенные улучшения даже при небольших затратах.
Модели DeepSeek
Приведенные выше три динамики помогают понять последние достижения компании DeepSeek. Около месяца назад они выпустили модель DeepSeek-V3, которая представляла собой классическую предварительно обученную модель. Недавно они представили модель под названием R1, которая добавила второй этап обучения (обучение с подкреплением).
DeepSeek-V3 стала настоящим прорывом. Эта модель достигла показателей, близких к результатам передовых американских моделей, при этом стоимость ее обучения была существенно ниже. Однако автор подчеркивает, что эта модель не является революционной. Ее успех вписывается в ожидаемые тренды снижения стоимости обучения моделей.
Например, если историческая тенденция снижения стоимости обучения составляет 4x в год, то вполне ожидаемо, что модель, обученная год спустя, будет стоить примерно в 8 раз дешевле. Таким образом, успех DeepSeek-V3 не является уникальным. Это обычный прогресс, который мог быть достигнут любой компанией. Но важно отметить, что впервые такую демонстрацию сделали в Китае, что имеет геополитическое значение.
Модель R1, представленная позже, вызвала большой общественный интерес, включая снижение акций Nvidia на 17%. Однако с инженерной точки зрения эта модель менее интересна. Она просто добавила второй этап обучения (обучение с подкреплением) к DeepSeek-V3. Производство такой модели было относительно дешевым.
Экспортные ограничения
Автор утверждает, что экспортные ограничения на чипы играют ключевую роль. В ближайшие годы, в 2026-2027, создание ИИ, превосходящего человеческий интеллект, потребует миллионов чипов и десятков миллиардов долларов. США уже имеют необходимые ресурсы, но вопрос в том, сможет ли Китай получить доступ к миллионам чипов.
Если Китай сможет, то мир станет биполярным, где и США, и Китай будут обладать мощными ИИ, создающими быстрый научный прогресс. Однако такая ситуация может быть нестабильной, так как Китай, вероятно, направит больше ресурсов на военные применения ИИ.
Если же Китай не сможет получить миллионы чипов, то мир станет однополярным, где только США и их союзники будут обладать передовым искусственным интеллектом. Это может дать США долговременное преимущество.
Экспортные ограничения — это единственный инструмент, который может предотвратить доступ Китая к миллионам чипов. DeepSeek показала, что Китай способен разрабатывать мощные модели, но успех DeepSeek не означает, что экспортные ограничения провалились. У компании было около 50 000 чипов[^4], что составляет 2-3 раза меньше, чем у американских лабораторий. Многие из этих чипов попали в Китай до введения запретов или через лазейки. Но автор отмечает, что скрыть $1 млрд на рынке возможно, а вот $100 млрд — уже нет. Если закрыть оставшиеся лазейки, Китай не сможет получить миллионы чипов.
Автор подчеркивает, что талант инженеров DeepSeek вызывает уважение. Однако они работают на авторитарное правительство, которое может использовать ИИ для агрессивных целей, что делает экспортные ограничения жизненно важным инструментом для сохранения лидерства США.
Сноски
- Автор не высказывается о слухах, что DeepSeek использует западные модели. Здесь принимается на веру их заявление, что они обучали свои модели самостоятельно.
- Автор также считает, что снижение акций Nvidia на 17% из-за новостей о DeepSeek не обосновано, так как успехи DeepSeek не вредят Nvidia.
- Подробнее о сдвиге кривой эффективности можно прочитать здесь.
- DeepSeek использовала чипы H100, H800 и H20. Некоторые из них, скорее всего, были ввезены контрабандой или поставлены до введения запрета.