NVIDIA выпустила ⚡️ Nemotron-4 340B (base, instruct, Reward)

NVIDIA только что выпустила Nemotron-4 340B – мощный набор инструментов для создания синтетических данных, которые помогут обучать большие языковые модели (LLM) для самых разных задач. 🤯

Что такое Nemotron-4 340B?

Nemotron-4 340B – это семейство моделей, состоящее из трех частей:

Base (https://huggingface.co/nvidia/Nemotron-4-340B-Base) – предобученная модель.
Instruct (https://huggingface.co/nvidia/Nemotron-4-340B-Instruct) – модель, дообученная на инструкциях.
Reward (https://huggingface.co/nvidia/Nemotron-4-340B-Reward) – reward model для RL alignment, обученная поверх Base.

Основные характеристики:

🧮 340 миллиардов параметров в контекстном окне 4k
🔢 Обучена на 9 триллионах токенов
🌎 Поддерживает более чем 50 языков и более чем 40 языков программирования
🧠 Трубует 16x H100 в bf16 и ~8x H100 в int4
🤗 Модель доступна на huggingface
🙊 Контекстное окно - 4096 токенов

Как работает Nemotron-4 340B?

Представьте себе: вы хотите обучить LLM, чтобы она писала тексты для рекламы. Но у вас нет огромного количества реальных рекламных текстов. 😥

Инструктивная модель Nemotron-4 340B поможет вам! Она создаст множество искусственных рекламных текстов, которые будут выглядеть как настоящие. ✍️

А поощрительная модель Nemotron-4 340B проверит эти тексты и выберет только самые лучшие. 🏆 Она оценит их по пяти критериям: полезность, правильность, связность, сложность и многословность.

Преимущества Nemotron-4 340B:

Синтетические данные: Nemotron-4 340B – это прорыв в сфере синтетических данных! 🎉 Он дает разработчикам мощный инструмент для создания умных и эффективных LLM. 🧠💪
Открытый исходный код: Nemotron-4 340B работает с NVIDIA NeMo – фреймворком с открытым исходным кодом, который делает обучение моделей простым и удобным. 💻
Доступность: Nemotron-4 340B уже доступен на 🤗 Hugging Face! 🎁 Скоро вы сможете найти его и на ai.nvidia.com, где он будет представлен в виде микросервиса NVIDIA NIM, который можно использовать где угодно. 🚀

Дополнительные сведения:

Alignment: Для alignment использовали набор из 20к инструкций, который выложили в открытый доступ (https://huggingface.co/datasets/nvidia/HelpSteer2).
Контекст: Контекст коротковат по современным меркам - всего 4к токенов, небось больше не лезло во время обучения 😅.
Результаты: Скоры на бенчах весьма достойны. На свежей ArenaHard (https://lmsys.org/blog/2024-04-19-arena-hard/) от lmsys уступают лишь свежим версиям чат-гопоты и Клод Опус. На lmsys arena было бы еще интересно глянуть Elo Score.
Размер: Самая интересная деталь - размер 340B параметров, т.е 640Gb на одни лишь веса в fp16. Как вы ее будете инферить - это ваша проблема)
Квантизация: Задача экстремальной квантизации уже не вместить LLMку именно на consumer-grade GPU, а хоть на какую-то)

NVIDIA – спасибо за такой вклад в опенсорс!