Meta* представляет Llama 3.1 (7, 70, 405B): Новый рубеж в развитии языковых моделей

hf: https://huggingface.co/v2ray/Llama-3.1-405B/tree/main (820.2G)

оригинальный слив https://pastebin.com/9jGkYbXY

Magnet: magnet:?xt=urn:btih:c0e342ae5677582f92c52d8019cc32e1f86f1d83&dn=miqu-2&tr=udp%3A%2F%2Ftracker.openbittorrent.com%3A80

Похоже, в мире искусственного интеллекта грядёт нечто грандиозное. Компания Meta только что выкатила свою новую модель Llama 3.1 405B, и, скажу я вам, это настоящий монстр в мире языковых моделей, который кое в чем бьёт даже gpt-4o! Давайте-ка разберёмся, что к чему.

Знакомьтесь: семейство Llama 3.1

Итак, что же такое Llama 3.1? Если вкратце - это группа многоязычных языковых моделей, которые умеют генерировать текст на основе входных данных. В семействе есть модели разных размеров: 8 миллиардов, 70 миллиардов и, внимание, барабанная дробь… 405 миллиардов параметров!

Модели Llama 3.1 бывают двух видов: предобученные базовые и дообученные инстракт на диалогах. Последние особенно хороши для создания чат-ботов и виртуальных ассистентов. И, по словам разработчиков, они даже превосходят многие другие популярные модели по ряду показателей.

Технические детали

Архитектура: авторегрессионная языковая модель на основе оптимизированного трансформера.
Методы обучения: сначала обычное обучение, потом тонкая настройка под диалоги и, наконец, обучение с подкреплением на основе обратной связи от людей.
Поддерживаемые языки: английский (куда ж без него), немецкий, французский, итальянский, португальский, хинди, испанский и тайский. Неплохой набор, правда?

Бенчи

Лицензия у Llama 3.1 своя, особенная - Llama 3.1 Community License. Если интересно, можете глянуть детали на GitHub.

Зачем все это нужно?

Llama 3.1 предназначена как для коммерческого использования, так и для исследований. С её помощью можно создавать умных чат-ботов, генерировать тексты на разные темы, а ещё - внимание, разработчики! - использовать для улучшения других моделей. Например, для генерации синтетических данных или дистилляции знаний.

Железо и софт

Чтобы обучить такого монстра, ребятам из Meta пришлось попотеть. Они использовали свои собственные библиотеки для обучения и специально построенный GPU-кластер. Всего на обучение ушло - вы только вдумайтесь! - 39,3 миллиона GPU-часов. Это как если бы один GPU работал без остановки почти 4500 лет!

Экологический след

А теперь внимание, защитники природы! Несмотря на такие огромные затраты энергии, итоговый углеродный след от обучения Llama 3.1 равен… нулю! Как так? А вот как: Meta с 2020 года компенсирует 100% потребляемой электроэнергии за счёт возобновляемых источников. Круто, да?

Данные для обучения

Llama 3.1 проглотила около 15 триллионов токенов данных из открытых источников. Для сравнения: это примерно как прочитать всю Википедию 10 000 раз! Плюс ещё 25 миллионов специально сгенерированных примеров для тонкой настройки.

Безопасность прежде всего

Мета уделила огромное внимание безопасности. Они провели кучу тестов, чтобы убедиться, что модель не будет использоваться во вред. Особый упор сделали на предотвращение создания опасных материалов, защиту детей и противодействие кибератакам.

Сообщество и гранты

Мета не просто выпустила модель и забыла о ней. Они активно вовлекают сообщество в работу над безопасностью ИИ. Запустили программу грантов Llama Impact Grants для поддержки проектов, использующих Llama на благо общества. Есть даже специальная программа поиска багов с вознаграждением!

Этика и ограничения

Конечно, как и любая новая технология, Llama 3.1 не идеальна. Мета честно признает, что модель может иногда выдавать неточные или предвзятые ответы. Поэтому они настоятельно рекомендуют разработчикам проводить тщательное тестирование перед внедрением.

Заключение

Llama 3.1 - это, безусловно, огромный шаг вперёд в мире языковых моделей. Она открывает массу возможностей для разработчиков, исследователей и бизнеса. Но, как и любой мощный инструмент, требует ответственного подхода.

Что думаете? Готовы ли вы попробовать Llama 3.1 в своих проектах? Или, может быть, у вас есть опасения насчёт таких продвинутых ИИ-моделей? Делитесь мнениями в комментариях!