Reflection 70B?

Вчера (06.09.24) в мир открытых языковых моделей ворвался новичок - Reflection (хитрый файнтюн Llama-3.1) 70B. Эта модель, натренированная с использованием новой техники Reflection-Tuning, умеет распознавать ошибки в своих рассуждениях и корректировать курс. Что ж, послушаем, что говорят об этой свежей разработке!

Авторы утверждают, что их детище превосходит даже Claude 3.5 Sonnet и GPT-4o практически во всех тестах. А уникальный навык самокоррекции, кажется, избавляет модель от тех самых галлюцинаций, что так мучили предыдущие поколения LLM. Ну разве это не потрясающе? Однако некоторые сомнения всё же закрались в умы скептиков.

Во-первых, результаты на наборе GSM8k вызывают недоумение. 99,2% правильных ответов? Но ведь в самой разметке задач наверняка содержится изрядная толика ошибок. Так неужели модель просто выучила эти данные? Или, быть может, её заблуждения так похожи на человеческие, что она пришла к тем же некорректным выводам?

Во-вторых, методы рассуждений и рефлексии отнюдь не новы. Передовые модели и так используют нечто подобное, когда их просят "подумать как следует". Что же тогда позволило маленькой 70B модели совершить такой гигантский скачок?

В-третьих, технические детали держатся в тайне. Ни слова о "синтетических" примерах для дообучения, лишь ссылка на платформу для их генерации. Так что вся затея начинает попахивать рекламной кампанией.

Ну и наконец, пока все подробности обещают раскрыть лишь на следующей неделе, после выхода 405B версии. Которая, если верить авторам, затмит все проприетарные модели! Ох уж эти смелые обещания...

Впрочем, сам концепт действительно многообещающий. Вопрос лишь в том, почему такие существенные улучшения до сих пор не использовались лидерами отрасли? Будем ждать независимых замеров и разъяснений, прежде чем впадать в восторг.

А для самых нетерпеливых - веса 70B модели уже выложены. Можно скачать и опробовать самим, если есть мощности. Правда, демо-сайт временно отключили из-за наплыва пользователей. Но слухи ходят, что некоторым энтузиастам всё же удалось задать пару задачек. Одна из них - классический вопрос "А и Б сидели на трубе", который Reflection якобы разрулила на ура!

Ожидание и здоровый скептицизм - главные спутники в мире искусственного интеллекта. Следим за развитием событий! Кто знает, может быть, Reflection Llama и впрямь окажется той самой моделью, что перевернёт всё с ног на голову. А пока - наслаждаемся захватывающим зрелищем гонки LLM!

- Веса 70B тут качаем (https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B)
- На следующей неделе Reflection-405B, вместе с деталями процесса
- Демка (https://reflection-playground-production.up.railway.app/)

https://t.me/seeallochnaya

https://t.me/apanasik_jobless