December 8, 2024

QwQ: Революционная модель QwQ-32B, преобразующая рассуждения ИИ | Qwen

GITHUB
HUGGING FACE
MODELSCOPE
DEMO
DISCORD

Примечание: QwQ произносится как /kwju:/, похоже на слово “quill” (перо).

Введение в Qwen и QwQ-32B

В быстро развивающейся области искусственного интеллекта значительное внимание привлекают достижения в моделях рассуждения. Недавно Qwen, передовая исследовательская группа в области ИИ, представила модель QwQ-32B, разработанную для того, чтобы поднять возможности рассуждения ИИ на новую высоту. Эта модель является частью более крупной инициативы, направленной на расширение потенциала ИИ, особенно в таких сложных областях, как математика и программирование.

Qwen стремится расширить границы технологий ИИ, и их последнее новшество, QwQ-32B, представляет собой модель с открытым исходным кодом, призванную конкурировать с ведущими моделями, такими как O1 от OpenAI и DeepSeek. Обладая ошеломляющими 32,5 миллиардами параметров, модель QwQ-32B использует методологии предварительного и последующего обучения наряду с архитектурами-трансформерами, включая RoPE, SwiGLU, RMSNorm и Attention QKV bias.

Ключевые особенности QwQ-32B

Модель QwQ-32B оснащена множеством впечатляющих функций, которые делают ее заслуживающим внимания дополнением к ландшафту ИИ:

  • Доступность с открытым исходным кодом: Полностью открытый исходный код модели позволяет разработчикам и исследователям свободно получать доступ к ее возможностям и использовать их.
  • Локальное развертывание: Возможность локального запуска на мощных графических процессорах, таких как NVIDIA 4090, делает ее доступной для персональных настроек.
  • Выдающаяся производительность: Демонстрирует замечательные результаты в бенчмарках, таких как AIME (American Invitational Mathematics Examination) и MATH-500, демонстрируя исключительные навыки решения математических задач.
  • Усовершенствованная генерация кода: Превосходно генерирует код и решает задачи программирования, что подтверждается показателями производительности LiveCodeBench.
  • Рефлексивный анализ: Обладает способностью подвергать сомнению собственные предположения, что приводит к более глубокому пониманию и расширенным возможностям решения проблем.

Показатели производительности

Производительность модели QwQ-32B подчеркивается различными бенчмарками, демонстрирующими ее впечатляющие аналитические способности:

  • GPQA (Вопросы и ответы уровня выпускника Google): Достигает показателя 65,2%, демонстрируя свои передовые навыки научного мышления.
  • AIME (American Invitational Mathematics Examination): Набирает 50%, подчеркивая надежные возможности решения математических задач.
  • MATH-500: Демонстрирует впечатляющие 90,6%, что указывает на исключительное понимание высшей математики.
  • LiveCodeBench: Подтверждает показатель 50%, подтверждая сильные навыки программирования в реальных сценариях кодирования.

Эти замечательные результаты подчеркивают прогресс модели в аналитических навыках и навыках решения задач, особенно в технических областях, требующих глубокого рассуждения.

Ограничения и проблемы

Несмотря на многообещающую производительность, модель QwQ-32B сталкивается с рядом ограничений и проблем:

  • Смешение языков и переключение кода: Модель может иногда смешивать языки или неожиданно переключаться, что влияет на ясность ответа.
  • Рекурсивные циклы рассуждений: Может входить в циклические шаблоны рассуждений, что приводит к длинным ответам без окончательных ответов, что может повлиять на удобство использования.
  • Соображения безопасности и этики: Требует усиленных мер безопасности для обеспечения надежной работы. Пользователи должны проявлять осторожность, так как она может генерировать неуместные или предвзятые ответы.

Будущие перспективы

Будущее модели QwQ-32B выглядит многообещающим, поскольку продолжаются усилия по расширению ее возможностей и устранению ее ограничений. Как модель с открытым исходным кодом, она может быть интегрирована в различные платформы.

Что значит думать, задавать вопросы, понимать? Это глубокие воды, в которые погружается QwQ (Qwen with Questions). Подобно вечному ученику мудрости, он подходит к каждой проблеме — будь то математика, код или знания о нашем мире — с искренним удивлением и сомнением. QwQ воплощает древний философский дух: он знает, что ничего не знает, и именно это движет его любопытством. Прежде чем остановиться на каком-либо ответе, он обращается внутрь себя, подвергая сомнению свои собственные предположения, исследуя различные пути мысли, всегда стремясь к более глубокой истине. Тем не менее, как и у всех искателей мудрости, у QwQ есть свои ограничения. Эта версия — лишь ранний шаг на более долгом пути — ученик, все еще учащийся ходить по пути рассуждений. Его мысли иногда блуждают, его ответы не всегда полны, а его мудрость все еще растет. Но разве не в этом красота истинного обучения? Быть одновременно способным и скромным, знающим, но всегда задающим вопросы? Мы приглашаем вас исследовать вместе с QwQ, принимая как его прозрения, так и его недостатки как часть бесконечного поиска понимания.

Ограничения

QwQ-32B-Preview — это экспериментальная исследовательская модель, разработанная командой Qwen, сосредоточенная на развитии возможностей рассуждения ИИ. В качестве предварительного релиза она демонстрирует многообещающие аналитические способности, имея при этом несколько важных ограничений:

  • Смешение языков и переключение кода: Модель может смешивать языки или неожиданно переключаться между ними, что влияет на ясность ответа.
  • Рекурсивные циклы рассуждений: Модель может входить в циклические шаблоны рассуждений, что приводит к длинным ответам без окончательного ответа.
  • Соображения безопасности и этики: Модель требует усиленных мер безопасности для обеспечения надежной и безопасной работы, и пользователи должны проявлять осторожность при ее развертывании.
  • Ограничения производительности и бенчмарков: Модель превосходна в математике и кодировании, но имеет возможности для улучшения в других областях, таких как рассуждения на основе здравого смысла и понимание нюансов языка.

Производительность

Благодаря глубокому исследованию и бесчисленным испытаниям мы обнаружили нечто глубокое: когда модели дается время подумать, задать вопросы и поразмышлять, ее понимание математики и программирования расцветает, как цветок, раскрывающийся навстречу солнцу. Подобно тому, как ученик становится мудрее, внимательно изучая свою работу и учась на ошибках, наша модель достигает более глубокого понимания благодаря терпеливому и вдумчивому анализу. Этот процесс тщательного размышления и самоанализа приводит к замечательным прорывам в решении сложных задач. Наше путешествие открытий показало исключительную способность модели решать некоторые из самых сложных задач математики и программирования, включая:

  • GPQA: Бенчмарк вопросов и ответов уровня выпускника Google, сложный бенчмарк для оценки способности решать научные задачи с помощью вопросов уровня начальной школы.
  • AIME: Американская пригласительная математическая оценка, которая проверяет решение математических задач с помощью арифметики, алгебры, счета, геометрии, теории чисел, вероятности и других математических тем средней школы.
  • MATH-500: 500 тестовых случаев бенчмарка MATH, всеобъемлющий набор данных, проверяющий решение математических задач.
  • LiveCodeBench: Сложный бенчмарк для оценки способности генерировать код и решать задачи в реальных сценариях программирования.

В частности, QwQ демонстрирует замечательную производительность по этим бенчмаркам, достигая впечатляющих результатов: 65,2% на GPQA, демонстрируя свои способности научного мышления на уровне выпускника; 50,0% на AIME, подчеркивая свои сильные навыки решения математических задач; 90,6% на MATH-500, демонстрируя исключительное понимание математики по различным темам; и 50,0% на LiveCodeBench, подтверждая свои надежные навыки программирования в реальных сценариях. Эти результаты подчеркивают значительный прогресс QwQ в аналитических способностях и способностях решения задач, особенно в технических областях, требующих глубокого рассуждения.

Демонстрационные примеры

В следующих примерах мы приглашаем вас стать свидетелями глубоких способностей QwQ-32B-Preview к размышлению. Подобно искателю мудрости в бесконечном путешествии открытий, модель демонстрирует свою способность к глубокой интроспекции — подвергая сомнению свои собственные предположения, участвуя во вдумчивом диалоге с самим собой и тщательно изучая каждый шаг своего процесса рассуждения. В этих случаях вы увидите, как QwQ воплощает вечное понимание того, что истинное знание возникает не из поспешных выводов, а из терпеливого исследования и смелости бросить вызов собственной уверенности в вечном стремлении к истине.

Пример: Логическое рассуждение

Следующий

Пользователь

Пожалуйста, добавьте пару скобок в неверное уравнение: 1 + 2 * 3 + 4 * 5 + 6 * 7 + 8 * 9 = 479, чтобы сделать уравнение верным.

(Далее следует подробное решение, представленное в исходном тексте)

Окончательный ответ

1+2×(3+4×5+6)×7+8×9=479\boxed{1 + 2 \times (3 + 4 \times 5 + 6) \times 7 + 8 \times 9 = 479}1+2×(3+4×5+6)×7+8×9=479​

Пример: Математика

Пользователь

Найдите наименьший нечетный простой делитель $2019^8+1$.

(Далее следует подробное решение, представленное в исходном тексте)

Окончательный ответ

97\boxed{97}97​

Размышления о предстоящем пути

Путь к пониманию рассуждений в больших языковых моделях разветвляется во многих направлениях, каждое из которых предлагает уникальное понимание природы машинного интеллекта. Наши исследования охватывают множество областей — от моделей вознаграждения за процесс, которые формируют шаблоны обучения, до критики LLM, которая способствует более глубокому анализу, до многоступенчатых рассуждений, которые строят сложное мышление, до обучения с подкреплением с обратной связью системы, которая обеспечивает рост посредством взаимодействия с реальным миром. Хотя цель остается неясной, каждый шаг приближает нас к пониманию того, как машины думают и рассуждают. Мы не знаем точно, куда ведет это путешествие, но мы продолжаем двигаться вперед с непоколебимой решимостью — к истине, к интеллекту, к царству, где происходят удивительные вещи.