March 26

Эволюция новых базовых моделей: раскрытие потенциала автоматизации разработки моделей с помощью эволюционного скрещивания

https://sakana.ai/evolutionary-model-merge/

Исследование Sakana AI заключается в применении вдохновленных природой идей, таких как эволюция и коллективный интеллект, для создания новых базовых фундаментальных моделей. В настоящее время авторы разрабатывают технологию, которая использует эволюцию для автоматизации разработки базовых моделей с конкретными способностями, подходящими для заданных областей применения пользователя.

Цель авторов не состоит в том, чтобы просто обучить какую-либо конкретную модель. Задача создать алгоритм, который будет автоматически генерировать базовые модели!

В качестве первого шага к этой цели авторы представили отчёт: "Evolutionary Optimization of Model Merging Recipes.

В нём авторы представляют Evolutionary Model Merge, общий метод, который использует эволюционные техники для эффективного обнаружения лучших способов объединения различных моделей из огромного океана различных открытых моделей с различными способностями. На момент написания в Hugging Face имеется более 500 000 моделей в нескольких различных модальностях, которые, по крайней мере, теоретически могут быть объединены для формирования новых моделей с новыми эмерджентными способностями!

Благодаря работе с огромным коллективным интеллектом существующих открытых моделей, метод авторов может автоматически создавать новые базовые модели с желаемыми способностями, заданными пользователем.

Авторы обнаружили, что используемый подход может автоматически обнаруживать новые способы объединения различных моделей из значительно разных областей (например, не английский язык и математика или не английский язык и зрение), нетривиальными способами, которые могут быть сложными для обнаружения человеческими экспертами.

Для тестирования подхода, вначале авторы протестировали метод для автоматической эволюции большой языковой модели (LLM) на японском языке, способной к математическому рассуждению, и японской визуально-языковой модели (VLM).

Удивительно, но обе модели достигают передовых результатов в нескольких тестах LLM и Vision, не будучи явно оптимизированными для эффективного выполнения этих тестов!

В частности, данная эволюционирующая математическая модель LLM на японском языке с 7 млрд параметров, удивлению авторов, показала лучшую производительность в широком спектре других японских тестов LLM, превзойдя производительность некоторых существующих передовых 70-миллиардных японских LLM! По мнению авторов, экспериментальная японская математическая LLM достаточно хороша, чтобы быть общей целевой LLM для японского языка.

Итоговая эволюционирующая японская VLM может эффективно обрабатывать культурно-специфический контент и также показывает лучшие результаты при тестировании на наборе данных японских пар изображения-описания, полученных из Японии.

Авторы обнаружили, что метод распространяется и на модели генерации изображений. Представлены предварительные результаты, в которых авторы с помощью эволюционного итерирования создали высококачественную, быструю, японскую модель SDXL, работающую в 4 шага.

В результате авторы применили этот метод для эволюции трёх мощных базовых моделей для японского языка: большая языковая модель (EvoLLM-JP), визуально-языковая модель (EvoVLM-JP), модель генерации изображений (EvoSDXL-JP)

Исследователи удивлены тем, что описанный метод может автоматически производить новые базовые модели без необходимости какого-либо обучения на основе градиента, тем самым требуя относительно небольших вычислительных ресурсов. В принципе, можно применять обучение на основе градиента с обратным распространением для дальнейшего улучшения производительности.

Цель данного релиза заключается в том, чтобы показать, что даже без обратного распространения можно эволюционным путем создавать передовые базовые модели, бросая вызов текущей парадигме дорогостоящей разработки моделей с помощью обучения с нуля.

Визуализация создания новой базовой модели путём объединения частей существующих моделей. Авторы считают, что эволюционный подход является решающим фактором для автоматизации обнаружения эффективных, но неочевидных способов объединения моделей.

Общественно-человеческий интеллект базируется на коллективном интеллекте. Индивидуально мы не столь интеллектуальны и способны. Наша общественная и экономическая система основана на наличии огромного количества учреждений, состоящих из разнообразных людей с разными специализациями и экспертизой. Этот огромный коллективный интеллект определяет нас как личностей, и каждый из нас следует собственному пути в жизни, чтобы стать уникальным индивидуумом и, в свою очередь, внести свой вклад в наше постоянно расширяющееся коллективное развитие как вида.

Авторы уверены в том, что развитие искусственного интеллекта пойдет по аналогичному коллективному пути. Будущее ИИ не будет состоять из одной гигантской, всезнающей системы ИИ, требующей огромного количества энергии для обучения, работы и обслуживания, а скорее из огромного количества небольших систем ИИ, каждая со своей нишей и специализацией, взаимодействующих друг с другом, с более новыми системами ИИ, разработанными для заполнения конкретной ниши.