Нейросеть «Сбера» ruDALL-E генерирует изображения по текстовым описаниям

В недрах «Сбера» разработана нейросеть, способная преобразовать русскоязычный текст в довольно качественные изображения. Утверждается, что она подойдёт для создания векторных изображений, рекламных материалов, разработки дизайна и даже стоковых картинок.

Источник изображения: rudalle.ru

Как сообщает издание «Коммерсант», картинки формируются в три этапа: первая нейросеть преобразует текст в изображения, вторая выбирает из предложенных вариантов самые подходящие, а третья масштабирует их без потери качества.

Известно, что разработчики предлагают две системы: ruDALL-E XL с 1,3 млрд параметров и ruDALL-E 12B с 12 млрд, причём ruDALL-E XL бесплатно загружается с GitHub. По данным издания, скоро оба варианта будут «доступны на платформе ML Space в хабе предобученных моделей и датасетов DataHub от SberCloud».

Эксперименты показали, что нейросеть получила от разработчиков довольно специфическое мировоззрение. На представленных изображениях можно увидеть, насколько мрачно ruDALL-E видит нашу реальность. Изображены последовательно: «Марк Цукерберг», «ёжик в тумане», на последней — именно так выглядит «конец света» по версии «Сбера».

Как сообщают разработчики, на обучение нейросети ушло 23 тыс. часов. За это время машинные алгоритмы проанализировали 120 млн комбинаций текста и изображений. По данным «Сбера», в настоящее время это самый крупный вычислительный нейросетевой проект в России и странах СНГ.