Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Google опубликовала в своём блоге исследование специалистов из внутренней команды Brain Team, озаглавленное как «Создание высокоточных изображений с использованием моделей диффузии». В статье исследователи рассказывают о новых достижениях, которые они сделали в области масштабирования цифровых изображений без потери качества.
Специалисты Google Brain Team натренировали модель машинного обучения превращать фотографии с низким разрешением в детализированные изображения с высоким разрешением практически без потери качества. Эксперты считают, что их разработка может использоваться в самых разных целях: от улучшения старых семейных фото до повышения качества медицинских изображений.
Концепция диффузионных моделей изучается Google с 2015 года, однако до недавнего времени поисковый гигант отдавал предпочтение другому семейству методов обучения ИИ — глубоким генеративным моделям. Компания обнаружила, что результаты нового подхода заметно превосходят существующие технологии.
Новый подход получил обозначение SR3. Google говорит, что SR3 — это модель диффузии со сверхвысоким разрешением, которая создаёт изображение с высоким разрешением из чистого шума, опираясь на исходную картинку с низким разрешением. Модель обучается процессу искажения изображения, при котором шум постепенно добавляется к изображению до тех пор, пока не останется только чистый шум. Затем алгоритм обращает процесс вспять, постепенно удаляя шум, с изображения, руководствуясь исходной картинкой с низким разрешением.
Было обнаружено, что наилучшие результаты SR3 демонстрирует при масштабировании портретов и снимков природы. Алгоритм позволяет добиться фотореалистичного изображения при повышении разрешения портретов до шестнадцати раз.
Как только Google убедилась, насколько эффективна SR3, компания пошла ещё дальше, предложив ещё один подход под названием CDM, который представляет собой модель условно-классовой диффузии. CDM обучена на данных ресурса ImageNet, содержащего более 14 миллионов изображений с высоким разрешением. CDM предлагает каскадный подход, при котором сначала генерируется изображение с низким разрешением, за которым следует работа SR3 по созданию изображений с высоким разрешением, которое постепенно повышается до максимально возможного. По данным Google, изображение с разрешением 32 × 32 пикселя может быть увеличено до 256 × 256 пикселей без ощутимых потерь, в восемь раз. Картинку с разрешением 64 × 64 пикселя и вовсе удалось масштабировать до разрешения 1024 × 1024 пикселя, в 16 раз.
Результаты работы ИИ действительно впечатляют. Окончательные изображения, несмотря на мелкие огрехи, выглядят действительно очень хорошо и большинством пользователей воспринимаются как оригинальные снимки.
Источник: