ЕФЕКТИВНІ ДИФУЗІЙНІ МОДЕЛІ ДЛЯ SUPER-RESOLUTION ЗОБРАЖЕНЬ

Сергій Леонідович Козлов; Олег Костянтинович Колесницький

doi:10.31649/2307-5376-2026-1-89-99

Автор(и)

Козлов Сергій Леонідович Вінницький національний технічний університет
Колесницький Олег Костянтинович Вінницький національний технічний університет

DOI:

https://doi.org/10.31649/2307-5376-2026-1-89-99

Ключові слова:

image super-resolution, diffusion models, однокрокові дифузійнй моделі, ущільнення дифузійних моделей, дистиляція знань, Stable Diffusion, глибоке навчання

Анотація

Дифузійні моделі встановили нові стандарти перцептивної якості у SISR, проте їхнє багатокрокове висновування та великий розмір моделі складнюють практичне розгортання: моделі на основі Stable Diffusion потребують 50–200 кроків знешумлення, секундні затримки та мільярди параметрів. Цей гляд систематизує два взаємодоповнюючі напрямки: ефективне проєктування дифузійного процесу, що скорочує ітеративне семплювання від сотень кроків до кількох, та ущільнення моделей для розгортання з обмеженими ресурсами. Проаналізовано дванадцять моделей 2023–2025 років: вісім ефективних
(ResShift, SinSR, OSEDiff, TSD-SR, AddSR, DoSSR, CCSR, InvSR) та чотири ущільнених (AdcSR, PassionSR, Edge-SD-SR, BiMaCoSR), та проведено порівняння їх за якістю (SSIM, LPIPS, CLIPIQA, MUSIQ) та ефективністю (параметри, MACs, час висновування) на тестових наборах DIV2K, RealSR і DRealSR. З-поміж ефективних моделей ті, що побудовані на попередньо навчених text-to-image опорних моделях, дають приріст до +0,13 CLIPIQA порівняно з моделями навченими з нуля. Використання LR-зображення, як початкової точки зворотного процесу, забезпечує кращий баланс перцепція-спотворення, порівняно зі початком з гаусового шуму. Моделі-студенти можуть показати кращі результати, ніж відповідні моделі-вчителі, за умови донавчання на еталонних зображеннях. Текстові запити слугують допоміжним, а не обов'язковим сигналом. InvSR та CCSR виносять баланс перцепція-спотворення як runtime-параметр на єдиній навченій моделі. Ущільнення у 4-6 разів майже не впливає на якість. Понад 10-кратне ущільнення погіршує перцептивну якість, хоча точність відтворення зберігається. VAE-декодер домінує в обчисленнях та затримці на пристрої, що робить його першочерговою ціллю ущільнення. Водночас ущільнені дифузійні SR-моделі, все ще, значно більші за GAN-моделі, і оптимальний компроміс між розміром моделі та якістю результату залишається недослідженим.

Біографії авторів

Козлов Сергій Леонідович, Вінницький національний технічний університет

аспірант кафедри комп’ютерних наук

Колесницький Олег Костянтинович, Вінницький національний технічний університет

канд. тех.наук, професор кафедри комп’ютерних наук

ЕФЕКТИВНІ ДИФУЗІЙНІ МОДЕЛІ ДЛЯ SUPER-RESOLUTION ЗОБРАЖЕНЬ

Автор(и)

DOI:

Ключові слова:

Анотація

Біографії авторів

Козлов Сергій Леонідович, Вінницький національний технічний університет

Колесницький Олег Костянтинович, Вінницький національний технічний університет

##submission.downloads##

Опубліковано

Як цитувати

Номер

Розділ

Метрики

Завантаження

Статті цього автора (авторів), які найбільше читають

Мова