ЕФЕКТИВНІ ДИФУЗІЙНІ МОДЕЛІ ДЛЯ SUPER-RESOLUTION ЗОБРАЖЕНЬ

Сергій Леонідович Козлов; Олег Костянтинович Колесницький

doi:10.31649/2307-5376-2026-1-89-99

Authors

Сергій Леонідович Козлов Вінницький національний технічний університет
Олег Костянтинович Колесницький Вінницький національний технічний університет

DOI:

https://doi.org/10.31649/2307-5376-2026-1-89-99

Keywords:

image super-resolution, diffusion models, однокрокові дифузійнй моделі, ущільнення дифузійних моделей, дистиляція знань, Stable Diffusion, глибоке навчання

Abstract

Дифузійні моделі встановили нові стандарти перцептивної якості у SISR, проте їхнє багатокрокове висновування та великий розмір моделі складнюють практичне розгортання: моделі на основі Stable Diffusion потребують 50–200 кроків знешумлення, секундні затримки та мільярди параметрів. Цей гляд систематизує два взаємодоповнюючі напрямки: ефективне проєктування дифузійного процесу, що скорочує ітеративне семплювання від сотень кроків до кількох, та ущільнення моделей для розгортання з обмеженими ресурсами. Проаналізовано дванадцять моделей 2023–2025 років: вісім ефективних
(ResShift, SinSR, OSEDiff, TSD-SR, AddSR, DoSSR, CCSR, InvSR) та чотири ущільнених (AdcSR, PassionSR, Edge-SD-SR, BiMaCoSR), та проведено порівняння їх за якістю (SSIM, LPIPS, CLIPIQA, MUSIQ) та ефективністю (параметри, MACs, час висновування) на тестових наборах DIV2K, RealSR і DRealSR. З-поміж ефективних моделей ті, що побудовані на попередньо навчених text-to-image опорних моделях, дають приріст до +0,13 CLIPIQA порівняно з моделями навченими з нуля. Використання LR-зображення, як початкової точки зворотного процесу, забезпечує кращий баланс перцепція-спотворення, порівняно зі початком з гаусового шуму. Моделі-студенти можуть показати кращі результати, ніж відповідні моделі-вчителі, за умови донавчання на еталонних зображеннях. Текстові запити слугують допоміжним, а не обов'язковим сигналом. InvSR та CCSR виносять баланс перцепція-спотворення як runtime-параметр на єдиній навченій моделі. Ущільнення у 4-6 разів майже не впливає на якість. Понад 10-кратне ущільнення погіршує перцептивну якість, хоча точність відтворення зберігається. VAE-декодер домінує в обчисленнях та затримці на пристрої, що робить його першочерговою ціллю ущільнення. Водночас ущільнені дифузійні SR-моделі, все ще, значно більші за GAN-моделі, і оптимальний компроміс між розміром моделі та якістю результату залишається недослідженим.

Author Biographies

Сергій Леонідович Козлов, Вінницький національний технічний університет

аспірант кафедри комп’ютерних наук

Олег Костянтинович Колесницький, Вінницький національний технічний університет

канд. тех.наук, професор кафедри комп’ютерних наук

ЕФЕКТИВНІ ДИФУЗІЙНІ МОДЕЛІ ДЛЯ SUPER-RESOLUTION ЗОБРАЖЕНЬ

Authors

DOI:

Keywords:

Abstract

Author Biographies

Сергій Леонідович Козлов, Вінницький національний технічний університет

Олег Костянтинович Колесницький, Вінницький національний технічний університет

Downloads

Published

How to Cite

Issue

Section

Metrics

Downloads

Most read articles by the same author(s)

Language

Make a Submission

Information

Current Issue

Developed By