ЕФЕКТИВНІ ДИФУЗІЙНІ МОДЕЛІ ДЛЯ SUPER-RESOLUTION ЗОБРАЖЕНЬ

S. L. Kozlov; O. K. Kolesnytskyi

doi:10.31649/2307-5376-2026-1-89-99

Authors

S. L. Kozlov Vinnytsia National Technical University
O. K. Kolesnytskyi Vinnytsia National Technical University

DOI:

https://doi.org/10.31649/2307-5376-2026-1-89-99

Keywords:

image super-resolution, diffusion models, однокрокові дифузійнй моделі, ущільнення дифузійних моделей, дистиляція знань, Stable Diffusion, глибоке навчання

Abstract

Дифузійні моделі встановили нові стандарти перцептивної якості у SISR, проте їхнє багатокрокове висновування та великий розмір моделі складнюють практичне розгортання: моделі на основі Stable Diffusion потребують 50–200 кроків знешумлення, секундні затримки та мільярди параметрів. Цей гляд систематизує два взаємодоповнюючі напрямки: ефективне проєктування дифузійного процесу, що скорочує ітеративне семплювання від сотень кроків до кількох, та ущільнення моделей для розгортання з обмеженими ресурсами. Проаналізовано дванадцять моделей 2023–2025 років: вісім ефективних
(ResShift, SinSR, OSEDiff, TSD-SR, AddSR, DoSSR, CCSR, InvSR) та чотири ущільнених (AdcSR, PassionSR, Edge-SD-SR, BiMaCoSR), та проведено порівняння їх за якістю (SSIM, LPIPS, CLIPIQA, MUSIQ) та ефективністю (параметри, MACs, час висновування) на тестових наборах DIV2K, RealSR і DRealSR. З-поміж ефективних моделей ті, що побудовані на попередньо навчених text-to-image опорних моделях, дають приріст до +0,13 CLIPIQA порівняно з моделями навченими з нуля. Використання LR-зображення, як початкової точки зворотного процесу, забезпечує кращий баланс перцепція-спотворення, порівняно зі початком з гаусового шуму. Моделі-студенти можуть показати кращі результати, ніж відповідні моделі-вчителі, за умови донавчання на еталонних зображеннях. Текстові запити слугують допоміжним, а не обов'язковим сигналом. InvSR та CCSR виносять баланс перцепція-спотворення як runtime-параметр на єдиній навченій моделі. Ущільнення у 4-6 разів майже не впливає на якість. Понад 10-кратне ущільнення погіршує перцептивну якість, хоча точність відтворення зберігається. VAE-декодер домінує в обчисленнях та затримці на пристрої, що робить його першочерговою ціллю ущільнення. Водночас ущільнені дифузійні SR-моделі, все ще, значно більші за GAN-моделі, і оптимальний компроміс між розміром моделі та якістю результату залишається недослідженим.

Author Biographies

S. L. Kozlov, Vinnytsia National Technical University

аспірант кафедри комп’ютерних наук

O. K. Kolesnytskyi, Vinnytsia National Technical University

канд. тех.наук, професор кафедри комп’ютерних наук

Efficient diffusion models for super-resolution images

Authors

DOI:

Keywords:

Abstract

Author Biographies

S. L. Kozlov, Vinnytsia National Technical University

O. K. Kolesnytskyi, Vinnytsia National Technical University

Downloads

Published

How to Cite

Issue

Section

Metrics

Downloads

Language