ЕФЕКТИВНІ ДИФУЗІЙНІ МОДЕЛІ ДЛЯ SUPER-RESOLUTION ЗОБРАЖЕНЬ

Authors

  • Сергій Леонідович Козлов Вінницький національний технічний університет
  • Олег Костянтинович Колесницький Вінницький національний технічний університет

DOI:

https://doi.org/10.31649/2307-5376-2026-1-89-99

Keywords:

image super-resolution, diffusion models, однокрокові дифузійнй моделі, ущільнення дифузійних моделей, дистиляція знань, Stable Diffusion, глибоке навчання

Abstract

Дифузійні моделі встановили нові стандарти перцептивної якості у SISR, проте їхнє багатокрокове висновування та великий розмір моделі  складнюють практичне розгортання: моделі на основі Stable Diffusion потребують 50–200 кроків знешумлення, секундні затримки та мільярди параметрів. Цей  гляд систематизує два взаємодоповнюючі напрямки: ефективне проєктування дифузійного процесу, що скорочує ітеративне семплювання від сотень кроків до кількох, та ущільнення моделей для розгортання з обмеженими ресурсами. Проаналізовано дванадцять моделей 2023–2025 років: вісім ефективних
(ResShift, SinSR, OSEDiff, TSD-SR, AddSR, DoSSR, CCSR, InvSR) та чотири ущільнених (AdcSR, PassionSR, Edge-SD-SR, BiMaCoSR), та проведено порівняння їх за якістю (SSIM, LPIPS, CLIPIQA, MUSIQ) та ефективністю (параметри, MACs, час висновування) на тестових наборах DIV2K, RealSR і DRealSR. З-поміж ефективних моделей ті, що побудовані на попередньо навчених text-to-image опорних моделях, дають приріст до +0,13 CLIPIQA порівняно з моделями навченими з нуля. Використання LR-зображення, як початкової точки зворотного процесу, забезпечує кращий баланс перцепція-спотворення,  порівняно зі початком з гаусового шуму. Моделі-студенти можуть показати кращі результати, ніж відповідні моделі-вчителі, за умови донавчання на еталонних зображеннях. Текстові запити слугують допоміжним, а не обов'язковим сигналом. InvSR та CCSR виносять баланс перцепція-спотворення як runtime-параметр на єдиній навченій моделі. Ущільнення у 4-6 разів майже не впливає на якість. Понад 10-кратне ущільнення погіршує перцептивну якість, хоча точність відтворення зберігається. VAE-декодер домінує в обчисленнях та затримці на пристрої, що робить його першочерговою ціллю ущільнення. Водночас ущільнені дифузійні SR-моделі, все ще, значно більші за GAN-моделі, і оптимальний компроміс між розміром моделі та якістю результату залишається недослідженим.

Author Biographies

Сергій Леонідович Козлов, Вінницький національний технічний університет

аспірант кафедри комп’ютерних наук

Олег Костянтинович Колесницький, Вінницький національний технічний університет

канд. тех.наук, професор кафедри комп’ютерних наук

Downloads

Abstract views: 23

Published

2026-03-31

How to Cite

[1]
С. Л. Козлов and О. К. Колесницький, “ЕФЕКТИВНІ ДИФУЗІЙНІ МОДЕЛІ ДЛЯ SUPER-RESOLUTION ЗОБРАЖЕНЬ”, НаукПраці ВНТУ, no. 1, Mar. 2026.

Issue

Section

Інформаційні технології та комп'ютерна техніка

Metrics

Downloads

Download data is not yet available.

Most read articles by the same author(s)