ЗАСТОСУВАННЯ АРХІТЕКТУРИ ТРАНСФОРМЕР ДО ЗАДАЧІ SUPER-RESOLUTION

Автор(и)

  • Козлов Сергій Леонідович Вінницький національний технічний університет
  • Колесницький Олег Костянтинович Вінницький національний технічний університет

DOI:

https://doi.org/10.31649/2307-5376-2024-1-7-18

Ключові слова:

super-resolution, архітектура трансформер, згорткова нейронна мережа, комп'ютерний зір

Анотація

Протягом останніх 15-ти років згорткові нейронні мережі є основним підходом для вирішення задач комп'ютерного зору, і демонструють високий рівень продуктивності. Проте, архітектура трансформер, яка показала високі досягнення в галузі обробки природної мови, знаходить все ширше застосування до задач комп'ютерного зору і демонструє співставні або кращі результати. Нами розглянуто застосування архітектури трансформер до задачі super-resolution, а також наведено короткий огляд попередніх підходів. Безпосереднє застосування оригінальної архітектури трансформер дозволило забезпечити продуктивність, співставну з актуальними згортковими нейронними мережами. Проте, ефективне застосування архітектури трансформер до задач комп'ютерного зору пов'язане з викликами, які витікають з відмінностей між візуальним і мовленнєвим доменами. Перша відмінність - масштаб, оскільки зображення містять візуальні елементи різних масштабів, це ускладнює їх обробку за допомогою архітектури трансформер, що аналогічно до обробки токенів в ОПМ, працює з фрагментами одного розміру. Друга – об’єм інформації, адже обчислювальна складність обрахунку самоуваги квадратична довжині вхідної послідовності, що стає особливо критичним при обробці зображень високої роздільної здатності.

У статті проведено аналіз 12 робіт з цієї тематики, опублікованих починаючи з 2021 року, які пропонують підходи до усунення зазначених складнощів. В проаналізованих роботах можуть бути виділені наступні напрямки: дослідження застосування локальної уваги з вікнами різних форм, зокрема вікнами розрідженої уваги; дослідження канальної самоуваги та її поєднання з просторовою; дослідження можливості розширення архітектури трансформер за допомогою згорткових блоків. Означені дослідження дозволили суттєво збільшити якість відтворених зображень, проте не є вичерпними.

Біографії авторів

Козлов Сергій Леонідович , Вінницький національний технічний університет

аспірант кафедри комп’ютерних наук

Колесницький Олег Костянтинович, Вінницький національний технічний університет

канд. тех. наук, професор кафедри комп’ютерних  наук

##submission.downloads##

Переглядів анотації: 74

Опубліковано

2024-02-28

Як цитувати

[1]
С. Л. . Козлов і О. К. Колесницький, «ЗАСТОСУВАННЯ АРХІТЕКТУРИ ТРАНСФОРМЕР ДО ЗАДАЧІ SUPER-RESOLUTION», НаукПраці ВНТУ, вип. 1, Лют 2024.

Номер

Розділ

Інформаційні технології та комп'ютерна техніка

Метрики

Завантаження

Дані завантаження ще не доступні.

Статті цього автора (авторів), які найбільше читають