ЗАСТОСУВАННЯ АРХІТЕКТУРИ ТРАНСФОРМЕР ДО ЗАДАЧІ SUPER-RESOLUTION

Authors

  • Сергій Леонідович Козлов Вінницький національний технічний університет
  • Олег Костянтинович Колесницький Вінницький національний технічний університет

DOI:

https://doi.org/10.31649/2307-5376-2024-1-7-18

Keywords:

super-resolution, архітектура трансформер, згорткова нейронна мережа, комп'ютерний зір

Abstract

Протягом останніх 15-ти років згорткові нейронні мережі є основним підходом для вирішення задач комп'ютерного зору, і демонструють високий рівень продуктивності. Проте, архітектура трансформер, яка показала високі досягнення в галузі обробки природної мови, знаходить все ширше застосування до задач комп'ютерного зору і демонструє співставні або кращі результати. Нами розглянуто застосування архітектури трансформер до задачі super-resolution, а також наведено короткий огляд попередніх підходів. Безпосереднє застосування оригінальної архітектури трансформер дозволило забезпечити продуктивність, співставну з актуальними згортковими нейронними мережами. Проте, ефективне застосування архітектури трансформер до задач комп'ютерного зору пов'язане з викликами, які витікають з відмінностей між візуальним і мовленнєвим доменами. Перша відмінність - масштаб, оскільки зображення містять візуальні елементи різних масштабів, це ускладнює їх обробку за допомогою архітектури трансформер, що аналогічно до обробки токенів в ОПМ, працює з фрагментами одного розміру. Друга – об’єм інформації, адже обчислювальна складність обрахунку самоуваги квадратична довжині вхідної послідовності, що стає особливо критичним при обробці зображень високої роздільної здатності.

У статті проведено аналіз 12 робіт з цієї тематики, опублікованих починаючи з 2021 року, які пропонують підходи до усунення зазначених складнощів. В проаналізованих роботах можуть бути виділені наступні напрямки: дослідження застосування локальної уваги з вікнами різних форм, зокрема вікнами розрідженої уваги; дослідження канальної самоуваги та її поєднання з просторовою; дослідження можливості розширення архітектури трансформер за допомогою згорткових блоків. Означені дослідження дозволили суттєво збільшити якість відтворених зображень, проте не є вичерпними.

Author Biographies

Сергій Леонідович Козлов, Вінницький національний технічний університет

аспірант кафедри комп’ютерних наук

Олег Костянтинович Колесницький, Вінницький національний технічний університет

канд. тех. наук, професор кафедри комп’ютерних  наук

Downloads

Abstract views: 202

Published

2024-02-28

How to Cite

[1]
С. Л. . Козлов and О. К. Колесницький, “ЗАСТОСУВАННЯ АРХІТЕКТУРИ ТРАНСФОРМЕР ДО ЗАДАЧІ SUPER-RESOLUTION”, НаукПраці ВНТУ, no. 1, Feb. 2024.

Issue

Section

Інформаційні технології та комп'ютерна техніка

Metrics

Downloads

Download data is not yet available.

Most read articles by the same author(s)