ЗМЕНШЕННЯ ЧАСУ НА НАВЧАННЯ МОДЕЛЕЙ ЗА ДОПОМОГОЮ ТРАНСФЕРНОГО НАВЧАННЯ

Дмитро Анатолійович Іванов

doi:10.31649/2307-5376-2024-3-25-30

Автор(и)

Іванов Дмитро Анатолійович Державний Університет “Житомирська політехніка”

DOI:

https://doi.org/10.31649/2307-5376-2024-3-25-30

Ключові слова:

трансферне навчання, ResNet-50, оптимізація часу, глибоке навчання, машинне навчання, логарифмічне зростання, комп'ютерний зір, скорочення ресурсів

Анотація

скоротити час навчання та ресурси, необхідні для навчання моделей глибокого навчання, зокрема на прикладі архітектури ResNet-50. Основна ідея трансферного навчання полягає у використанні вже навчених шарів моделі для виконання нових завдань, що дозволяє уникнути повного циклу навчання моделі з нуля. У процесі трансферного навчання певна кількість шарів моделі заморожуються, оскільки вони відповідають за розпізнавання загальних ознак, таких як контури або текстури, наприклад. Навчання відбувається тільки на останніх шарах моделі, які відповідають за виконання конкретного завдання. Це значно зменшує час та ресурси, що необхідні для навчання нових моделей. Результатами дослідження є визначення формул, що демонструють логарифмічне зростання витрат часу та ресурсів при використанні трансферному навчанні, яке є менш інтенсивним порівняно з лінійним зростанням витрат часу та ресурсів під час класичного навчання моделі. Наведені формули показують, що для кожної нової моделі необхідно навчати лише 5 шарів, тоді як 45 шарів залишаються незмінними, що забезпечує значну оптимізацію. Ця кількість шарів використовується тільки при використанні архітектури ResNet-50, оскільки дослідження проводилось на цій архітектурі. Дослідження також доводить універсальність методу трансферного навчання, оскільки цей підхід може використовуватися і з іншими архітектурами. Різниця буде лише в тому, що за зміни архітектури, зміниться кількість шарів для навчання загальних ознак, та кількість шарів, що потрібні для спеціалізованих завдань, а також середній час навчання одного шару. Попри це, навчання моделей з іншими архітектурами за допомогою трансферного навчання буде використовувати менше ресурсів та часу для процесу навчання.