ВПЛИВ КОМБІНОВАНИХ ВЕКТОРНИХ ПРЕДСТАВЛЕНЬ НА ТОЧНІСТЬ ПОШУКУ НЕЧІТКИХ ДУБЛІКАТІВ

Автор(и)

  • Козинець Назарій Вікторович Національний технічний університет України “Київський політехнічний інститут ім. Ігоря Сікорського”
  • Заболотня Тетяна Миколаївна Національний технічний університет України “Київський політехнічний інститут ім. Ігоря Сікорського”

DOI:

https://doi.org/10.31649/2307-5376-2025-1-46-55

Ключові слова:

нечіткі дублікати, комбіновані векторні представлення, TF-IDF, BERT, косинусна подібність, семантичні ембединги, синоніми і антоніми, виявлення дублікатів

Анотація

У статті запропоновано новий підхід до виявлення нечітких у текстових даних, що базується на інтеграції класичних та сучасних методів векторизації. Зокрема, традиційне TF-IDF-векторизування поєднано з контекстуальними ембедингами (BERT), які враховують не лише окремі слова, а й їхній контекст у межах усього документа. Це дозволяє отримати багатовимірне представлення тексту, яке краще відображає його семантичне значення. Така комбінована методологія дає змогу підвищити точність пошуку схожих за змістом, але по-різному сформульованих текстів, що є важливим у таких сферах, як інформаційний пошук, аналіз дублікатів у базах даних та верифікація унікальності контенту. Окрему увагу приділено врахуванню синонімів та антонімів у процесі порівняння текстових фрагментів, що дає змогу не лише ідентифікувати прямі збіги, а й аналізувати схожість на глибшому семантичному рівні. Це, у свою чергу, сприяє зменшенню кількості хибних спрацьовувань, оскільки метод здатен краще розпізнавати контекстуальні відмінності та схожості між словами, що особливо актуально для текстів, написаних природною мовою. Водночас такий підхід підвищує ефективність виявлення прихованих дублікатів, які могли б залишитися непоміченими при використанні традиційних методів аналізу, орієнтованих лише на лексичну подібність. Експериментальні результати підтвердили переваги запропонованого рішення порівняно з базовим методом косинусної схожості, оскільки воно забезпечує більшу точність та повноту, що є критично важливим для задач автоматичної обробки текстових даних. У підсумку окреслено подальші напрями досліджень, зокрема можливості оптимізації обчислювальної складності запропонованого методу, його адаптацію до специфічних предметних областей, а також дослідження впливу додаткових семантичних ознак на якість виявлення нечітких дублікатів.

Біографії авторів

Козинець Назарій Вікторович, Національний технічний університет України “Київський політехнічний інститут ім. Ігоря Сікорського”

магістр кафедри програмного забезпечення комп'ютерних систем

Заболотня Тетяна Миколаївна, Національний технічний університет України “Київський політехнічний інститут ім. Ігоря Сікорського”

канд. техн. наук, доцент кафедри програмного забезпечення комп'ютерних систем

##submission.downloads##

Переглядів анотації: 15

Опубліковано

2025-03-27

Як цитувати

[1]
Н. В. Козинець і Т. М. Заболотня, «ВПЛИВ КОМБІНОВАНИХ ВЕКТОРНИХ ПРЕДСТАВЛЕНЬ НА ТОЧНІСТЬ ПОШУКУ НЕЧІТКИХ ДУБЛІКАТІВ», НаукПраці ВНТУ, вип. 1, Бер 2025.

Номер

Розділ

Інформаційні технології та комп'ютерна техніка

Метрики

Завантаження

Дані завантаження ще не доступні.