ВПЛИВ СИНТАКСИЧНИХ ЗВ’ЯЗКІВ У РЕЧЕННЯХ НА ЯКІСТЬ ІДЕНТИФІКАЦІЇ ТОКСИЧНИХ КОМЕНТАРІВ В СОЦІАЛЬНІЙ МЕРЕЖІ

  • Сергій Дмитрович Штовба Вінницький національний технічний університет
  • Олена Валеріївна Штовба Вінницький національний технічний університет
  • Олександр Вікторович Яхимович Вінницький національний технічний університет
  • Микола Володимирович Петричко Вінницький національний технічний університет
Ключові слова: аналіз тексту, обробка природньої мови, синтаксичні зв’язки, токсичні коментарі, соціальна мережа, ідентифікація, автоматичне навчання, відбір ознак

Анотація

Соціальні мережі все частіше стають середовищем для погроз, образ та інших складових кібербулінгу. В онлайнових соціальних мережах задіяна величезна кількість людей, тому виникає потреба в автоматизації діяльності із захисту користувачів від антисоціального впливу. Одним із важливих напрямків такої діяльності є виявлення токсичних коментарів, що містять погрози, образи, зневагу до оточуючих тощо. Зазвичай ідентифікацію токсичних коментарів здійснюють за статистикою мішка слів та мішка символів. В статті досліджується вплив синтаксичних зв’язків у реченнях на якість ідентифікації токсичних коментарів в соціальній мережі. Під синтаксичними зв’язками розуміються зв'язки із власними назвами, з особовими займенниками, з присвійними займенниками тощо. Всього перевірено двадцять синтаксичних ознак речень. Встановлено, що додаткове врахування трьох специфічних ознак суттєво покращує якість ідентифікації токсичних коментарів. Цими трьома специфічними ознаками є такі: кількість зв'язків з власними назвами в однині, кількість зв'язків, в яких фігурують погані слова та кількість зв'язків між особовими займенниками та поганими словами. Експерименти проведено на основі даних із kaggle-змагання “Toxic Comment Classification Challenge”. Оригінальну kaggle-задачу категоризації токсичних коментарів було модифіковану у задачу класифікації з двома альтернативами: нейтральний коментар та токсичний коментар. Для наших експериментів оригінальну вибірку із 159751 коментарів скорочено до 106590 коментарів через проблеми з автоматичним виділенням синтаксичних ознак тексту. В модифікованій вибірці частка токсичних коментарів становить 12.8%. Для врахування незбалансованості вибірки даних метрикою якості обрано середнє значення частот помилок класифікації кожного типу. Класифікацію здійснено за допомогою дерева рішень. Дерева рішень синтезувалися за двох правил розщеплення: на основі індекса Джині та ентропійного критерію.

Біографії авторів

Сергій Дмитрович Штовба, Вінницький національний технічний університет

професор, д. т. н., професор кафедри комп’ютерних систем управління

Олена Валеріївна Штовба, Вінницький національний технічний університет

доцент, канд. екон. наук, доцент кафедри менеджменту, маркетингу та економіки

Олександр Вікторович Яхимович, Вінницький національний технічний університет

аспірант кафедри автоматизації та інтелектуальних інформаційних технологій

Микола Володимирович Петричко, Вінницький національний технічний університет

студент факультету комп’ютерних систем та автоматики

Опубліковано
2019-11-26
Як цитувати
[1]
С. Штовба, О. Штовба, О. Яхимович, і М. Петричко, ВПЛИВ СИНТАКСИЧНИХ ЗВ’ЯЗКІВ У РЕЧЕННЯХ НА ЯКІСТЬ ІДЕНТИФІКАЦІЇ ТОКСИЧНИХ КОМЕНТАРІВ В СОЦІАЛЬНІЙ МЕРЕЖІ, НПВНТУ, № 4, Лис 2019.
Розділ
Інформаційні технології та комп'ютерна техніка

Найчитабильні статті цього ж автора(ів)

Цей плагін вимагає, щонайменше, один звіт статистики / плагін повинен бути включений. Якщо плагіни вашої статистики забезпечують більше однієї метрики, будь ласка, також виберіть основну метрику на сторінці налаштувань адміністратор сайту і / або на сторінках налаштувань менеджера журналу.