Автоматична класифікація текстів українською мовою за функційними стилями

Loading...
Thumbnail Image
Date
2025
Journal Title
Journal ISSN
Volume Title
Publisher
Інститут інформаційних технологій та систем НАН України, Видавничий дім "Академперіодика" НАН України
Abstract
The proposed multilevel method for classifying Ukrainian texts by functional style combines statistical analysis, keyword analysis, and contextual analysis based on the BERT model, which accounts for semantic and contextual dependencies in the text. The results support the hypothesis that combining contextual features (generated by BERT) with statistical style parameters yields the highest classifi cation accuracy. This highlights the advantage of the proposed model for tasks requiring high precision and stability in identifying functional text styles.
Description
Вступ. Автоматична класифікація текстів за функційними стилями є важливим завданням в інженерії програмного забезпечення, оскільки вона дозволяє автоматизувати оброблення текстових даних для ефективного вирішення таких розповсюджених задач, як пошук інформації, аналіз документів тощо. Процес визначення функційного стилю вимагає аналізу лексичних, граматичних та стилістичних особливостей тексту з урахуванням його контексту. Основною складністю тут є те, що українська мова характеризується значною різноманітністю стилістичних варіацій. Наявні рішення,розроблені для інших мов, потребують суттєвої адаптації для української. У зв’язку з цим постає необхідність розроблення спеціалізованих методів, здатних ідентифікувати функційні стилі саме в українськомовних текстах. Мета статті. Метою даної роботи є підвищення точності класифікації текстів українською мовою за функційними стилями шляхом розроблення методу та програмного забезпечення для автоматичного визначення стилю тексту. Методи. Запропонований в статті багаторівневий метод класифікації текстів українською мовою за функційними стилями поєднує статистичний аналіз, аналіз ключових слів та контекстний аналіз на основі моделі BERT, що дозволяє враховувати семантичні та контекстуальні залежності в тексті. Етапами запропонованого методу є: збір статистичних параметрів тексту, визначення характерних лем для стилів, а також застосування контекстного аналізу для покращення класифікації текстів. Метод реалізовано в межах консольного застосунку, що базується на модульній архітектурі. Результат. Запропонована модель значно перевершує як класичну BERT, так і SVM за метрикою Accuracy: вона досягла 0,829, тоді як BERT і SVM показали 0,646 і 0,612 відповідно. За точністю позитивних передбачень (Precision) запропонована модель продемонструвала 0,780, випередивши BERT (0,626) і SVM (0,541), що свідчить про зменшення кількості хибно-позитивних результатів. Показники Recall (0,709) і F1-score (0,729) також перевищують результати альтернатив, забезпечуючи збалансованість між точністю і повнотою. Показник AUC (0,952) підтверджує здатність моделі точніше розпізнавати стилі текстів, перевершуючи значення BERT (0,908) і SVM (0,834). Висновки. Отримані результати підтверджують гіпотезу, що поєднання контекстних ознак, сформованих з допомогою BERT, із статистичними параметрами стилю забезпечує найвищу точність класифікації. Це підкреслює перевагу запропонованої моделі для задач, які вимагають високої точності та стабільності у визначенні функційних стилів тексту.
Keywords
SOCIAL SCIENCES::Statistics, computer and systems science::Informatics, computer and systems science, SOCIAL SCIENCES::Statistics, computer and systems science::Informatics, computer and systems science::Information technology
Citation
Музичук, М., & Заболотна, Т. (2025). Автоматична класифікація текстів українською мовою за функційними стилями. Information Technologies and Systems (Інформаційні технології та системи), 2(2), 90–97. https://doi.org/10.15407/intechsys.2025.02.090