Автоматизоване вирівнювання речень в українсько-німецьких паралельних текстах
Loading...
Date
2025
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Інститут інформаційних технологій та систем НАН України, Видавничий дім "Академперіодика" НАН України
Abstract
Вступ. Вирівнювання речень в українсько-німецьких паралельних текстах є актуальним завданням, яке дає змогу отримувати набори паралельних даних, необхідних для багатьох завдань комп’ютерної лінгвістики, таких як побудова паралельних корпусів та машинний переклад. Стаття описує основні завдання вирівнювання речень, розглядає наявні методи та аналізує їхні ідеї. На основі цього аналізу пропонується новий метод, який ґрунтується на підході Bleualign і використовує системи машинного перекладу та метрику BLEU для оцінки схожості речень. Однак він відрізняється використанням додаткових словників маркерів для галузевих термінів та сполучників, включаючи їхні синоніми.
Мета. Розроблення методу та відповідного програмного забезпечення автоматизованого вирівнювання речень в українсько-німецьких паралельних текстах.
Методи. За основу розробленого методу використано метод Bleualign та метрику BLEU. Його удосконалено використанням словників галузевих термінів та сполучників, а також передбачено фокусування на одній мовній парі — українсько-німецькій. Запропонований метод складається із 6 етапів, які дозволяють виконати вирівнювання речень в українсько-німецьких паралельних текстах. Запропонований метод програмно реалізовано із використанням мови програмування Python.
Результати. Розроблено новий метод вирівнювання речень для українсько-німецьких паралельних текстів та виконано його програмну реалізацію. Запропонований метод базується на статистичних підходах і не вимагає значних обчислювальних ресурсів. На відміну від методу Bleualign, у ньому використано словники галузевих термінів і сполучників для більш точного вирівнювання речень.
Висновки. Подальші дослідження включатимуть проведення експериментів і порівняння результатів вирівнювання, отриманих при застосуванні запропонованого методу, із результатами методу Bleualign.
Description
Keywords
SOCIAL SCIENCES::Statistics, computer and systems science::Informatics, computer and systems science, SOCIAL SCIENCES::Statistics, computer and systems science::Informatics, computer and systems science::Information technology
Citation
Коротюк, М., & Рибачок, Н. (2025). Автоматизоване вирівнювання речень в українсько-німецьких паралельних текстах. Information Technologies and Systems (Інформаційні технології та системи), 1(1), 50–58. https://doi.org/10.15407/intechsys.2025.01.050