Програмата разпознава границите на простите изречения в състава на сложното и частично реконструира структурата на сложното изречение чрез отразяване на зависимостите (съчинителни или подчинителни отношения) между отделните прости изречения. Методът използва система от граматични и лексикални шаблони, с помощта на които се идентифицират компонентите от изречението, необходими за изпълнението на задачата, а именно: (а) сказуемите – прости и аналитични форми на глаголите, глаголна част на именните сказуеми, сказуеми, включващи фазови и модални глаголи и (б) (потенциално) свързващите елементи между простите изречения (дума, съставна дума или фраза, която синтактично и семантично изразява връзката между две прости изречения). Въз основа на това се прилага алгоритъм за разпознаване на действителните граници на простите изречения, както и типа на свързването: съчинително или подчинително.
Методът е тестван върху българската част на Българско-английския паралелен корпус със съотнесени прости изречения (Коева и др. 2012), която се състои от 176 397 токъна, 14 667 изречения и 24 409 прости изречения. Оценката е извършена в съпоставка на резултатите от автоматичната и ръчната анотация. При разработването на правилата не са използвани части от корпуса. Постигнатите резултати са съпоставими и дори по-високи спрямо докладваните в литературата.
Правилата за разделяне на прости изречения са формулирани максимално езиково независимо и са независими от езиково специфичните компоненти. Това позволява лесното адаптиране на метода към много други езици, стига да се разработят езиково зависими ресурси, което е относително проста задача. При тестването за английски език постигнатата точност е 73,4%.
Програмите за разпознаване на глаголни форми (включително аналитични) и за разделяне на прости изречения, заедно с прилежащите им ресурси, се разпространяват със свободен лиценз GNU General Public License, version 3 (GPL-3.0). Програмата за разпознаване на глаголни форми е вградена като компонент в програмата за разпознаване на границите на простите изречения в състава на сложното и могат да бъдат изтеглени от тук (предоставени и като програмен код). По-долу можете да видите примен текст с тагирани глаголни форми.
Примерни списъци с шаблоните за образуване на сложни глаголни форми на български и на ангийски език могат да бъдат изтеглени от тук. Разпространяват се със свободен лиценз Creative Commons Attribution 4.0 International (CC BY 4.0).
При използване на ресурсите можете да цитирате следната публикация:
Стоянова и Лесева 2017: Стоянова, Ив., Лесева, Св. Автоматично разпознаване на прости изречения в състава на сложното в българския език. – В: Сборник с доклади от Юбилейната научна сесия Съвременна тенденции в езиковедските изследвания, посветена на 85 години от рождението на проф. д.ф.н. Йордан Пенчев, 2017, 360 – 375.