Системата за автоматично разрешаване на местоименна анафора за български език включва следните функционалности:
(а) разпознаване и анотиране на антецедентите на местоименните анафори, преди всичко третоличните местоимения в именителен, винителен и дателен падеж; третоличните притежателни, възвратните лични и възвратните притежателни местоимения; относителните местоимения (който и формите му); и
(б) откриване на случаите на неизразен подлог и идентифициране на антецедента на неизразения подлог в окръжаващия контекст.
Системата се основава на правила, които отразяват специфични езикови явления и закономерности за българския език като свободния словоред, елипсата на подлога, безличните изречения и съгласуването. Те спадат към два вида:
(а) филтриращи, които налагат ограничения и по този начин подпомагат отстраняването на невалидните кандидати, и
(б) ранкиращи, които служат за сортиране на валидните кандидати и подбор на най-вероятния от тях.
Правилата се прилагат върху корпус, в който сложните изречения са предварително разделени на прости с помощта на специална програма. По този начин става възможно дефинирането на минималната област за откриване на антецедентите на анафорите в рамките на простото изречение (за възвратните лични и възвратните притежателни местоимения) или извън рамките на дадено просто изречение (за относителните местоимения, а в много от случаите – и за личните и притежателните местоимения).
Mетодът е приложен върху автоматично анотирания с анафори семантично анотиран корпус БулСемКор, като първоначално приписаните референции на анафорите са ръчно проверени и коригирани. Точността на метода е съпоставим с резултатите, докладвани за други езици.
Програмата за разрешаване на анафори се разпространява със свободен лиценз GNU General Public License, version 3 (GPL-3.0). Достъпна е за сваляне от тук (предоставена също и като програмен код).
Ресурсът е описан в следните публикации:
Тодорова, М., Лесева, Св., Стоянова Ив. Речник на съставните думи в българския език – развитие и перспективи. – В: Сборник с доклади от Международната юбилейна конференция на Института за български език „Проф. Любомир Андрейчин“ (София, 15 – 16 май 2017 година), 1, 2017, ISBN:978-954- 92489-9- 9, с. 311-319. (pdf)