Анотация

Принципи на анотацията на БНК

Лингвистичната анотация увеличава стойността на корпуса, като го прави приложим за широк набор от изследвания, тъй като позволява извличането на разнообразна информация, разширява неговите функции за различни цели, а също така предлага данни за количествени изследвания върху употребата на езика. В нашия подход приемаме следните критерии за осигуряване на качествена анотация:

  • Многопластовост – колкото по-богато анотиран е даден корпус, толкова по-широки приложения има за целите на теоретичните и приложните изследвания. При обработването на корпуса се наслагва постепенно разнообразна анотация.
  • Съгласуваност със стандартите за форматиране на данните и представяне на анотацията. Унификацията на различните тагове и формати, включително системите за кодиране, се осигурява чрез надеждно конвертиране.
  • Последователност – използване на установено множество от атрибути и стойности за различните езици и различните типове данни – текст, аудио, видео, визуални изображения, както и прилагане на общи техники за обработка на данните (напр. комбиниране). Това ще улесни съпоставителните изследвания и ще направи възможно приложението на езиково независими програми за обработка.
  • Непротиворечивост – тъй като анотацията се извършва автоматично върху голямо количество текстове, е необходимо да се осигурят механизми за откриване на несъответствия, както и за проверка и оценка на качеството.

При ръчната и автоматичната анотация се съблюдават следните общи принципи: началният текст не трябва да се променя; анотацията се извършва на етапи и се наслагва в многопластова структура; данните са представени като двойки атрибут – стойност. Всяко анотационно ниво е независимо и може да бъде използвано самостоятелно. Различни съвместими анотационни схеми могат да бъдат обединявани.

Едноезикова анотация

Българските текстове са анотирани с помощта на Българската многокомпонентна система за първична обработка и лингвистична анотация на текстове. Тя включва програми за обработка (токънизатор и разделител на изречения, основани на регулярни изрази, SVM тагер по части на речта, лематизатор на основата на речник, чънкер, програма за семантична анотация от уърднет), които са адаптирани да работят в единна система, при което се осигурява тяхната свързаност, ефективност и висока точност. Тренирането на тагера е осъществено при следните параметри: двукратна обработка в двете посоки; разглеждане на контекст от 5 тоукъна, като думата за анотация е на втора позиция; 2- и 3-грами от думи или морфосинтактични тагове или класове; лексикални параметри като представки, наставки, граници на изречения и главни букви. Лематизацията използва резултата от тагирането и Граматическия речник (75 класове думи и 1029 различни граматически тагове в речника), като за отстраняване на многозначността се прилага набор от правила. Чънкерът представлява парсер, който използва ръчно формулирана контекстно зависима граматика за еднозначно разпознаване на фрази и техните опори.

 

Apache OpenNLP с предварително тренирани модели и Stanford CoreNLP се използват за анотацията на английските текстове – разделяне на изречения, такънизация, тагиране по части на речта. Модели за OpenNLP могат да бъдат тренирани и приложени и за други езици, а някои такива модели са вече достъпни (за немски, испански и други). Лематизацията на английските текстове се извършва в помощта на Stanford CoreNLP и RASP. Тъй като се цели високото качество и последователност на анотацията, са изследвани различни системи за обработка на английски и други езици.

Съвместимостта на анотацията за български и другите езици се осигурява по един от следните начини:

  • анотацията се извършва върху напълно неанотирани текстове, като се прилагат еднакви стандарти и принципи, или
  • наличната анотация се конвертира към единния формат.

Във всички случаи се следват конвенциите, възприети за БНК. Различните системи от тагове се конвертират към българските, като се запазват езиково зависимите компоненти. Българската система от тагове осигурява пълноценното морфологично и морфосинтактично описание на лексикалните единици в българския език. Системата е съпоставима сморфосинтактичните описания на Multext-East, които са ценни като единна рамка за много европейски езици, въпреки че се изтъкват и някои слабости по отношение на описанията както на общо, така и на езиково специфично равнище.

Съотнасяне на паралелни текстове

Съотнасянето по изречения има важно значение в обработката на паралелни ресурси и е необходимо да бъде извършено за всички двойки езици. Качественият резултат от разделянето на изреченията е важна предпоставка за качеството на съотнасянето. Голяма част от грешките при съотнасянето по изречения са в резултат от неточно определяне на границите на изреченията. Две системи за съотнасяне са приложени върху части от паралелните корпуси: HunAlign и Maligna.

 

При съотнасянето се прилага алгоритъмът на Гейл-Чърч, който използва мярка, основана на дължината на изречението, и е езиково независим. Разгледани са и други методи за съотнасяне, като Bilingual Sentence Aligner и употребата на двуезични речници. Системата за съотнасяне работи върху текста с разделени изречения, като резултатът е последователност от паралелни съответствия. Към момента са съотнесени текстовете от Българско-английския паралелен корпус.

 

Следваща стъпка в обработването на паралелни корпуси е автоматичното съотнасяне на части от изречения: прости изречения в състава на сложното (вж. BulEnAC), фрази и думи.