EN BG

Българският семантично анотиран корпус



Българският семантично анотиран корпус (БулСемКор) е структуриран корпус с текстове на български език, в който на всички думи е приписано значение от Българския уърднет. БулСемКор е създаден от Секцията по компютърна лингвистика към Института за български език при Българската академия на науките.

Език: български.

Тип: общ едноезиков текстов корпус, обогатен с лингвистична анотация.

Състав: 811 текста от 100+ думи, разделени в 15 категории от 2 типа – художествени и информативни текстове; обем на изходния корпус – 101 062 токъна, обем на анотирания корпус – 99 480 лексикални единици.

Анотация: токънизация и разделяне на изречения; определяне на частта на речта и на основната форма на думите в корпуса; еднозначно определяне на значението на всички думи от корпуса в съответния контекст, извършено от експерти лингвисти.

Условия за достъп:

Изтегляне:

➥ БулСемКор

Корпусът е част от семантично анотираните ресурси на Глобалния уърднет.

ПРОЕКТИ

УЧАСТНИЦИ

В съставянето на Българския семантично анотиран корпус са участвали:

проф. д-р Светла Коева (ръководител)

гл. ас. д-р Цветана Димитрова, гл. ас. д-р Христина Кукова, гл. ас. д-р Светлозара Лесева, гл. ас. д-р Мария Тодорова, доц. д-р Екатерина Търпоманова (анотатори)

Катя Алахверджиева, Николай Раданов (анотатори за определен период)

Борислав Ризов (автор на програмата за анотация)

Никола Обрешков (компилация на изходния корпус)

Общо описание

Българският семантично анотиран корпус (БулСемКор) е анотиран ръчно със значения от Българския уърднет, а обемът му е съпоставим с този на много от съществуващите семантично анотирани корпуси за други езици. При семантичната анотация в БулСемКор е извършено съотнасяне на конкретната употреба на всяка лексикална единица от изходния корпус с точно едно значение на семантично множество в Българския уърднет. Подборът на най-правилното измежду възможните значения се основава на множество от процедури, при които се вземат предвид синонимите от синонимните множества, тълковната дефиниция, мястото на синонимното множество в структурата на Уърднет и т.н.

Броят на анотираните лексикални единици е 99 480 (останалите токъни до изходния обем не са езикови единици). Броят на думите е 86 842, а на съставните лексикални единици – 5 797 (12 638 токъна).

Българският семантично анотиран корпус (БулСемКор) е създаден в рамките на национално финансирания проект „БулНет – лексикално-семантична мрежа на българския език“ (2005–2010), като е следвана методологията, използвана при създаването на семантично анотирания корпус СемКор (Милър 1995: Miller, G. A. Building Semantic Concordances: Disambiguation vs. Annotation. – In: AAAI Technical Report SS-95-01, 1995, рр. 92 – 94.), в съчетание с някои специфични принципи (Коева 2010). Изходният корпус е с общ обем от 101 791 токъна и представлява извадка от Българския Браун корпус (Коева, Лесева и Тодорова 2006), създаден по методологията на Корпуса Браун (Франсис и Кучера 1979: Francis, N., H. Kucera. Manual of Information to Accompany a Standard Sample of Present-day Edited American English, for Use with Digital Computers. Department of Linguistics, Brown University, Providence, R. I., U.S.A., original ed. 1964, revised 1971, revised and augmented 1979). Важна характеристика на БулСемКор е, че при подбора на текстовете са приложени евристични методи, които осигуряват оптимално за обема и структурата му покритие на разнообразна многозначна лексика.

Семантичната анотация е извършена със специално създадената програма за лингвистична анотация Чузер.

Характеристика на текстовете, включени в корпуса

Представителността на Българския семантично анотиран корпус се гарантира чрез наследяването на структурата на Българския Браун корпус, като в БулСемКор са включени извадки от минимум 100 думи (разширени в посока наляво и надясно до край на изречение) от всеки от 500-те текста на Българския Браун корпус, като са избрани извадки, които съдържат най-голям брой пълнозначни думи от честотен речник, съставен от два корпуса, в които е отстранена граматичната многозначност на словоформите: българския превод на „1984“ от Дж. Оруел и корпус с текстове от три тематични области – икономика, право и политика. За постигане на оптимално балансиран подбор на думите от отделните части на речта се приписва различно тегло: 0,4 на съществителните, 0,3 на глаголите, 0,2 на прилагателните, 0,1 на наречията.

Покритие на анотацията

Важни отличителни черти на БулСемКор са единният подход към различните лексикални единици и възприетият принцип за последователна и изчерпателна анотация.
Всички лексикални единици, независимо от строежа (несъставни или съставни) или функцията си (пълнозначни или служебни), се смятат за равноправни и се анотират според дефинираните общи критерии.

Българският уърднет – БулНет, е избран за анотацията на Българския семантично анотиран корпус заради гранулираността и изчерпателността на дефинираните значения; комплексната релационна структура на Уърднет, която прави възможни редица приложения, свързани с обработката на естествения език; съотнасянето на БулНет с Принстънския уърднет, а чрез него и с други уърднети, което осигурява достъп до еквивалентите на съответните значения в голям брой езици; разширяемата анотационна схема, която позволява паралелно с процеса на анотация да се добавят и редактират значения в съответствие с корпусните данни.

Формат на корпуса

Анотираните файлове са в xml формат. Значението на думите, съответно представени чрез потребената словоформа w (word, дума) и основната форма l (lemma, основна форма), е еднозначно определено чрез стойността на атрибута s (sense, значение). Всички компоненти на съставните лексикални единици получават една и съща стойност за атрибута р (parent, родител), например:
<word l="финансово" p="-1529022516" s="107274521200" w="финансовото"/>
<word l="министерство" p="-1529022516" s="107274521200" w="министерство"/>

Информация за края на изречението се съдържа в атрибута e. Има и два системни атрибута: u (user, анотатор) и t (time, време на анотацията).

Анотираната единица наследява цялата езикова информация, асоциирана със съответното синонимно множество:

  • частта на речта;
  • описателната дефиниция;
  • примерите за употреба;
  • бележките за граматични, семантични и прагматични ограничения при един или повече членове на синонимното множество или на синонимното множество като цяло;
  • множество от семантични, морфосемантични и извънезикови релации, принадлежащи към синонимното множество;
  • множество от семантични и деривационни релации, свързани с даден литерал.

Изтегляне:

➥ БулСемКор

Части от Българския семантично анотиран корпус са използвани като тренировъчен и тестов корпус при създаването на вероятностен формализъм и на програма за автоматично отстраняване на семантична многозначност за целите на автоматичния превод (Ризов 2009, резюме).

Изследването на БулСемКор поставя въпроси и осигурява среда за теоретично и практическо изучаване на различни проблеми, които като цяло са слабо застъпени в научните изследвания. Такива са например проблемите за многозначността при представителите на затворените класове думи и при съставните лексикални единици. В по-общ план семантичната анотация и разширяването на БулНет със синонимни множества въз основа на засвидетелстваните в БулСемКор значения поставят редица научни задачи, свързани едновременно с разпознаването на езиковите единици и с лексикографското им описание.

Анотираните данни са отправна точка за разработването на модели за семантичен анализ. Така например информацията за семантичния клас на анотираните предикати и техните аргументи и адюнкти (наследена от Уърднет в съчетание с релациите, изразявани от предлозите и съюзите, и онтологичния тип на адвербиалните обкръжения на предикатите позволява изследването и формализирането на семантичните релации между участниците в ситуациите и дефинирането на когнитивно валидни селективни ограничения.

Ресурсът се предоставя за свободно използване с лиценз CC BY-SA 4.0. Цитирайте в разработките си, основани на БулСемКор, някоя от следните публикации:

Коева, Св. Българският семантично анотиран корпус – теоретични постановки. – В: Българският семантично анотиран корпус. София: Институт за български език „Проф. Любомир Андрейчин“, 2010, 7 – 42. ISBN: 978-954-779-124-4.
Ризов, Борислав. Премахване на семантична многозначност със скритите марковски модели. – В: Български език, 56, 3, 2009, 130 – 136. ISSN: 0005-4283.
Тодорова, М., Х. Кукова, Св. Лесева. Семантично анотирани ресурси за български език – БулСемКор. – В: Езикови ресурси и технологии за български език. София: Академично издателство „Проф. Марин Дринов“, 2014, 80 – 104. ISBN: 978-954-322-797-6.
Koeva, Sv. Bulgarian Sense-annotated Corpus – between the tradition and novelty. – In: Études Cognitives / Studia Kognitywne, 12. Poland, 2012, pp. 181 – 198. ISSN: 2080-7147.
Koeva, S., S. Leseva, M. Todorova. Bulgarian Sense Tagged Corpus. – In: Proceedings of the 5th SALTMIL Workshop on Minority Languages: Strategies for Developing Machine Translation for Minority Languages, 2006, pp. 79 – 87.
Koeva, S., S. Leseva, I. Stoyanova, E. Tarpomanova, M. Todorova. Bulgarian Tagged Corpora. – In: Proceedings of the Fifth International Conference Formal Approaches to South Slavic and Balkan Languages, 2006, pp. 78 – 86.
Koeva, S., S. Leseva, B. Rizov, E. Tarpomanova, T. Dimitrova, H. Kukova, M. Todorova. Design and development of the Bulgarian Sense-Annotated Corpus. – In: Proceedings of the Third International Corpus Linguistics Conference (CILC). Spain: Universitat Politecnica de Valencia, 2011, pp. 143 – 150. ISSN: 978-846-946-225-6.

Copyright © 2015-2022 Институт за български език. Всички права запазени.