Българският семантично анотиран корпус
Начало Описание Приложение Публикации Българският семантично анотиран корпус (БулСемКор) е структуриран корпус с текстове на български език, в който на всички думи е приписано значение от Българския уърднет. БулСемКор е създаден от Секцията по компютърна лингвистика към Института за български език при Българската академия на науките. Език: български. Тип: общ едноезиков текстов корпус, обогатен с лингвистична анотация. Състав: 811 текста…
Българско-английски паралелен корпус със съотнесени (прости) изречения
Начало Описание Приложение Публикации Българско-английският паралелен корпус със съотнесени (прости) изречения (БулЕнСИ) е структуриран корпус с паралелни текстове на български и английски език, в рамките на който съответстващите си по съдържание изречения и прости изречения в състава на сложните са съотнесени помежду си. Извършена е и анотация на вида на синтактичната връзка между двойките прости изречения в състава на сложното….
Българският Браун корпус
Начало Описание Авторски права Приложение Публикации Връзки Българският Браун корпус (БулСемКор) е общ, представителен, статичен корпус с текстове на български език, създаден от Секцията по компютърна лингвистика към Института за български език при Българската академия на науките съобразно методологията, разработена в университета Браун (Brown university, Providence, Rhode Island, USA) и приложена за английски език при създаването на оригиналния Браун корпус…
Езикови задачи
Езикови задачи за проверка за степента на овладяване на основната глаголна лексика Към задачите (онлайн достъп)
Речници на основна глаголна лексика в българския език
Семантичен ресурс: Колекция от 5074 глагола, организирани в синонимни множества, оценени по специална методика, включваща количествени и качествени критерии с цел да се провери принадлежността им към основния речников запас. За изтегляне (pdf) Семантичен ресурс: Колекция от 269 глагола, оценени експериментално за степента на тяхното овладяване сред ученици от начален етап на обучение. За изтегляне (pdf) Ресурсите, резултат от проекта,…
PARSEME – корпус с анотирани несвободни фрази
Information Corpus Annotation Publications The PARSEME-bg corpus covers 21 599 sentences amounting to 480 413 tokens, including 6721 annotated verb multiword expressions. Annotation was performed in two phases – phase 1.0 (2017) and phase 1.1 (2018). The distribution of semantic types of VMWEs is shown below. We use the following types of VMWEs: (a) verb idioms (VID) with non-compositional meaning…