EN BG

Флективен речник на съставните лексикални единици

Работата по речника е извършена като задача по проекта „Български национален корпус“ (2014-2019).

Речникът наброява общо близо 25 000 лексикални единици с дефинирани над 100 флективни типа за мъжки, женски и среден род преобладаващо на двусъставни именни съчетания и някои многосъставни и е предоставен за ползване със свободен лиценз Creative Commons Attribution 4.0 International (CC BY 4.0). Ресурсът е достъпен за сваляне от тук.

Програмата за анотиране на съставни лексикални единици е комплектована заедно с дефинираните до момента флективни типове и кратко описание и се разпространява със свободен лиценз GNU General Public License, version 3 (GPL-3.0). Достъпна е за сваляне от тук (предоставя се свободно и програмният код).

Ресурсът е описан в следните публикации:

Тодорова, М., Лесева, Св., Стоянова Ив. Речник на съставните думи в българския език – развитие и перспективи. – В: Сборник с доклади от Международната юбилейна конференция на Института за български език „Проф. Любомир Андрейчин“ (София, 15 – 16 май 2017 година), 1, 2017, ISBN:978-954- 92489-9- 9, с. 311-319. (pdf)

Koeva, S., I. Stoyanova, M. Todorova, S. Leseva. Semi-automatic Compilation of the Dictionary of Bulgarian Multiword Expressions. Proceedings of the GLOBALEX 2016 Workshop: Lexicographic Resources for Human Language Technology, LREC, 2016, 86-95. (pdf)

Визуализирана е малка част от речника с избрани съставни лексикални единици (около 1600+ единици), демонстриращи различни типове единици, организирани по следния начин:

  • Единиците са групирани по тематична област (където такава има приписана в различни семантични ресурси). Единиците без приписана тематична област са обединени в „Общо знание“. Тематичната област е посочена и в червено поле до всяка единица.
  • За единиците, които са разпознати като наименования, това е означено в зелено поле, маркирано като „име“.
  • В синьо поле е посочен флективният тип на съставната лексикална единица. Флективният тип отразява парадигмата на единицата, както и ограниченията върху нея (напр. ако има форми само за ед.ч.).
  • Оранжево поле показва информация за словореда на единицата, който при представените (именни) лексикални единици е фиксиран.
  • В бледорозово са показани други ресурси, в които е намерена дадената единица – БулНет (посочен е уникалният идентификационен номер на съответното синонимно множество; а при задържане на мишката върху него се визуализира информация за самото множество) и Уикипедия (с информация за статията в Уикипедия).
  • За всяка лексикалната единица (при натискане с мишката) се визуализират всички възможни форми на единицата, отговарящи на флективния тип и валидните за него ограничения. За всяка форма са посочени граматичните ѝ характеристики, а след това с отметка е означено дали съответната форма е намерена в текстови ресурси. При единици, за които не са намерени форми за едно от числата (ед. или мн.), съответните форми са в по-светъл свят, което насочва към необходимостта по-детайлно изследване на появата и дистрибуцията на такива форми и тяхната семантична и граматична обоснованост.

Списък на съкращенията и означенията, използвани за формализираното описание на граматичните характеристики на единиците в в речника. Главните букви означават категория и категориално граматично значение, а малките – изменяеми граматични характеристики.

Означение Значение
N/NН (в началото)     Именна съставна лексикална единица
M мъжки род
F женски род
N среден род
so единствено число, нечленувано
sl единствено число, членувано с кратък член
sh единствено число, членувано с пълен член
po множествено число, нечленувано
pd множествено число, членувано
pb бройна форма (само за мъжки род)

Copyright © 2015-2022 Институт за български език. Всички права запазени.