Речници


Граматичен речник на българския език

Синтактичен речник на българския език

Български граматичен речник на съставните лексикални единици

Речник на съставните лексикални единици в българския език

Честотни речници

Многоезиков речник на 6 езика

Граматически речник с обща лексика на български език

Специализирани речници

   • Медицински речник

   • Речник с правни и съдебни термини

   • Икономически речник

   • Политически речник

   • Военен речник

   • Спортен речник

Речник на собствени имена

Речник на съкращения



Граматичен речник на българския език

Общо описание

Електронният Граматичен речник на българския език в момента съдържа около 85 000 думи от основния речников фонд на българския книжовен език. Граматичният речник позволява автоматично генериране и анализиране на словоформите, чийто брой е около 1 140 000. Това означава, че речникът осигурява възможността да се построи парадигмата (всички форми) на произволна дума, включена в него, да се разпознае определена форма като част от парадигмата на съответната дума и да се припишат граматичните характеристики. Наред с това речникът предоставя възможността да се решават други лингвистични задачи от различен тип - с изследователски или приложен характер.

Структурата на речника е изградена с помощта на крайни преобразуватели, които имат широко приложение при създаването на съвременните електронни речници. Речниковите единици, представени в Граматичния речник, се състоят от основна форма, която се свързва с определена лингвистична информация. Формалният запис на граматичната информация заедно с индекса, който го прави уникален, представлява името на крайния преобразувател, който разпознава всички кореспондиращи форми на думата. Всички думи в езика, които имат еднакви граматични характеристики и еднакво множество от окончания и редувания, се асоциират с един и същ краен преобразувател.

В настоящия си вариант Граматичният речник представя в пълна степен формообразуването на синтетични словоформи и поради тази причина е подходящ за трансформация в речник за корекция на правописа. Форматът на Граматичния речник го прави отворен както за попълване с нови лексикални единици, така и с допълнителни граматични характеристики към думите.

Език: български

Тип: едноезиков граматичен (флективен) речник на простите думи

Съдържание: 85 000 основни форми

Приложения: за проверка на правописа и граматичните характеристики на думите; вграден е в програми за автоматична проверка на правописа

Условия за достъп (свободен, ограничен): свободно търсене чрез интернет

Формат: DELA, MySQL база от данни

URL: http://dcl.bas.bg/est/dict.php


(обратно в началото)


Синтактичен речник на българския език

Общо описание

Синтактичният речник на българския език съдържа информация за синтактичното обкръжение на езиковите единици, тяхната семантична съчетаемост и възможните диатези. Създаването на Синтактичния речник на българския език се извършва с помощта на уеб базираната система SYNText (SYNtactic Dictionary Tool).

Първата част на речника включва 2 000 от най-често срещаните български глаголи с всички техни значения и съответстващото им формално семантично и синтактично описание. Структурата на речниковата статия се състои от: заглавна дума и част на речта, класификация на глагола към съответен клас значение, включващо описателно аргументите; информация за всеки аргумент поотделно, съдържаща следните компоненти: вид на фразата (експлицитност на фразата, синтактична функция, семантични признаци за всеки аргумент, онтологии, предлозите при предложните групи, въвеждаща връзка за подчиненото изречение, други коментари); информация за допустимите диатези на съответния глагол в следния ред:(вид диатеза, примери).

Значенията на глаголите се проверяват в корпус и се унифицират с тези, използвани в Българския WordNet. Тъй като в някои случаи семантичните признаци са недостатъчни за правилното ограничаване на кръга думи, които могат да се появят в дадена аргументна позиция, в речниковата статия се въвежда синонимният ред от българския WordNet (или комбинацията от редове), който доминира над множеството думи, допустими в дадена позиция.

Език: български

Тип: едноезиков речник със семантични и синтактични фреймове на лексикалните единици

Съдържание: n/a

Приложения: за проверка на аргументната структура на езиковите единици и синтактичната реализация на аргументите; за лингвистични изследвания и приложения за обработка на езика

Условия за достъп (свободен, ограничен): свободно търсене и извличане на данни при заявка

Формат: n/a

E-mail: dcl@dcl.bas.bg


(обратно в началото)


Български граматичен речник на съставните лексикални единици

Общо описание

Българският граматичен речник на съставните лексикални единици позволява генерирането и анализа на словоформите на съставните думи

Език: български

Тип: едноезиков граматичен (флективен) речник на съставните думи

Съдържание: 11000 основни форми

Приложения: за проверка на правописа и граматичните характеристики на съставните думи

Условия за достъп (свободен, ограничен): свободно търсене и извличане на данни при заявка

Формат: DELA, MySQL база от данни

E-mail: dcl@dcl.bas.bg


(обратно в началото)


Речник на съставните лексикални единици в българския език

Общо описание

Речникът на съставните думи в българския език съдържа 27 744 единици, извлечени от няколко източника, сред които Уикипедия, печатни речници и електронни корпуси.

Език: български

Тип: едноезиков речник на съставните думи, разделени в 13 категории

Съдържание: 27 774 основни форми на съставни думи

Приложения: за проверка на правописа на съставните думи; за лингвистични изследвания и приложения за обработка на езика

Условия за достъп (свободен, ограничен): свободен достъп за академични и нетърговски цели

URL: http://dcl.bas.bg/mweDictionary_bg.html


(back to the top)


Честотни речници

Общо описание

Честотните речници са извлечени от Българския национален корпус (БНК), като за всеки стил, включен в корпуса, е създаден отделен речник, а на базата на целия корпус е компилиран и общ честотен речник. Предлагат се в 2 варианта: (1) сортирани по честота в обратен ред и (2) сортирани по азбучен ред.

Език: български

Тип: едноезикови честотни списъци

Съдържание: различен обем

Приложения: за лингвистични изследвания и приложения за обработка на езика; може да се използва за количествен сравнителен анализ на различни общи и специални корпуси;

Условия за достъп (свободен, ограничен): свободен достъп за академични и нетърговски цели

URL: http://dcl.bas.bg/frequency.html


(back to the top)


Многоезиков речник на 6 езика

Общо описание

Многоезиковият речник на 6 езика представлява колекция от различни речници за всички двойки измежду следните езици: български, английски, немски, румънски, гръцки и полски. Речниците са извлечени основно от Уикипедия и включват прости думи, съставни думи и фрази, като превес имат преводните еквиваленти от фраза към фраза.

Езици: български, английски, немски, румънски, гръцки и полски

Тип: двуезикови общи и специализирани речници за всяка от възможните двойки езици

Съдържание: различен обем

Приложения: за крайни потребители, за лингвистични изследвания и приложения за обработка на езика

Условия за достъп (свободен, ограничен): свободен достъп за академични и нетърговски цели

Формат: n/a

URL: http://dcl.bas.bg/multilingualDictionary_bg.html


(back to the top)


Граматически речник с обща лексика на български език

Общо описание

Част от граматическия речник, която съдържа обща (неспециализирана) лексика с широка употреба в различни тематични области. Към всяка словоформа е дадена информация за лемата и описание на граматическите й характеристики. Получен е чрез извличане на лексиката с най-висока честота на срещане в общ корпус.

Език: български

Тип: тематичен едноезиков граматичен (флективен) речник на простите думи

Съдържание: 17 124 леми и 301 582 словоформи

Приложения: като стоп-лист за извличане на терминология и специализирана лексика от специални корпуси; mоже да се използва и за количествен сравнителен анализ на различни общи и специални корпуси

Условия за достъп: свободно търсене и извличане на данни при заявка

Формат: DELA, MySQL база от данни

E-mail: dcl@dcl.bas.bg




Специализирани речници

Общо описание

В Секцията по компютърна лингвистика са разработени няколко специализирани речника от различни области - медицина, право, икономика, политика, военно дело, спорт.


Медицински речник

Общо описание

Специализираният речник от медицински термини е получен чрез извличане на медицинска терминология от няколко вида речници, сред които Българският тълковен речник, специализирани медицински речници и др. Впоследствие е допълнен чрез извличане на терминология от специализиран медицински корпус.

Език: български

Тип: тематичен едноезиков граматичен (флективен) речник на простите думи

Съдържание: 2,875 леми и над 15,000 словоформи. За всяка словоформа се съдържа информация за лемата и граматическите характеристики.

Приложения: за анализ на специални медицински корпуси, както и за количествено измерване на медицинската лексика в общи корпуси и различни видове текстове

Условия за достъп: свободно търсене и извличане на данни при заявка

Формат: DELA, MySQL база от данни

E-mail: dcl@dcl.bas.bg



Речник с правни и съдебни термини

Общо описание

Специализираният речник с терминология от областта на правото и съдебната дейност е получен чрез извличане на правни термини от няколко вида речници, сред които Българският тълковен речник, специализирани речници и др. Впоследствие е допълнен чрез извличане на терминология от специализиран корпус.

Език: български

Тип: тематичен едноезиков граматичен (флективен) речник на простите думи

Съдържание: Приблизително 900 леми и около 6,500 словоформи. За всяка словоформа се съдържа информация за лемата и граматическите характеристики.

Приложения: за анализ на специални правни корпуси, както и за количествено измерване на правната лексика в общи корпуси и различни видове текстове

Условия за достъп: свободно търсене и извличане на данни при заявка

Формат: DELA, MySQL база от данни

E-mail: dcl@dcl.bas.bg


Икономически речник

Общо описание

Специализираният речник с икономическа терминология е получен чрез извличане на икономическа термини от няколко вида речници, сред които Българският тълковен речник, специализирани речници и др. Впоследствие е допълнен чрез извличане на терминология от специализиран икономически корпус.

Език: български

Тип: тематичен едноезиков граматичен (флективен) речник на простите думи

Съдържание: Приблизително 700 леми и около 5,500 словоформи. За всяка словоформа се съдържа информация за лемата и граматическите характеристики.

Приложения: за анализ на специални икономически корпуси, както и за количествено измерване на икономическата лексика в общи корпуси и различни видове текстове

Условия за достъп: свободно търсене и извличане на данни при заявка

Формат: DELA, MySQL база от данни

E-mail: dcl@dcl.bas.bg



Политически речник

Общо описание

Специализираният речник с политическа терминология е получен чрез извличане на политическите термини от няколко вида речници, сред които Българският тълковен речник, специализирани речници и др. Впоследствие е допълнен чрез извличане на терминология от специализиран политически корпус.

Език: български

Тип: тематичен едноезиков граматичен (флективен) речник на простите думи

Съдържание: Приблизително 500 леми и над 3,000 словоформи. За всяка словоформа се съдържа информация за лемата и граматическите характеристики.

Приложения: за анализ на специални политически корпуси, както и за количествено измерване на политическата лексика в общи корпуси и различни видове текстове

Условия за достъп: свободно търсене и извличане на данни при заявка

Формат: DELA, MySQL база от данни

E-mail: dcl@dcl.bas.bg



Военен речник

Общо описание

Специализираният речник с военна терминология е получен чрез извличане на военни термини от няколко вида речници, сред които Българският тълковен речник, специализирани речници и др. Впоследствие е допълнен чрез извличане на терминология от специализиран корпус.

Език: български

Тип: тематичен едноезиков граматичен (флективен) речник на простите думи

Съдържание: Приблизително 400 леми и около 3,000 словоформи. За всяка словоформа се съдържа информация за лемата и граматическите характеристики.

Приложения: за анализ на специални корпуси, както и за количествено измерване на военна лексика в общи корпуси и различни видове текстове

Условия за достъп: свободно търсене и извличане на данни при заявка

Формат: DELA, MySQL база от данни

E-mail: dcl@dcl.bas.bg



Спортен речник

Общо описание

Специализираният речник със спортна терминология е получен чрез извличане на спортни термини от няколко вида речници, сред които Българският тълковен речник, специализирани речници и др. Впоследствие е допълнен чрез извличане на терминология от специализиран корпус.

Език: български

Тип: тематичен едноезиков граматичен (флективен) речник на простите думи

Съдържание: Приблизително 700 леми и около 5,000 словоформи. За всяка словоформа се съдържа информация за лемата и граматическите характеристики.

Приложения: за анализ на специални корпуси, както и за количествено измерване на спортната лексика в общи корпуси и различни видове текстове

Условия за достъп: свободно търсене и извличане на данни при заявка

Формат: DELA, MySQL база от данни

E-mail: dcl@dcl.bas.bg


(обратно в началото)


Речник на собствени имена

Общо описание

Речникът съдържа български и чужди собствени имена, извлечени от речникови списъци, както и от корпуси с помощта на регулярни правила.

Език: български

Тип: специализиран едноезиков речник

Съдържание: 34,695 единици

Приложения: като стоп-лист при извличане на различни типове лексика от корпуси, при първоначална обработка на текстовете като токънизация и тагиране и др.

Условия за достъп: свободно търсене и извличане на данни при заявка

Формат: DELA, MySQL база от данни

E-mail: dcl@dcl.bas.bg


(обратно в началото)


Речник на съкращения

Общо описание

Речникът съдържа списъци със съкращения, извлечени от речникови списъци, както и от корпуси с помощта на регулярни правила.

Език: български

Тип: специализиран едноезиков речник

Съдържание: 2,100 единици

Приложения: като стоп-лист при извличане на различни типове лексика от корпуси, при първоначална обработка на текстовете като токънизация и тагиране и др.

Условия за достъп: свободно търсене и извличане на данни при заявка

Формат: MySQL база от данни

E-mail: dcl@dcl.bas.bg


(обратно в началото)