Корпусът Wiki1000+ с анотирани несвободни фрази
Общо описание Wiki1000+ е корпус със статии от Уикипедия, създаден за целите на изследването на съставните лексикални единици в българския език. Общата големина на Wiki1000+ е 6311 текстови единици и 13.4 милиона думи. Корпусът е включен в Българския национален корпус. Компилация Корпусът е съставен автоматично с помощта на компютърна програма (уеб кроулер), която последователно обхожда всички страници от българската част…
N-грами върху Българския национален корпус
Списъците с N-грами са извлечени от настоящата версия на Българския национален корпус (обхващащ 1.2 милиарда думи на български език). Списъците са по леми (N-gram lemma) и по словоформи (N-gram wordform). N-грамите са: униграми, биграми, 3-, 4- и 5-грами. Моделите (1-5) са по стандарта ARPA в текстов и бинарен формат.
Честотни речници
Общо представяне Честотните речници на българския език са извлечени от Българския национален корпус (БНК), който е най-големият систематично създаден и представителен корпус за български език. Настоящите речници отразяват честотата на употреба на лексикалните единици в Корпуса (версия на БНК: декември 2011). Основните признаци за класификация на текстовете в БНК са стил, тематична област и жанр. Текстовете са разделени в…
Многоезични речници
Общо описание Многоезиковият речник на 6 езика представлява колекция от различни речници за всички двойки измежду следните езици: български, английски, немски, румънски, гръцки и полски. Речниците са извлечени основно от Уикипедия и включват прости думи, съставни думи и фрази, като превес имат преводните еквиваленти от фраза към фраза. За всяка двойка езици са включени следните речници: • общ двуезиков речник;…
Списъци с несвободни фрази, извлечени от корпус
Тук използваме класификацията на несвободните фрази, предложена от Baldwin et al. (Baldwin, T., C. Bannard, T. Tanaka, D. Widdows. An Empirical Model of Multiword Expression Decomposability. In: Proceedings of the ACL Workshop on Multiword Expressions: Analysis, Acquisition and Treatment. 2003), които ги разделят на неразложими, идиосинкретично разложими и прости разложими. Свободните колокации са свободни фрази, които обаче са статистически маркирани,…
Паралелни корпуси между български и език Х
Паралелните корпуси (Bul-X-Cor) са част от Българския национален корпус (БНК). БНК е създаден като обща рамка за текстове от различна модалност (писмени – устни), период (съвременни – стари), както и на множество езици (паралелни, при които единият език е български). Паралелните корпуси включват текстове на 48 езика, между които английски, немски, френски, славянски и балкански езики, както и други европейски…
Българският национален корпус
Българският национален корпус е създаден в Института за български език „Проф. Любомир Андрейчин” от сътрудници от Секцията по компютърна лингвистика и Секцията за българска лексикология и лексикография. В него са обединени няколко отделни електронни корпуса, разработени в периода 2001-2009 г. за целите на двете секции. Корпусът непрекъснато се обогатява с нови текстове. Българският национален корпус се състои от едноезикова българска…
Речник на съставните лексикални единици в българския език
Речникът на съставните лексикални единици в българския език включва 27 744 съставни лексикални единици, разделени в 13 категории според степента на идиоматичност, оценена на базата на следните характеристики: • дали съставната лексикална единица е именувана същност; • дали съставната лексикална единица съдържа референция към именувана същност; • степента на композируемост и “прозрачност” на съставната лексикална единица. Лексикалните единици, включени в…